GPT系列的数据集之谜( 三 )


▲表4. 书籍类型 。公开的数据以粗体表示,确定的数据以斜体表示 。
在随后的数据集重构中,数据集进一步过滤掉了书籍中的“吸血鬼”类别、降低了言情类书籍的百分比、增加了“历史”类书籍,增加了收集的书籍数量 。
3.1. GPT-1数据集总结
GPT-1最终的数据集总结分析如下:
▲表5.GPT-1数据集总结 。以GB为单位 。公开的数据以粗体表示,确定的数据以斜体表示 。4 GPT-2数据集
2019年,发布了拥有15亿参数的语言模型GPT-2 。GPT-2论文阐明了所用训练数据集的大小[13],不过并未说明其内容 。而GPT-2模型卡(model card)(在GPT-2 仓库中)说明了模型内容[14] 。
我们可以从GPT-3论文中得到token数量,该论文使用了扩展版本来表示190亿token 。据推测,2020年推出的扩展版本拥有12个月的额外数据( data),因此它可能比2019年推出的GPT-2版本大25%左右[15] 。GPT-2最终的token数量确定为150亿左右 。
如GPT-2论文所述,假设模型卡显示链接数时,每个链接都可以被4500万链接总数所除,那的内容在数据集中所占的百分比的详细信息就可以确定 。
然后可以使用确定的150亿token数量来查找每个域的token数量 。请注意,在可用的前1,000个域中,此处仅显示前50个域 。
▲表6. : 前50个域 。公开的数据以粗体表示,确定的数据以斜体表示 。4.1. GPT-2数据集总结
GPT-2模型最终的数据集总结分析如下:
▲表7. GPT-2数据集总结 。公开的数据以粗体表示,确定的数据以斜体表示.5 GPT-3数据集
GPT-3模型由于2020年发布 。论文阐明了所用训练数据集的token数量[16],但训练数据集的内容和大小尚不清楚( Crawl的数据集大小除外[17])
▲表8. GPT-3数据集 。公开的数据以粗体表示,确定的数据以斜体表示 。5.1. GPT-3:关于和数据集的分析
特别值得关注的是,在的GPT-3论文中,并未公开数据集(120亿token)和数据集(550亿token)的大小和来源 。关于这两个数据集的来源人们提出了几个假设,包括来自和Sci-Hub的类似数据集,不过这两个数据集常以TB为计,大到无法匹配 。
5.2. GPT-3:
GPT-3使用的数据集不可能与GPT-1使用的数据集相同,原因在于的数据集更大,达120亿token 。在一篇引用的论文[19]中就提及GPT-1使用的数据集拥有9.848亿个词,但这可能只相当于13亿token(984.8字x 1.3字的token乘数) 。
通过标准化项目古腾堡语料库(SPGC),有可能与古腾堡项目保持一致性 。SPGC是一种开放式科学方法,被用于古腾堡项目完整的PG数据的精选()版本 。SPGC包含120亿个token[20],大约为21GB[21] 。
5.3. GPT-3:
(550亿token)可能与保持一致,并由收集该来源的数据,组成数据集,使其成为The Pile v1的一部分 。版本为100.96GB[22],其确定的token数仅为250亿,低于公开的550亿 。然而,使用SPGC的‘每字节token数’比率(大约为1:1.75),的token数和大小将更接近于 。
5.4. GPT-3数据集总结
附录A概述了使用 ++ 数据集的顶级资源列表 。GPT-3模型的最终数据集总结分析如下:
【GPT系列的数据集之谜】▲表9.GPT-3数据集总结 。公开的数据以粗体表示,确定的数据以斜体表示 。6 The Pile v19(GPT-J、GPT-NeoX-20B)数据集
The Pile v1数据集由于2021年发布,该数据集已被用于训练包括GPT-J、GPT-NeoX-20B在内的多种模型,并作为包括MT-NLG在内的其他模型的部分数据集 。The Pile v1论文阐明了所用训练数据集的来源和大小 。随着token数量的增加,The Pile v1论文应被用作未来数据集文档的黄金标准 。
有关token数量的更多详情,可以使用本文提供的信息来确定,参见表1(大小以GB为单位)和表7(token/每字节)[23] 。