GPT系列的数据集之谜( 二 )


在本文中,我们会将原始论文中已经明确的特定细节(例如token数量或数据集大小)归类为“公开的()”数据,并作加粗处理 。
多数情况下,适当地参考二、三级文献,并采用假设的方式来确定最终结果是很有必要的 。在这些情况下,token数量和数据集大小等细节是“确定的()”,并以斜体标记 。
模型数据集可分为六类,分别是:维基百科、书籍、期刊、链接、 Crawl和其他数据集 。
▲表1. 主要数据集大小汇总 。以GB为单位 。公开的数据以粗体表示 。确定的数据以斜体表示 。仅原始训练数据集大小 。1.1. 维基百科
维基百科是一个免费的多语言协作在线百科全书,由超过300,000名志愿者组成的社区编写和维护 。截至2022年4月,英文版维基百科中有超过640万篇文章,包含超40亿个词[5] 。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域 。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集 。
1.2.书籍
故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力,数据集包括 和 ( /)等 。
1.3.杂志期刊
预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致 。这类数据集包括ArXiv和美国国家卫生研究院等 。
1.4.链接
是一个大型数据集,它的数据是从社交媒体平台所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用 。
1.5. Crawl
Crawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域 。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集 。
1.6. 其他数据集
不同于上述类别,这类数据集由等代码数据集、 等对话论坛和视频字幕数据集组成 。
2 常用数据集
2019年以来,大多数基于的大型语言模型 (LLM) 都依赖于英文维基百科和 Crawl的大型数据集 。在本节中,我们参考了Jesse Dodge和(AI2)[8]团队的综合分析,按类别对英文维基百科作了高级概述,并在 Crawl数据集[7]的基础上,用谷歌C4[6] ( Clean)在 Crawl中提供了顶级域() 。
2.1. 维基百科(英文版)分析
下面按类别[9]列出了维基百科的详细信息,涵盖了2015年抽样的1001篇随机文章,研究人员注意到随时间推移文章传播的稳定性 。假设一个11.4GB、经过清理和过滤的维基百科英文版有30亿token,我们就可以确定类别大小和token 。
表2. 英文维基百科数据集类别 。公开的数据以粗体表示 。确定的数据以斜体表示 。
2.2Crawl分析
基于 (AI2)的C4论文,我们可以确定,过滤后的英文C4数据集的每个域的token数和总体百分比,该数据集为305GB,其中token数为1560亿 。
▲表3. C4:前23个域(不包括维基百科) 。公开的数据以粗体表示,确定的数据以斜体表示 。3 GPT-1数据集
2018年,发布了1.17亿参数的GPT-1 。在论文中,并没有公布模型训练数据集的来源和内容[10],另外,论文误将‘’拼写成了‘’ 。以作家未出版的免费书籍为基础,这些书籍来自于,这是一个自称为“世界上最大的独立电子书分销商” 的电子书网站 。这个数据集也被称为。经过几次重构之后,数据集的最终大小确定为4.6GB[11] 。
2021年,经过全面的回顾性分析,数据集对按流派分组的书籍数量和各类书籍百分比进行了更正[12] 。数据集中有关书籍类型的更多详细信息如下: