5.3. GPT-3:
(550亿token)可能与保持一致 , 并由收集该来源的数据 , 组成数据集 , 使其成为The Pile v1的一部分 。版本为100.96GB[22] , 其确定的token数仅为250亿 , 低于公开的550亿 。然而 , 使用SPGC的‘每字节token数’比率(大约为1:1.75) , 的token数和大小将更接近于 。
5.4. GPT-3数据集总结
附录A概述了使用 ++ 数据集的顶级资源列表 。GPT-3模型的最终数据集总结分析如下:
表9.GPT-3数据集总结 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
The Pile v1(GPT-J和GPT-NeoX-20B)数据集
The Pile v1数据集由于2021年发布 , 该数据集已被用于训练包括GPT-J、GPT-NeoX-20B在内的多种模型 , 并作为包括MT-NLG在内的其他模型的部分数据集 。The Pile v1论文阐明了所用训练数据集的来源和大小 。随着token数量的增加 , The Pile v1论文应被用作未来数据集文档的黄金标准 。
有关token数量的更多详情 , 可以使用本文提供的信息来确定 , 参见表1(大小以GB为单位)和表7(token/每字节)[23] 。
表10. The Pile v1数据集 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
6.1. The Pile v1分组数据集( )
为了确定如‘Books’、‘’和‘CC’这类数据集的大小 , 笔者对数据集进行了分组 , 如下表所示 。
表11. The Pile v1分组数据集(不包括、CC 和 ) 。公开的数据以粗体表示 , 确定的以斜体表示 。
6.2. The Pile v1数据集总结
The Pile v1数据集与GPT-J和GPT-NeoX-20B模型的最终数据集总结分析如下:
表 12. Pile v1 数据集总结 。公开的数据以粗体表示 , 确定的数据以斜体表示 。
-11B和数据集
2019年 , Meta AI(当时称之为 AI)和华盛顿大学联合发布了拥有1.25亿参数的模型 。次年 , Meta AI发布了拥有110亿参数的-11B模型 。-11B使用的训练数据集与相同 。[24]论文阐明了所用训练数据集的内容 , 不过必须参考引用的论文(BERT[25]和[26])来确定最终的数据集大小 。
:确定的数据集为4.6GB , 如上面的GPT-1部分所示 。
文章插图
维基百科:公开的数据集为“16GB(加上英文维基百科)” 。在减去数据集(4.6GB , 如上面的GPT-1部分所述)后 , 维基百科数据集确定为11.4GB 。
CC-News:(经过滤后)公开的数据集为76GB 。
:公开的数据集为38GB 。
【ChatGPT 数据集之谜】:公开的数据集为31GB 。请注意 , 此数据集是“基于常识推理任务问题”的 Crawl内容 , 不属于本文的‘Books’类别 。相反 , 将与CC-News数据集(76GB)相结合 , Crawl的总数据集则为107GB 。
7.1. -11B和的数据集总结
-11B和最终的数据集总结分析如下:
表13. -11B和的数据集总结 。公示的数据以粗体表示 , 确定的数据以斜体表示 。
MT-NLG数据集
2021年 , 英伟达和微软发布了拥有5300亿参数的语言模型MT-NLG 。MT-NLG是微软 NLG(拥有170亿参数)和英伟达-LM(拥有83亿参数)的“继任者” 。MT-NLG论文阐明了所用训练数据集的来源和token数量 , 不过没有明确指出数据集的大小 。
如前所述 , 有关数据集大小的更多详情 , 可以使用The Pile v1论文中提供的信息来确定 。虽然使用的组件相同 , 但注意的是 , MT-NLG和The Pile v1中报告的组件大小却各不相同 , 这是由于来自 AI (The Pile v1数据集)和/ (MT-NLG模型)的研究人员采用了不同的数据过滤和去重方法 。
- ChatGPT眼中的产品经理是这样的
- 如何缓解高考前紧张的情绪,ChatGPT这么说......
- 实战:向人工智能看齐用Docker部署一个ChatGPT
- 手把手教你使用React和OpenAI API构建和部署ChatGPT克隆应用程
- 当月薪3000变成万元进账,ChatGPT成就前女友视野中的闪耀新星
- ChatGPT 的开源“替代”来了!前 OpenAI 团队出手,能用中文提问
- chatgpt赋能python:Python关键词统计
- chatgpt赋能python:python查询IP:基础知识与实践
- 衔远科技天使轮融资数亿元打造ChatGPT助力企业创新数智化
- 为什么ChatGPT的用户体验如此强大