ChatGPT 数据集之谜( 六 )


强烈建议研究人员使用突出显示的“数据集的数据表( for )”论文中提供的模板 , 并在记录数据集时使用最佳实践论文(即Pile v1论文 , 包括token数量) 。数据集大小(GB)、token数量(B)、来源、分组和其他详细信息指标均应完整记录和发布 。
随着语言模型不断发展并更广泛地渗透到人们的生活中 , 确保数据集的详细信息公开透明、所有人都可访问且易于理解是有用、紧迫和必要的 。