新基建风向标:关于ChatGPT,必知10件事!( 三 )


与GPT系列不同,和引入了人类反馈,也就是基于人类反馈的增强学习 。和还引入了人类数据标注员,用人工的方式对模型进行精调 。这些反馈都让模型的输出结果向着人类期望的访发展,这就是能够惊艳全球的重要原因 。GPT-4进一步实现了多模态的融合,也就是可以识别图像,然后再进行自然语言处理任务,例如给GPT-4模型一个冰箱内部图片并问GPT-4“晚上吃什么”,GPT-4就能识别冰箱内部食物并给出晚餐建议 。
虽然名为“Open”,但实际上已经不是一家开放或开源公司了,因为大模型的训练和运维成本极为昂贵,不得不走上了封闭式盈利公司的模式 。特别是到了GPT-4,不再公布GPT-4的模型参数数量及机理等,外界也无从得知GPT-4的更多具体细节 。总体来看,打开了AI历史的新一页,这就是预训练大模型的时代,同时也验证了大模型的价值:涌现性,即模型越大、参数越多,就越能表现出超出人们想像的智能水平,实现模型能力的质的飞跃 。
有多贵?
惊艳了全世界了,也激发了新一轮AI创业热潮 。但对标的创业成本也极其高——高达5000万美元的“起步费” 。与其说是一种AI软件,不如说是货真价实的新基建 。对于国家来说,更是战略性的国家资源,甚至是国家级战略方向以及必须要投资的基建领域 。在未来,及其后续版本,有可能成为大国之间的新竞争优势 。
那么,究竟有多贵呢?公开的资料显示,的参数高达1750亿,预训练数据集高达45TB,而GPT-1的参数量为1.17亿、预训练数据量约5GB,GPT-2的参数量为15亿、预训练数据量为40GB 。可见,是一个全面的飞跃,训练一次所需算力高达3640 PFlop/s-day,即假设每秒计算一千万亿次,也需要计算3640天,相应训练一次的费用估计高达约450万美元 。
有关的测算还有: 单月运营所需算力约 4874./s-day,全年则需要58.,如果使用算力500P常规数据中心运行,至少需要10个这样的数据中心,按30亿元成本建设一个这样的数据中心计算,总投资高达200-300亿元;估算,如果要训练GPT-3,用8张V100的显卡,训练时长预计要36年,如果用1024张80GB A100则可将时长缩减到1个月,成本高达1.5亿美元,还测试用3072张80GB A100训练 GPT,最大规模的模型参数量达到了1TB,而3072张A100卡的成本高达5亿美元;另有证券公司估算,大模型的训练成本介于200万美元至1200万美元之间,以月独立访客平均1300万计,对应需要3万多张A100 GPU,初始投入成本约为8亿美元,每日电费5万美元左右;的重要投资者及战略合作伙伴微软在自己的Azure全球基础设施中,为构建了一个庞大的GPU资源池,由上千张GPU构成 。
由的开发和运营成本,可以看出大模型是一个极为烧钱的投资,而且在短时间内也很难看到规模化经济效益,更难达到盈亏平衡 。这就是为什么很多公司都声称开发出了自己的大模型,但真正投入运营的却只有一家(微软向先后投资超过百亿美元) 。2023年初,百度发布了中国版即文心一言,首批只开放给企业试用,而面向普通个人用户则预计要到2023年底开放,这在很大程度上也是成本和效益的考量 。
微软与是什么关系?
微软是的早期支持者之一,2019年向投资了10亿美元,2021年再次投资20亿美元,2023年进一步承诺向投资100亿美元,用于支持的研发 。作为人工智能云技术的坚定支持者,微软一直关注AI领域的技术进展,自身也向AI研发投入了大量资源 。自成立之初,微软就密切关注的进展 。
2019年,微软向投资10亿美元,同时承诺为建造一个可供大模型训练和运行的超级AI计算机 。这是一项前所未有的挑战,此前也没有任何一家技术公司进行过类似的尝试 。训练和运行大模型需要面向GPU的大规模并行计算,而不是已有的面向CPU的大规模并行计算 。如何将成千上万张GPU卡连接在一起,完成大模型所需要的并行计算,这需要对硬件、网络和软件等多方面改造甚至是重新设计,微软率先进行了这方面的尝试 。