新基建风向标：关于ChatGPT，必知10件事！( 三 ) _模型

与GPT系列不同，和引入了人类反馈，也就是基于人类反馈的增强学习。和还引入了人类数据标注员，用人工的方式对模型进行精调。这些反馈都让模型的输出结果向着人类期望的访发展，这就是能够惊艳全球的重要原因。GPT-4进一步实现了多模态的融合，也就是可以识别图像，然后再进行自然语言处理任务，例如给GPT-4模型一个冰箱内部图片并问GPT-4“晚上吃什么”，GPT-4就能识别冰箱内部食物并给出晚餐建议。
虽然名为“Open”，但实际上已经不是一家开放或开源公司了，因为大模型的训练和运维成本极为昂贵，不得不走上了封闭式盈利公司的模式。特别是到了GPT-4，不再公布GPT-4的模型参数数量及机理等，外界也无从得知GPT-4的更多具体细节。总体来看，打开了AI历史的新一页，这就是预训练大模型的时代，同时也验证了大模型的价值：涌现性，即模型越大、参数越多，就越能表现出超出人们想像的智能水平，实现模型能力的质的飞跃。
有多贵？
惊艳了全世界了，也激发了新一轮AI创业热潮。但对标的创业成本也极其高——高达5000万美元的“起步费” 。与其说是一种AI软件，不如说是货真价实的新基建。对于国家来说，更是战略性的国家资源，甚至是国家级战略方向以及必须要投资的基建领域。在未来，及其后续版本，有可能成为大国之间的新竞争优势。
那么，究竟有多贵呢？公开的资料显示，的参数高达1750亿，预训练数据集高达45TB，而GPT-1的参数量为1.17亿、预训练数据量约5GB，GPT-2的参数量为15亿、预训练数据量为40GB 。可见，是一个全面的飞跃，训练一次所需算力高达3640 PFlop/s-day，即假设每秒计算一千万亿次，也需要计算3640天，相应训练一次的费用估计高达约450万美元。
有关的测算还有：单月运营所需算力约 4874./s-day，全年则需要58.，如果使用算力500P常规数据中心运行，至少需要10个这样的数据中心，按30亿元成本建设一个这样的数据中心计算，总投资高达200-300亿元；估算，如果要训练GPT-3，用8张V100的显卡，训练时长预计要36年，如果用1024张80GB A100则可将时长缩减到1个月，成本高达1.5亿美元，还测试用3072张80GB A100训练 GPT，最大规模的模型参数量达到了1TB，而3072张A100卡的成本高达5亿美元；另有证券公司估算，大模型的训练成本介于200万美元至1200万美元之间，以月独立访客平均1300万计，对应需要3万多张A100 GPU，初始投入成本约为8亿美元，每日电费5万美元左右；的重要投资者及战略合作伙伴微软在自己的Azure全球基础设施中，为构建了一个庞大的GPU资源池，由上千张GPU构成。
由的开发和运营成本，可以看出大模型是一个极为烧钱的投资，而且在短时间内也很难看到规模化经济效益，更难达到盈亏平衡。这就是为什么很多公司都声称开发出了自己的大模型，但真正投入运营的却只有一家（微软向先后投资超过百亿美元）。2023年初，百度发布了中国版即文心一言，首批只开放给企业试用，而面向普通个人用户则预计要到2023年底开放，这在很大程度上也是成本和效益的考量。
微软与是什么关系？
微软是的早期支持者之一，2019年向投资了10亿美元，2021年再次投资20亿美元，2023年进一步承诺向投资100亿美元，用于支持的研发。作为人工智能云技术的坚定支持者，微软一直关注AI领域的技术进展，自身也向AI研发投入了大量资源。自成立之初，微软就密切关注的进展。
2019年，微软向投资10亿美元，同时承诺为建造一个可供大模型训练和运行的超级AI计算机。这是一项前所未有的挑战，此前也没有任何一家技术公司进行过类似的尝试。训练和运行大模型需要面向GPU的大规模并行计算，而不是已有的面向CPU的大规模并行计算。如何将成千上万张GPU卡连接在一起，完成大模型所需要的并行计算，这需要对硬件、网络和软件等多方面改造甚至是重新设计，微软率先进行了这方面的尝试。