ChatGPT需要怎样的芯片？ _模型

最近，以为首的生成类模型已经成为了人工智能的新热点，硅谷的微软、谷歌等都纷纷大举投资此类技术（微软100亿美元入股背后的，谷歌也于近日发布了自研的BARD模型），而在中国以百度等为代表的互联网科技公司也纷纷表示正在研发此类技术并且将于近期上线。
以为代表的生成类模型有一个共同的特点，就是使用了海量数据做预训练，并且往往会搭配一个较为强大的语言模型。语言模型主要的功能是从海量的现有语料库中进行学习，在经过学习之后可以理解用户的语言指令，或者更进一步根据用户的指令去生成相关的文字输出。
生成类模型大致可以分成两大类，一类是语言类生成模型，另一类是图像类生成模型。语言类生成模型以为代表，如前所述其语言模型不仅可以学习理解用户指令的意义（例如，“写一首诗，李白风格的”），而且在经过海量数据训练之后，还能够根据用户的指令生成相关的文字（在上例中就是写一首李白风格的诗）。这意味着需要有一个足够大的语言模型（LargeModel，LLM）来理解用户的语言，并且能有高质量的语言输出——例如该模型必须能理解如何生成诗歌，如何生成李白风格的诗歌等等。这也意味着语言类生成式人工智能中的大语言模型需要非常多的参数，才能完成这类复杂的学习并且记住如此多的信息。以为例，其参数量高达1750亿（使用标准浮点数的话会占用700GB的存储空间），其语言模型之“大”可见一斑。
生成回答的一个例子，支持中文
另一类生成类模型是以扩散模型（）为代表的图像类生成模型，典型的模型包括来自的Dalle，谷歌的，以及目前最热门的来自 AI的。这类图像类生成模型同样会使用一个语言模型来理解用户的语言指令，之后根据这个指令来生成高质量的图像。与语言类生成模型不同的是，这里使用到的语言模型主要用语理解用户输入，而无需生成语言输出，因此参数量可以小不少（在几亿数量级），而图像的扩散模型的参数量相对而言也不大，总体而言参数量大约在几十亿数量级，但是其计算量并不小，因为生成的图像或者视频的分辨率可以很高。
图像生成模型生成的图像一例

文章插图
生成类模型通过海量数据训练，可以产生前所未有的高质量输出，目前已经有了不少明确的应用市场，包括搜索、对话机器人、图像生成和编辑等等，未来可望会得到更多的应用，这也对于相关的芯片提出了需求。
生成类模型对于芯片的需求
如前所述，以为代表生成类模型需要在海量的训练数据中进行学习，才能实现高质量的生成输出。为了支持高效率训练和推理，生成类模型对于相关芯片也有自己的需求。
首先就是对于分布式计算的需求。这类语言类生成模型的参数量高达千亿，几乎不可能使用单机训练和推理，而必须大量使用分布式计算。在进行分布式计算时，对于机器之间的数据互联带宽，以及计算芯片对于这类分布式计算（例如RDMA）就有了很大的需求，因为很多时候任务的瓶颈可能并不在计算，而是在数据互联上面，尤其是在此类大规模分布式计算中，芯片对于分布式计算的高效率支持更加成为了关键。
其次是内存容量和带宽。虽然对于语言类生成模型分布式训练和推理不可避免，但是每个芯片的本地内存和带宽也将很大程度上决定单个芯片的执行效率（因为每个芯片的内存都被使用到了极限）。对于图像类生成模型来说，可以把模型（20GB左右）都放在芯片的内存中，但是随着未来图像生成类模型的进一步演进，它对于内存的需求可能也会进一步提升。在这个角度来看，以HBM为代表的超高带宽内存技术将会成为相关加速芯片的必然选择，同时生成类模型也会加速HBM内存进一步增大容量和增大带宽。除了HBM之外，CXL等新的存储技术加上软件的优化也有将在这类应用中增加本地存储的容量和性能，估计会从生成类模型的崛起中获得更多的工业界采用。