Transformer能解释一切吗?( 二 )


测试结果表示,在训练期间比标准节省了25-50%的内存和7倍的加速 。
四、一些重要的实验结果
图源:《 : Atofor Large》
O(1)为在GPU内存方面带来的优势是,它完全不随token数增加而变化 。
图源:《 : Atofor Large》
(神经网络的吞吐量)是一个算法模型在单位时间内(例如,1s)可以处理的最大输入的训练样本数据 。在输入端token数增加的情况下仍然能够维持高吞吐量,而在这方面的数据则随着token数的增加而逐渐衰减 。
图源:《 : Atofor Large》
(困惑度)是语言模型最鲜明的评价标准 。它衡量语言模型对单词序列中下一个单词的预测能力 。当模型参数量变大时,困惑度往往会降低,即语言模型能够做出更优的预测——这也是为什么我们对万亿参数模型抱有极大期待 。
论文中比较了与在1.3B、2.7B以及6.7B这三种不同尺寸上的困惑度变化,实验结果的困惑度下降更快,并且当模型大小超过2B时,的表现开始优于 。
这一观察结果意义重大,它表明更适合需要大量计算资源和内存的大型语言模型 。
图源:《 : Atofor Large》
2018年,大模型仍然前景未明的时候,黄仁勋在深度学习的综合性能评价方面提出了框架 。这是七个测量维度的缩写,其中延迟()的重要性仅仅被放在可编程性()之后(其他五个维度分别是准确率(A)、模型大小(S)、吞吐量(T)、能效(E)以及学习率(R)) 。
与在不同Batch Size(一次训练所选取的样本数)下的延迟表现同样印证了,的响应速度将在训练规模进一步扩大后展现出优势 。
五、能解释一切吗
这篇论文中的几位核心作者,在更早时候就已经开始关注GPT在上下文学习中的运行机制 。2022年末问世后不久,他们发表了一篇表明注意力具有双重形式的梯度下降的论文 。而这些研究者对于的野心并不会停留在文本输入上 。
论文在最后表示,将会成为未来训练多模态大语言模型的核心角色 。
在这篇论文发表的10天之前,世界人工智能大会上一家投资了智谱AI等多个大模型明星团队的创投公司表示,在短期内会是多模态的主流网络结构,但并不是人工智能技术的重点,“压缩整个数字世界的通用方法仍未出现” 。
是目前几乎所有主流大模型的基石,这场基于而起的技术革命,已经快速到达了一个新的摇摆点 。外部的压力来自暴涨的算力资源需求,以及人类所有的高质量语料可能在有限的期限内枯竭 。
图源:推特
摇摆的地方在于,到底是还不够好,还是本身并不是一条正确道路?

Transformer能解释一切吗?

文章插图
至少从的角度,它仍然是相信的,是后者的颠覆版本,但并没有跳出以深度学习为基础,全神贯注在自然语言处理任务上做突破的逻辑框架 。
另一种更剧烈的反对声音则直接站在了的对面,比如再度活跃起来的“卷积神经网络之父”杨立昆 。
六、模型和数据,谁更重要
在几个月前的一次公开演讲中,杨立昆再次批评了GPT大模型 。他认为根据概率生成自回归的大模型,根本无法破除幻觉难题 。甚至直接断言GPT模型活不过5年 。
LeCun的质疑是,基于文本训练的大型语言模型只能理解极片面的真实世界知识,而仅仅靠自回归预测下一个token的单一方式所形成的“智能”缺乏物理直觉 。这样的模型能够在真实世界中对物理直觉问题做出对的回答——也可能做出错的回答 。因为回答的依据来自将整个真实世界压缩成文本进行训练后所形成的逻辑关系,但这并不是直接面对物理世界本身 。