为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”( 五 )


就像水流下山一样,唯一保证的是这个过程最终会达到曲面的某个局部最小值(“山中湖泊”),但未必会达到最终的全局最小值 。
在“权重空间”上找到最陡下降路径并不明显可行 。但微积分可以解决这个问题 。我们可以将神经网络视为计算一个依赖于输入和权重的数学函数 。现在考虑对这些权重进行微分 。事实证明,微积分的链式法则实际上使我们能够“解开”神经网络中连续层所进行的操作 。结果是,我们可以至少在某种局部近似下“反演”神经网络的操作,并逐步找到最小化与输出相关的损失的权重 。
上面的图片展示了我们在仅有两个权重的,不现实的简单情况下可能需要进行的最小化过程 。但是事实证明,即使在有更多权重的情况下(使用了1750亿个权重),仍然有可能进行最小化,至少在某种程度上得到近似结果 。实际上,围绕2011年左右出现的“深度学习”重大突破与一种发现相关,即在某种意义上,当涉及大量权重时,进行(至少近似)最小化可能比涉及相当少的权重更容易 。
换句话说,有些违反直觉的是,用神经网络解决更复杂的问题可能比解决更简单的问题更容易 。粗略的原因似乎是,当有很多“权重变量”时,高维空间中有“很多不同的方向”可以引导我们达到最小值,而如果变量较少,很容易陷入局部最小值(“山中湖泊”),无法“找到出口的方向” 。
值得指出的是,在典型情况下,有很多不同的权重组合都可以得到几乎具有相同性能的神经网络 。通常在实际的神经网络训练中会进行许多随机选择,这会导致“不同但等效的解”,就像下面这些:
然而,每个这样的“不同解”都会有至少稍微不同的行为 。如果我们要求在我们给出训练样例之外的“外推”区域进行预测,我们可能会得到截然不同的结果 。
但是哪个结果是“正确”的?实际上没有办法说 。它们都“与观察到的数据一致” 。但它们对应于不同的“内在”思考方式,以确定如何在“盒子外部”进行操作 。其中一些可能对我们人类来说比其他解更“合理” 。
(注:这段相当的硬核,比较难以理解,多读几遍就好了 。
这个是人工智能的核心,模拟大脑的思维过程:建模,训练,反馈 -看看是否符合现实情况,调整,再训练 。)?????
03

神经网络训练的实践和技巧
在过去的十年中,神经网络训练的技术取得了许多进展 。没错,它基本上是一门艺术 。有时候事后回顾,我们可以看到对于某个正在进行的事情,至少有一些“科学解释”的端倪 。但大多数情况下,这些技术都是通过试错方法发现的,逐渐积累了关于如何处理神经网络的丰富经验 。
其中有几个关键部分 。首先,对于特定任务,应该使用什么样的神经网络结构 。然后,关键问题是如何获取用于训练神经网络的数据 。而且,现在往往不是从头开始训练一个新的神经网络,而是新的网络要么直接包含另一个已经训练好的网络,要么至少可以利用那个网络为自己生成更多的训练样本 。
之前我们可能会认为,对于每种特定的任务,都需要一种不同的神经网络结构 。但事实上发现,即使是看起来非常不同的任务,同样的结构通常也能奏效 。在某种程度上,这让人联想到了通用计算的概念(以及我提出的计算等价性原理),但正如我之后将讨论的,我认为这更多地反映了我们通常试图让神经网络完成的任务是“类似人类”的任务,而神经网络可以捕捉到相当通用的“类人过程” 。
(注:在通用型人工智能未出现之前,就是这类处理思路 。针对图像识别,有专门图像识别的神经网络模型 。针对商品的客户评价,有文字的处理模型 。翻译方面,有专门翻译的模型,曾经最好的翻译是谷歌翻译 - 现在是之一 。)?????????