为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”( 三 )


我们能否“从数学上”解释网络是如何作出区分的?实际上不能 。它只是“按照神经网络的方式进行” 。但事实证明,这通常与我们人类所作出的区分相当一致 。
让我们举一个更复杂的例子 。假设我们有猫和狗的图像,并且我们有一个经过训练以区分它们的神经网络 。以下是它在一些示例上的表现:
现在,“正确答案”变得更加不明确了 。那么穿着猫装的狗怎么办?等等 。无论输入什么样的图像,神经网络都会生成一个答案,并且在某种程度上与人类的判断相当一致 。正如我之前所说,这不是我们可以“从第一原理”推导出来的事实 。这只是经验上被发现在某些领域中成立的一种情况 。但这是神经网络有用的一个关键原因:它们以某种方式捕捉到了一种“类似于人类”的处理方式 。
给自己看一张猫的图片,然后问“这是一只猫的原因是什么?”也许你会说:“嗯,我看到了它尖尖的耳朵等等 。”但很难解释你是如何将图像识别为猫的 。只是不知怎么地,你的大脑就能弄清楚 。但对于大脑来说,目前没有办法“进入内部”并看到它是如何解决这个问题的 。对于(人工)神经网络呢?当你给它展示一张猫的图片时,很容易看到每个“神经元”在做什么 。但即使是基本的可视化通常也非常困难 。
在上面用于“最近点”问题的最终网络中,有17个神经元 。在用于识别手写数字的网络中,有2190个神经元 。在我们用于识别猫和狗的网络中,有60,650个神经元 。通常很难将60,650维空间可视化 。但由于这是一个用于处理图像的网络,它的许多神经元层都组织成像它所看到的像素数组一样的数组 。
如果我们拿一个典型的猫的图像来看
然后,我们可以通过一系列派生图像来表示第一层神经元的状态,其中许多图像我们可以很容易地解释为“没有背景的猫”或“猫的轮廓”等等:
到了第10层,就很难解释正在发生的事情:
但总的来说,我们可以说神经网络在“挑选出某些特征”(也许尖尖的耳朵是其中之一),并使用这些特征来确定图像的内容 。但这些特征是否是我们有名称的特征,比如“尖尖的耳朵”?大多数情况下并不是 。
我们的大脑是否使用类似的特征?我们大多数时候并不知道 。但值得注意的是,像我们在这里展示的这种神经网络的前几层似乎挑选出了图像的某些方面(如物体的边缘),这些方面似乎与我们知道的大脑视觉处理的第一层所挑选出的方面相似 。
但假设我们想要一个关于神经网络中猫识别的“理论” 。我们可以说:“看,这个特定的网络可以做到”——这立即让我们对问题的“难度”有了一些概念(例如,需要多少个神经元或层) 。但至少目前我们没有办法“提供一个叙述描述”来解释网络在做什么 。也许这是因为它确实是计算上不可简化的,并且除了通过明确追踪每一步之外,没有通用的方法可以找出它的功能 。或者也许只是因为我们还没有“弄清楚科学”,并且还没有确定能够概括正在发生的事情的“自然法则” 。
当我们谈论使用生成语言时,我们将遇到同样的问题 。再次强调,目前尚不清楚是否有办法“总结它在做什么” 。但是语言的丰富性和细节(以及我们对它的经验)可能使我们在这方面取得更进一步的进展 。
(注:这也是大模型的魅力所在,创造它的人也无法用准确的语言描述它到底在干了些什么,也不明白它怎么做到的,所以人工智能出现了一个词:“涌现”,来表示大模型的这种能力 。
有点类似至今我们也无法理解大脑到底是怎么工作的 。