无人能构想出人工智能的未来 | 对话伯克利顶级学者 Stuart Russell( 四 ) _人工智能

我是否曾请求你，造物主，用我的黏土塑造我成人？（Did Ithee, Maker, from my clay to mould me Man?）
?《失乐园》的这句话，被玛丽·雪莱引用在《弗兰肯斯坦》的扉页中。小说中，维克多·弗兰肯斯坦创造了怪物，但却无法理解其内心和意图，导致了冲突和悲剧。
抛开那些关于怪物的故事，一个更加悲剧性的创造正在现实世界中默默酝酿：人类汲取了最深邃的智慧，凝聚于人工智能的形态，将技术置身于一个前所未有的境地。然而，我们是否能够确保这些新生的智能体与我们和谐共处，使其对人类价值观、道德原则和利益体系保持一致？
这就是“对齐”问题，AI 技术的前沿术语。实现“对齐”意味着要求 AI 系统的目标和人类的价值观与利益相对齐，这既具有科技的复杂性，又蕴含着道德与伦理的重大考验。我们必须谨慎行事，以免引发创造出现代版“弗兰肯斯坦”的悲剧。
《新程序员》：人类的技术、伦理和法律并不是在一朝一夕之内形成的，历史长河中的每一次进步成就了如今的人类历史。那么，人工智能在演化过程中是否有可能效仿人类，通过漫长的时间逐渐形成人类现在的价值观？这是否可以解决 AI 对齐问题？
：我认为对齐问题并不意味着要构建与人类价值完全一致的 AI 系统，因为这是不可能的。对齐问题的本意是避免不对齐（）。
那么，如何构建一个不与人类价值观失调的系统呢？我认为解决方法是去构建一个“知道自己不知道人类价值观的系统” 。在演变过程中，系统会逐渐产生一些更好的想法，从而有助于我们的文明。
再让我们谈谈对齐问题的关键点——AI 系统究竟能否解决人类偏好中的不确定性问题呢？我认为是可以的。因为现在有一个显而易见的事实：训练 AI 系统的文本已经包含了大量关于人类偏好的信息。
纵观人类历史，我们会发现世界上最早的重要文本之一是楔形文字，上面记录了原始人进行了关于玉米和骆驼交易的会计记录，这份看似枯燥的会计记录中蕴含了丰富的信息。
首先，这份楔形文字记录了两河流域文明中骆驼和玉米的相对价值，以及匕首、铜币等其他物品的价值，这些有趣的信息体现了古代人类的偏好。此外，他们选择将这些信息记录下来，证明了古代人类对于诚信交换货物和可验证交易的重视。楔形文字所使用的泥板非常昂贵，经过烧制，记录便可以永久保存，我喜欢将其比喻为公元前 4000 年的区块链。古代人类选择这种方式来记录这些信息，而这个选择本身是极具信息量的，因为它体现了人类最早产生的偏好。
但和楔形文字不一样的是，没人能从大语言模型的训练过程中提取出任何信息。这就引申出另一个有趣的问题：大语言模型是否能够直接把它庞大知识库中的任何信息告诉我们？我怀疑答案是否定的。
那些人类所关心的话题——生命、健康、孩子、父母、衣食住行——被记载在了无数本经济学、发展学和心理学领域的学术文献中。但我怀疑，人类对这些信息的记录可能并不完整。比方说，大部分文献很少会详细描述左腿的重要性。然而，在专业医学领域中，当医生面临要不要切除患者左腿以防止癌症或坏疽扩散到其他部位的时候，就需要大量关于人类左腿的研究。这就是医生真正需要思考的决策，他们需要衡量左腿对患者有多大的价值。
因此，AI 模型庞大的数据资源中包含了大量关于人类偏好的信息。我不确定这些AI 系统是否意识到了自己内部数据的重要性。但是，假如通过诱导，我们或许可以让 AI 模型以列清单的方式主动把这些黑盒子里的数据说出来。当然，这些只是我的一种假设，目前尚无人进行过这样的实验。