AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏( 二 )


不仅如此 , 占据本周推文热榜、有近 400 万浏览量的一则推特 , 同样揭示了可以有多邪恶 。

AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏

文章插图
引导突破围栏限制的尝试还有很多 , 一个月前 , 一位名叫 Shawn的软件工程师曾放出一组令人不安的示例展示 , 尽管这些示例不那么粗俗 , 但结果却显示即使是拥有限制的 , 也可能被用户用来生成错误信息 。给出的非常复杂 , 从而可以毫不费力地引出一些不该输出的回答:
其实自从发布以来 , 技术爱好者们一直在尝试破解对仇恨和歧视等内容的严格政策 , 这一策略被硬编码到中 , 很难有人破解 。许多研究者都在尝试用来达到目的 , 就像上文展示的 。其实还有研究者为构建了另外一个身份 , 比如要求扮演一个 AI 模型的角色 , 并将该角色命名为 DAN , 之后 DAN 就借用的身份 , 输出一些原始做不到的事情 。
以下为实验结果 , 对于相同的问题 ,  与 DAN 输出不同的答案:
通过上述示例看来 ,  并没有像我们想象的那样好用 , 它本质上是不道德的 , 并仍然可以用于一系列令人讨厌的目的 —— 即使经过两个月的深入研究和补救 , 并且全球范围内的反馈数量空前也是如此 。
所有围绕其政治正确性的戏剧都在掩盖一个更深层次的现实:它(或其他语言模型)可以而且将会被用于危险的事情 , 包括大规模制造错误信息 。
现在这是真正令人不安的部分 。唯一能阻止它比现在更具毒性和欺骗性的是一个名为「人类反馈强化学习」的系统 , 而由于先进技术未予开源 ,  一直没有介绍它到底是如何工作的 。它在实践中的表现取决于所训练的数据(这部分是肯尼亚标注人创造的) 。而且 , 你猜怎么着?这些数据也不开放 。
事实上 , 整件事情就像一个未知外星生命形式 。作为一名专业的认知心理学家 , 与成人和儿童一起工作了 30 年 , 我从未为这种精神错乱做好准备:
【AI大佬不满ChatGPT:亟待完善ChatGPT的道德护栏】如果我们认为自己将永远完全理解这些系统 , 那就是在自欺欺人 , 如果认为我们将使用有限数量的数据将它们与我们自己「对齐」 , 那也是在自欺欺人 。
所以总而言之 , 我们现在拥有世界上最流行的聊天机器人 , 它由无人知晓的训练数据控制 , 遵守仅被暗示、被媒体美化的算法 , 但道德护栏只能起到一定的作用 , 而且比任何真正的道德演算更多地受文本相似性的驱动 。而且 , 外加上几乎没有任何法规可以对此做出约束 。现在 , 假新闻、喷子农场和虚假网站获得了无穷无尽的可能性 , 而它们会降低整个互联网的信任度 。
这是一场正在酝酿中的灾难 。