重磅突发！OpenAI正式推出多模态GPT-4( 二 ) _能力模型

我们一直在内部使用GPT-4 ，发现它对支持、销售、内容审核和编程等功能会产生很大影响，我们还在用它来协助人类评估AI的输出，这就是我们调整战略的第二阶段的开始。
04
视觉输入
GPT-4可以接受文本和图像的提示语（），这与纯文本设置平行。比如说，可以让用户指定任何视觉或语言任务，它可以生成文本输出（自然语言、代码等），给定的输入包括带有文字和照片的文件、图表或屏幕截图， GPT-4表现出与纯文本输入类似的能力。此外，还可以应用在为纯文本语言模型开发的测试时间技术，包括少数几个镜头和CoT的，不过目前图像输入仍然属于研究方面预览，没有像C端公开产品。

文章插图
下列图片显示了一个 " Cable "适配器的包装，有三个面板。
面板1：一个带有VGA接口（通常用于电脑显示器的大型蓝色15针接口）的智能手机插在其充电端口。
面板2：" Cable "适配器的包装上有一张VGA接口的图片。
面板3：VGA连接器的特写，末端是一个小的连接器（用于为和其他苹果设备充电）。
这张图片的搞笑性质来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口..因此看起来很荒谬
通过在一套狭窄的标准学术视觉基准上，对GPT-4的性能进行评估，并且对它进行预览。然而，这些数字并不能代表其的能力范围，因为我们发现，这个模型能够处理很多的新的和令人兴奋的任务，计划很快发布进一步的分析和评估数字，以及对测试时间技术效果的彻底调查结果。
05
可控制的AI
我们一直在努力实现关于定义AI行为那篇文章中，所概述的计划的每个方面，包括AI的可控制性。与经典的个性的固定言语、语气和风格不同，开发者（很快就是所有的用户）现在可以通过在 "系统 "消息中描述这些方向，来规定自己的AI的风格和任务。系统消息允许API用户在范围内，大幅对用户体验进行定制，我们将持续改进。
06
局限性
尽管能力惊人，不过， GPT-4仍存在与早期GPT模型类似的限制。最重要的是，它仍然不是完全可靠的（比如说，它会对事实产生 "幻觉" ，并出现推理错误）。在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心谨慎，比如说：需要人类审查，完全避免高风险的使用）以及需要与特定的使用案例的需求相匹配。
尽管各类情况仍然存在，但相较于以前的模型（这些模型本身也在不断改进）， GPT-4大大减少了（意思是网络错觉，这里指的是一本正经的胡说八道）。在我们内部的对抗性事实性评估中， GPT-4的得分比我们最新推出的GPT-3.5高40% 。
07
可控制的AI
GPT-4的基础模型在这项任务中只比GPT-3.5略胜一筹；然而，在经过RLHF的后期训练后（应用我们对GPT-3.5使用的相同过程），却有很大差距。该模型在其输出中会有各种偏差，我们在这些方面已经取得了进展，但仍有更多工作要做。根据我们最近的博文，我们的目标是使我们建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内被定制，并获得公众对这些范围的意见。