重磅突发!OpenAI正式推出多模态GPT-4( 二 )


我们一直在内部使用GPT-4 , 发现它对支持、销售、内容审核和编程等功能会产生很大影响 , 我们还在用它来协助人类评估AI的输出 , 这就是我们调整战略的第二阶段的开始 。
04
视觉输入
GPT-4可以接受文本和图像的提示语() , 这与纯文本设置平行 。比如说 , 可以让用户指定任何视觉或语言任务 , 它可以生成文本输出(自然语言、代码等) , 给定的输入包括带有文字和照片的文件、图表或屏幕截图 , GPT-4表现出与纯文本输入类似的能力 。此外 , 还可以应用在为纯文本语言模型开发的测试时间技术 , 包括少数几个镜头和CoT的 , 不过目前图像输入仍然属于研究方面预览 , 没有像C端公开产品 。

重磅突发!OpenAI正式推出多模态GPT-4

文章插图
下列图片显示了一个 " Cable "适配器的包装 , 有三个面板 。
面板1:一个带有VGA接口(通常用于电脑显示器的大型蓝色15针接口)的智能手机插在其充电端口 。
面板2:" Cable "适配器的包装上有一张VGA接口的图片 。
面板3:VGA连接器的特写 , 末端是一个小的连接器(用于为和其他苹果设备充电) 。
这张图片的搞笑性质来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口..因此看起来很荒谬
通过在一套狭窄的标准学术视觉基准上 , 对GPT-4的性能进行评估 , 并且对它进行预览 。然而 , 这些数字并不能代表其的能力范围 , 因为我们发现 , 这个模型能够处理很多的新的和令人兴奋的任务 , 计划很快发布进一步的分析和评估数字 , 以及对测试时间技术效果的彻底调查结果 。
05
可控制的AI
我们一直在努力实现关于定义AI行为那篇文章中 , 所概述的计划的每个方面 , 包括AI的可控制性 。与经典的个性的固定言语、语气和风格不同 , 开发者(很快就是所有的用户)现在可以通过在 "系统 "消息中描述这些方向 , 来规定自己的AI的风格和任务 。系统消息允许API用户在范围内 , 大幅对用户体验进行定制 , 我们将持续改进 。
06
局限性
尽管能力惊人 , 不过 , GPT-4仍存在与早期GPT模型类似的限制 。最重要的是 , 它仍然不是完全可靠的(比如说 , 它会对事实产生 "幻觉" , 并出现推理错误) 。在使用语言模型的输出时 , 特别是在高风险的情况下 , 应该非常小心谨慎 , 比如说:需要人类审查 , 完全避免高风险的使用)以及需要与特定的使用案例的需求相匹配 。
尽管各类情况仍然存在 , 但相较于以前的模型(这些模型本身也在不断改进) , GPT-4大大减少了(意思是网络错觉 , 这里指的是一本正经的胡说八道) 。在我们内部的对抗性事实性评估中 , GPT-4的得分比我们最新推出的GPT-3.5高40% 。
07
可控制的AI
GPT-4的基础模型在这项任务中只比GPT-3.5略胜一筹;然而 , 在经过RLHF的后期训练后(应用我们对GPT-3.5使用的相同过程) , 却有很大差距 。该模型在其输出中会有各种偏差 , 我们在这些方面已经取得了进展 , 但仍有更多工作要做 。根据我们最近的博文 , 我们的目标是使我们建立的人工智能系统具有合理的默认行为 , 以反映广泛的用户价值观 , 允许这些系统在广泛的范围内被定制 , 并获得公众对这些范围的意见 。