GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

能终结的人只有自己 。——阿卡夫斯基-作者本人
:::
今日凌晨,发布了GPT的最新一代版本-4,相比3.5,其AI能力再度进化,同时支持输入的内容不再仅限于文字,而且支持图像内容的输入,成为一个能够理解照片的人工智能 。
GPT-4 实现了以下几个方面的飞跃式提升: 强大的识图能力文字输入限制提升至 2.5 万字回答准确性显著提高能够生成歌词、创意文本,实现风格变化
比如这张图,你问他这张图内容有什么不一样的地方
他会回答你:这张图的不通寻常之处在于,一个男人正在一辆行驶中的出租车车顶上的熨衣板上熨衣服
再比如这张图,你问他为什么这很可笑?
他会回答你:这幅图的幽默之处在于,把一个大而过时的VGA接口接入一个小而现代的智能手机充电接口

GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

文章插图
值得一提的是,除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点
称,公司花费6个月的时间,利用对抗性测试程序和的经验教训迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果,“至少对我们而言,GPT-4训练运行前所未有地稳定,成为首个能够提前准确预测其训练性能的大型模型 。”
未来,也许不仅仅是支持图像的输入,可能支持视频的输出
让GPT-4在参加了许多项人类的通用考试
结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;它能通过模拟律师考试,分数在应试者的前10%左右,相比之下,GPT-3.5的得分在倒数 10% 左右
考试成绩超过九成人类
在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……
“它并不完美,但你也一样”
GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

文章插图
官方表示,GPT-4由于其广泛的通用知识和解决问题的能力,可以更准确地解决难题 。
【GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容】GPT-4比以往任何时候都更具创造力和协作性 。它可以生成、编辑和迭代用户的创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格 。
GPT-4在高级推理能力上超越 。在律师模拟考试中,背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右 。
此外,GPT-4的长度限制提升到32K,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等 。
还贴心地发布了GPT-4开发者视频,手把手教你生成代码、检查错误信息、报税 。联合创始人兼总裁布罗克曼(Greg )还说了句有点扎心的话:“它并不完美,但你也一样 。”
目前仅向 Plus付费用户开放
与免费的不同,GPT-4目前仅向 Plus的付费用户开放,它也将作为API(应用程序编程接口)提供给企业及开发者,开发者需进入等候名单上,将该模型集成到他们的应用程序中 。
开源了Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,帮助其改进 。工程师在介绍说,“GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人 。”
不过,GPT-4仍然不是完全可靠的,比如会对事实产生“幻觉”,并出现推理错误 。提醒,在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎 。