图:编程能力评测综合得分率
作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,涉及的题目较杂,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类,题型以多选为主 。
在综合知识评测上,讯飞星火 80.61% 的得分率排名第一,在 84.6% 的二级分类上得分率第一,初步显示出在百科问答和历史人文上的“过人之处” 。
图:综合知识评测得分率
报告指出,在本轮大模型评测中,讯飞星火以 81.5 分的成绩拔得头筹,成为“最聪明”的国产大模型 。
讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中得分率排名第一,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次“最聪明的理科生” 。
值得一提的是,从题型角度来看,主观简答题中讯飞星火凭借 83.98% 的得分率位居第一;而在客观题上,讯飞星火以 75.7% 的得分率排名第一,在主客观体型中均有良好表现 。
此外,就在8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得第一,《报告》认为讯飞星火“在工作提效方面优势明显” 。
在刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力 。技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富:既有辅助程序员高效工作的智能编码助手iFlyCode1.0、能够进行视频创作的讯飞智作2.0、能够便捷搭建轻应用的教育数字基座应用开发助手,还有帮助教师设计教学活动、一键生成课件的星火教师助手、面向英语学习者口语练习的星火语伴2.0,讯飞AI学习机也升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴 。此外,科大讯飞还和华为联合发布星火一体机,让每一家企业都有机会构建专属大模型 。
- 安康,敬世界一杯好茶 安康中国之最
- 小伙苦练“一指禅”曾登上奥运会开幕式 单手单指俯卧撑吉尼斯记录
- 世界“渔具之王”:钓鱼佬身后的大赢家,一年能捞走约42亿元 创吉尼斯记录的鱼线品牌
- 长沙小学周边出现“牙签弩”,实验告诉你它有多可怕 在气球上查牙签吉尼斯记录
- 搭建“纸上数学博物馆”蔡天新生动讲述3000年数学发展史|新书架 数学历史之最
- 写诗押韵字大全,写诗何为押韵
- 被巴菲特自己称为“金融灾难”的一笔投资,“好骑师”也难驾驭“坏生意”…… 金融类世界吉尼斯记录
- 双杠臂屈伸158个,3千米跑10分08秒······创纪录凭的就是“狠”劲! 双杠世界吉尼斯记录是多少
- 女生绕道的酒吧“断片酒”,比茅台度数高!调酒师:没人敢对瓶吹 清酒装瓶量吉尼斯记录
- 优秀传统文化“两创”看山东之革命老区枣庄行 枣庄历史人文之最