【NLP】ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案( 二 )


最终,整体文章评分的分值如上图所示,几乎对于所有的评价指标,都是学生撰写的文章评分最低,GPT-3.5 居中,GPT-4 评分最高,上图右侧的小提琴图可以带来更加直观的展示 。
而分析计算语言学层面统计的各个指标,如上图所示,可以发现人类撰写的文章与撰写的文章差异显著,一方面,当涉及到文章的表达能力和复杂性时,人类和大模型之间的差异最小 。另一方面,语言掌握能力差异显著大于其他所有的差异(这一点结合写作文章的主要来自非母语高中生似乎表明差异主要来源于语言本身的熟练程度上),并且另一点显著的差异在于 AI 更多的使用名词化构成更加复杂的句子,而人类则更加趋向于使用情态动词与认知标记,并且人类词汇的多样性要高于 GPT-3.5 但低于 GPT-4 。
除了模型与学生写作之间的对比外,模型与模型之间的对比也能揭示一点模型的进步方向,如虽然 GPT-4 在几乎所有指标上的平均值都大于 GPT-3.5,但只有逻辑、词汇、文本链接与复杂度中差异是显著的,即 GPT-4 对 GPT-3.5 真正的提升主要来源于这四个方面 。
某种程度上,这篇文章证明了人们关于 AI 在教育应用中的许多担心并非无的放矢,AI 可以高质量的完成议论文的写作预示了未来一个根本性的改变“我们或许要重新定义‘作业’这种东西了”,换言之是去思考当我们希望学生去练习自己的写作时,到底是希望他/她通过完成这样一篇文章(譬如国内的高考作文题)而获得什么样的能力,而并不是简单的对网格纸上的文字一扫而过给出一个四五十分的作文分数 。
事实上,GPT-4 的作文能力对语言的教学的意义有点类似于计算器的出现对数学教学的意义,对教育工作者而言,GPT-4 的出现应当使得老师与作为这些模型使用者的学生一道去反思课程教学的本质以及何时去恰当的使用这些工具,AI 可以完成课程作业事实上与课程的教学目标本身并不冲突,尽管在短期内教学的目标可能需要被迫的进行调整,比如之前多所高校禁止使用的新闻 。但是就好比计算不是数学的本质一样,议论文必然也不是写作的本质,写作能力的训练与写作工具的使用并不冲突,真正需要改变的,从来应当是教育理念与教育方式 。





【【NLP】ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案】往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码