(4)其他
本文探讨了是否可以区分RE-RC子任务中两个实体的主客观顺序 。由于大多数关系类型都是非对称的,因此两个实体的顺序非常关键 。对于非对称关系类型的每个实例,交换实体的顺序并检测预测结果的变化,结果如图所示 。
可以看到,交换顺序后大多数预测结果(超过70%)与交换前保持不变 。因此对于RE-RC子任务,对实体的顺序不敏感,而且无法准确理解实体的主客体关系 。
4、错误类型分析
从图中可以看出,“ spans”、“ types”和“ spans”是三种主要的错误类型,占70%以上 。特别是,几乎三分之一的错误是“ spans”的错误,这也引发了对标注数据质量的担忧 。
总结
本文从性能、评估标准、鲁棒性和错误类型四个角度评估了的信息抽取能力,结论如下:
性能 本文评估了在zero-shot、few-shot和chain-of-场景下的17个数据集和14个IE子任务上的性能,发现和SOTA结果之间存在巨大的性能差距 。
评估标准 本文重新审视了性能差距,发现硬匹配策略不适合评估,因为会产生human-like的回复,并提出软匹配策略,以更准确地评估的性能 。
鲁棒性 本文从四个角度分析了对14个子任务的鲁棒性,包括无效输出、无关上下文、目标类型的频率和错误类型并得出以下结论:1)很少输出无效响应;2)无关上下文和长尾目标类型极大地影响了的性能;3)不能很好地理解RE任务中的主客体关系 。
错误类型 通过人工检查,本文分析了的错误,总结出7种类型,包括 spans、 spans、 spans、 span 、 types、 types和other 。发现“ spans”是最主要的错误类型 。这引发了大家对之前标注数据质量的担心,同时也表明利用标记数据的可能性 。
进NLP群—>加入NLP交流群
- ChatGPT进一步联网,距离成为超级流量入口还有多远?
- 【回答问题】ChatGPT上线了!推荐30个以上比较好的命名实体识别模型
- 迷你世界:能在水上飞的生存小屋,操作比飞机还简单,速度50码 迷你世界之最强生存者
- 生命之环,究竟有多让人感到震撼?抵近才能体会到 世界之最沈阳抚顺生命之环
- 不要对chatgpt过度反思 第一部分
- 揭秘:武则天为什么能肆意屠李唐皇族
- 揭秘刘备错过的最优秀人才能力不亚于诸葛亮
- chatgpt赋能python:知破SEO的窍门:用Python3在Window
- JWT续期问题,ChatGPT解决方案
- 南京这所小学大能量连续三年全市冬锻节第一名 数学中国之最展板