2022年天马杯新闻文本扩充生成赛道冠军方案分享

Z Lab数据实验室成员
01
前言
去年又摸了一个比赛,这次基本上是自己主导完成大部分建模和优化工作的了 。这次能拿下第一,一方面是比赛参加的人比较少(也是因为限制学生参加)来卷的大概也就几十个人,另一方面也是选对了方向+运气比较好 。尽管如此,打榜的时候一直在面对后面几个佬的穷追猛打,还是有一些慌,最后能守住第一也实属不易 。(或者说基本上真在做比赛的时间也就在搞做不出来的论文中间穿插两三周左右,其他时间基本都在慌明天第一会不会换人)
是的这已经是个去年的比赛了,线上评测11月结束,一直到最近5月份才决赛答辩确定结果,中间隔了近半年的时间 。这个比赛开始时,还没有,结束的时候已经人尽皆知,笑了 。
比赛网站:/nlp
02
赛题与数据分析
赛题简介
首先抄袭一段比赛官网的赛题说明:数字人新闻播音员是数字人的一个主要应用场景,基于关键新闻素材(如时间、地点、人物、事件等)生成一段通畅、易读的资讯新闻是数字人领域的一大挑战 。这一技术可以大幅度节约新闻工作者的重复工作量,增加新闻采访、深度报道等创造性工作投入 。
简单来说就是:输入新闻标题和若干个关键短语,要求输出新闻内容全文 。
但是需要注意的是,主办方限制模型大小(文件大小)在500M以内,基本上稍大一些的模型都用不上,也没办法做模型集成了 。
赛题给出的数据集包括三个字段:
e.g. (原文件为CSV,转成JSON方便展示):
{"ID": "TR000001","Elements": "零壹智库|150份报告!把脉保险数字化及保险科技创新与发展[SEP]科技#大数据#人工智能#等为代表#推动#传统保险业加速数字化转型#科技投入#增加#保险业态#创新产品#吸引#资本#零壹智库报告显示#达到顶峰#中国市场#2020年三#保险科技投融资金额#2021年#全球#维持#高位#达到120.5亿元#中国保险业","News": "科技与金融的融合正在加速 。以大数据、人工智能、生物科技、区块链、物联网等为代表的技术不断成熟,推动了保险科技的蓬勃发展 。一方面,传统保险业加速数字化转型,科技投入不断增加;另一方面,新型的保险业态应运而生,创新产品层出不穷,并吸引了各种资本的角逐 。零壹智库报告显示,2020年全球保险科技领域融资金额出现井喷,达到276.2亿元创历史新高,特别是在2020年下半年达到顶峰,巨额融资频现 。在中国市场,2020年三四季度保险科技投融资金额平稳在16亿元左右 。2021年第一季度,全球及中国保险科技股权融资规模继续在维持在高位,分别达到120.5亿元和18.7亿元 。中国保险业巨大的市场空间,为保险科技的发展提供了良好的市场基础 。"}
评价指标:Rouge-L,不展开了 。
很显然,这是一个典型的序列到序列()文本生成任务 。
本赛题的生成任务(直接拿BART的图改了改)
数据分析
首先去除训练集中一些没有内容的脏数据 。然后针对新闻素材长度、新闻全文长度、新闻素材数量等特征进行一些简单分析 。
下图是训练集中新闻文本长度的频次图,横坐标表示新闻内容的长度,纵坐标表示对应长度新闻出现的次数 。
新闻长度频次图
可以看出大部分新闻的长度都在300-400字之间 。
下两图是训练集和测试集中新闻标题(中根据[SEP]划分后的第一段)长度分布 。
训练集新闻标题长度分布

2022年天马杯新闻文本扩充生成赛道冠军方案分享

文章插图
测试集新闻标题长度分布