ICASSP 2022丨希尔贝壳1篇论文被录用

Zhang, Hang Lv,Guo, Qijie Shao, Chao Yang, Lei Xie, Xin Xu, Hui Bu,Chen,Zeng, Di Wu,Peng.
全球最大多领域中文语音识别数据集
是由西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布的1万小时多领域中文语音识别数据集。
除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音视频、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景 。
△ 领域详细统计数据
数据收集:
所有的数据均来源于网络,其中三分之二的数据来自 ,三分之一来自。对于数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在视频流中,非外挂字幕)的视频资源,并构建了基于 OCR 的系统进行数据挖掘 。
数据校验:
OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等 。为了检测该错误,中提出一种基于端到端的自动标注错误检测算法,如下图所示 。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作 。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),最终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度 。当候选语音和文本一致性高时,ref 和 hyp 一致性高,置信度高,反之,当候选语音和文本一致性低时,置信度低 。
中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据 。关于该算法的详细内容,请参考我们的论文 。

ICASSP 2022丨希尔贝壳1篇论文被录用

文章插图
排行榜:
除了训练中校验用途的 Dev 集外,我们还设计了两个人工精标测试集,互联网测试集和会议测试集 ,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,,WeNet)上搭建的基线系统,方便大家复现 。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误) 。
开源·共享·创新
西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布1万小时多领域中文语音识别数据集 ,在腾讯会议天籁实验室、华为昇思 、 西安未来人工智能计算中心等机构大力支持下,该数据集于2021年11月已经开放下载 。
数据申请入口:
【ICASSP 2022丨希尔贝壳1篇论文被录用】在此,特别感谢所有合作方的支持和帮助 。未来,希尔贝壳将持续投入内核技术创新,坚持开源开放,用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,从而更好的支撑人工智能语音技术产业的蓬勃发展 。