ICASSP 2022丨希尔贝壳1篇论文被录用 _贝壳

Zhang, Hang Lv,Guo, Qijie Shao, Chao Yang, Lei Xie, Xin Xu, Hui Bu,Chen,Zeng, Di Wu,Peng.
全球最大多领域中文语音识别数据集
是由西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布的1万小时多领域中文语音识别数据集。
除了含有 10000+ 小时的高质量标注数据之外，还包括2400+ 小时弱标注数据和 22400+ 小时的总音频，覆盖各种互联网音视频、噪声背景条件、讲话方式，来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。
△ 领域详细统计数据
数据收集：
所有的数据均来源于网络，其中三分之二的数据来自，三分之一来自。对于数据，我们人工选择含有嵌入式硬字幕（字幕嵌入在视频流中，非外挂字幕）的视频资源，并构建了基于 OCR 的系统进行数据挖掘。
数据校验：
OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误，如人工字幕本身有错误，字幕时间不准，OCR 识别错误，转写错误等。为了检测该错误，中提出一种基于端到端的自动标注错误检测算法，如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图，该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp)，最终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致性高时，ref 和 hyp 一致性高，置信度高，反之，当候选语音和文本一致性低时，置信度低。
中选取置信度>=95%的数据作为高质量标注数据，选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容，请参考我们的论文。

文章插图
排行榜：
除了训练中校验用途的 Dev 集外，我们还设计了两个人工精标测试集，互联网测试集和会议测试集，作为“匹配”和“不匹配”测试，同时提供三个语音识别主流工具包（Kaldi，，WeNet）上搭建的基线系统，方便大家复现。在 10000+ 小时的高质量标注数据上，目前三个系统的语音识别率如下表所示（结果为 MER%，中文算字错误，英文算词错误）。
开源·共享·创新
西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布1万小时多领域中文语音识别数据集，在腾讯会议天籁实验室、华为昇思、西安未来人工智能计算中心等机构大力支持下，该数据集于2021年11月已经开放下载。
数据申请入口:
【ICASSP 2022丨希尔贝壳1篇论文被录用】在此，特别感谢所有合作方的支持和帮助。未来，希尔贝壳将持续投入内核技术创新，坚持开源开放，用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景，从而更好的支撑人工智能语音技术产业的蓬勃发展。