深入解读tts涵义 tts是什么意思

TTS 技术(Text-To-,语音合成)是将文本转换为声音(大声朗读),类似于人的嘴巴 。您在 Siri 等各种语音助手中听到的声音都是由 TTS 生成的,而不是真人说话 。
TTS技术实现方式,主要有两种:“拼接法”和“参数法”——

深入解读tts涵义  tts是什么意思

文章插图
2、拼接
1)定义:从大量预录的声音中选择所需的基本单元 。这样的单位可以是音节、音素等 。为了追求合成语音的连贯性,常用双音素(从一个音素的中心到下一个音素的中心)作为单位 。
2)优势:更高的语音质量
3)缺点:数据库需求太大 。预测成品一般需要几十个小时 。企业级商业使用,至少需要5万句,成本数百万 。
3、参数法
1)定义:根据统计模型在每一刻生成语音参数(包括基频、共振峰频率等),然后将这些参数转换成波形 。主要分为3个模块:前端、后端和声码器 。
前端做的是解析文本,确定每个单词的读音是什么,这句话应该用什么语调和语气,用什么节奏来读,应该强调哪些区域,ETC 。。常见的音调相关数据描述包括但不限于:韵律边界、重音、边界音调,甚至情感 。还有更多的信息甚至难以客观描述,目前的算法只能暂时忽略 。
注意:拼接法和参数法都有前端模块 。拼接和参数的区别主要是后端声学建模方法的区别 。
2)优点:数据库需求相对较小 。
如果你只需要说出来(demo),500句左右就够了,但效果肯定不好 。
一般的TTS,一般至少需要5000句,6小时(一般录制800句,需要1小时) 。
——从前期准备、找人、找录音场所、录音、数据筛选、标注,最终成为“可用数据”,可能需要至少3个月的时间 。
个性化 TTS,主要使用“参数”方法 。(Adobe和微软也尝试过拼接的方式,但是相比参数方式还不太成熟,效果也不是太一般)
3)缺点:质量比拼接方式差一点 。因为受制于发声算法,所以有损失 。
因为主要的弱点和困难是声码器 。声码器的功能是再现声音信号 。声音细节难以再现,人们听不到各种杂音、沉闷、机械感等 。目前常见的声码器对声音信号本身做了各种理论模型和简化假设 。可以说,细节的描述几乎被忽略了 。
【深入解读tts涵义tts是什么意思】注意:是的,基本解决了声码器的问题 。因为他们直接对语音样本进行预测,而不依赖于任何发音理论模型 。最终的音质非常细腻,基本达到了与原声相近的音质水平,几乎可以对任何声音进行建模 。
4、TTS 标准
1)主观测试(自然度),主要是MOS
A) MOS(平均),专家评价(主观); 1-5分,5分最好 。
注意:微软小冰的公开宣传是4.3分,但也有业内朋友认为不能说它“绝对”优于科大讯飞,因为每次评审的专家人选都不相同说白了,目前在整个AI行业,各家公司的节奏还是不错的 。
B) ABX,一般用户评价(主观) 。让用户收听两个 TTS 系统并进行比较,看看哪个更好 。
C) 应区分每个主观评估 。比如这次主要听复音词,下一次主要听情态词 。
2)客观测试
A) 评估合成系统产生的声学参数,一般计算欧几里得距离等(RMSE,LSD) 。
B) 合成系统工程测试:实时速率(合成时间/语音时长)、首包响应时间(用户发送请求到用户感知到的首包到达时间)、内存占用、CPU占用, 3*24 小时崩溃率等 。
二、技术界限
1、通用 TTS
1)在用户期望不高的场景(APP/硬件),可以满足商业需求,比如语音助手/滴滴/高德/智能音箱/机器人);但是如果用户期望很高,就很难满足,因为还是会有“机器感/机械感”,不能很自然的模拟人声 。