全方面了解s系统知识 s系统的五个主要组成部分( 四 ) _我们

通常这些语气词由于携带了说话人的语气情感，它们的发音都会比普通的字要长一些，比如这句：
嗯。。。我想他是对的。
这里的「嗯」，在这个场景下，很明显需要被拖长，用于表示一种「思考之后的判断」。
但是并不是所有的「嗯」都要拖这么长，比如这一句：「嗯？你刚才说什么？」
这里的「嗯」代表是一种疑问的语气，发音就要比上面句子中的「嗯」要短得多。如果时长模型不能正确的决策出发音时长的话，就会给人一种不自然感觉。当然，Rokid在语气词发音上也有自己的一套专利方法，用于生成非常自然的语气词发音。在后续的文章中，我们将会推一个专题文章介绍。
2、声学模型错误
最主要的声学模型错误就是遇到在训练后端这个「发音人」时，没有见过的发音。声学模型的作用是从训练音库里，学习到各种「语言学规格书」所对应的语音声学特征。如果在合成的时候遇到了训练过程中没有见过的语言学表现，那么机器就不太容易输出正确的声学特征。
一个常见的例子是儿化音。原则上来说，每个汉语拼音都有对应的儿化音，但在实际说话中有些儿化音被使用到的频次极低，因此录制音库的时候通常并不会覆盖所有的儿化音，而是仅仅保留最常见的一些。这个时候就会出现一些儿化音发不出来，或者发不好的现象。
3、声码器错误
声码器的种类比较多，但是比较传统、比较常见的声码器通常都会用到基频信息。那什么是基频呢？基频就是你在说话的时候声带震动的快慢程度。这里教你一个简单的方法来感受自己说话的基频：把自己的除大拇指以外的其他四个手指按压到自己的喉咙部分，然后自己开始对自己随便说话。
这个时候你就会感受到你的喉咙在震动，这个震动的信息就是我们的基頻信息。发浊音时会伴随声带振动，声带不振动发出的音称为清音。辅音有清有浊，而元音一般均为浊音。所以合成语音中元音和浊辅音的位置都应该对应有基频，如果我们前面提到的声学模型输出的基频出现偏差，声码器合成的声音就会听起来很奇怪。
在训练后端这个「发音人」时，我们也要通过算法来计算出基频信息。不好的基频提取算法可能会造成基频丢失、倍频或者半频的现象。这些都会直接影响基频预测模型的效果。如果应该有基频的地方没有预测出基频，合成声音听起来就是沙哑的，对听感的影响十分明显。
一个好的声码器还要处理好基频和谐波的关系。如果高频谐波过于明显，在听感上会造成嗡嗡的声响，机械感明显。
总结
在这篇文章里，我们介绍了 TTS 的基础原理，以及分析了语音助手不能像真人一样说话的原因：TTS 在做各种决策中会犯错，导致朗读出错或者不自然。同时，为了让电脑可以合成声音，工程师会对文本转语音问题做简化，导致没有准确的刻画声音生成的过程。这种简化一方面来自于对语音语言生成过程的认知局限，同时也受限制于目前的计算工具。
尽管现在在这个领域内有很多新的方法，特别是使用深度学习（Deep Learning）方法来直接做文本到语音的转化，而且已经展示出来了非常自然的声音，但是让你的 AI 助手完全像人一样说话仍然是一项非常具有挑战性的工作。Rokid ALab 团队也致力于与大家一起探索 TTS 技术的突破与应用，期待为用户带来更加自然的声音。