语音基石模型Speech Foundation Models( 六 )


这个模型可以做 (比如让一段语音继续编下去 , 说一些有意义的话)和Music (比如一段钢琴声 , 它就可以继续把音乐编下去) 。
VALL-E
Valle是一个TTS(Text-to-)模型 , 是今年微软推出的一个模型 。
输入一个3秒的语音信号 , 当作  , 就可以生成同样的声音 。
具体做法:
首先是一个自回归模型AR(产生高品质的code) , 输入文本 , 产生最重要的。还要输入3秒的语音 , 让模型生成和它声音听起来一样的声音 。
后面不重要的 , 就用非自回归模型NAR , 比如还是按上面例子有8层 , 第一层token重音 , 就用AR , 后面7层一般重音就用NAR 。
论文实验结果 , 都比之前的模型好 。甚至比如你那3秒的语音是在厕所录的 , 生成的声音也会有厕所的一些声音 。
其他语音基石模型
如果有大量有标签的数据 , 我们该怎么应用 。
2022年9月提出来的模型 。前面提到很多自监督学习模型SSL , 不玩这套 , 谁让他财大气粗 , 他们收集了68万小时的语音带标签数据 , 包括比如中&英文句子对 , 还有其他语言(估计上百种) , 倒给一个模型 。
训练模型:
就是一个模型 , 左边,右边 , 输入log梅尔谱 。
输出的时候它有一连串的帮它做多任务学习 。那这些是什么呢?
比如一句语音“这是一本书” , 把它的log梅尔谱输给模型 。第一个任务 , 模型首先判断这是不是一句语音(Voice) , 不是的话就直接END了;是语音的话 , 第二个任务 , 模型再判断是什么语言( ),是中文英文还是其他?比如我们现在输入的是中文“这是一本书” , 模型就会预测中文的 ;第三个任务 , 可以做语音识别()或语音翻译()任务 。
下面是它用的训练数据的统计 。左边绿色是多语言识别任务 , 有中文德文西班牙文等等 , 共12万小时的pair data 。右边紫色是做不同语言到英文的翻译 , 共12万小时pair data 。44万小时都是做英文的语音识别 。一共68万小时 。
现在这个模型是开源的哦 , 去上下载下来 , 只需要几行代码调用 。比如你现在想要做一个语音识别模型 , 都可以从 起 。
USM:Model
谷歌公司也财大气粗啊 , 又用一千两百万12M小时的语音 , 包含300种语言 。
它希望把能用到的资料都应用尽用 。第一个就是输入语音 ,  就是多模态融合;第二个就是语音和文本;第三个就是输入文本 。把几种类型的数据都用上了 。
和的对比:
比性能好 , 时用的数据比还要少 。
总结
1.这些大型的SSL模型 , 可以作为特征提取器 , 抽出好的特征表示 , 帮助下游任务 。
2.基于这些SSL模型 , 又可以把它做 , 做大型的语言模型 , 通过这些大型模型 , 又可以做成 的模型 。
【语音基石模型Speech Foundation Models】3.有了这些语音基础模型 , 把NLP中的技术拿过来 , 做成语音版本的和 , 来使得模型更高效 。