语音基石模型Speech Foundation Models( 三 )


还有值得注意一点 , 它的输入是梅尔谱图 。
论文结果:
和其他模型的性能相当 , 这就是BEST-RQ神奇的地方 , 也不知道为什么会这样 。
上面介绍了很多SSL模型 , 那我们怎么知道它的表示特征好不好呢?
接下来介绍 这个 。
假设现在有个预训练好的SSL模型 , 就先固定住 , 输入语音信号 , 输出一排向量 。现在就可以把这些向量拿去做各式各样的下游任务 , 比如语音识别ASR(它的下游模型为两层LSTM) , 说话人识别SID(这个相对简单因为只是个分类任务 , 下游模型只需要一个层)等任务 。
然后可以换不同的SSL模型 , 看看这不同的任务上能做到多好 。
后面人们又发现 , SSL的不同层里包含有不同的信息 , 比如有12层 , 第1层可能包含有更多的说话人信息 , 第12层可能包含更多的语音内容信息 。所以下游任务抽哪些层的特征更好呢?
做的事情就是 , 把每次的表示特征都抽出来 , 给他们权重并相加 , 权重也是可以学习的 , 通过权重的分配 , 我们就知道什么任务最需要哪几层的信息 。
做了很多各式各样不同的任务 , 比如针对说话人的任务 , 针对内容的任务( 就是对语音进行关键字检测) , 针对语义的任务(直接从语音抽出这段话表达的意义 , 需要模型理解想要表达大的意思) , 针对副语言信息的任务 , 如下图 。
SUPRB的官网上有很多模型及他们的比较:
也有一些规律的发现:
1.同样的模型 , 越大越强 。(雷达的每个角代表不同的任务 , 大模型面积包含了小模型)
2.越强的模型 , 基本上在所有任务上都表现很好 。很少看到在一个任务上表现很好 , 另一个任务上表现变差的现象 。
下面是在WavLM模型声的实验结果:
横轴是不同的层 , 纵轴是不同的任务 , 说话人相关的任务信息第4和5层多谢(颜色深) , 内容相关的任务信息在8 , 9 , 10层更多一些 。
然后还有其他SSL模型 , 权重分布好像都类似 。
语音表示学习总结:
SSL模型及其特点
衡量SSL模型
语音大型语言模型( large)
学习内容:
有了SSL model抽出的特征后 , 我们是否能用这些特征表示上做一些大型的语言模型 , 比如像GPT , 然后做一些如语音翻译的任务 。
NLP
Meta在2021年发布的一个项目 。它的目的就是想把语音任务都转成NLP的任务的模型 。
比如今天我们想做一个语音翻译的任务 。
之前的做法就需要ASR、TTS、MT三个系统的级联 , 这种系统存在的问题:
MT 的输入和输出都为伪文本 , 也就是机器自己学习出来的类似文本的东西 。
MT 也就是一个语言模型 model(LM) , 用不同的LM , 就可以实现不同的任务 , 比如LM为如下及对应的功能:
那怎么生成伪文本呢?
就是用之前讲到的SSL模型 , 比如先用对一段语音抽一排特征 , 然后进行K-means , 再进行量化 , 得到伪文本 。
:可以是 , 也可以是其他模型 。
这样就得到了非监督的语音到语音的模型 。
LM上画了一只独角兽(GPT标志) , 代表它是很像GPT的模型 。
两种方式 , 一种是过语言模型LM , 一种是不过 , 直接再合成 。