#model.add((=(3,3),=(2,2)))
#model.add((384,(3,3),=(1,1),='same',='relu',=''))
#model.add((384,(3,3),=(1,1),='same',='relu',=''))
#model.add((256,(3,3),=(1,1),='same',='relu',=''))
#model.add((=(3,3),=(2,2)))
#model.add(())
#model.add(Dense(4096,='relu'))
#model.add((0.5))
#model.add(Dense(4096,='relu'))
#model.add((0.5))
#model.add(Dense(7,=''))
model.()
#编译模型
# adam = .Adam(decay=0.9)
sgd = .SGD(=0.9,lr=0.001,decay=1e-6)
pile(loss='ropy', # pile(loss='ropy', #
=sgd,
=[''])
model.fit(, ,
=,
=,
=True,=1)
# =(,)
model.save()
#评估模型
score = model.(, , =1)
print('Test score:', score[0])
print('Test :', score[1])
训练结果如下所示,训练到时已经接近收敛了,但是似乎还可以再多训练几代,毕竟作者用0.001的学习率训练了300个epoch 。
将训练好的模型的倒数第二层提取出来构建新的模型,并将之前的训练数据再跑一边前馈,得到每个227*227图的4096D向量 。
# 提取模型倒数第二层的4096全连接为输出向量
l = Model(=model.input,=model.[11].)
#以这个model的预测值作为输出
= l.()
五、时域金字塔特征池化
在提取到描述梅尔谱图的特征向量之后,下面要解决的问题是“对不同时间长度的语音信号怎样得到统一长度的特征” 。因为在裁切梅尔谱图的过程中,一个样本能切多少张64×64×3 64\\×64×3的图是由其信号长度决定的,这样我们就可能得到这样两个样本:一个样本持续3s,最终按时间顺序切成10个64×64×3 64\\×64×3的图像,再经过得到10个227×227×3 227\\×227×3的图像,最后经过CNN得到10个4096D的特征向量;另一个样本只有2s,最后得到8个4096D的向量 。这样不定长度的情感特征是没法进行分类和识别的,所以需要进行特征池化 。
论文中用的方法称为时域金字塔匹配(),其实就是一种池化手段,只不过用上了金字塔结构和p参数的学习 。它主要包括两部分:金字塔池化、Lp-Norm的参数p的学习 。
时域金字塔池化的思想非常简单,也易于理解 。读过SPP-Net的可能知道,它借助了空间金字塔池化()的思想 。在这里有必要先介绍一下空域金字塔池化 。
空域金字塔池化是解决不同尺寸的 map提取定长特征向量的算法 。不论 map的尺寸如何,都可以将其分成44的子区域,22的子区域和1*1的区域(就是不分区域),然后在每个区域上做池化,提取一个定长的特征向量,最后将所有层的所有子区域上提取的特征向量都拼起来,就得到最后的定长向量了 。
时域金字塔池化是一样的道理 。如下图:
1)将同一个音频样本的所有特征向量(N×4096D N\×4096D)按时间顺序排列好;
2)将其分成1、2、4等份,对每一等份应用如下公式进行池化,将所有向量拼起来,得到vpL(x)∈R7×4096 v_L^p(x) \in R^{7\times 4096}v
L
p
?
(x)∈R
7×4096
;
3)对vpL(x) v_L^p(x)v
L
p
?
(x)再应用池化规则,得到up(X)∈R4096 u^p(X) \in R^{4096}u
p
(X)∈R
4096
作为最终的全局特征,论文中叫 level ,由于涵盖了整个句子的情感信息,所以我翻译成“话语级特征”;
4)如下的公式中参数p pp的取值有最优解,论文中采用边界费舍尔分析(MFA,)来优化,不是很懂,就没做代码复现 。
下面来看这个公式 。式中X∈RN×4096 X\in R^{N\times 4096}X∈R
N×4096
代表N NN个4096维的向量 。若p=1 p=1p=1则表示对N NN个向量的对应维度上相加再取平均,也就是均值池化;若p=∞ p=\=∞,则表示在向量每一个维度上取最大值,也就是最值池化 。这个公式的理解可以和范数的概念结合起来 。
- 多模态情感识别-MISA: baseline解读
- 算法分析与设计 练习三
- 柏林情感语料库(Emo
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
- 完美芦荟胶入选“中国500最具价值品牌” 中国之最分析
- 史湘云醉卧的故事史湘云人物性格分析
- 雍正与干妈佟佳氏十余年不寻常的情感经历
- C语言农夫过河问题
- 中美关系目前存在的问题,分析中美战略协作关系取得共识与存在分歧的原因
- 歌唱家金婷婷歌唱技法优缺点分析及其学习注意事项 金婷婷的中国之最