超脑小战孙艺婷声纹识别技术分析

超脑中的人机挑战是通过听声音来识别人,背后的技术背景是声纹识别技术。声纹识别其实是一种行为识别技术,就是测试采集声音的波形和变化,并与注册的声音模板进行匹配。这项技术由贝尔实验室在20世纪40年代末首次开发,主要用于军事情报领域。随着技术的发展,它逐渐广泛应用于法医鉴定、法庭证据等领域。

声纹识别的理论基础

每个声音都有一个独特的特征,通过这个特征可以有效地区分不同人的声音。

这个特点主要是由两个因素决定的。首先是声腔的大小,包括咽喉、鼻腔、口腔。这些器官的形状、大小和位置决定了声带张力的大小和声音频率的范围。就像指纹一样,每个人的声音都有自己独特的特征。第二个因素是发声器官的操纵方式,发声器官之间的相互作用会产生清晰的语音。人们在学习说话的过程中,会通过模拟周围不同人的说话方式,逐渐形成自己的声纹特征。

理论上,声纹就像指纹一样,很少有两个人的声纹特征是一样的。

小声纹识别技术分析

超脑中中小型机器人所拥有的声纹识别技术,其实属于动态声音实时检测技术,还包括VAD、降噪和混响去除(VAD的目的是检测是否是人声,降噪和混响去除是为了排除环境干扰)。

考虑到挑战场景是从合唱团中寻找特征人声,难点在于如何提取和表达语音信号中与说话人相关的信息,以及如何区分相似人声的细微差异。一般来说,语音的说话人相关特征的提取主要按照如图所示的流程进行:

对于采集到的语音,会先进行有效语音检测(VAD),切除采集语音的无效部分,然后提取声学特征。由于语音信号是一种变长的短时非平稳信号,一般采用加窗的方法提取特征,以帧为单位获取特征。目前常用的声学特征有经典的梅尔倒谱系数MFCC,当前的感知预测系数PLP,以及当前基于深度学习的fiery deep特征。获得声学特征后,就是对说话人信息的进一步提取。这里使用的建模方法主要采用了ivector算法和带残差处理的深度卷积神经网络算法。建模后,我们可以更深层次地表达语音的特征,从而进一步呈现与说话人相关的信息。最终模型可以进一步将在特征提取阶段获得的特征转换成可以表征说话人特征的样本。

这样,我们就可以把特定说话人的语音完全转换成一个可以表征说话人特征的模型。(在实际比赛过程中,当21个合唱成员在演唱时,我们将这21个合唱成员的演唱声分别馈入模型中,最终得到能够代表这些合唱成员信息的21个模型)。

识别匹配阶段相对容易理解。测试语音采集完成后,进行相应的特征提取操作,然后与模板库中的所有模板样本计算相似度距离,然后选取最接近的一个作为最终判断结果。(实际比赛中,这相当于三次测试。在每次测试中,我们将线人的代码语音送入模型,提取特征,然后与21个模型进行对比,得分最高的就是机器认为最有可能的线人)。整个过程如下图所示:

这次声纹识别的难度

可能大家最感兴趣的是,最强人工智能的渺小和我们的小选手鲍晓的3题,只对1题。这里我简单说一下影响大家发挥的因素,如下:

1,噪音问题

2.许多人唱歌

3.遗忘声音记忆

4.功能迁移

头号问题是噪音,包括现场噪音和音乐噪音,比人脸识别影响更大(前期有轻度影响),音乐本身也会影响机器和玩家的判断;第二是很多人唱歌。众所周知,声纹识别主要依靠光谱特征,很多人会出现光谱混叠的现象,导致特征难以分离和识别。第三,主要是对人类玩家的影响。一般人记住时间序列比记住空间序列更难,尤其是记住三个音序列之后,这也是魏医生反复希望多听几遍的原因。最后说一下特征转移。挑战是凭记忆说话,识别唱腔。而人们说话唱歌往往声纹不同,所以存在特征转移的问题,对应的是我们两个选手需要一定的归纳推理能力。

以上四个因素让最终的结果没有那么完美,但正是这些不完美,才会让我们在技术上不断进步,超越过去的自己。