时变阻力的声纹是什么意思?
借用我在“我们能识别模仿发音吗?”,首先要介绍一下发音的特殊性和稳定性。(这是声纹识别的基本原理。各种教材有不同风格的表述,但都在说同一件事。我给学生上的第一课就是让他们记住这个原理。):
由于发音的特殊性,发声器官分为声门上系统、喉系统和声门下系统。每个人都有自己的一套发声器官,它们的形状和结构都不一样。每一次发音都需要很多发声器官相互配合,共同运动。这就决定了语音的物理属性(也称语音四要素):音质、音长、声强、音高。这些物理量因人而异,所以声音在声纹图上表现出不同的声纹特征。根据这些声纹特征参数,不仅可以区分声音,还可以识别同一个人的声音。
言语的稳定性。一个人的发声器官成熟后,其解剖结构和生理状态是稳定的,而发音的社会心理属性,如说话人的说话习惯,使得如果每个人在不同的时间说同样的文字内容,基本的语音特征是稳定的。所以,你可以把人的声道看成管乐中的喇叭。长号和短号虽然都是小号,但由于声道的形状和长短不同,音质也不一样。
目前,声纹识别方法有两种:
第一,中国司法实践中广泛使用的“人工辨认”——专家鉴定人依靠语音学方法。
二是未来发展方向的“自动识别”——计算机通过算法模拟人耳对声学特征的提取、训练和比较。
那么“变声器”是一种什么样的深刻的东西呢?变声器是改变输入音频的音色和音调,输出改变后的音频的工具(百度百科)。其实还有音速,百度百科漏掉了。另外声音大小就不用说了,不用变声器也能变。那么语音四要素的音质(音色)、音调(对应的音高)、声强(对应的声音大小)、音长(对应的声速)都发生了变化,语音的物理属性也发生了变化。如何识别他们?
a不要把“变声器”想得那么深奥
在识别中,“变声器”不就是一个通道吗?信道的定义就是信号传输的信道,我们的识别叫做声纹识别。实际上,分析和检验的并不是真正的人声,而是人的录音——声音信号。各种录音设备可以看作通道,各种编码方式也可以看作通道,都改变了声音信号。比如对讲机,电话,都算是渠道。你的声音是通过对讲机传递的,你的听觉已经被扭曲了。你已经感受到了通道对语音信号的影响。目前市面上的“变声器”,无论是硬件还是软件,主要是改变基频,把低沉的声音(男声)变成尖锐的声音(女声、童声)。(关于变音色,一方面音色肯定是变了。重采样改变基频后,音色的峰值特性一定发生了变化。另一方面,其* * *振动峰的变化是整体变化的,相对关系可视为常数。)当然,准确的说,只是我们的听觉和社会理解中所谓的男声、女声、童声、老人声。声音不是性特征,不能区分男女,只能统计。反例是“郑”的声音,那么高,声带很长(正相关)。网上搜一下,听听。你觉得自己是男的还是女的?此外,柯南在漫画中用变声器神奇地把它变成了毛利小五郎。现实中不可能做到这么精准,达到这么好的效果。理论上,它只需要从毛利小五郎收集大量的声学数据。
“变声器”改变声音的物理特性,而不是评价意义上的所有声学特征。
如前所述,常用的人工语音识别方法的主要优点是可以分辨出计算机难以识别的“高级声纹特征”,如方言口音、成语、多余词、语音缺陷、韵律特征等。这算什么“高级”?我们知道的辨别一个人声音的第一件事就是通过这些特征;模仿秀在模仿的时候也非常重视这样的特点。但电脑很难识别,这叫“高级功能”。是的,人耳是最精密的声纹识别仪器。非专业人士不熟悉的“低级声纹特征”,如* * *振动峰值、基频等,是计算机最熟悉的,甚至连声强、声长、VOT都能被计算机识别。
c“变声器”改变语音的物理属性,在识别样本时也可以用同样的方法改变样本。
无论是人工辨认还是自动辨认,都是通过对案件的录音——“检验材料”和对嫌疑人的录音——“样本”来进行比对。由于变声器是通过某些设置改变过的“样本”,所以只需要用相同的设置改变“样本”即可。如前所述,变声器是一个广义的通道。曾经有一个鉴定人认为声音被扭曲了,因为是“变声器”的案例,必须通过信号还原之前的声音才能鉴定。这种思路,先不说在现在的技术下,渠道恢复是一点都恢复不了的,主要是不考虑。我们识别被分析的记录,哪一个不是通过信道的信号处理的结果?再高的采样率,再精细的精度,也是离散变化的结果。真的能等于人声那样的连续信号吗?都是经过信道,经过信号的处理,只是差别大小不同,听感不同。
问题2:说“声波和指纹一样,无论怎么变化都可以被识别”对吗?
回答:没有。
“声波”这个术语是错误的。每次听到“声波”这个词,我都会想到蝙蝠,这是非专业人士经常使用的术语。专门做声纹识别的人,对识别的理解比较好,对物理和信号处理的理解比较肤浅,对蝙蝠等生物的了解不多。司法实践中,法官、检察官、公安机关侦查人员都以我们的专业意见为权威。至于各个法学院的教授,可能会有不同的看法,但是他们说可以算。他们为什么需要法官?为了准确回答这个问题,我搜索了百度,里面出现的论文要么是我自己写的,要么是我的老师写的,要么是我熟悉的同事写的。也就是说,百度上所有这些似是而非甚至自相矛盾的相关解读,都来自于我们对同一事物的不同理解和表述。“声纹”一词是在20世纪80年代这项司法科学技术传入中国时,由最早的鉴定人定义的。这个标题是根据语音识别法使用的语音图谱,通俗易懂,习惯性使用。“声纹识别”是整个语音识别的总称,包括同一语音的识别、录音的真实性检验、语音的降噪和信噪比的提高。也指单独语音身份的识别。“声纹”是主要鉴定依据——声纹的简称;也是语音作为生物特征的总称。目前鉴定方法已经发展起来,声谱图分析声学特征的方法不是唯一的鉴定方法,所以称之为“法医语音鉴定”更准确,称之为“声纹鉴定”更方便。简而言之,爱怎么叫都行,但不能叫“声波”,因为“声波”是别的意思。
“声波”不同于“声纹”
因为翻译和理解的区别,大概来源于这几个词:声波、频谱、声音、共振峰、强度。如果鉴定人说的是声波,那肯定是指波形图(见图1),指的是强度。在语音学的声纹识别中,不是主要特征,主要特征是共振峰***振动峰(见图2)。