声纹识别与语音识别技术都可以识别不同人的特殊点,可是它们有什么区别呢?这二项技术主要用在哪些方面,请详细的叙述一下,谢谢
网友回答
声纹识别(Voiceprint Recognize),是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需要电话和麦克风即可,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式。
其实要区别这二种技术,很简单,你可以让你的几个熟人分别都喊一声“啊”,你能分辨出是谁喊的,这就是“声纹识别”。声纹识别实际是分析声音的“音品(音色)”——既其中的高次谐波的频谱特征(物理说声音有三特征:频率、音量、音品)。
要听出那人说的是些什么字词,则是“语音识别”。
说到底,其实就是:声纹识别是判断是否是这个人的声音,而语音识别则是看看这个人说了些什么,一个重点是在判断身份,一个重点是在内容,这个明白了吧!
网友回答
声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断;但它与语音识别又有区别,其目的不是识别语音的内容,而是识别说话人的身份,因此它不注重语音信号的语义,而是希望从语音信号中提取个人声纹特征"从这点上说,声纹识别是企求挖掘出包含在语音信号中的个性因素,而语音识别是从不同人的词语信号中寻找共同因素"由于以上区别,在处理方法上,说话人识别力图强调不同人之间的差别,而语音识别力图对不同人说话的差别加以归一化,力争排除由不同说话人引起的差异。
网友回答
我刚发现原来语音识别和声纹识别是两个有着本质区别的研究领域。前者要考虑语言的内容,而后者则更注重声音特征。前者目的是让机器听懂人说的话并能将其转换成文本,后者目的则是让机器自动识别说话人身份。
然而,二者的系统构成却又有些相似,都含有特征提取与模式匹配,只不过语音识别的特征提取是从语音波形中提取重要的反映语音特征的相关信息,可根据人听觉系统的心理学模型(eg. MFCC参数)提取,也可根据人声道原理(eg. 线性预测编码LPC参数反映formant的一些性质)来提取,但一定要去掉说话人的特征。而声纹识别则是要提取语音信号中表征人的基本特征。 在模式匹配中,两者都是以隐含马尔科夫模型HMM为主导算法。
从研究角度来讲,语音识别似乎面临的挑战更大,前景更加扑朔迷离。想让机器克服诸多不利因素而像人那样与我们自由交流,我感觉有点脱离现实。其实我本身对人工智能就一直抱以怀疑的态度。我觉得机器只能通过优化我们的程序而无限接近于智能,但永远达不到像人一样的智能。但是声纹识别的研究好像能更快地达到我们的目的,如今已经部分运用到了声控锁,证券交易,国防监听等等领域。
现在我正在这两者的选择中摇摆不定,一下午加一个晚上都没写出个研究计划来,真希望得到高人的指点啊!
网友回答
对于语音识别,先说学术界,什么HTK,Sphinx都是过时的了,Kaldi 才是state-of-the-art; 比如, 有各种公开dataset完整的recipe及很多相应的best WER, FST based architecture,完全open source,有活跃的开发者和使用者的论坛,维护和更新非常及时,每天都有新的mit。具体说些最近进展,neural networks parallel training across GPUs,natural gradient-stabilized SGD,以及还在开发中的nnet3 to support more general kinds of networks like RNN, LSTM,等等吧。对于工业界,美国和中国很多创业公司都在直接使用/修改Kaldi做产品,很多知名大公司内部research部门都在用Kaldi做研发。就不具体点名了,no kidding,因为Kaldi是可以商用的。