语音识别简述

2016/05/19 Survey

最近有门课程让我们短时间去了解一个领域,并且做一个文献综述,我看了看几个给题, 还是ASR最好写了,像机器学习、图像处理这些都太宽太泛了。

摘要: 语音识别是一个令人兴奋的研究领域,并在60年以来吸引了不少研究者。本文将会给出语音识别的定义、基础模型,并对语音识别发展脉络、发展方向做出一些简短的阐述。另外是介绍一些当今研究领域中对于语音识别系统的方法,特别是占据主流语音识别系统的隐马尔科夫模型(HMM)以及近年来越来越受到追捧的深度神经网络(DNN)方法。但随着语音识别技术日渐成熟,仍有一些挑战和困难,比如通用的复杂的环境因素、多变的语音变量、语音系统评估等。

关键字: 研究脉络;HMM;深度学习;展望

1    介绍和研究意义

   语音是人们日常交流活动的最基本、也是最有效的一种方式 [1],从而面向计算机人们也非常希望能够通过直接对话的方式进行交流和传递信息。因此语音识别系统的构建显得十分关键。

   什么是语音识别? 它的全称是自动语音识别(Automatic Speech Recognition):它是一个能够通过一系列计算机程序构建的算法将语音信号转换成文字序列的过程[2]。也就是说通关过ASR计算机能够“听”懂人所讲述的话,并且再进一步改进后能够与人类进行交流。

   很显然,ASR的研究是很让人激动的,如果能实现通用的ASR系统应用于不同的环境,这将便捷信息检索、语言翻译、语言教育等,极大地改善人类的生活。

2    背景及研究脉络

   语音识别技术在过去的60年里吸引了大量研究者的注意,最早可以追溯到20世纪二、三十年代,如早期(1939年)贝尔实验室在纽约世博会上展示了他们的语音综合机器。

   而语音识别的重大发展是在20世纪70年代中叶,那个时代见证了在孤立字识别领域上许多里程碑式的进步。首先俄国的研究者们展示了在语音识别中运用模式识别(Pattern Recognition)的想法,日本的研究者成功运用到了动态编程编码(Dynamic Programming code),如板仓提出的线性预测编码成为低位速下编码(LPC)方法高质量语音最有用的方法之一。另一个值得注意的是卡内基梅隆大学在1973向世人展示了Heresay I语音理解系统,能够在1011个单词的词汇表中以较好的准确性识别语音。

   而80年代起在连接词识别上获得了比较好的成效,特别是隐马尔可夫模型(Hidden Markov Model,下面简称HMM)[11] 的发展并被大范围的接受,其作为模式匹配策略被当时的很多公司采用和商业化,就算到40多年后的今天也是占据主导的声学模型算法之一。另外就是神经网络的发展,但是在当时由于一些实践上的原因,并没有像HMM那样成功。

   语音识别的最具转折性和建设性的发展归因于统计方法的引入,包括HMM、期望最大化(EM),最大互信息(MMI)等。另外是信号表述技术的发展,如梅尔频率倒谱系数(MFCC)[12],感知线性预测常数(PLP)等。

   基于摩尔法则的硬件技术进步使得ASR研究者能在很短时间内跑一些复杂的算法,另外还有一些大的语音语料库的构建使得语音识别的模型、算法在后来的几十年里不断地改进和延伸。

   时至今日,由于硬件的支持、GPU的发展使得深度学习不断发展,许多研究者从传统的高斯混合模型(GMM)和HMM结合转向深度神经网络(DNN)与HMM结合,并取得了不小的成效 [3]。深度学习以及深度神经网络在语音处理方向上的应用仍是当今研究的热潮之一。

   除了在模型上的不断发展以外,另外有两点值得可喜的发展:一是语料库的不断完善和数据集的不断增多(如TIMIT、TI46数据集等),二是面向大量音频数据处理的工具的出现和不断完善(如CMU的Sphinx,剑桥大学的HTK等)[4]。

3    目前的语音识别技术

3.1    基础语音识别模型

   一个标准的语音识别模型首先假定有一串输入序列 $O = {O_1, O_2, .., O_n}$, 以及符号词典 $W = {W_1, W_2, .., W_n}$, 求解对于该输入序列解码出符号串(输出语句)$W = {W_1, W_2, .., W_k}$。通过数学转化成求解以下概率的最大值:

   其中 $P(O \mid W)$ 被称之为声学模型,$P(W)$ 被称为语言模型。

   该模型的求解过程如图1所示,其中的搜索,就是依据对公式中的声学模型打分和语言模型打分,寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。

3.2   当今的语音识别方法

3.2.1   特征抽取

   在语音识别中,特征抽取的主要目的是在给定一个紧凑的输入信号表示计算出特征向量的简约序列。主要分成三个步骤:语音分析(语音前端声学处理);编译成包含动静态的扩展特征向量;将这些扩展后的特征向量转化成影响因子更大的向量,然后提供给识别器。

   现在主要有下面的一些模型:1.主元成分分析(PCA);2.线性判别式分析(LDA);3.独立成分分析(ICA);4.线性预测编码; 5. 倒谱分析;6.梅尔频率倒谱系数(MFFC)7. 滤波器分析;8.基于核函数的特征抽取等 [2]。

3.2.2    语音识别方式

   声学语音学方法:主要步骤为语音谱段分析、特征提取;分割并标注语段:声音信号被分割成几个稳定的语音区,并进行匹配标注;从语音标注序列中判断一个词或者一串词是否有效。

   模式识别方式:包括1.基于模板的模式识别;2.随机模型法(最有名的就是上文提到的(HMM));3.动态时间规整(DTW);4.矢量量化(VQ)

   人工智能方式:基于知识的专家系统。

   神经网络方式:多隐藏层的深度神经网络(DNN),比如微软研究院的研究[4];深度循环网络(RNN)训练,比如多伦多大学的研究 [5]。

3.2.3    现今语音识别系统

   现今的语音识别系统主要使用下列两个方式。

   一是使用HMM解决语音的时间变率,然后用高斯混合模型(GMMs)决定每个HMM状态对声学输入的拟合好坏。

   另一个是用前向传播神经网络去评估拟合好坏,即用系数的一些帧作为输入,以HMM状态的后端概率作为输出。这种深度神经网络的方式已经越来越体现出它的优势性。

3.3    存在的问题及原因

   一是处理环境噪声和缺失信息的处理, M. Cooke等人在 [6]中讨论了这个问题,未来的语音识别系统还是要更优化地解决它。

   二是各种变量对于语音处理的挑战。M.Bengzeghiba等人在 [7]中描述了一系列变量比如说话风格,演说人的生理因素,年龄,情绪等。

   三是对于语音系统可行度的评估分析, H. Jiang 在 [8]中提到了一些置信度分析方法,但仍存在不少问题。

   四是对于数据中一些不能被词典所包括的超纲词汇以及生僻字对于语音识别的影响研究

   1994年摩尔展示了20个语音识别机制的主题[10],在现在仍是语音发展的关键。

4    进一步发展与研究概述

   在以后的研究和发展过程中大致有以下一些需要投入研究[9]:

   一是对于置信度的研究分析的改进,需要一个更加通用的评估手段。

   二是日常音频的不断堆积,需要有更加强大的ASR系统在大范围的语音、发音人、频道和娱乐因素环境下去处理声学环境的多变性、混响、外部噪音、交流频道等。

   三是自我适应(学习)的语言技术研究。

   四是对于数据中一些不能被词典所包括的超纲词汇以及生僻字对于语音识别的影响研究

   1994年摩尔展示了20个语音识别机制的主题[10],在现在仍是语音发展的关键。

5    见解与感想

   对于语音识别技术的研究是令人兴奋的,尤其是统计学习的引进使得这个领域发展迅速。在研究该领域的时候,需要重点对主流算法,比如隐马尔可夫(HMM)的研究,文献[11] 提供了一个系统的HMM的详细描述。 针对于主流算法的不足进行发散思考。

   另外是由于现在的深度学习研究热潮中,对于深度神经网络在语音识别中的研究也是非常关键。

   最后是如果能够提供更为强大的语音识别评估系统对这个领域的研究将提供非常大的帮助。

6    参考文献

[1] Harpreet Singh, Ashok Kumar Bathla, “A Survey on Speech Recognition” in ISSN Volume No. 2, Issue No. 6, June 2013

[2] M.A.Anusuya, S.K.Katti, “Speech Recognition by Machine: A Review” in IJCSIS Vol. 6, No. 3, 2009

[3] Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition”* in IEEE SIGNAL PROCESSING MAGAZINE November 2012*

[4] Li Deng, Jinyu Li, Jui-Ting Huang, Kaisheng Yao, Dong Yu, Frank Seide, Michael L. Seltzer, Geoff Zweig, Xiaodong He, Jason Williams, Yifan Gong, and Alex Acero, “Recent Advances in Deep Learning for Speech Research at Microsoft” in IEEE International Conference on Acoustics, Speech and Signal Processing May 2013

[5] Alex Graves, Abdel-rahman Mohamed and Geoffrey Hinton, “Speech Recognition with Deep Recurrent Neural Networks” in IEEE International Conference on Acoustics, Speech and Signal Processing May 2013

[6] Martin Cooke, Phil Green, Ljubomir Josifovski, Ascension Vizinho, “Robust automatic speech recognition with missing and unreliable acoustic data”* in SPEECH COMMUNICATION May 2000*

[7] M. Benzeghiba, R. De Mori, O. Deroo, S. Dupont , T. Erbes, D. Jouvet, L. Fissore, P. Laface, A. Mertins, C. Ris, R. Rose, V. Tyagi, C. Wellekens, “Automatic speech recognition and speech variability: A review” *in SPEECH COMMUNICATION Volume 49, Issues 10–11, October–November 2007

[8] Hui Jiang, “Confidence measures for speech recognition: A survey” in SPEECH COMMUNICATION December 2004

[9] Janet M. Baker, Li Deng, James Glass, Sanjeev Khudanpur, Chin-Hui Lee, Nelson Morgan, and Douglas O’Shaughnessy, “Research Developments and Directions in Speech Recognition and Understanding, Part 1” in IEEE SIGNAL PROCESSING MAGAZINE May 2009

[10] Yang Liu et.al, “Enriching Speech Recognition with Automatic Detection of sentence Boundaries an disfluencies” in IEEE Transactions on Audio, Speech and Language processing, V.14, No.4, July 2006

[11] L.R.Rabiner, “A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition” in Proc.IEEE February 1989

[12] S. Davis and P. Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences” in IEEE Trans. Acoust. Speech Signal Processing, vol. 28, no. 4, pp. 357–366, August 1980

Search

    Table of Contents