您好,欢迎来到聚文网。 登录 免费注册
新一代人工智能与语音识别

新一代人工智能与语音识别

  • 装帧: 平装
  • 出版社: 清华大学出版社
  • 作者: 马延周
  • 出版日期: 2018-04-01
  • 商品条码: 9787302523840
  • 版次: 1
  • 开本: 16开
  • 页数: 145
  • 出版年份: 2018
定价:¥44.5 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析;建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。
内容简介
本书系统介绍基于新闻语料的俄语连续语音识别方法。全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。
作者简介
"马延周,男,战略支援部队信息工程大学洛阳校区,副教授,博士研究生 1996-2000,解放军信息工程大学学员,计算机应用专业 2000-2005,解放军外国语学院基础部讲师 2005-2008,解放军信息工程大学硕士研究生,计算机技术应用 2008-2012,解放军外国语学院基础部讲师 2012-2016,解放军外国语学院博士研究生,语言信息处理(语音识别) 2013-2015,中国科学技术大学、科大讯飞研究院访学,主要研究连续语音识别 2016-,解放军信息工程大学洛阳校区(原解放军外国语学院)副教授 从教18年来,主要承担计算机类、语言信息类本硕博课程的主讲与辅导任务,主持或参与的重量、省部级、院校级各类项目17余项是,主编或参编的教材4部。科研成果主要集中在多语种的信息处理(如语音识别、关键词识别、声纹识别等领域)及多语种语料的采集处理等领域。 2016年博士论文获解放军外国语学院优秀博士论文,排名第一。 2017年申报河南省优秀博士论文,2018年4月获批河南省优秀博士论文(当年,全省15篇优秀博士论文)。"
目录
第0章绪论1 0.1研究依据1 0.2研究对象与研究目标2 0.3研究方法3 0.4研究意义3 0.5本书的创新点4 0.6语料来源4 0.7本书的结构5 第1章语音识别技术研究综述7 1.1语音识别的定义与分类7 1.1.1语音识别的定义7 1.1.2语音识别的分类8 1.2语音识别技术的研究进展9 1.2.1语音识别技术的发展概况9 1.2.2国外俄语语音识别技术的研究进展10 1.2.3中国俄语语音识别技术的研究进展13 1.3语音识别系统的基本原理14 1.3.1特征提取15 1.3.2声学模型16 1.3.3语言模型17 1.3.4解码18 1.4语音识别技术研究所关注的关键问题19 本章小结21〖4〗新一代人工智能与语音识别〖2〗目录〖4〗第2章语音数据的加工处理22 2.1问题描述22 2.2众包的定义及内涵23 2.2.1众包的基本概念23 2.2.2众包的基本流程24 2.2.3众包的关键问题24 2.3解决方案25 2.3.1质量控制25 2.3.2语音标注平台的架构27 2.3.3标注平台的设计与实现28 2.4语音标注31 2.4.1语音有效性判断31 2.4.2语音转写规范32 2.4.3语音标注规范32 2.5实验设计与结果分析33 2.5.1实验设计33 2.5.2结果分析34 2.5.3结论36 本章小结36 第3章俄语声学模型的建立37 3.1连续语音识别37 3.1.1连续语音识别的整体模型38 3.1.2声学模型训练的HMMGMM方法40 3.1.3声学模型训练中的HMMDNN方法48 3.2俄语语音学概述52 3.2.1俄语的使用及分布情况52 3.2.2俄语语音的基本特点55 3.2.3俄语音素的发音特征56 3.2.4俄语元音音素的随位变化58 3.2.5俄语辅音音素的随位变化60 3.3俄语声学单元的选择61 3.3.1俄语SAMPA音素集61 3.3.2俄语音系表64 3.4实验设计与结果分析64 3.4.1实验设计65 3.4.2结果分析66 本章小结67 第4章俄语语言模型的建立68 4.1文本语料的准备与清洗68 4.1.1数据来源的筛选69 4.1.2数据爬取71 4.1.3数据的去重与清洗71 4.1.4格式化处理74 4.2语言模型简述75 4.2.1语言模型的平滑技术77 4.2.2语言模型的剪枝算法81 4.3语言模型的训练流程84 4.3.1语言模型的训练实现84 4.3.2词典的选择85 4.3.3LM的剪枝与优化87 4.4实验结果分析89 4.4.1词典规模测试89 4.4.2语料规模测试89 4.4.3语言模型剪枝测试90 本章小结91 第5章基于Kaldi的俄语语音识别原型系统92 5.1系统设计的目标与原则92 5.1.1系统设计的目标92 5.1.2系统设计的原则92 5.2系统的开发环境与整体架构93 5.2.1系统的开发环境93 5.2.2系统的整体架构93 5.3Kaldi环境的搭建94 5.3.1Kaldi及实验环境94 5.3.2Kaldi训练服务器的搭建96 5.3.3AM训练数据及参数设置98 5.3.4LM训练数据及参数设置107 5.4Kaldi训练优化111 5.4.1Kaldi声学建模111 5.4.2GPU加速113 5.5语音识别原型系统的设计114 5.5.1系统GUI的设计114 5.5.2在线识别功能114 5.5.3离线识别功能117 5.6实验设计与结果分析119 5.6.1实验设计119 5.6.2实验结果119 5.6.3结果分析120 本章小结121 第6章总结与展望122 6.1本书的主要成果122 6.2未来的研究计划123 附录A英汉术语对照表124 附录B其他相关资料126 B.1俄语发音词典(76277个词形)示例126 B.2俄语解码词表(189971个词形)示例127 B.3俄语字符Unicode编码对照表128 B.4俄语语音格式化程序(转换为16KB、16b)128 B.5俄语文本转Unicode编码程序129 B.6从https: //twitter.com网站上下载的部分网页文件 (json格式)示例131 B.7从http: //www.interfax.ru网站上下载的部分网页 文件(json格式)示例131 B.8俄语拉丁字母转写表132 参考文献134
摘要
    第3章
     俄语声学模型的建立
     接正文声学模型的建立是语音识别研究的核心问题,而基本识别单元(即音素)的确定和选择又是语音建模的基础。从语音学角度来讲,连续语音(即语流)中的音素是一种线性单位,这种线性单位是从连续语流中切分出来的,是最基本的组成单位,由音素可以组成形素和词形,进而组成语句。俄语声学模型的建立首先需要设计俄语的音素集,音素集的确定不仅要考虑俄语语音学知识,如音素的发音特征、元辅音的随位变化、语流之间的影响、上下文之间的关系等特征,还要考虑计算机对其进行处理的便捷性,以便于计算机对俄语语流进行处理。此外,发音词典音素的正确性对于识别系统也是相当重要的,错误的发音标注会极大地影响系统的识别率。本章从俄语语音学角度出发,通过对俄语语音特征进行分析对比,选择和修改SAMPA音素集并将其作为俄语声学单元。同时,结合大词汇量数据驱动方法制定俄语字音转换规则,利用统计学习算法预测俄语单词的发音,通过实验对比验证俄语字音转换的有效性与准确率。
     3.1连续语音识别
     连续语音识别处理的是自然朗读的语音,是语音识别中意义优选、应用成果最丰富、最有挑战性的课题。一般情况下,连续语音识别系统的词错误识别率是孤立词识别系统的3~5倍,当词汇量大于1000时,容易混淆的发音相似词数量大大增加。自20世纪90年代以来,语音识别主要集中在如何提高连续语音识别的性能,尤其对英语和汉语的语音识别取得了较为明显的成果,但对连续俄语语音识别的研究和应用尚处于探索阶段。
     连续语音识别存在以下两个方面的问题。
     ① 语音切分。由于连续语音的时长较长,识别时需要将输入的语流切分成更小的组成部分。连续语流之间的间隙很短,识别时需要把各个词切分开,因此系统只能够识别词形的边界,这实现起来比较困难。
     ② 发音变化。连续语音的发音受协同发音的影响比较严重,特别是受俄语发音中重音变化的影响尤其明显。同一音素在连续语音中随着上下文的不同而表现出不同的发音,这一现象就是协同发音。协同发音在小词汇量识别中可以通过音素的不同选择避免,但随着系统中词汇量的提高,以词或词组作为识别单位则不太可能,因为模板数目很大甚至是天文数字。因此,大词汇量连续语音识别通常以音素作为识别单位,此时协同发音问题无法避免。
     连续语音识别研究的大多数问题均与相应的语言学和语音学知识有关,特别是针对大词汇量连续语音识别,要特别注重语音学相关知识的综合运用。
     〖4〗新一代人工智能与语音识别〖2〗第3章俄语声学模型的建立〖4〗3.1.1连续语音识别的整体模型
     连续语音识别系统的主要组成部分包括声学模型、语言模型和发音词典,识别时经过特征提取的输入端语音文件,在语音解码和搜索算法判决后即可输出对应的文本,其原理如图3?1所示。
     图3?1连续语音识别的原理
     大词汇量连续语音识别的基本框架由3个层次构成,即声学语音层、词法层和句法层,如图3?2所示。
     图3?2大词汇量连续语音识别的基本框架输入语音经特征提取后得到特征矢量序列: 在声学语音层,每个子词由一个HMM及相应的参数表示,利用声学特征对所有子词进行搜索,得到候选子词序列;然后,在词法层根据词法构词信息及语言模型进行词条搜索,得到候选词条序列;最后根据语法、语义信息等句子的语言模型进行句法层搜索,得到识别结果。这样,由最初的声学特征矢量出发,逐层搜索,依次扩大至子词、词条,直到最后的语句。
     由于孤立词识别中的词汇量相对较少,因此可以利用穷尽法得到很优的词汇匹配。连续语音识别中的穷尽法的计算量非常大,词汇概率的计算需要在语言模型下进行。语言模型可以采用有限状态网络进行计算,可以与声学模型统一到基于HMM的概率模型中,识别可在统一的概率模型上进行。
     图3?3采用HMM统一框架的语音识别模型
     如图3?3所示,基于HMM的统一框架,分别建立声学语音层、词法层和句法层的语音识别系统模型。其中,声学语音层为系统的底层,输入是以词为单位的语音片段,输出是音节、半音节、音素、音子等,音子是比音更小的语音单位,可将其作为语音识别的基本单位。对于每个基本识别单位,至少需要建立一套HMM的结构和参数,而每一个HMM中最基本的组成单位则是状态以及状态之间的转移弧。词汇表中的每一个词是由哪些音素或音子串接而成交由词法层规定,而词按照何种规则构成一个句子则由句法层规定。在HMM的统一框架下,句法描述不是按规则或转移网络的形式,而是采用概率式结构。句子由若干词条构成,词条由音子构成,音子HMM的构成单位是状态及转移弧,因此句子最终描述为包含众多状态的状态图,所有可能的句子构成一个大系统的大状态图。在识别过程中,需要在大状态图中搜索一条路径,其对应的状态图产生输入特征向量序列的概率为优选,该状态图所对应的句子就是识别的结果。
     HMM统一框架必须解决的问题是在状态图中搜索出很好路径,为每一个音子建立HMM,建立既符合应用要求,又有高效算法的统计语言模型。建立音子HMM是一项细致的工作,本书选择音子而不选择词或音素为基本识别单位的主要原因是词的数量太多,存储空间太大,而音素在不同上下文情况下有不同的发音(协同发音)。对大词汇量连续语音识别而言,最终目的是从各种可能的子词序列形成的一个网络中寻找一个或多个很优的词条序列。对于俄语连续语音识别声学模型来讲,一般采用音素为基本识别单元,然后组成形素、词形和句子。
     3.1.2声学模型训练的HMM?GMM方法
     声学模型训练的主要问题是减少训练时间或复杂程度。对于多个讲话者或讲话者不确定的情况,需要不同年龄、性别、籍贯的录制人的语音资料,并进行聚类以得到参数。考虑到语音的时变性,模板或语音库参数每过几个月就要更新。目前,这方面的研究集中于自适应或自学习上,即当模板或语音库参数与当前语音存在差异时,可以自动修改参数以适应当前的识别要求。目前常用的连续语音识别方法有: HMM方法和ANN方法。
     HMM的理论基础是概率统计学,自20世纪80年代以来,HMM模型被应用到语音识别研究领域并取得了巨大的成功,HMM模型成为各个研究机构的重点课题,该理论在模式识别领域是一项重大突破,也是自20世纪以来信号处理领域的一项非常重要的研究成果。HMM 作为一种概率统计模型,不但可以有力地描述时序动态信号的变化规律,而且还能对语音信号特征分布的概率问题进行分析,作为一种模型分析工具,对于准平稳时变语音信号的分析和语音信号的识别起到了重要作用。
     HMM模型属于马尔可夫链的一种,该模型是一个双重随机过程,一个过程是马尔可夫链,用来描述短时平稳信号的时变过程,表明了HMM模型中每个状态之间的转移关系,这个过程是可以观测到的。用来描述模型的状态个数与其观察值之间的对应关系是另一个随机过程,在这一随机过程中,只能得到信号的观察值,而对于其相应的状态,并不能通过图形得到,由于模型状态隐含在观测值序列中,因此该过程是隐蔽的。这两个随机过程之间是相互联系的,不仅描述了信号的动态变化过程,而且解决了短时平稳信号之间的过渡问题。人类的语言过程也是一个准双重随机过程,发出的语音信号被认为是短时平稳信号,能够被人听到,可是隐含在语音信号中的语义非常丰富,而这些语义信息却不能够直接获得。HMM的一般过程为: 首先采用Baum?Welch算法,通过迭代使观察序列与模型符合的概率P(Y|λ) (Y为当前样本的观测序列)达到某种极限,训练出信号的很好模型参数λ=(π,A,B);然后,在识别过程中,采用基于整体约束很优准则的Veterbi算法,计算当前语音序列与似然概率P(Y|λ),选择很好状态序列,并由此确定输出的结果。
     下面简要介绍HMM?GMM框架的基本原理、建模方法和实验过程。
     1. HMM的定义
     如图3?4所示,x表示状态数据,y表示可观察序列,a表示状态转移概率,b表示输出概率。
     图3?4隐马尔可夫模型的概率参数
     ANS表示一个由不可见节点(unobservable)和可见节点(visible)组成的马尔可夫过程。
     不可见节点表示状态,可见节点代表能够听到的语音或能够看到的时间序列信号。
     在指定HMM结构和训练HMM模型时,给定n个时间序列信号y1,…,yT(训练样本),采用MLE估计参数,初始化概率有N个状态、a代表状态转移概率、b代表输出概率。
     在语音信号处理过程中,一个单词由若干音素组成;每一个HMM可以对应一个单词或音素;一个单词表示为若干状态(states),每一个状态用一个音素表示。
     HMM需要解决三个主要问题: 评估问题、解码问题、训练问题。
     ① 评估问题。一个HMM模型可以生成一串可观察序列x的概率(前向算法)。
     Initializationa0(si)=1
     a0(sj)=0,if sj≠si(3?1)Recursionat(sj)=∑Ni=1at-i(si)aijbj(xt)(3?2)Terminaitonp(x|λ)=aT(sE)=∑Ni=1aT(si)aiE(3?3)其中,at(sj)表示HMM在时刻t处于的状态j,且observation={x1,…,xt}的概率at(sj)=p(x1,…,xt,S(t)=sj|λ),aij为状态i到状态j的转移概率,bj(xt)表示状态j生成xt的概率。
     ② 解码问题。给定一个可观察序列x,找出最有可能对应的HMM状态序列(维特比算法)。
     在具体计算中要进行剪枝处理,不是计算每一个可能状态序列的概率,而是采用维特比进行逼近。
     从时刻1~t,只须记录其中转移概率的优选状态和对应概率。
     记Vt(si)为从时刻t-1的所有状态转移到时刻t时的状态为j的优选概率,即Vt(sj)=maxiVt-1(si)aijbj(xt)(3?4)记btt(si)为从时刻t-1的某个状态转移到时刻t时的状态为j的概率优选。
     维特比的逼近过程如下。
     InitializationV0(si)=1
     V0(sj)=0if sj≠si
     bto(sj)=0(3?5)RecursionVt(sj)=maxNi=1Vt-1(si)aijbj(xt)
     btt(sj)=argmaxNi=1Vt-1(si)aijbj(xt)(3?6)TerminaitonP?=VT(sE)=maxNi=1VT(si)aiE
     s?T=btT(qE)=argmaxNi=1VT(si)aiE(3?7)根据最有可能的状态序列btt(si)的记录进行回溯,如图3?5所示。
     图3?5通过回溯法寻找很好状态序列
     ③ 训练问题。给定一个可观察序列x,训练出HMM参数λ={aij,bij}(前向-后向算法)。
     2. GMM定义及使用GMM求某一个音素的概率
     ① 混合高斯模型就是指几个高斯的叠加,如k=3,如图3?6所示。p(x)=∑pj=1P(j)p(x|j)=∑pj=1P(j)Nj(x:μj,σ2j)(3?8)② GMM的状态序列。
     每个状态对应一个GMM,其中包含k个参数(高斯模型),如hi(k=3),如图3?7所示。
     图3?6GMM的说明和x的概率
     图3?7使用GMM估计状态序列
     给定观察的概率
     图3?8一个GMM的参数其中,每一个GMM包含的参数就是要训练的输出概率参数,如图3?8所示。
     与K?Means类似,假如已知的每个点x^n属于某一类j的概率p(j|x^n),就可以估计它的参数为
     μ^j=∑nP(j|xn)xn∑nP(j|xn)=∑nP(j|xn)xnN?j σ^2j=∑nP(j|xn)||xn-μk||2∑nP(j|xn)=∑nP(j|xn)||xn-μk||2N?j
     P^(j)=1N∑nP(j|xn)=N?jN
     N?j=∑nn=1P(j|xn)(3?9)这些参数若已知,就可以在识别时在给定输入序列的情况下计算状态转移概率。
     图3?9给定O概率情况下S的概率
     3. 利用HMM?GMM解决语音识别
     (1) 识别。
     首先把语音文件(波形)切分成等长的帧,对每一帧文件提取特征(运用MFCC算法),并计算其GMM,得到每一帧(o_i)对应于每一个状态的概率b_state(o_i),如图3?10所示。
     图3?10从语音完整的过程数据帧到一个状态序列
     通过每个单词的HMM状态转移概率a计算出每个状态序列生成该帧的概率;哪一个词的HMM序列概率优选,就确定这段语音对应于哪一个词。
     语音识别总体框架如图3?11所示。
     图3?11语音识别总体框架
     (2) 训练。
     训练模型可以得到GMM的参数和HMM的转移概率。
     ① GMM参数训练。
     GMM参数中的高斯分布参数为mean vector μj和Covariance matrix∑j。
     求上述参数前首先要知道P(j|x),即x属于第j个高斯的概率。P(j|x)=P(x|j)P(j)P(x)(3?10)根据式(3?10),需要求P(x|j)以及P(j)以估计P(j|x)。
     但P(x|j)和P(j)未知,需要使用EM算法迭代估计以使得优选化P(x)=P(x1)?P(x2)?…?P(xn)。
     初始化后(采用K?means)得到P(j)后迭代。
     估计: 根据当前已知参数估计P(j|x)。
     优选化: 根据已知P(j|x)计算GMM参数。μ^j=∑nP(j|xn)xn∑nP(j|xn)=∑nP(j|xn)xnN?j
     σ^2j=∑nP(j|xn)||xn-μk||2∑nP(j|xn)=∑nP(j|xn)||xn-μk||2N?j
     P^(j)=1N∑nP(j|xn)=N?jN
     N?j=∑nn=1P(j|xn)(3?11)② HMM参数训练。
     上面介绍了GMM的参数训练,下一步将从可观察序列中估计HMM的参数λ。
     设状态→可观察序列服从单高斯概率分布: bj(x)=p(x|sj)=ξ(x:μj,∑j),则λ由参数λ和转移概率aij组成,即∑aij=1(3?12)高斯状态sj参数为mean vector μj和Covariance matrix∑j。
     HMM训练过程: 迭代。
     E估计步骤: 给定可观察序列,估计在时刻t处于状态sj的概率 γt(sj)。
     M优选化步骤: 根据γt(sj)重新估计HMM的参数aij。
     为了估计γt(sj),需要定义βt(sj),即t时刻处于的状态sj以及t时刻未来可观察的概率,即βt(sj)=p(xt+1,xt+2,xT|S(t)=sj,λ),可以递归计算为
     InitializationβT(si)=aiE(3?13)Recursionβt(si)=∑Nj=1aijbj(xt+1)βt+1(sj)(3?14)Terminaitonp(x|λ)=β0(s1)=∑Nj=1a1jbj(x1)β1(sj)=αT(sE)(3?15)即定义刚才的γt(sj)为状态发生概率,表示给定的可观察序列以及时刻t处于的状态sj的概率P(s(t)=sj|x,λ)。根据贝叶斯公式P(A,B|C)=P(A|B,C)P(B|C),有: P[S(t)=sj|X,λ]=P[X,S(t)=sj|λ]p(X|λ)(3?16)由于分子P[X,S(t)=sj|λ]为αt(sj)βt(sj)=p[x1,…xt,S(t)=sj|λ]p[xt+1,xt+2,XT|S(t)=sj|λ]
     =p[x1,…xt,xt+1,xt+2,XT|S(t)=sj|λ]
     =p[X,S(t)=sj|λ](3?17)其中,αt(sj)为隐马尔可夫模型在时刻t所处的状态j,且可观察序列为{x1,…,xt}的概率αt(sj)=p[x1,…xt,S(t)=sj|λ]。
     βt(sj)表示在t时刻处于的状态sj以及t时刻可观察序列的概率,且p(X|λ)=αT(sE)。最后代入γt(sj)的定义公式得: γt(sj)=P[S(t)=sj|X,λ]=1αT(sE)αt(j)βt(sj)(3?18)因此,只要给定了可观察序列和HMM的参数λ,就可以估计γt(sj)了。
     M优选化步骤: 根据γt(sj)重新估计HMM的参数λ。
     针对λ中的高斯参数部分,利用和GMM一样的优选化过程,可得:μ^j=∑Tt=1γt(sj)xt∑Tt=1γt(sj)
     ∑^j=∑Tt=1γt(sj)(xt-μ^j)(x-μ^j)T∑Tt=1γt(sj)(3?19)对于λ中的状态转移概率aij,定义C(si→sj)为从状态si转移到sj的次数,则有a^ij=C(si→sj)∑KC(si→sj)(3?20)在实际计算时,定义每一时刻的转移概率ξt(si,sj)为时刻t从si转移到sj的概率,则有ξt(si,sj)=P[S(t)=si,S(t+1)=sj|X,λ]
     =P[S(t)=si,S(t+1)=sj,X,λ]p(X,∧)
     =αt(si)aijbj(xt+1)βt+1(sj)αT(sE)(3?21)进一步得到a^ij=∑Tt=1ξt(si,sj)∑Nk=1∑Tt=1ξt(si,sj)(3?22)因此,HMM的EM迭代过程如下。
     E估计步骤:
     全部时间状态对;
     递归计算前向概率αt(sj)和后向概率βt(j);
     计算状态发生概率γt(sj)和ξt(si,sj)。
     M优选化步骤:
     根据估计状态所产生的概率重新估计隐马尔可夫模型的参数,如均值μj、协方差矩阵∑j和转移概率aij。HMM?GMM框架在声学建模中的作用如图3?12所示。
     图3?12HMM?GMM框架
     HMM?GMM框架由于具备较完善的理论体系,包括自适应、决策树状态聚类技术、声学模型区分性训练等相对成熟的算法,以及诸如HTK开源工具等,该框架受到了诸多研究者的喜爱,并在LVCSR上取得了较多突破。
     3.1.3声学模型训练中的HMM?DNN方法
     20世纪80年代,人工神经网络(ANN)开始被研究者关注,由于其有较强的自组织能力和区分模式边界能力,因此非常适合于解决语音识别的分类问题。ANN是一种计算模型,它比较类似于人类的认识过程,是一个自适应的非线性的动力学系统,它模拟了人类的神经元活动的基本原理,因此具有自适应、容错、并行及学习的特性。受限于技术原因,通常只针对其静态模型进行设计。因为语音信号是时变信号,语音识别技术在应用神经网络时需要对其进行修正,使其能够反映输入语音信号的时域特性。
     ANN能够持续不断地修改自身的权值参数,并根据具体任务需求和训练集中数据的不同分布进行非线性映射,通过迭代过程逐步接近目标。训练完成后,网络中的每个神经元都存储了目标模式,这就是神经网络的自学习功能,因此其在各种模式下的分类任务以及智能信息处理全过程中均得到了广泛应用。
     近年来,深度学习(Deep Learning,DL)在语音信号处理、语言信息处理等领域得到了广泛应用。作为一种机器学习方法,深度学习利用多个层次的非线性信号和信息处理技术进行有监督或无监督的训练,旨在提取信号特征、信号之间的转换和模式的分类等。此处,所谓“深度”指的是采用深层的结构模型对语音信号进行处理。
     随着深度学习技术的快速发展,众多研究人员将DNN应用到了语音识别研究中,语音识别系统的性能因此得以明显提升。ANN以新的面貌DNN展现出来,引发了学术界和工业界的空前关注。通常,DNN被定义为具有两个或两个以上隐层的多层感知器,DNN已经成为语音识别领域的研究热点,相关技术可显著提升声学模型的性能。典型的DNN拓扑结构如图3?13所示。
     图3?13典型的DNN拓扑结构
     1. DNN的数学表达
     深度神经网络实际上是一个多层感知器(MLP),在结构上具有很大程度的扩展,它包含多个隐层(一般有5个以上),输出层也由较大粒度、较少数目的类别目标变换成了较小粒度、庞大数目的类别目标,通常会使用一些有效的训练方法进行网络参数等的初始化,而这恰好是保证DNN能够被快速有效地训练并取得很好性能的重要因素之一。图3?13显示的前馈神经网络是一个典型的5隐层DNN结构,在这个结构中,属于同一层的节点之间不存在连接,而相邻层的节点之间则两两相互连接。DNN通常用于针对不同类别的后验概率进行建模,它的隐层节点的激励函数常采用Sigmoid函数,而输出层节点的激励函数常采用Softmax函数,其输出对应于不同类别的后验概率。
     为了方便描述,假设DNN一共有(L+2)层,包含1个输入层、L个Sigmoid隐层、1个Softmax输出层。由于输入层一般是直接透明地对接输入向量的,不含有参数,因此在训练过程中只考虑除输入层以外的(L+1)层网络。对于某一个隐层l,l=0,…L-1,其输出向量hl的每个分量可以表达为hlj=σ[zlj(vl)]=σ[(wlj)vl+alj),j=1,…Nl(3?23)其中,Nl表示隐层l的节点数,wlj和alj分别是与隐层l第j个节点相关联的权值向量和偏移向量,σ(zj)=11+e-zj代表Sigmoid激活函数,若输入向量为o,则当l=o时,给定可观察序列,估计在时刻t处于状态sj的概率γt(sj)vl=o,否则vl=hl-1,即等于前一隐层的输出向量。对于输出层L,输出向量yL的每个分量可以表达为yLJ=ezLj(vL)∑j′ezLj′(vL)=Softmaxj[zL(vL)],j=1,…,NL(3?24)其中,NL表示输出层L的节点数或类别个数,zL(vL)=(WL)TvL+aL,WL和aL分别是输出层的权值矩阵和偏移向量,vL=hL-1即最后一个隐层的输出向量。给定输入向量o,利用DNN估计输出层类别的后验概率,能够近似描述为o首先经过逐层非线性处理(L次)变换为vL,再利用Softmax函数将vL转变成为一个预估的多项式分布yL,其对应于输出层各个类别的后验概率。
     2. DNN的参数估计
     在DNN进行训练时,最重要的一个步骤是计算出各个神经网络参数的梯度值,以便于完成对这些参数的迭代更新过程,一般采用BP(Back Propagation)算法,该算法具有快速简便的特点,在DNN的训练中起着举足轻重的作用,其基本思想是把DNN训练过程看作是误差反向传播的过程,在此过程中,基于随机梯度逐渐下降的网络参数的更新方法可以表示为(Wl,al)←(Wl,al)-ε??D?(Wl,al),0     给出交叉熵DXENT的具体形式之后,DNN的训练将会在最小化交叉熵准则的指导下完成。根据BP算法,可以简便、有效地计算出DXENT关于各层权值(Wl,l=0,…L)和偏移向量(al,l=0,…L)的梯度,用于式(3?25)中以进行参数更新。梯度的表达式为?DXENT?Wl=∑Tt=1vl(t)[ωl(t)el(t)]T
     ?DXENT?al=∑Tt=1ωl(t)el(t)(3?27)式(3?27)中,el(t)是输入的样本点o(t)所对应的各层产生的误差信号,而ωl(t)则与隐层Sigmoid的激励函数导数密切相关,由链式法则表示具体形式为el(t)=?DXENT?zL(vL(t))=yL(t)-y^(t),l=L ?DXENT?vl+1(t)=Wl+1?ωl+1?el+1,0≤l     ωl(t)=1,l=L
     diag(σ′(zl(vl(t)))),0≤l     若用参数表示偏移向量或权值矩阵,并表示参数更新量,则得到: θ(i+1)=θ(i)+Δθ(i+1)(3?29)这里,Δθ(i+1)=-ε??DXENT?θ。引入冲量项以减少由梯度产生的参数更新量或者引入衰变项惩罚梯度产生的参数更新量,若把三者组合,则当前迭代的参数更新量可以表示为Δθ(i+1)=ρ?Δθ(i)+(1-ρ)?(-ε??DXENT?θ-ε?η?θ(i))(3?30)其中,ρ表示冲量因子,η表示衰变因子或者惩罚因子。
     在语音识别领域,声学建模常常通过两种方式使用DNN。
     ① 用HMM?DNN混合模型取代传统的HMM?GMM框架,并对状态输出的概率进行计算。与GMM相比,DNN只对输入特征分布情况作出一个很小的假设,进而将分类与输入特征内部结构之间的自学习结合起来,因此可赋予提取特征以更大的灵活性,并能深度整合不同的信息源(即不同性质的输入特征)。这正是本研究基于HMM?DNN模型进行俄语声学建模的主要考量。
     ② 作为声学特征的提取工具,基于HMM?DNN模型可对输入特征进行多次的非线性变换(对应多层结构,每层看作一个非线性变换),能够得到区分性更强的声学特征参数,便于基于HMM?GMM的声学建模。本书第5章将详述HMM?DNN在俄语连续语音识别中的应用及相关实验。
     3.2俄语语音学概述〖*4/5〗3.2.1俄语的使用及分布情况世界语言分属于不同语系,如印欧语系、拉丁语系等。其中,印欧语系可划分为日耳曼和斯拉夫等语族,而斯拉夫语族包括东斯拉夫语(俄语、白俄罗斯语、乌克兰语)、西斯拉夫语(波兰语、捷克语、斯洛伐克语等)、南斯拉夫语(阿尔巴尼亚语、塞尔维亚语、克罗地亚语等)等几个语支,这十几种语言具有许多共性特征,有数千个单词的读音相同或写法类似,例如“学校”一词的俄语为школа,乌克兰语为шкоlа,波兰语为ckolъ。
     俄语属于印欧语系中斯拉夫语族中的东斯拉夫语支,是俄罗斯联邦的官方语言,在苏联加盟共和国时期俄语仍然是这些地区最广泛使用的语言。俄语也是中华人民共和国承认的少数民族正式语言之一,在中国新疆维吾尔自治区的伊犁、塔城、阿勒泰地区以及内蒙古自治区的呼伦贝尔市的满洲里、额尔古纳等俄罗斯族聚集地广泛使用。
     俄语作为联合国(UN)六大工作语言之一,在世界政治和文化交流中发挥着非常重要的作用。俄语也是国际科技语言检索语言(ISLS)之一,将近1/3的科技文献是用俄语印制发布的。世界上积极或消极掌握俄语的语言社群分布范围较广,主要集中在东南欧、北美、中东、中亚及东亚部分的国家和地区,总人数近3.8亿人。
     随着互联网的普及,网络语言的种类也日益增多。根据互联网世界统计网站发布的数据显示,在互联网用户使用语言的排名中,俄语排名第9位,相比以前有了很大提高。全球俄语使用分布如图3?14所示。
     图3?14全球俄语使用分布
     截至2012年,统计显示全球使用俄语的人口的变化如表3?1所示。表3?1全球使用俄语的人口的变化年份世界人口
     /百万俄罗斯和俄罗斯
     联邦/百万占世界人口的比例
     /%使用俄语的总人数
     /百万占世界人口的比例
     /%190016501388.41056.419141782182.210.21407.9194023422058.82007.61980443426562806.3199052632865.43125.9续表年份世界人口
     /百万俄罗斯和俄罗斯
     联邦/百万占世界人口的比例
     /%使用俄语的总人数
     /百万占世界人口的比例
     /%200464001462.32784.320106820142.72.12603.8使用俄语的国家的人口及比例如表3?2所示https: //en.wikipedia.org/wiki/Russian_language.。表3?2使用俄语的国家的人口及比例国家人口百分比年份亚美尼亚234840.8%2011澳大利亚440580.2%2012奥地利84460.1%2001阿塞拜疆1224491.4%2009白俄罗斯667296470.2%2009加拿大1121500.3%2011克罗地亚15920.04%2011塞浦路斯209842.5%2011捷克316220.3%2011爱沙尼亚38311829.6%2011芬兰545591.0%2010格鲁吉亚163550.4%2002以色列115596015%2011吉尔吉斯斯坦4822008.9%2009拉脱维亚69875733.8%2011立陶宛2183837.2%2011摩尔多瓦38079611.3%2004新西兰78960.2%2006挪威168331.0%2012波兰219160.1%2011罗马尼亚292460.1%2002俄罗斯13749489396.2%2010续表国家人口百分比年份塞尔维亚31790.04%2011斯洛文尼亚18660.03%2001塔吉克斯坦405980.5%2012乌克兰1427367029.6%2001美国8794340.3%2013经过以普希金为代表的19世纪语言大师对俄语的加工和提炼,在全民语言的基础上最终形成了统一的规范语言,即现代俄罗斯标准语。现代俄罗斯标准语的优选特点是吸取了人民口语和书面语的精华,成功将二者有机地糅合在了一起,主要呈现为笔头和口头两种形式,此外还具有文语(文学、政论、科技和公文)和口语语体。具有丰富的词汇、严密并经改进的语法结构、丰富的表达和修辞手法的现代俄罗斯标准语进一步促进了全民语言统一,使语言表达更加准确、理解更加容易、交际更加方便。
     3.2.2俄语语音的基本特点
     语音学是语言学中研究连续语音(语流)中的音素、音素组合以及音素的随位变化的学科。从语流中可切分出连续语音的线性单位,其中音素是最基本的组成单位。在连贯话语中出现的音素、形素、词形和语句不是纯属个人的现象,而是线性的语言单位。语流是由音素组成的连续不断的线性序列,音素是语流中小的、不表示意义的单位,它在言语中是不可切分的整体,人们无法把它的各个发音动作分离出来。虽然音素本身没有意义,但它和意义是有间接联系的: 音素可以组成词素、单词等表义单位,而后者有时可由一个音素组成。词形可由一个或若干个音素组成。
     俄语发音法https: //en.wikipedia.org/wiki/Russophone.的主要特点如下。
     ① 俄语高元音和中元音的舌位比汉语相应元音的舌位稍低,即发俄语高元音和中元音时,嘴要张得比发汉语相应元音时稍大些。
     ② 发俄语的唇元音时,双唇圆撮且向前伸的程度比发汉语的相应元音时显著些。
     ③ 俄语浊塞擦音是全浊音,发全浊音时的声学颤动特点是汉语发音中没有的。
     ④ 俄语中绝大多数的硬辅音的发音都有中舌部的抬起动作,以形成相应的软辅音。这种发音动作的结合是汉语发音中没有的。
     ⑤ 俄语中半数以上的辅音的发音部位集中在前舌部,而汉语相应辅音的发音部位却集中在舌尖。
     俄语语音音素可分为元音和辅音两类,发音方法的区别如下。
     ① 俄语发元音时气流通过口腔不会遇到任何阻碍;而发辅音时气流会在口腔中遇到不同形式的阻碍。
     ② 俄语元音的发音器官的紧张程度分布均匀,而辅音的发音器官的紧张程度只局限于阻碍形成的特定部位。
     ③ 俄语元音发音呼出的气流弱,而辅音发音呼出的气流强。
     俄语共有43个音素,其中元音有6个,辅音有37个。
     3.2.3俄语音素的发音特征〖*2〗1. 俄语元音字母的发音规则俄语元音由乐音(即嗓音)构成。元音的不同音值取决于口腔形状的变化,使口腔改变形状的是舌体的进退和升降、双唇的舒展和圆撮,因此元音通常按照舌位的前后、高低以及双唇的状态进行分类。
     元音根据舌的前后位置可分为前元音、央元音和后元音,根据舌的高低位置可分为高元音、中元音和低元音,根据双唇的状态可分为唇元音和非唇元音。
     俄语元音音素的分类如表3?3所示。表3?3俄语元音音素的分类舌位高低非唇元音唇元音前元音央元音后元音高元音ИЫу中元音Эо低元音←а→俄语元音音素的发音规律如下。
     俄语元音а: 国际音标为[a],是低元音、非唇元音。当发音时,口张得比较大,双唇自然舒展;舌尖轻轻依傍下齿背,中舌部微凹,后舌部稍挹起。[a]被认为是央元音,在语流中,它的舌位并不局限于一个地方,有时偏前些,有时偏后些。
     俄语元音и: 国际音标为[i],是前高非唇元音、口音。当发音时,整个舌体向前移,前舌部和中舌部一起向硬腭高高抬起,舌尖依傍下齿背;唇的两角稍向两边展开。

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网