一、汉语连续数字串语音识别系统(论文文献综述)
吴大江[1](2018)在《基于深度学习的唇读识别研究》文中研究表明机器唇读,是一种非常新颖,只使用视觉信息即可理解讲话内容的技术。唇读识别是人工智能和计算机视觉领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能重建、刑事侦查、身份认证等领域。人工智能在现代社会的各个学科和领域中已经得到了广泛地应用,在各个领域都取得了很好的效果。以深度学习为核心的人工智能技术克服了一般机器学习方法中人工提取特征的困难,实现了机器自主提取特征的过程。唇读识别可以简单分为词语级和句子级两大类,词语级可以看做是判别式分类问题,而句子级可以看做是判别式序列到序列问题。目前,国内外已有学者开始研究自然场景下的唇读识别,并取得了一些成就,但研究的语言种类主要是英语。有关汉语的自然场景下的唇读识别研究目前鲜有触及。因此本文对唇读识别技术充分调研后,重点落在了自然场景下汉语唇读识别问题。本文的主要研究工作如下:1、对国内外的唇读识别技术进行了深入的对比研究,尤其是基于深度学习的唇读识别研究,初步确定了研究课题的整个工作流程。2、唇读识别领域取得进展的主要障碍之一是数据集的匮乏。目前英文唇读数据集也并不充分,可用的数据量远远不足以训练可扩展的模型。而汉语更是没有公开可用的数据集。基于这样的现状,本课题首先采用自动化的办法制作了汉语普通话唇读数据集TMLRD-20(Tianjin University Mandarin Lip Reading dataset20 hours),并详细给出了完整的制作流程。3、参考已有的在动作识别领域的研究成果,设计了几种词语级的唇读识别应用,并在LRW(Lip Reading Word)数据集上进行了测试,并给出了实验结果。这些设计也为后面句子级唇读识别应用设计特征提取前端提供参考。4、设计了基于改进的CTC(connectionist temporal classification)汉语句子级唇读识别模型,并在TMLRD-20上给出了实验结果和分析。识别结果表明该模型对于汉语句子级唇读识别应用具有可行性。5、设计了基于改进的Encoder-Decoder汉语句子级唇读识别模型MLRN(Mandarin Lip Reading Network),将该模型在TMLRD-20数据集和Grid数据集上给出了测试,实验结果表明该模型的性能要优于改进的基于CTC汉语句子级唇读识别模型的性能,并且在Grid数据集上也表现出非常有竞争性的识别结果。
周峰[2](2017)在《易混淆数字语音识别方法研究》文中进行了进一步梳理汉语连续数字语音识别是语音识别研究中的一个非常重要的分支,广泛应用于工业控制、智能家居等多个领域。然而,目前的汉语连续数字语音识别系统的性能仍难以满足实际应用的需求。常用的数字识别系统是采用梅尔谱参数结合HMM(Hidden Markov Model)实现的。但是由于汉语数字语音间的混淆程度高的特性,普通的识别系统难以对其中的易混淆数字对进行有效的识别,最终导致整个系统的识别率不高。本文针对汉语数字间易混淆的问题进行了深入的研究,提出了一种多参数、多级识别策略。先采用梅尔谱参数基于HMM进行初级数字语音识别,然后对易混淆的数字对采用不同的参数基于SVM(Support Vector Machine)进行二次分类。在二级识别中引入了一种新的群延时谱参数RRCGD-CC(Reflected Roots Chirp Group Delay-Cepstral Coefficients),其完全由语音信号的相位谱推导而来,与传统的幅度谱参数有着本质上的区别。实验结果表明,RRCGD-CC在易混淆数字对的区分上具有一定的优越性,最后结合多参数多级识别策略,将汉语数字语音识别系统的识别率提高了2.38%。另外,根据易混淆数字对之间声调和元音部分的差异,分别采用基频和共振峰作为特征参数来进行二次识别,最终的识别结果分别提高了2.01%和0.73%。
王一蒙[3](2015)在《语音识别关键技术研究》文中提出随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。本文对语音识别整个过程,包括特征提取、模型训练及识别算法,进行了深入研究。根据汉语语音的发音特性,并综合考虑计算量等问题,选择汉语中的声韵母作为基本声学单元,同时选择使用半连续隐马尔科夫模型对声韵母进行建模。本文中选择的特征参数为Mel倒谱系数,本文深入分析了MFCC参数的提取过程,并提出了一种改进的MFCC提取算法,使得比传统MFCC提取算法的计算量减少了将近50%,极大地提高了特征提取的效率。Sphinx系统作为国际上发展成熟的语音识别系统。本文对其声学模型训练工具sphinxtrain内部实现及主要涉及算法进行深入研究,并且通过调整其中参数以适应汉语语音识别的要求。最终,本文基于CMU Sphinx构建并实现了汉语连续语音识别系统,达到了很好的识别效果,并在数字串语音识别中识别率更是达到了98%,同时也从码本数、状态数以及改进MFCC提取算法等方面对识别效果的影响进行了比较及分析。
高文曦[4](2012)在《基于语音特征的汉语数字语音降维与识别研究》文中研究指明汉语数字语音识别是识别非特定人发音“0”到“9”十个汉语数字语音来自动识别出数字的过程。语音信号的特征提取是语音识别的重要前提和基础,本文针对汉语数字语音信号的特征提取过程与识别方法进行了相关研究,具体的研究工作如下:首先,采用GMM模型对特征参数MFCC数据进行聚类来进行汉语数字语音降维与识别。汉语数字发音的识别常用MFCC作为特征,针对0-9这十个数字的MFCC样本特征数据量大的问题,提出了用GMM模型对提取的特征参数MFCC的数据进行聚类来减少参数MFCC的数据量,以GMM模型参数中的均值作为新的特征,采用动态规划算法进行汉语数字语音识别。仿真实验表明,进行GMM特征变换后的新特征数据为MFCC的30.9%,系统运行时间减少了207.12s,识别率降低1.11%。其次,采用局部线性嵌入算法对汉语数字的语音进行特征提取的汉语数字语音降维与识别算法。语音信号转换到频域后维数较高,而流形学习方法可以自主发现高维数据中潜在低维结构的规律性,因此采用流形学习的方法对语音信号转换到频域后的数据降维来进行汉语数字语音识别。首先采用流形学习中的局部线性嵌入算法提取语音频域上高维数据的低维流形结构特征,再将低维数据输入动态时间规整识别器进行识别。仿真实验结果表明,采用局部线性嵌入算法的汉语数字语音识别相较于常用声学特征MFCC维数要少,识别率高了1.2%,有效提高了识别速度。最后,研究了基于遗传算法对特征数据进行降维的汉语数字语音降维与识别方法。对于语音信号特征参数MFCC与LPCC相结合后维数过高的问题,采用遗传算法对特征参数进行数据降维来提高识别系统的性能。首先提取语音信号的LPCC和MFCC,然后采用遗传算法对其进行特征降维,最后将得到的低维数据送入支持向量机进行识别。仿真实验结果表明,采用遗传算法进行特征降维与传统的PCA降维相比,识别率提高了12.2%,和初始特征相比识别率降低了1.23%。
姜莹[5](2011)在《基于语音结构化模型的连续数字语音识别》文中认为汉语连续数字语音识别在现实中具有非常广泛的应用前景,在电话与电信系统的自动语音拨号、身份证号码证实、智能家电中用于电视频道和空调温度的遥控等多方面都有着重要的应用价值。汉语连续数字语音识别是语音识别中的一个重要分支,其主要难点在于,首先不确定数字串的长度,很难准确判别连续数字串中的字间边界;其次连续数字串中的数字是任意组合的,没有可以借鉴的语法知识;再有汉语数字自身的发音特点导致识别困难,如:数字语音间的混淆程度高,汉语连续数字串中各个数字的协同发音现象较严重等。此外,语音通信中不可避免地会受到说话人差异、线路干扰、环境噪声等的影响,引起信号失真,导致识别系统的鲁棒性相当脆弱。本课题研究主要包括两个方面:(1)采用全局声学结构描述的连续数字语音识别。依据描述语音内在关系的、对传输和处理过程中的线路噪声和说话人变化具有鲁棒性的全局声学结构AUS,提出适合于连续数字语音识别的双层结构化语音模型匹配策略,在没有可以借鉴的语法知识情况下,不需要大量的训练模板,只要使用较少的单个数字语音训练数据就可以实现任意长度的连续数字语音识别,且不需要充分的训练语料和通用的信道归一化技术,解决目前语音识别和连续数字语音识别中存在的说话人差异性等的鲁棒性问题。(2)采用直方图均衡的语音识别鲁棒性研究。在语音识别中,加性噪声也是导致系统性能下降的重要原因。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。
严欢[6](2011)在《汉语连续语音声调及数字串识别系统的研究》文中研究说明语音识别在人机交互、通信、互联网和工业化控制等方面有着重要应用前景。声调是汉语音节的重要组成部分,具有构词辨意作用。汉语语音识别技术目前的研究热点和难点是非特定人的连续语音。随着语音识别技术的发展,声调识别研究成为其突破的方向之一。本文首先对声调提取算法进行研究。采用基于多参数组合方法(短时能量、短时过零率、自相关函数值)进行语音信号清浊音判别,利用循环平均幅度差函数进行基音周期计算。对所得声调曲线进行7维特征参数提取,利用隐马尔可夫模型建立汉语连续声调识别系统。系统正确识别率在训练集和测试集中分别为74.31%和71.37%,但声调三的识别率比较低。针对声调三识别率低的特点,本文对声调三音节的上下文语境进行实验研究。实验发现,当声调三音节为句尾或词尾时,其正确识别率为80%左右。考虑到音节的上下文语境和声调的特点,在声调识别系统中加入变调规则,搭建基于语境的声调识别系统。其识别率在训练集和测试集分别提高24.5%和21.1%,特别是声调三有显着提高。实验表明,基于上下文语境的声调识别系统的性能得到提升。本文最后对汉语连续数字串识别系统进行研究,实验发现存在容易误判的数字对,7(qi1)容易误判成4(si4),数字6(liu4)容易误判成9(jiu3)。考虑到声调具有辩意作用,在识别系统中加入声调识别模块,搭建基于声调信息的连续数字串识别系统。实验表明,改进后系统在训练集和测试集正确识别率为88.62%和83.36%,误判数字得到明显纠正,在连续数字串识别技术中加入声调信息能提高系统性能。
高朝煌[7](2011)在《非特定人汉语连续数字语音识别系统的研究与实现》文中进行了进一步梳理本文在对语音识别相关理论研究的基础上,应用VC++编程技术构建了实时语音识别软件系统,并在该软件系统上对汉语非特定人连续数字语音识别进行了一系列实验,取得了较好的效果。本文首先介绍语音识别技术国内外发展状况,分析了汉语连续数字语音识别中面临的困难,在此基础上阐明本课题的研究背景和意义。其次,讨论了语音识别系统的基本原理及构成模型。详细介绍了语音信号分析技术以及隐马尔可夫模型(Hidden Markov Model,HMM)等相关理论,为语音识别软件系统的实现和语音识别实验的开展奠定了相关的理论基础。再次,应用VC++软件编程技术构建了实时语音识别软件系统。在软件系统构建过程中充分考虑了软件的适应性和易用性,通过多线程多缓冲技术实现了声卡实时采集与回放,网络实时接收与发送等功能;友好的人机界面可以对语音信号进行实时观察与分析,对识别结果进行直观显示等;在识别处理方面,深入研究并借鉴了英国剑桥大学的语音识别系统HTK的开源代码,保证了识别系统的先进性。最后,在本文编制的软件系统上对汉语非特定人连续数字语音进行了相关的识别实验并对识别结果进行了分析,取得良好的效果。同时对语音识别系统进行了全面的总结,并对今后的工作进行了展望。
王韵[8](2010)在《基于Sphinx的汉语连续语音识别》文中提出汉语连续语音识别拥有可观的应用前景和深远的研究价值。汉语的发音短、混淆性高、方言多等特性,使得汉语连续语音识别比英语连续语音识别难度更大,成为目前语音识别领域研究的热点和难点问题。本文在卡内基梅隆大学开发的Sphinx语音识别系统的基础上,结合汉语发音特点对中等词汇量、非特定人的汉语连续语音识别系统进行了基础性的研究。汉语连续语音识别实质上是在汉语的声学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列,需要涉及到特征提取,声学模型、语言模型、搜索算法等方面的知识和技术。Sphinx系统代表着连续语音识别的较高水平,本文正是借鉴了其先进的技术,结合汉语发音的特点构建了汉语连续语音识别系统。语音的声学模型和识别理论是构建语音识别系统的基础。完整的连续语音识别系统主要包括四个部分:特征提取,声学模型,语言模型和搜索算法,本文就是根据这四个部分展开的。本文首先介绍了汉语连续语音识别的发展历史和相关理论知识,接着按照语音识别系统的处理步骤详细地分析了各个过程,重点对MFCC特征提取做了详细的分析。在深入研究Sphinx系统中声学模型训练工具Sphinxtrain和语言模型训练工具Cmucmltk代码的基础上,通过修改相关参数,训练了适合汉语识别的声学模型和语言模型。模型训练完成之后研究解码端Viterbi搜索算法,结合识别引擎Pocketsphinx实现了汉语连续语音识别系统的构建。文章最后通过实验和数据分析,验证了系统的有效性。本文主要进行了两个系统的设计:首先以CASIA汉语数字串语音库训练声学模型和语言模型,构建了汉语连续数字识别系统,该系统句子识别率达到了90%,词识别率高达97.2%;其次以CASIA98-99语音测试库训练声学模型和语言模型,建立了一个中等词汇量的汉语连续语音识别系统,该系统性能较之前者识别性能欠佳,句识别率为70%,词识别率为96.7%。全部数据显示了系统的有效性。
陈磊[9](2010)在《带噪环境下的汉语连续语音识别研究》文中研究说明目前,汉语连续语音识别在纯净语音环境下,已经取得了较好的识别效果。但在自然环境下,由于各种噪声的影响,识别率依然很低,还不能满足实际场合的应用要求。因此带噪环境的连续语音识别一直是当前语音信号研究的热点和难点。HMM模型是连续语音识别中应用最广泛的模型之一,但模型的训练往往是在安静的实验室环境下完成的,因此训练模型无法有效描述自然环境下实际语音信号的特点。噪音干扰使端点检测的准确性也大为降低,系统识别率也随之下降。除此之外,汉语连续语音识别中识别基元的选取,模型的上下文相关,都对识别率有较大的影响。为了提高带噪环境下语音识别系统的性能,本文根据连续语音识别的基本原理,针对带噪环境的特点,对语音识别算法进行了一些研究,具体工作如下:(1)研究了一种改进的基于谱减的语音增强算法,该算法解决了基本谱减法的“音乐噪声“问题;采用基于自适应子带谱熵的端点检测算法,并将它与改进的谱减语音增强相结合,进一步提高了带噪环境下语音端点检测的准确率。(2)介绍了一些常用语音特征的提取算法如反映人类声道信息的LPCC,具有抗噪性能的MFCC;提出了一种基于线性预测与归一化互相关的基音特征提取算法,该算法提高了带噪环境基音检测的性能。(3)讨论了HMM模型的基本原理,并对HMM的三个基本问题前--后向算法,Viterbi算法,Baum-Weich算法做了详细介绍;同时对HMM应用中的HMM初始模型选取、溢出问题以及模型的合并也做了深入的探究。(4)针对汉语连续语音识别系统中声学模型的训练,发音协同等问题,对声学模型中识别基元选取、声学模型的嵌入式训练以及上下文相关的三音素模型等做了进一步的研究;最后,采用HTK工具箱进行了一系列的实验分析。
蒋正锋[10](2009)在《基于HTK的汉语连续数字语音识别研究》文中认为随着计算机与信息技术的继续发展,语音交互技术必将成为人机交互的必要手段。语音识别技术就是让机器听懂人类的语音并执行相关的动作,是一个研究的热点。连续数字语音识别是语音识别的一个重要分支,它在现实中具有广泛的应用前景,在互联网,通信,军事,国防,人机交互等方面都有重要的应用价值。虽然这方面的研究有很多,但目前仍有许多问题有待进一步探索。本文主要研究的是基于HTK的汉语连续数字的识别以及相关研究,首先对HTK(Hidden Markov Model Toolkit)的软件结构以及HTK工具包进行了分析,搭建出基于HTK的汉语连续数字语音识别系统,测试了声学模型,高斯混合分量和MFCC维数对系统识别率的影响。接着,在理解了基于HTK的语音识别系统的搭建过程的基础上,实现了基于HTK的语音拨号系统,是对电话号码和人名的语音识别。然后,进行了基于ATK(API of HTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想。对较为复杂的语音识别网络,开展了HTK中语音识别网络的研究,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后,针对语音识别和因特网传输技术的特点,设计出简单的语音识别网络传输方案:采用客户/服务器模式,在客户端提取出语音信号的特征参数,采用TCP协议把特征参数传输给服务器,由服务器完成识别与训练的工作。系统使用HTK和Visual C++编程工具,使用MFC中封装的Windows Sockets类完成了语音特征参数和识别结果的网络传输,实现了一个初步的基于网络传输的连续数字语音识别系统。
二、汉语连续数字串语音识别系统(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语连续数字串语音识别系统(论文提纲范文)
(1)基于深度学习的唇读识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究的背景与意义 |
1.2 词语级唇读识别国内外研究现状 |
1.3 句子级唇读识别国内外研究现状 |
1.4 论文的组织结构 |
第2章 唇读识别特征提取算法理论基础 |
2.1 特征工程 |
2.1.1 高级特征提取 |
2.1.2 低级特征提取 |
2.1.3 结合高级与低级特征 |
2.2 卷积神经网络 |
2.2.1 卷积神经网络核心思想 |
2.2.2 基本结构 |
2.3 本章小结 |
第3章 唇读识别序列学习算法理论基础 |
3.1 语言模型 |
3.2 唇读识别过程 |
3.3 图模型与条件概率 |
3.4 判别式序列到序列模型 |
3.4.1 判别式对齐模型 |
3.4.2 判别式声学模型 |
3.4.3 结构性判别式模型 |
3.4.4 编码器-解码器(Encoder-Decoder)网络 |
3.5 本章小结 |
第4章 唇读识别数据集及词语级唇读识别 |
4.1 英文唇读数据集简介 |
4.2 汉语唇读数据集TMLRD-20 |
4.2.1 数据集制作流程 |
4.3 词语级唇读识别及实验结果 |
4.3.1 网络模型设计 |
4.3.2 实验结果 |
4.4 本章小结 |
第5章 基于改进的CTC汉语句子级唇读识别算法 |
5.1 基于3D卷积的唇读视频特征提取 |
5.2 CTC算法理论基础 |
5.2.1 CTC算法工作流程 |
5.2.2 CTC算法原理 |
5.2.3 CTC推断过程 |
5.3 GRU模型 |
5.4 模型训练与实验结果 |
5.4.1 评价标准 |
5.4.2 训练策略 |
5.4.3 实验结果 |
5.5 本章小结 |
第6章 基于改进的Encoder-Decoder汉语句子级唇读识别算法 |
6.1 特征提取前端 |
6.2 LSTM模型 |
6.3 词嵌入模型 |
6.4 注意力机制 |
6.5 训练策略及结果 |
6.5.1 训练策略 |
6.5.2 实验结果 |
6.6 本章小结 |
总结与展望 |
本文工作总结 |
未来工作展望 |
参考文献 |
发表论文及参加科研情况说明 |
致谢 |
(2)易混淆数字语音识别方法研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音识别概述 |
1.2 汉语连续数字语音识别 |
1.2.1 汉语连续数字语音识别意义及难点 |
1.2.2 汉语连续数字语音识别研究现状 |
1.3 论文的主要研究内容 |
1.4 论文结构 |
第二章 语音识别系统基本理论 |
2.1 语音信号的线性产生模型 |
2.1.1 激励模型 |
2.1.2 声道模型 |
2.1.3 辐射模型 |
2.2 语音识别基本原理 |
2.3 预处理 |
2.4 特征提取 |
2.4.1 Mel倒谱系数 |
2.4.2 基音频率与共振峰 |
2.5 隐马尔可夫模型 |
2.5.1 HMM基本思想 |
2.5.2 HMM基本算法 |
2.6 支持向量机 |
第三章 数字语音基准识别系统及性能分析 |
3.1 语料库简介 |
3.2 基于HMM的基准识别系统 |
3.3 基准识别系统识别结果分析 |
3.4 汉语数字语音易混淆原因分析 |
第四章 易混淆数字语音识别方法研究 |
4.1 群延时谱参数及其应用 |
4.1.1 相位研究概述 |
4.1.2 RRCGD及其特征提取 |
4.1.3 基于RRCGD-CC的易混淆数字识别 |
4.2 基频在易混淆数字对识别中的应用 |
4.3 共振峰在易混淆数字对识别中的应用 |
4.4 多级识别系统 |
第五章 总结与展望 |
5.1 总结 |
5.2 研究展望 |
参考文献 |
攻读硕士学位期间公开发表的论文 |
致谢 |
(3)语音识别关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 语音识别概述 |
1.2 语音识别的国内外发展现状 |
1.3 语音识别中的难点 |
1.4 课题背景及论文结构 |
1.4.1 课题背景 |
1.4.2 论文结构 |
第二章 语音识别关键技术 |
2.1 语音识别系统总体框架 |
2.2 语音信号预处理 |
2.2.1 预滤波、采样、A/D变换 |
2.2.2 预处理 |
2.2.3 分帧加窗 |
2.2.4 时域分析、端点检测 |
2.2.4.1 短时能量分析 |
2.2.4.2 短时平均过零率分析 |
2.2.4.3 端点检测 |
2.2.4.4 双门限端点检测仿真及实现 |
2.3 语音信号的频域分析、特征参数提取 |
2.3.1 基音周期估计 |
2.3.2 共振峰的估计 |
2.3.3 线性预测倒谱系数LPCC |
2.3.4 Mel频率倒谱系数MFCC |
2.4 语音的训练与识别 |
2.4.1 动态时间规整(DTW)算法 |
2.4.1.1 DTW算法介绍 |
2.4.1.2 训练模板算法 |
2.4.1.3 DTW算法仿真及实现 |
2.4.2 隐马尔科夫模型(HMM)技术 |
2.4.2.1 HMM基本思想 |
2.4.2.2 HMM基本算法 |
2.4.2.3 HMM算法仿真及实现 |
2.5 本章小结 |
第三章 Sphinx语音识别系统 |
3.1 Sphinx概述 |
3.1.1 Sphinx语音识别系统简介 |
3.1.2 Sphinx架构和主要模块介绍 |
3.2 基于SphinxTrain的声学模型训练 |
3.2.1 声学模型 |
3.2.1.1 声学模型概述 |
3.2.1.2 基本声学单元的选择 |
3.2.1.3 协同发音、三音子模型 |
3.2.2 声学模型的训练 |
3.2.2.1 矢量量化 |
3.2.2.2 训练CI模型 |
3.2.2.3 训练未聚类CD模型 |
3.2.2.4 决策树聚类 |
3.2.2.5 训练聚类CD模型 |
3.2.2.6 删除插值 |
3.3 本章小结 |
第四章 汉语连续语音识别系统的构建和实现 |
4.1 汉语连续语音识别系统构建 |
4.1.1 语音库介绍 |
4.1.2 特征提取的改进 |
4.1.3 声学模型训练 |
4.1.4 实验环境及识别结果的计算 |
4.2 基于Sphinx的汉语连续数字串语音识别 |
4.2.1 语音库选择 |
4.2.2 数据准备 |
4.2.3 声学模型训练 |
4.2.4 实验结果及性能分析 |
4.2.4.1 改进MFCC提取算法对识别效果的影响 |
4.2.4.2 码本数对识别结果的影响 |
4.2.4.3 状态数对识别结果的影响 |
4.3 基于Sphinx的汉语连续语音识别 |
4.3.1 语音库选择 |
4.3.2 数据准备 |
4.3.3 实验结果及性能分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文总结 |
5.2 研究展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)基于语音特征的汉语数字语音降维与识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的意义 |
1.2 国内外研究现状及发展趋势 |
1.3 本文的主要研究工作 |
1.4 论文结构安排 |
第二章 语音识别的基本理论 |
2.1 语音识别的原理 |
2.2 语音信号的特征提取 |
2.2.1 特征提取的准则及常用特征 |
2.2.2 提取LPCC 与MFC 流程 |
2.3 主要的模式匹配方法 |
2.3.1 动态时间规整 |
2.3.2 支持向量机原理 |
2.4 流形学习的基本概念 |
2.5 传统的数据降维方法 |
2.6 本章小结 |
第三章 对MFCC 进行GMM 聚类的汉语数字降维与语音识别 |
3.1 最大期望算法 |
3.2 基于EM 算法的GMM 聚类模型 |
3.3 对MFCC 进行GMM 聚类的算法实现 |
3.4 仿真实验与结果分析 |
3.5 本章小结 |
第四章 基于流形学习特征提取的汉语数字语音降维与识别方法 |
4.1 局部线性嵌入算法 |
4.2 基于局部线性嵌入算法进行特征提取的汉语数字识别算法实现 |
4.3 仿真实验与结果分析 |
4.3.1 选取LLE 算法参数 |
4.3.2 基于LLE 算法的汉语数字语音的特征提取 |
4.3.3 基于LLE 算法提取的特征数据与MFCC 的比较 |
4.4 本章小结 |
第五章 基于遗传算法数据降维的汉语数字语音降维与识别 |
5.1 遗传算法 |
5.2 基于遗传算法数据降维的汉语数字识别算法 |
5.3 仿真实验与结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文内容总结 |
6.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文 |
(5)基于语音结构化模型的连续数字语音识别(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 语音识别概述 |
1.2 连续数字语音识别 |
1.2.1 连续数字语音识别意义及难点 |
1.2.2 连续数字语音识别研究现状 |
1.3 本课题的主要研究内容 |
第二章 语音识别基本理论 |
2.1 语音识别的基本原理 |
2.2 语音信号预处理 |
2.3 特征提取 |
2.4 隐马尔可夫模型(HMM) |
2.4.1 语音的HMM 描述 |
2.4.2 基于HMM 的语音识别算法 |
第三章 基于语音结构化模型的连续数字语音识别 |
3.1 全局声学结构的描述 |
3.2 语音失真因素 |
3.3 全局声学结构的不变性 |
3.4 基于AUS 的连续数字语音识别 |
3.5 实验与分析 |
3.5.1 孤立数字语音识别 |
3.5.2 连续数字语音识别 |
3.6 小结 |
第四章 鲁棒性语音识别的HEQ 方法及其改进 |
4.1 鲁棒性语音识别 |
4.2 直方图均衡化原理 |
4.3 直方图均衡化去噪方法 |
4.3.1 基于自适应分段统计的直方图均衡化方法 |
4.3.2 基于统计顺序的直方图均衡化方法 |
4.3.3 其它均衡化方法 |
4.3.4 传统的直方图均衡化存在的问题 |
4.4 采用特征分类的直方图均衡化 |
4.5 噪声环境下实验与分析 |
4.5.1 实验环境与条件 |
4.5.2 实验与分析 |
4.6 小结 |
第五章 总结与展望 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(6)汉语连续语音声调及数字串识别系统的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景 |
1.2 国内外课题研究进展 |
1.2.1 语音识别研究进展 |
1.2.2 语音识别研究难点 |
1.3 课题研究的目的及意义 |
1.4 主要研究内容 |
第2章 语音识别基础知识及相关技术 |
2.1 语音识别基本概念 |
2.1.1 语音识别系统构架 |
2.1.2 语音识别关键技术 |
2.2 隐马尔可夫模型 |
2.3 语音信号预处理 |
2.3.1 采样及量化 |
2.3.2 预加重 |
2.3.3 分帧与加窗 |
2.3.4 端点检测 |
2.4 本章小结 |
第3章 连续语音声调识别系统建立与实验 |
3.1 汉语连续语音声调识别原理 |
3.2 声调提取 |
3.2.1 音节分割 |
3.2.2 基音周期计算 |
3.2.3 平滑处理 |
3.3 特征参数提取 |
3.4 HMM 声调模型建立及实验 |
3.4.1 采用HMM 算法的声调识别系统 |
3.4.2 训练和识别仿真 |
3.5 本章小结 |
第4章 基于语境的声调识别系统建立与实验 |
4.1 语境中的声调三识别 |
4.2 上下文语境的HMM 声调模型建立与实验 |
4.2.1 上下文语境的HMM 声调识别系统 |
4.2.2 训练和识别仿真 |
4.3 本章小结 |
第5章 基于声调信息的连续数字串识别系统 |
5.1 汉语连续数字串识别 |
5.1.1 语料库 |
5.1.2 训练和识别仿真 |
5.2 误判数字对识别 |
5.2.1 数字4 和7 |
5.2.2 数字6 和9 |
5.3 系统不足与展望 |
5.4 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(7)非特定人汉语连续数字语音识别系统的研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 语音识别的基本概念 |
1.2 语音识别基本原理和方法 |
1.2.1 语音识别的基本原理 |
1.2.2 语音识别的基本方法 |
1.3 语音识别发展历史及现状 |
1.3.1 国外研究历史及现状 |
1.3.2 国内研究历史及现状 |
1.4 论文研究的目的和意义 |
1.4.1 汉语数字语音识别所面临的问题 |
1.4.2 汉语连续数字语音识别的研究意义 |
1.5 论文研究内容 |
第二章 语音信号分析 |
2.1 概述 |
2.2 语音信号预处理 |
2.2.1 语音信号预加重处理 |
2.2.2 语音信号分帧与加窗处理 |
2.3 语音信号端点检测 |
2.3.1 端点检测的目的 |
2.3.2 端点检测的参量选择 |
2.3.3 端点检测的原理 |
2.3.4 噪音统计及端点检测指标量的计算 |
2.4 特征参数的提取 |
2.4.1 线性预测分析及 LPCC 参数提取过程 |
2.4.2 MFCC 参数及提取过程 |
2.4.3 Delta 与 Delta_Delta 特征参数的提取 |
2.4.4 MFCC 参数与 LPCC 参数的对比 |
2.5 本章小结 |
第三章 隐马尔可夫模型及其在语音识别中的应用 |
3.1 概述 |
3.2 隐马尔科夫模型的定义 |
3.2.1 马尔科夫链 |
3.2.2 隐马尔科夫模型 |
3.3 隐马尔科夫模型的三个基本问题 |
3.3.1 隐马尔科夫模型的评价问题—前后向算法 |
3.3.2 隐马尔科夫模型的解码问题—Viterbi 算法 |
3.3.3 隐马尔科夫模型的学习问题—Baum-Welch 算法 |
3.4 隐马尔科夫模型的结构和类型 |
3.5 隐马尔科夫模型在语音识别中的应用 |
3.5.1 汉语声学模型的选取 |
3.5.2 隐马尔科夫模型的建立 |
3.5.3 隐马尔科夫模型的训练 |
3.5.4 隐马尔科夫模型的识别 |
3.6 隐马尔科夫模型存在的问题 |
3.7 本章小结 |
第四章 基于 VC++的语音识别软件系统的构建 |
4.1 概述 |
4.2 语音识别软件系统的接口实现 |
4.2.1 语音识别软件系统文件回放技术的实现 |
4.2.2 语音识别软件系统声卡实时采集技术的实现 |
4.2.3 语音识别软件系统网络通信技术的实现 |
4.3 语音识别软件系统信号处理流程 |
4.4 语音识别软件系统人机交互与信号分析的实现 |
4.5 语音识别软件系统模型训练与评估的实现 |
4.6 语音识别软件实时运行的实现 |
4.7 本章小结 |
第五章 语音识别实验及结果分析 |
5.1 概述 |
5.2 实验准备 |
5.2.1 实验软硬件环境 |
5.2.2 实验语音库的建立 |
5.2.3 声学模型与结构的选择 |
5.2.4 信号特征参数的选择 |
5.2.5 系统识别词典、语法模型的建立以及识别性能评估算法 |
5.3 实验及结果分析 |
5.3.1 不同状态数的识别实验 |
5.3.2 不同高斯密度混合数的识别实验 |
5.3.3 不同声学单元的识别实验 |
5.3.4 不同模型状态转移数的识别实验 |
5.3.5 不同特征参数的识别实验 |
5.4 连续数字语音实时识别系统的实现 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2. 未来工作展望 |
致谢 |
参考文献 |
(8)基于Sphinx的汉语连续语音识别(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音识别概述 |
1.1.1 语音识别的发展历史与现状 |
1.1.2 国内语音识别的发展历史与现状 |
1.1.3 连续语音识别的难点 |
1.1.4 语音识别的分类 |
1.2 语音识别与其他学科的关系 |
1.3 语音识别关键技术 |
1.4 论文由来 |
1.4.1 课题研究目的和意义 |
1.4.2 论文结构安排 |
第二章 Sphinx 语音识别系统 |
2.1 Sphinx 语音识别引擎简介 |
2.2 Sphinx 语音识别介绍 |
2.3 特征提取 |
2.3.1 音频信号格式 |
2.3.2 预加重 |
2.3.3 分帧加窗 |
2.3.4 快速傅里叶变换(FFT) |
2.3.5 Mel 频率滤波器组 |
2.3.6 对数变换和DCT |
2.4 声学模型 |
2.4.1 概述 |
2.4.2 汉语语音特性 |
2.4.3 上下文相关音素模型 |
2.5 语言模型 |
2.6 解码器 |
2.7 小结 |
第三章 基于SphinxTrain 的声学模型训练 |
3.1 HMM 的基本概念 |
3.2 HMM 的三个基本问题及其解决方案 |
3.2.1 识别问题的解决方案 |
3.2.2 路径问题的解决方案 |
3.2.3 模型问题的解决方案 |
3.3 HMM 的分类 |
3.4 SphinxTrain 简介 |
3.5 声学模型的训练 |
3.5.1 数据准备 |
3.5.2 矢量量化 |
3.5.3 训练CI 模型 |
3.5.4 训练未聚类的CD 模型 |
3.5.5 决策树的建立 |
3.5.6 训练聚类的CD 模型 |
3.5.7 删除插值 |
3.6 小结 |
第四章 汉语连续语音识别系统的构建和实现 |
4.1 连续语音识别系统构建 |
4.1.1 语音库介绍 |
4.1.2 特征提取 |
4.1.3 声学模型训练 |
4.1.4 语言模型训练 |
4.1.5 解码器 |
4.1.6 实验环境及识别结果的计算 |
4.2 基于Sphinx 的汉语连续数字识别 |
4.2.1 语音库的选择 |
4.2.2 特征提取 |
4.2.3 声学模型和语言模型的训练 |
4.2.4 实验结果及性能分析 |
4.3 基于Sphinx 的汉语连续语音识别 |
4.3.1 语音库的选择 |
4.3.2 特征提取 |
4.3.3 声学模型和语言模型的训练 |
4.3.4 实验结果及性能分析 |
4.4 小结 |
第五章 总结与展望 |
5.1 课题工作的总结 |
5.2 展望 |
参考文献 |
致谢 |
研究生期间发表的论文 |
(9)带噪环境下的汉语连续语音识别研究(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 语音识别研究的意义 |
1.2 语音识别的研究历史及现状 |
1.2.1 语音识别的研究历史 |
1.2.2 汉语连续语音识别的难点 |
1.3 语音识别的分类 |
1.4 语音识别的主要方法 |
1.5 本文所作的主要工作与结构安排 |
第二章 语音信号的前端处理 |
2.1 语音信号的时域分析 |
2.1.1 语音的预加重 |
2.1.2 短时加窗分析 |
2.1.3 短时能量和短时平均幅度 |
2.1.4 短时过零率 |
2.2 语音的变换域分析 |
2.2.1 频谱分析 |
2.2.2 倒谱分析 |
2.2.3 语音信号的线性预测分析 |
2.3 带噪语音的增强 |
2.3.1 常见噪声的分类 |
2.3.2 谱减法语音增强 |
2.4 带噪语音的端点检测 |
2.4.1 基于双门限的端点检测方法 |
2.4.2 基于自适应子带谱熵的端点检测 |
2.5 本章实验与结论 |
第三章 语音信号的特征提取 |
3.1 LPCC倒谱特征的提取 |
3.2 MFCC倒谱特征的提取 |
3.3 基音特征的提取 |
3.3.1 基于线性预测与归一化互相关的基音提取 |
3.3.2 基音特征提取实验 |
3.4 本章小结 |
第四章 HMM模型的基本原理 |
4.1 隐马尔可夫(HMM)模型的基本概念 |
4.1.1 马尔可夫链 |
4.1.2 HMM模型的基本定义 |
4.2 HMM模型的三个基本问题 |
4.2.1 前向-后向算法 |
4.2.2 Viterbi算法 |
4.2.3 Baum-Welch算法 |
4.3 HMM实现中的若干实际问题 |
4.3.1 语音识别中HMM模型的结构 |
4.3.2 初始模型的选取 |
4.3.3 数据下溢问题 |
4.3.4 HMM模型的合并 |
4.4 本章小结 |
第五章 基于HMM模型的汉语连续语音识别系统 |
5.1 汉语语音学基本知识 |
5.1.1 汉语的音素与音节 |
5.1.2 汉语的声调信息 |
5.2 声学模型中识别基元的选取 |
5.2.1 汉语的音节模型 |
5.2.2 汉语的声韵模型 |
5.2.3 汉语的音素模型 |
5.3 基于HMM的声学模型的训练 |
5.3.1 训练语料库的建立 |
5.3.2 音素模型的嵌入式训练 |
5.4 声学模型的优化 |
5.4.1 上下文相关的音素模型 |
5.4.2 HMM模型的高斯分裂 |
5.5 基于HTK的汉语连续数字识别实验 |
5.5.1 HTK工具箱简介 |
5.5.2 数据准备 |
5.5.3 语音特征提取 |
5.5.4 建立声学模型 |
5.5.5 识别实验结果及评价 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表论文 |
(10)基于HTK的汉语连续数字语音识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究目的 |
1.2 相关研究 |
1.3 章节概要 |
第2章 语音识别原理 |
2.1 语音识别模型-隐马尔可夫模型 |
2.1.1 隐马尔可夫模型的定义 |
2.1.2 隐马尔可夫模型的三个问题 |
2.1.3 隐马尔可夫模型在语音识别中的应用 |
2.2 梅尔倒谱系数MFCC |
2.3 特征摸板训练法 |
第3章 语音识别工具包HTK/ATK |
3.1 HTK 简介 |
3.1.1 HTK 工作原理 |
3.1.2 HTKLib 和HTKTools |
3.1.3 HTK 的主要函数模块的功能 |
3.1.4 HTK 的使用与语音识别系统的结构 |
3.2 ATK 简介 |
3.2.1 ATK 的主要函数功能 |
3.2.2 ATK 语音识别流程 |
第4章 网络协议与 Windows 中 TCP/IP 编程 |
4.1 因特网(Internet)简介 |
4.1.1 TCP/IP 参考模型 |
4.1.2 客户/服务器模式 |
4.2 Internet 的网络层 |
4.3 Internet 的传输层 |
4.3.1 传输控制协议TCP |
4.3.2 用户数据报协议(UDP) |
4.3.3 RTP 协议 |
4.4 Socket 与 WinSock 简介 |
4.4.1 Socket 简介 |
4.4.2 WinSock 简介 |
4.5 MFC 网络应用程序的开发 |
第5章 基于HTK 的汉语语音数字识别 |
5.1 软硬件环境 |
5.2 语音数据库的介绍及模型参数设定 |
5.3 基于HTK 的汉语连续数字语音识别系统 |
5.3.1 HTK 语音识别系统的搭建过程 |
5.3.2 实验结果以及分析 |
5.4 基于 HTK 的语音拨号系统 |
5.4.1 实验所用语音数据库 |
5.4.2 实验结果及分析 |
5.5 语音识别网络的研究 |
5.5.1 理论上的存在性 |
5.5.2 语音识别网络优化过程 |
5.5.3 实验验证 |
5.5.4 实验结果分析 |
5.6 基于 ATK 的汉语连续数字实时识别系统的初步研究 |
5.6.1 实验所用语音数据库 |
5.6.2 实验实现过程 |
5.6.3 实验结果分析 |
第6章 基于网络传输的语音识别系统研究 |
6.1 实验所用语音数据库 |
6.2 系统的实现 |
6.2.1 客户端的实现 |
6.2.2 服务器端的实现 |
6.3 实验过程与系统界面 |
6.4 实验结果 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读硕士期间发表的论文 |
致谢 |
四、汉语连续数字串语音识别系统(论文参考文献)
- [1]基于深度学习的唇读识别研究[D]. 吴大江. 天津大学, 2018(06)
- [2]易混淆数字语音识别方法研究[D]. 周峰. 苏州大学, 2017(04)
- [3]语音识别关键技术研究[D]. 王一蒙. 电子科技大学, 2015(02)
- [4]基于语音特征的汉语数字语音降维与识别研究[D]. 高文曦. 江南大学, 2012(07)
- [5]基于语音结构化模型的连续数字语音识别[D]. 姜莹. 苏州大学, 2011(05)
- [6]汉语连续语音声调及数字串识别系统的研究[D]. 严欢. 哈尔滨理工大学, 2011(05)
- [7]非特定人汉语连续数字语音识别系统的研究与实现[D]. 高朝煌. 西安电子科技大学, 2011(04)
- [8]基于Sphinx的汉语连续语音识别[D]. 王韵. 太原理工大学, 2010(10)
- [9]带噪环境下的汉语连续语音识别研究[D]. 陈磊. 安徽大学, 2010(11)
- [10]基于HTK的汉语连续数字语音识别研究[D]. 蒋正锋. 广西师范大学, 2009(S2)