一、语音信号元音检测的新方法(论文文献综述)
朱明星[1](2021)在《基于神经肌肉生理信息的吞咽与发音功能评估方法研究》文中进行了进一步梳理吞咽是维持人类生存最基本的生理功能,为人体生命健康提供必须的营养物质;发音则是保持社会交流最重要的生理功能,是人类与外界进行信息交流的重要途径。吞咽和发音功能的正常维系都依赖面部肌肉和颈部肌肉的运动收缩和协调工作,这些肌肉一旦发生损伤或病变,就会使得吞咽和发音功能受到不同程度的影响,甚至引起吞咽障碍或构音障碍。表面肌电(sEMG)是利用电极在皮肤表面采集到的微弱电压信号,sEMG信号与肌肉的活动情况和功能状态间有着较强的关联性,可以在不同程度上体现出相应神经肌肉的活动水平。然而目前吞咽和发音相关的临床和研究大多采用少量电极采集sEMG信号,因信息量有限无法对吞咽和发音功能做出全面的了解与评估。由于使用电极数量有限,不能准确捕捉到引起吞咽或发音异常的受损肌群,也因此无法实现对受损肌群进行有效的功能康复训练,从而限制了吞咽和发音障碍的临床康复效果。针对目前吞咽和发音功能理论研究和临床应用中存在的问题,本研究提出采用高密度表面肌电技术,研究吞咽、发音过程中面颈部肌肉群的电生理功能及协同工作机制,建立多模态吞咽功能和发音功能生理信息评价系统,为吞咽障碍、构音障碍患者的临床诊断提供更加准确、无创、客观的新理论和新方法。在本研究的吞咽实验中,采用96通道表面肌电电极,所有电极以6×16二维阵列的形式放置在受试者颈部,以获取足够多的信息量。受试者分别完成不同体量、粘稠度、头部姿势等不同的吞咽任务,同步利用荷兰TMSi-128(Refa-136ch)高性能肌电采集系统记录整个吞咽过程的高密度sEMG信号。实验结果表明,高密度sEMG能量图与吞咽的生理和生物力学原理紧密相关,它可以将整个吞咽过程进行动态可视化,显示吞咽过程中sEMG空间分布的变化过程,并全面呈现与吞咽相关肌肉的收缩力度和相互协调能力。研究结果显示干吞咽过程似乎比吞水需要更长的时间,随着吞咽的食物粘稠度的增加,电极覆盖区域的sEMG信号的最大活性显着增强。当受试者的头部保持在中间位置时,左右两侧的肌肉活动在不同的吞咽任务中几乎都是对称的,如果头部偏向一侧,sEMG能量图则显示肌肉活动的主要能量会转移到头部相对的另一侧。本论文提出的高密度sEMG方法为分析吞咽过程中的肌肉收缩力量分布和协调性提供了一种新方法,可能为评估肌肉功能的正常与否提供一种实用的工具。本论文关于不同体量、粘稠度、头部姿势对吞咽的影响结果,有助于更科学地管理吞咽障碍患者的饮食,并为定位吞咽障碍患者的可能病因提供实验基础和理论依据。在本研究的发音实验中,将120个表面电极以阵列形式尽可能覆盖面部和颈部所有与发音相关的肌肉,其中80个电极以5×16的阵列均匀的分布在颈部,另外40个电极以两个4×5的阵列对称地放置在面颈部肌肉的左侧和右侧。受试者在放松状态下,分别完成不同声音强度、音调逐渐增加的3个元音([a:]、[i:]、[?:])的发音任务、用中文和英文分别说出数字0至9两个不同的任务,并同步采集各种发音任务中的声学语音信号和高密度sEMG数据,并对数字发音的肌电信号进行特征提取和语音识别。在元音发音任务中,高密度sEMG能量图结果表明面部和颈部肌肉都在发音任务中都被激活,激活的程度随着声调的增加而增强,激活的肌肉数量和区域也随声调的增加而扩大。同时面部和颈部肌肉激活区域的位置变化和迁移规律与发音过程中的气流流通途径非常一致。结果同时观察到颈部肌肉的活动强度显着高于面部肌肉的活动强度,表明颈部肌肉在发声过程中担任着更重要的角色。发音过程的sEMG能量图的面部和喉部区域会呈现左侧和右侧对称分布的特征,这表明与发声活动相关的肌肉能量在面部和颈部肌肉的右侧和左侧具有几乎相等的强度和持久性。在数字语音识别任务中,高密度sEMG信号计算出的能量图表明发音过程中不同位置的肌肉活动表现出明显不同的模式,颈部肌肉采集到的肌电信号可以实现更好的语音识别准确率,表明颈部肌肉在基于sEMG的语音识别中比脸部肌肉贡献更大。在此基础上,本论文采用了SFS算法来自动选择具有最高分类精度的最佳通道,重要发现是通过SFS算法选择的最佳电极,在电极数目相当少的情况下也可以表现出十分优异的语音识别性能。比如只需要10个最优电极就可以达到接近90%的分类精度,并且明显优于使用全部40个面部电极的情况。这些结果表明,电极的选择和优化对于基于sEMG的语音识别非常重要,如果没有电极优化,比如所有电极都放在不太重要的位置(例如面部),则即使电极数量高达40个,分类精度也低至73.6%。本论文的研究结果表明,高密度sEMG技术可以用以实现吞咽和发音过程的动态可视化,呈现面部和颈部肌肉的动态活动情况及协同工作机制,从而实现吞咽功能和发音功能的客观评估,可以为吞咽及发音患者的病因诊断和靶向干预提供实验基础和客观依据。
萨仁高娃[2](2021)在《蒙古语发音词典建设及其语音识别的应用研究》文中研究说明蒙古文是一种拼音文字,其口语音位和字符之间有对应的关系。传统蒙古文,自创制以后其文字系统本身没有发生质的变化。而蒙古口语本身却发生了很大的变化,即蒙古书面语与口语之间存在差异。这种差异主要体现在长元音和复合元音的书面字符组合及其读音对应关系、书面词末尾的大部分短元音在口语中的脱落、口语中的辅音结合构成复辅音而引起音节数的变化、元音和谐律、附加成分的口语读音与位于其前面的词末尾音节读音之间的变化等。解决这些差异也是蒙古语语音识别的一个难点问题。研制面向语音识别的发音词典是解决上述差异的有效途径。一、蒙古语的发音词典包含书面蒙古语词和其读音标注平行对,用于语音识别和合成等言语工程。依靠语言学家人工构造发音词典是一项费时费力的工作。如何自动构造蒙古语单词读音标注而研制发音词典是本研究的主要部分。研制发音词典时需要解决字素和音素转换(G2P conversion)问题,即从词的书面形式序列对应转换为词的读音音素序列。在低资源的情况下,本研究中提出了基于规则和决策树相结合的研制发音词典的方法。二、为了建立研制发音词典的规则,进一步研究了蒙古文字符与口语音位对应关系、书面语与口语词之间的音节对应关系、蒙古语口语元音和谐律、影响研制发音词典的词汇和词法因素。结合蒙古语口语元音和谐律,重点关注书面相邻两个音节,从前面音节中的元音和辅音读音怎么影响后面音节中的元音字符读音的角度进行研究并列出了规则;针对形成复辅音时可能产生的不同情况即音节中的元音前移、脱落、不脱落也不前移,扩展了原传统语法知识中的前列辅音和后列辅音的二元分析方法,提出了首音节元音、前音节、当前音节、词中和词末等从多个角度研究的多元数据分析方法。三、为了采用决策树算法提出了蒙古语长短元音的特征分类标签、蒙古语扩展的长元音化结构的分类特征向量、非词首音节中的单个元音字符分类特征向量、首音节元音特征向量。其中,提出扩展的长元音化结构的分类特征向量的目的是处理传统语法知识中的长元音和复合元音现象。提出首音节元音特征向量的目的是处理传统语法知识中的词首音节的元音字符的读音变化现象。提出非词首音节中的单个元音字符分类特征向量的目的是处理传统语法知识中的非词首音节的元音字符的读音变化现象。先通过决策树算法分别局部处理了词首音节的元音字符读音变化、长元音和复合元音对应的字符组合的读音、非词首音节中的单个元音字符的读音变化。然后再使用新提出的基于多元数据的规则去处理音节数的变化、复辅音的结合和元音的和谐问题。四、对于带附加成分的词条,根据附加成分读音变化方面的传统语法知识,也总结了规则。具体地,带附加成分的词分两次读音转换,先转换不带附加成分的词和附加成分的读音,然后根据附加成分读音变化规则,连接词的读音和附加成分的读音。五、使用基于规则和决策树相结合的字素和音素转换方法对《蒙汉词典》的26348个词进行比对测试并改进,为发音词典建设提供了自动化程序。目前,通过该字素和音素转换程序针对《蒙汉词典》的26348个词进行比对的结果是21121个词得到了正确的读音转换,词读音转换正确率达到了80.16%。六、参照开源语音识别Kaldi工具包的发音词典的建设要求,对5600个句子的文本进行切词,并使用上一步得到的基于规则和决策树相结合的字素和音素转换程序,得到了10415个词的书写与读音标注平行对;然后在开源语音识别Kaldi工具环境下,搭建了语音识别系统。其中语言模型采用SRILM工具包构建了语言模型,声学模型分别使用了子空间高斯混合模型SGMM-HMM和DNNHMM声学模型并做了对比试验。试验结果表明在低资源的情况下,子空间高斯混合模型SGMM-HMM声学模型优于DNN-HMM声学模型。
庞康高[3](2021)在《基于语音时频特征的阻塞性睡眠呼吸暂停综合征检测研究》文中指出阻塞性睡眠呼吸暂停综合征(Obstructive Sleep Apnea Syndrome,OSAS)是一种流行的且与睡眠有关的呼吸系统疾病。它的主要表现为睡眠期间上呼吸道重复地发生部分或完全阻塞。在本研究中,我们使用OSAS患者清醒时的语音信号,来检测OSAS的严重程度。当前,基于语音的OSAS检测方法使用传统语音特征。传统特征集一般使用梅尔频率倒谱系数(MFCC)、共振峰、能量、线性预测编码(LPC)系数、共振峰导数、共振峰带宽、谐噪比(Harmonic to Noise Ratio,HNR)、ΔMFCC、ΔΔMFCC、对数能量、基频抖动(jitter)、振幅抖动(shimmer)和基频(Fundamental frequency)等。然而,传统语音特征是在正常语音频率范围(<6kHz)中计算的,但是它通常忽略了出现在许多病理声音中的较高频率范围内的信号分量。同时,传统语音特征所使用的参数是从用于正常语音处理/识别的参数中借用的,这些参数对于检测OSA患者的声音不是最佳的。其次,从对患者的语音进行数字信号分析的观察中发现,频谱图和检测到的共振峰轨迹在各种严重性级别之间具有明显不同的语音特性。此外,我们还发现使用传统语音的参数设置对共振峰轨迹跟踪不是最佳的。其他语音特征亦然。因此,我们为基于语音的OSA检测研发新的特征集。本项研究专注于两个特征集:(1)高频成分特征集,(2)时频特征集。我们将特征集提取出来并比较它们在OSAS检测中的性能。对于高频成分特征集,我们在传统特征集的基础上,对其参数进行改变和研发出了新的特征,使传统特征集具备更多高频成分。对于时频特征集,我们先计算持续语音的频谱图,然后将离散余弦变换(DCT)应用于频谱幅值图像,然后以用之字扫描顺序从DCT系数中提取特征向量。最后,我们将截取特征向量前9)个点以表征这些样本。为了找到最佳的9),我们还设置了9)的多个值。得到特征集后,我们将首先使用主成分分析(PCA)进行重组并选择特征空间,然后使用正向序列特征选择(SFFS)对所选数据进行双重筛选,最后使用朴素贝叶斯分类器(Naive Bayes Classifier,NBC)和二元判别分析(Quadratic Discriminant Analysis,QDA)对OSAS的严重性进行检测。验证方法,我们选择使用k-折交叉验证(k-fold)和留一法(LOO)来进行验证。由结果可得,时频特征集表现优于高频分量特征集,而高频分量特征集优于传统特征集。由此,我们可得出,传统特征集并不适合基于语音的OSAS检测。其中,使用元音在高频分量特征集和传统特征集中比粤语数字要好,但时频特征的表现差别不大。
陈禹风[4](2021)在《普通话单字音空气动力学研究》文中研究指明语音的空气动力学过程影响了语音产生的所有声学表现。本研究使用PAS6600采集语音相关气流气压数据,通过观察、测量和计算,得到如下结果和结论:1)气流气压曲线:塞音、塞擦音闭合开始时由于软腭动作引起鼻腔空气波动,会出现小的气流峰。塞音和塞擦音的送气音气流峰值远大于不送气音。阻碍较强的擦音气流会出现双峰模式。塞音气压下降较快,塞擦音气压下降比塞音慢,送气塞擦音气压表现与擦音更相似。通音和元音的气流气压都在较低水平,接近零线,其中r通音气压方面波动相对较大。2)气压峰值:塞音气压峰值没有明显的发音部位效应和发音方法效应;塞擦音气压峰会高于塞音,其中的舌面音气压峰值比舌尖音高;擦音气压内部差异较大,刚性擦音气压或高于塞音,舌面后音气压峰值极低,表明阻碍越小,气压越小。口通音气压大于鼻通音声母大于鼻通音韵尾。元音在不同音节结构位置的气压表现不一样,做韵头的高元音具有全通音的特点,气压较高,高于鼻音,作韵腹和韵尾的元音气压略低于鼻音韵尾。在无辅音声母影响的情况下,高元音的口内压通常高于低元音;舌尖元音由于音节结构限制,口内气压峰值受前接辅音影响明显,远高于其他基础元音。3)气流相关参数:送气音气流(包括气流峰值和气流量)强于不送气音是绝对规律。塞擦音气流相对强于同发音方法的塞音,在气流峰值和气流量方面都有体现。擦音气流峰值介于送气音和不送气音之间,但是气流量并不低于送气音。气压低的擦音,气流量反而更大。不同发音部位之间的差异规律不明显。通音和元音气流均值接近,鼻音韵尾偏高。开口度大的元音因声道阻力小,气流均值相对高元音偏高。声调会影响气流,低起调条件(如上声和阳平)下,元音气流较低。4)阻塞音气流气压相关时长参数:测量塞音气压的升渡(IP)和降渡(DP)时长值以及气压峰值与气流峰值的时间差△t。发现DP呈现一定规律,首先发音方法上送气音的DP更长,同时发音部位上舌尖音的DP偏低,舌面后音偏高。△t也能反映与DP相似的规律。同样测量了塞擦音的气流气压相关时长,可以通过气压降渡DP和△t看到送气音和不送气音的差别,但是发音部位方面无明显规律。5)与摩擦音相关的收缩截面积:通过经验公式估算擦音的口腔收缩面积的目标值,唇齿音f[f]的收缩面积最小,口腔阻碍程度高;舌面后音h收缩面积最大,口腔阻碍程度最小。sh[?]、x[?]、s[s]收缩面积依次递减。同样估算塞擦音摩擦段收缩截面积,也可以分析规律性趋势:同部位的送气音除阻后的收紧点面积大于不送气音;舌尖音的截面估算值大于舌面音,其中舌尖后音大于舌尖前音。上述规律暗示了不同音位的调音音姿差异。6)性别和年龄差异:本文结果显示男性塞音、塞擦音和擦音的气流气压高于女性,且部分得到统计学结果的支持。同时本文发现儿童阻塞音气压比成人更高,但是气流参数都要小于成人。元音的口内气压平均值往往也是成年男性比成年女性偏高;儿童有所不同,女孩元音口内压大于男孩的情况比较常见。不过,气压方面的性别差异几乎都不具有统计学意义。气流均值都是男性大于女性,成人儿童都是如此,且都具有统计学意义。关于性别和年龄差异的原因,目前认为生理方面存在肺活量、发音力、声道尺寸、肺部塌陷速度等等方面的群体差异,本文认为也需要考虑社会因素。
更太加[5](2020)在《融合形态结构与语法关系的藏语语言模型》文中研究说明语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。藏语作为资源匮乏的语言之一,目前没有公开的、标准的音频和文本数据资源。根据藏语拉萨方言的特点和藏语文本的特殊性,本文考虑了音素平衡以及文本域问题,构建了藏语的音频和文本语料库。基于藏语句子中一些虚词接续错误和低频词问题,本文重点关注了藏语中后缀对虚词的影响,以及形态动词对低频词的影响。在上述基础上,首先,本文提出了藏语静态形态结构关系的语言模型。与其他语言不同,藏语中特有的静态形态结构关系(即后缀对虚词接续关系)会严重影响藏语句子的语义理解。具体地,除了字本身的信息之外,字的后缀信息能够使其更加准确接续正确的虚词。因此,本文将静态形态结构融入到字的信息中,以纠正句子中一些语法错误,从而使句子语义能够准确表达。其次,本文提出了藏语动态形态结构关系的语言模型。我们发现在语料中有一些动态形态结构关系(即藏语中的形态屈折变化词),这类词比较特殊且重要,对句子的语义会产生重要影响,尤其是在语音识别中的同音字,预测错误的可能性较大。由于词类中候选词越多,其对应的候选词权重越低,被选中的概率就越低。为此,我们对藏语中的形态动词进行加权,使其不但能够被分配到更高的词类中,而且能更加准确地表示句子语义。最后,本文提出了融合静态和动态形态结构的藏语语言模型。经统计发现,静态形态结构关系可以纠正句子中语法错误的问题,而动态形态结构可以使句子中形态动词的权重发生变化,这两种结构具有互补的关系,能够进一步增强对藏语句子语义的理解。我们有效融合了静态和动态形态结构,不仅考虑到后缀对虚词的影响,而且对形态动词进行了加权以增强句子的语义理解,比仅考虑单个特性的模型在性能上有所提升。综上所述,通过构建藏语语料库以及对其分析,我们发现语法和低频词问题。进而将后缀对虚词的语法问题以及形态动词对低频词的影响应用于藏语语言模型的研究中,可以有效提升藏语句子的识别和理解能力。除了语音识别,本文的工作还可被应用到手写体识别、机器翻译和句法分析等藏语自然语言处理的不同任务上,希望该工作能为藏语信息处理研究做出一点绵薄之力。
张笑寒[6](2019)在《相对舌体大小的个体差异及其声学特性研究》文中提出本文主要探究说话人的舌体大小是如何有助于产生说话人个性的动态特征。相对舌体大小(RTS)已经作为一个衡量中矢状面核磁共振成像(MRI)口腔内舌体大小的指标。我们先前的研究表明,RTS越小,舌体运动就越快。在本项研究中,进一步对RTS在声学特性方面的影响展开了研究,即通过比较舌体的运动速度和共振峰频率的变化率,来分析不同的相对舌体大小所产生的声学特性。本研究所使用的数据是现有的cine-MRI数据集,女性被试者的RTS存在差异性,而对应的语音数据是由女性被试者所产生的句子及两个中文短词的声学数据。本文利用现有的MRI数据以及声学数据,主要研究女性相对舌体大小所引起的个性化差异,即相对舌体大小、舌体运动、以及共振峰频率的变化率三者之间的关系。实验结果得出:与具有较大RTS值的被试者相比,具有较小RTS值的被试者舌体运动更快,并且共振峰频率的变化率也更快。从而表明,相对舌体大小(RTS)由舌体的运动速度反映出来,而舌体的运动速度影响了声道共振的变化,从而最终映射到共振峰频率的变化率上,导致了共振峰频率变化率的差异性。由于舌体大小不受讲话者意图的控制,因此RTS可以被视为语音信号低频区域中动态个体特征的因果因素之一。
宋雪阳[7](2019)在《不同证候肺结节患者的中医声诊特征初步观察》文中进行了进一步梳理目的:本课题拟通过临床采集肺结节患者的中医问诊和语音信息,分析肺结节患者语音特征;探索不同中医证候肺结节患者语音特征变化;分析肺结节患者语音特征与肺结节危险因素以及患者生活习惯、共患病间相关性;对肺结节患者进行随访,重点观察证型分布以及影像学变化。以期为不同证型肺结节患者的声诊研究提供具有中医特色的客观依据。方法:(1)基于课题组前期研制的“肺结节问诊信息采集表”,结合文献对肺结节患者的危险因素进行分析和总结,完善并确立“肺结节问诊信息采集表”,该量表包括基本信息、重点问诊、一般问诊、生活习惯、舌面脉象、理化指标等。(2)运用“肺结节问诊信息采集表”采集肺结节患者的问诊信息、利用Smart TCM-1型中医生命信息分析系统声诊模块采集肺结节患者的语音信息。问诊根据症状“无、有”赋值为“0、1”,语音信号通过Praat6.0.34分析基频、强度、共振峰、谐噪比、振幅微扰、频率微扰等参数,同时根据课题组前期与华东理工大学机电学院联合研制的小波包分析方法,分析肺结节患者语音不同频段小波包能量值及小波包香农熵值。使用Epidata将上述问诊信息、语音特征与理化指标共同构成肺结节患者临床信息数据库。(3)运用频数分析统计肺结节患者不同证候、不同危险因素、不同生活习惯、不同共患病的分布特征;通过秩和检验分析语音特征在肺结节患者与哮喘缓解期患者、正常人间差异,分析不同证候、不同危险因素、不同运动习惯、不同共患病各组内肺结节患者语音特征差异;运用典型相关分析肺结节不同饮食习惯与语音特征的相关性;根据随访肺结节患者的预后情况,观察不同病变情况肺结节患者证型分布。结果:(1)肺结节患者问诊信息:(1)频次居于前十的问诊症状,根据高低频次依次为:乏力、咳嗽、健忘、喉中有痰、腰膝酸软畏寒(并列)、急躁易怒、口干、胸闷与咽干咽痛。(2)中医证型频数分布由高到低依次为:气血不足证(46.18%)、痰湿蕴结证(23.25%)、阴液亏耗证(16.89%)、气机郁滞证(7.96%)与瘀血阻滞证(5.73%);(3)影像学表现上,314例肺结节患者中,磨玻璃结节占41.40%;达到手术标准(≥8mm)的肺结节患者占28.25%,肺结节较小(<5mm)的患者占39.17%;肺结节位于右肺患者较多占45.86%,肺结节位于肺上叶的患者占58.28%;单发肺结节患者占55.41%。(4)有肿瘤家族史的患者占17.52%,其中有肺癌家族史的患者仅占5.41%;吸烟者占17.20%且绝大部分为男性,有被动吸烟史的患者占21.97%,有油烟接触史的患者45.22%。(5)生活习惯方面,喜热饮、喜甜食的患者出现频次较多,而喜腌腊制品的患者较少;长期锻炼习惯的患者65例,而近三个月内有运动锻炼的患者则增长至127例;有41.72%的患者伴有情绪异常,并且以急躁易怒为主。(6)共患病出现频次由多到少依次为甲状腺结节(35.35%)、高脂血症(30.89%)、乳腺结节(20.70%)、高血压(17.83%)、糖尿病(10.19%)、哮喘(5.73%)。(2)肺结节患者语音特征:(1)肺结节、哮喘缓解期患者与正常人比较,语音小波包能量在0-500Hz频段内,肺结节患者高于正常人;7250-8000Hz频段内,哮喘缓解期患者高于正常人与肺结节患者,具有显着差异(p<0.05);小波包香农熵在0-1250Hz内,肺结节患者高于正常人,具有显着差异(p<0.05)。(2)肺结节患者不同中医证型组间比较,气血不足证基频、基频高值、基频低值均高于痰湿蕴结证,阴液亏耗证基频高值、基频低值高于痰湿蕴结证,气机郁滞证第一共振峰高于痰湿蕴结证与瘀血阻滞证,气机郁滞证第二共振峰高于痰湿蕴结证,气血不足证第三共振峰高于瘀血阻滞证,差异均具有统计学意义(p<0.05)。小波包能量在0-250Hz频段,阴液亏耗证高于气机郁滞证与气血不足证,1250-1500Hz频段气机郁滞证高于瘀血阻滞证,1000-1250Hz频段间各证均出现差异,差异均具有统计学意义(p<0.05);小波包香农熵在250-750Hz与1000-1250Hz内气血不足证小于痰湿蕴结证,具有显着差异(p<0.05)。(3)不同危险因素间,磨玻璃结节在7750-8000Hz小波包能量上出现差异,肺结节尺寸在第三共振峰、2000-2500Hz频段小波包能量上出现差异,结节单发与否在基频和基频高值间存在差异,肿瘤家族史在7500-7750Hz频段小波包能量上出现差异,肺部肿瘤家族史则在基频、基频高值、基频低值上出现差异,被动吸烟史在3000-3250Hz小波包能量上出现差异,油烟接触史则在第四共振峰及1000-1750Hz、2500-2750Hz、3250-3750Hz频段的小波包能量上出现差异,均具有统计学意义(p<0.05),语音特征在吸烟史方面未出现明显差异(p>0.05)。(4)不同生活习惯中,运动锻炼习惯对语音响度、第一共振峰、第二共振峰以及750-1000Hz、1500-2500Hz、3000-8000Hz各频段小波包能量间产生影响,近期运动行为则影响语音响度及1750-2250Hz、3250-3500Hz频段小波包能量,均具有显着差异(p<0.05);饮食习惯与语音能量特征呈一对典型相关关系,相关系数为0.70,其中喜甜食、喜冷饮呈负相关,其余饮食习惯呈正相关。(5)肺结节患者共患病语音特征方面,肺结节伴高脂血症的患者基频、基频高值、频带宽度、频率微扰、谐噪比及250-500Hz小波包香农熵间出现显着差异(p<0.05),肺结节伴甲状腺结节者第一、第二共振峰及1500-3250Hz、4000-4500Hz、5000-5250Hz小波包能量出现差异(p<0.05),伴糖尿病患者语音特征未出现明显差异(p>0.05)。(3)对314例肺结节患者随访后得到104例患者影像学检查结果,其中9例经病理诊断为肺癌,发生恶变与未发生恶变的肺结节患者间中医证型尚未出现明显差异(p>0.05)。结论:(1)肺结节患者问诊症状以乏力为首,而咳嗽次之,与肺结节起病可不伴有呼吸道症状相符,提示临床中尚需注意呼吸系统之外的症状。中医证型以气血不足证、痰湿阻滞证为主,总领虚实二证,气虚血少与痰湿内蕴为肺结节主要病机,提示肺结节中医辨证可从虚实入手。(2)肺结节患者语音特征中,声学参数能够较明显体现不同证型、生活习惯及共患病的差异,而小波包能量特征则在疾病类型、中医证型、危险因素、生活习惯、共患病中都能够提取包含显着差异的频段。提示语音特征能够为肺结节病的筛查、中医证型的判别提供一定依据。
孙梦娜[8](2019)在《听觉中脑锁相反应的言语感知效应及连续语音声韵母自动分段》文中指出听觉中脑编码周期性信号时频特征的机制之一是锁相反应,其编码信息向上传递至更高级中枢供其整合以实现听觉系统的言语感知。然而听觉中脑的锁相编码机制如何影响听觉言语感知尚不确定。本文第一部分研究了引发听觉中脑神经元锁相编码的具有不同时序调制特性的谐波复合体对中文言语感知的影响。选取手工标注好声韵母边界的中文语音感知语料库,改造语音样本中的韵母段语音为4种谐波复合体,其它部分不变,得到4种改造言语信号,连同原言语信号,组成5种刺激声信号。通过受试内设计,邀请20位听力正常的汉语母语者参与5组主观测听实验,记录每组测试的字、语句平均正确识别率。得出结论:被降解的元音引发听觉系统言语感知的能力下降;相同初相位谐波复合体引发听觉中脑更强的锁相反应,有助于中枢神经系统对言语的感知与理解;随机初相位谐波复合体引发听觉中脑的锁相编码强度最弱,削弱了中枢神经系统对言语的感知能力。手工获取连续语音中韵母段语音的方法主观性强、不可复现且耗时间。为提高声韵母分段效率、准确性及实现批量化处理,本文第二部分设计两级支持向量机辅以规则边界融合策略的连续语音声韵母自动分段算法。分别以对数能量与39维梅尔频率倒谱系数为帧特征,于训练集训练两级支持向量机。基于片段余弦相似度与欧氏距离获取两种候选边界,设计规则边界融合策略来调整两级支持向量机于测试集所得初始分段边界。以F-measure值为边界评价标准,所得均值为94.01%,相对初始分段结果提升12.08%。本文还分析并验证了该算法的抗噪声干扰性。由此不仅克服了手工分段的缺点,还提高了算法适应性,对语音识别、合成、编码和增强等应用领域具有重要实用价值。该论文有图49幅,表6个,参考文献66篇。
韦怡[9](2019)在《基于子带分析的耳语音增强算法研究》文中研究说明耳语音是语音的一种特殊形式,是人类日常交流中较为常见的语言方式。其发音方式类似于噪声所以对耳语音进行降噪非常困难,这就体现出耳语音增强技术在人们生活中显得至关重要。本文先对耳语音的时、频域特性进行分析研究,之后再对耳语音增强技术展开探索。因为耳语音也属于语音的一种形式,本文在研究耳语音增强之前对传统语音增强技术有个较为深入的研究,提出了一种基于子带谱熵的单通道语音增强算法,之后对基于耳语音增强技术的研究提出了两种改进算法:基于改进的梅尔(Mel)频率尺度和相位修正的耳语音增强算法以及耳语音共振峰特性与改进的Mel频率尺度相结合的耳语音增强算法。目前,耳语音方面的研究较少,大多停留在耳语音的基本特性分析,本文中从多个方面对耳语音特性进行分析,包括生理特性,声学特性以及时、频域仿真分析,为后文进行耳语音增强算法提供理论基础。本文给出的基于子带谱熵的单通道语音增强算法研究是在多带谱减法中采用等效矩形带宽(ERB)尺度划分临界频带,根据计算子带谱熵值来判断语音频谱分量与噪声频谱分量,将噪声更新阈值与后验信噪比相比较进行噪声估计,最后在各个频带中单独进行谱减法得到最后增强的语音信号。实验结果证明,提出的该单通道语音增强算法效果优于其他可比较的传统语音增强算法。在耳语音特性分析的基础上,给出了基于改进的Mel频率尺度和相位修正的耳语音增强算法。本文首先依据传统的Mel频率尺度与徐柏龄老师提出的两种频率尺度来得到改进的新Mel频率尺度。除此之外,对传统的相位谱补偿进行修正,将修正后的相位谱与经过谱减后的耳语音幅度谱相结合得到最终增强后的耳语音复频谱。其中在相位谱补偿函数中的噪声估计幅值采用新的方法获得。最后进行实验性能分析得到改进的耳语音增强算法在客观、主观评价方面增强效果均优于另外两种可比较的耳语音增强算法。另外,本文还给出了基于耳语音共振峰特性与改进的Mel频率尺度相结合的耳语音增强算法。首先根据上个耳语音增强改进算法中的改进Mel频率尺度得到该改进算法中可供选择的Mel频率尺度,计算耳语音的能熵比进行端点检测,然后在有话段中提取耳语音第二共振峰频率,依据该频率选择适合的Mel频率尺度进行多带谱减得到最后增强的耳语音信号。由实验结果可知,改进的耳语音增强算法在客观评价与主观评价中效果均优于另外两种可比较的增强算法。
李洺宇[10](2019)在《准书面语朝鲜语语音语料自动标注系统的研究与实现》文中研究说明随着人工智能时代的到来,其相关技术呈现了快速发展的趋势。在这样的时代背景下,语音识别技术也越来越广泛地融入人们的生活和生产中,出现了语音输入、语音助手、口语翻译、智能客服、智能硬件等应用性产品。在语音识别技术发展的历程中,每一次识别方法的突破始终离不开高质量、大规模的语音语料库的支撑,所以语音语料库的建设是语音识别技术赖以实现的重要基础。过去的几十年间,我国很多少数民族语言如维吾尔语、藏语、蒙古语的语音语料库建设已初具规模,但国内的朝鲜语语音语料库建设状况却是严重滞后的。针对这一状况,本文结合朝鲜语的发音特点提出了准书面语朝鲜语语音语料的自动标注方法,并设计实现了自动标注系统。首先,基于Seneff听觉模型提出朝鲜语语音音节自动分割方法。该方法依据Seneff听觉模型输出的ALSD和ED等参数确定正负突变点,进而确定语音音节的起止位置。在此基础上进一步分析错误分割主要原因后,提出了改进的朝鲜语语音音节分割算法。其次,提出了准书面语朝鲜语文语语料的文语对齐方法。为了减少语音音节分割错误在文语对齐阶段的累计影响,本方法在文语对齐预处理阶段采用提出的语音句子切分算法和语音片段细切分算法将文语语料划分为一系列更小的语音片段序列,然后在引入提出的朝鲜语连读规则和音节真伪性判别算法基础上实现了文语对齐。最后,设计和实现了准书面语朝鲜语语音语料的自动标注系统。该系统以语音语料自动标注文件作为最终的处理结果,以语音音节自动分割算法和文语对齐方法为核心技术,采用Python编码实现。设计和实现过程中遵循软件工程方法进行了需求分析、总体方案设计、功能模块划分以及测试。实验和测试结果表明,本文提出的音节自动分割改进算法准确率达到86.76%,文语对齐算法准确率达到70.26%,系统的功能模块测试均满足设计目标,未发现缺陷。本文提出的语音语料自动标注方法与人工标注和基于语音识别标注方法不同,主要通过语音音节自动分割和文语对齐方法实现了准书面语朝鲜语文语语料的自动对齐和标注,方法具有简单高效、易实现等优点,同时对促进朝鲜语语音语料库研究与建设具有一定的理论和应用价值。
二、语音信号元音检测的新方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、语音信号元音检测的新方法(论文提纲范文)
(1)基于神经肌肉生理信息的吞咽与发音功能评估方法研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.1.1 正常吞咽功能与吞咽障碍 |
1.1.2 正常发音与构音障碍 |
1.1.3 吞咽障碍与构音障碍的同理性和普遍性 |
1.1.4 现有吞咽和发音功能评估方法存在的问题 |
1.2 国内外研究现状 |
1.2.1 现有表面肌电技术在吞咽功能评估方面的研究现状 |
1.2.2 现有表面肌电技术在发音功能评估方面的研究现状 |
1.2.3 高密度表面肌电技术的发展趋势 |
1.3 本论文拟解决的问题及目标 |
1.4 论文结构 |
第2章 实验方案设计与数据分析算法 |
2.1 实验受试者招募 |
2.1.1 吞咽实验受试者选取 |
2.1.2 发音实验受试者选取 |
2.2 吞咽实验方案 |
2.3 发元音实验方案 |
2.3.1 发元音实验方案 |
2.3.2 说中英文数字实验方案 |
2.4 实验数据预处理 |
2.5 高密度肌电可视化算法分析 |
2.6 肌肉协同分解算法 |
2.6.1 非负矩阵分解算法 |
2.6.2 肌肉协同个数的确认 |
2.6.3 肌肉协同的结构相似度评估 |
2.7 最优通道选择算法 |
2.7.1 特征提取 |
2.7.2 交叉验证 |
2.7.3 分类器 |
2.7.4 顺序前向搜索 |
第3章 吞咽过程中面颈部吞咽肌群电生理活动分析 |
3.1 吞咽肌群动态肌电信息与正常吞咽功能的对应 |
3.2 高密度动态肌电信息与吞咽障碍的关联性分析 |
3.3 吞咽过程中颈部吞咽肌群的肌肉协同分析 |
3.4 本章讨论与小结 |
第4章 发音过程中肌群电生理活动分析 |
4.1 发音过程面颈部肌群活动的动态可视化 |
4.2 正常发音过程中语音信息与肌电信息的生理相关性研究 |
4.3 发音过程中面颈部的肌肉协同分析 |
4.3.1 不同元音的肌肉协同分析 |
4.3.2 不同音量的肌肉协同分析 |
4.3.3 不同音量的激活系数分析 |
4.4 本章讨论与小结 |
第5章 基于高密度表面肌电的语音识别研究 |
5.1 语音识别中面颈部肌肉贡献分析 |
5.2 语音识别中的电极优化策略 |
5.3 本章讨论与小结 |
5.3.1 语音识别中的面颈部肌肉贡献 |
5.3.2 语音识别中的最优电极数目和位置 |
第6章 总结与展望 |
6.1 本论文总结 |
6.2 今后工作展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(2)蒙古语发音词典建设及其语音识别的应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题的研究背景和意义 |
1.2 蒙古语字素和音素转换与相关技术的国内外发展现状 |
1.3 本课题的研究内容及组织结构 |
第二章 蒙古书面语与口语词之间语音对应关系 |
2.1 蒙古文字符与口语音位对应关系 |
2.1.1 短元音 |
2.1.2 长元音 |
2.1.3 复合元音 |
2.1.4 借词元音 |
2.1.5 辅音 |
2.1.6 本课题研究借助的符号系统 |
2.2 书面语与口语词之间音节对应关系 |
2.2.1 音节概述 |
2.2.2 书面语与口语词之间音节对应关系 |
2.2.3 从分类角度研究书面语与口语词之间音节对应关系 |
2.3 蒙古语口语元音和谐律 |
2.3.1 蒙古语口语的元音和谐律概述 |
2.3.2 书面词非第一音节的短元音《??(i)》的元音和谐律 |
2.3.3 书面词非第一音节的其它元音(除《? (i)》外)的元音和谐律 |
2.4 本章小结 |
第三章 蒙古语发音词典建设研究 |
3.1 蒙古语字素和音素转换与发音词典建设总体设计思路 |
3.2 基于规则和决策树相结合的发音词典建设设计 |
3.2.1 决策树算法与监督式分类介绍 |
3.2.2 蒙古语长短元音的特征分类标签简介 |
3.2.3 现代蒙古语书面语长元音化结构的特征化处理 |
3.2.4 现代书面蒙古语词首音节元音分类的特征化处理 |
3.2.5 非词首音节中的单个元音字符分类的特征化处理 |
3.2.6 基于规则和决策树相结合的字素和音素转换 |
3.3 本章小结 |
第四章 蒙古语词法与词汇对发音词典建设的影响 |
4.1 蒙古语词汇对发音词典建设的影响 |
4.2 蒙古语词法对发音词典建设的影响 |
4.3 辅音知识对发音词典建设的影响 |
第五章 发音词典在蒙古语语音识别上的应用 |
5.1 语音识别技术及蒙古语发音词典在语音识别上的应用介绍 |
5.2 基于kaldi的语音识别 |
5.2.1 语音识别kaldi工具的介绍 |
5.2.2 隐马尔科夫模型(HMM) |
5.2.3 子空间高斯混合模型SGMM声学模型 |
5.2.4 DNN-HMM声学模型 |
5.2.5 N-gram语言模型 |
5.2.6 基于WFST的解码器 |
5.2.7 性能评价指标 |
5.3 实验数据准备与分析 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 1 书面蒙古语扩展的长元音化结构的分类特征向量举例 |
附录 2 非词首音节中的单个元音字符分类特征向量举例 |
附录 3 首音节元音字符特征向量举例 |
附录 4 开源语音识别工具 kaldi 环境使用的蒙古语发音词典举例 |
附录 5 |
致谢 |
(3)基于语音时频特征的阻塞性睡眠呼吸暂停综合征检测研究(论文提纲范文)
摘要 |
Abstract |
缩写名称对照表 |
第一章 绪论 |
1.1 阻塞性睡眠呼吸暂停综合征介绍和研究背景 |
1.1.1 阻塞性睡眠呼吸暂停综合征介绍 |
1.1.2 阻塞性睡眠呼吸暂停综合征的研究背景 |
1.2 国内外研究现状 |
1.2.1 基于语音的OSAS检测 |
1.2.2 基于鼾声的OSAS检测 |
1.3 时频特征的研究 |
1.4 研究内容与章节安排 |
1.4.1 研究内容 |
1.4.2 章节安排 |
第二章 实验数据 |
2.1 引言 |
2.2 实验数据设计准则 |
2.3 实验数据来源,分类与使用资格 |
2.4 信号预处理 |
2.5 本章小结 |
第三章 OSAS患者语音频谱图分析 |
3.1 引言 |
3.2 元音频谱图分析 |
3.3 粤语数字频谱图分析 |
3.4 本章小结 |
第四章 特征集 |
4.1 引言 |
4.2 传统语音特征集 |
4.3 高频成分特征集 |
4.3.1 高频成分特征集的设计原因 |
4.3.2 高频成分特征集的设计 |
4.4 时频特征集 |
4.4.1 时频特征集的设计原因 |
4.4.2 时频特征集的设计 |
4.5 章节小结 |
第五章 OSAS检测系统 |
5.1 引言 |
5.2 特征提取 |
5.3 特征选择 |
5.4 分类器 |
5.5 章节小节 |
第六章 实验结果和分析 |
6.1 实验结果 |
6.2 实验结果分析 |
总结与展望 |
1.总结 |
2.展望 |
参考文献 |
攻读硕士期间发表的论文 |
致谢 |
(4)普通话单字音空气动力学研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
第一节 选题来源、研究对象和研究意义 |
1.1.1 选题来源 |
1.1.2 研究对象和研究意义 |
第二节 发音生理和空气动力学相关理论 |
1.2.1 发音生理的机械模型 |
1.2.2 空气动力学制约(AVC)理论 |
第三节 研究现状 |
1.3.1 口腔调音相关的空气动力学研究 |
1.3.2 喉部发声相关的空气动力学研究 |
1.3.3 腭咽功能相关的空气动力学研究 |
1.3.4 国内研究 |
第四节 实验说明 |
1.4.1 实验仪器 |
1.4.2 发音人和发音材料 |
1.4.3 数据采集和提取 |
1.4.4 相关参数说明 |
1.4.5 数据处理软件和统计方法 |
第五节 本研究的创新点及困难 |
1.5.1 创新点 |
1.5.2 困难 |
第二章 单字音塞音声母空气动力学研究 |
第一节 CV结构中的清塞音气流气压轨迹 |
第二节 清塞音的气压峰值 |
2.2.1 清塞音的气压峰值 |
2.2.2 清塞音的气流峰值 |
2.2.3 清塞音的气流量 |
2.2.4 气压轨迹的时长测量 |
第三节 儿童单音节词清塞音声母研究 |
2.3.1 清塞音的气压峰值 |
2.3.2 清塞音的气流峰值 |
2.3.3 清塞音的气流量 |
2.3.4 气压轨迹的时长测量 |
2.3.5 塞音空气动力学年龄比较 |
第四节 清塞音声母空气动力学性别比较 |
2.4.1 成人性别比较 |
2.4.2 儿童性别比较 |
2.4.3 性别差异讨论 |
第五节 塞音气动格局初探 |
第三章 单字音擦音声母空气动力学研究 |
第一节 CV结构中的清擦音气流气压轨迹 |
第二节 成人单音节词清擦音声母研究 |
3.2.1 清擦音的气压峰值 |
3.2.2 清擦音的气流均值 |
3.2.3 清擦音的气流量 |
3.2.4 擦音收紧点截面积的相对估算 |
第三节 儿童单音节词清擦音声母研究 |
3.3.1 清擦音的气压峰值 |
3.3.2 清擦音的气流均值 |
3.3.3 清擦音的气流量 |
3.3.4 擦音收缩截面积的相对估算 |
3.3.5 擦音气流气压年龄比较 |
第四节 清擦音声母空气动力学性别比较 |
3.4.1 成人性别比较 |
3.4.2 儿童性别比较 |
3.4.3 性别差异讨论 |
第五节 擦音气动格局初探 |
第四章 单字音塞擦音声母空气动力学研究 |
第一节 CV结构中的塞擦音气流气压轨迹 |
第二节 成人单音节词塞擦音声母研究 |
4.2.1 塞擦音的气压峰值 |
4.2.2 塞擦音的气流峰值 |
4.2.3 塞擦音的气流量 |
第三节 儿童单音节词塞擦音声母研究 |
4.3.1 塞擦音的气压峰值 |
4.3.2 塞擦音的气流峰值 |
4.3.3 塞擦音的气流量 |
4.3.4 塞擦音空气动力学年龄比较 |
第四节 塞擦音声母空气动力学性别比较 |
4.4.1 性别差异 |
4.4.2 性别差异讨论 |
第五节 塞擦音空气动力学格局 |
4.5.1 其他参数 |
4.5.2 塞擦音气动格局初探 |
第五章 通音空气动力学研究 |
第一节 CV结构中的通音气流气压轨迹 |
第二节 成人通音空气动力学研究 |
5.2.1 通音气压峰值 |
5.2.2 通音气流均值 |
5.2.3 讨论和分析 |
第三节 儿童通音空气动力学研究 |
5.3.1 儿童通音气压峰值 |
5.3.2 儿童通音气流均值 |
5.3.3 讨论和分析 |
5.3.4 通音气流气压年龄比较 |
第四节 通音性别比较 |
第五节 通音空气动力学格局 |
第六章 元音气流气压研究 |
第一节 成人元音气流气压研究 |
6.1.1 基础元音的气流气压 |
6.1.2 复合韵母中/a/的气流气压 |
6.1.3 复合韵母中/i/的气流气压 |
6.1.4 复合韵母中/u/的气流气压 |
6.1.5 复合韵母中/?/的气流气压 |
6.1.6 复合韵母中/y/的气流气压 |
6.1.7 小结 |
第二节 儿童元音空气动力学研究 |
6.2.1 基础元音的气流气压 |
6.2.2 复合韵母中/a/的气流气压 |
6.2.3 复合韵母中/i/的气流气压 |
6.2.4 复合韵母中/u/的气流气压 |
6.2.5 复合韵母中/?/的气流气压 |
6.2.6 复合韵母中/y/的气流气压 |
6.2.7 年龄差异 |
第三节 元音的性别差异 |
第四节 元音气流气压格局初探 |
6.4.1 一级元音格局 |
6.4.2 二级元音格局 |
6.4.3 三级元音格局 |
6.4.4 四级元音格局 |
第五节 关于元音气流气压研究的思考 |
第七章 总结 |
第一节 强阻塞辅音气流气压表现总结 |
7.1.1 强阻塞辅音气流气压综合比较 |
7.1.2 关于声调因素的补充实验 |
7.1.3 阻塞音空气动力学总结 |
第二节 通音和元音气流气压表现总结 |
7.2.1 通音和元音气流气压综合比较 |
7.2.2 关于声调因素的补充实验 |
7.2.3 通音和元音空气动力学总结 |
参考文献 |
附录 |
致谢 |
攻读学位期间发表的学术论文目录 |
(5)融合形态结构与语法关系的藏语语言模型(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究的现状 |
1.3 研究的内容和创新点 |
1.4 章节关系和安排 |
第2章 语言模型概述 |
2.1 语言模型的简介 |
2.1.1 N-gram语言模型 |
2.1.2 语言模型自适应方法 |
2.1.3 循环神经网络语言模型 |
2.2 藏语语言模型以及相关研究 |
2.2.1 资源丰富的语言 |
2.2.2 藏语以及藏语语言模型 |
2.2.3 藏语语言模型的研究与存在的问题 |
2.3 评价标准 |
2.3.1 困惑度 |
2.3.2 语音识别的词错误率 |
2.4 本章小结 |
第3章 藏语语料的构建和测试 |
3.1 拉萨方言语音数据库构建和测试 |
3.1.1 拉萨方言语音数据库构建 |
3.1.2 藏语音频语料库在不同音素集声学模型上的测试 |
3.2 藏语文本数据库构建和测试 |
3.2.1 藏语文本数据库构建 |
3.2.2 基于形态结构的组合基字藏语语言模型的测试 |
3.3 本章小结 |
第4章 基于静态形态结构的藏语语言模型 |
4.1 藏语虚词及相关研究 |
4.1.1 藏语虚词 |
4.1.2 现有研究中问题及贡献 |
4.2 藏语后缀对虚词的影响 |
4.2.1 藏语字符形态结构 |
4.2.2 后缀的作用以及语义影响 |
4.3 考虑后缀的藏语建模 |
4.3.1 标准的RNNLM |
4.3.2 藏文后缀特征融合 |
4.4 实验结果与分析 |
4.4.1 数据 |
4.4.2 结果 |
4.4.3 分析 |
4.5 本章小结 |
第5章 基于动态形态结构的藏语语言模型 |
5.1 引言 |
5.2 相关研究 |
5.3 藏语中形态动词的作用 |
5.3.1 藏语形态动词 |
5.3.2 基于类的藏语语言模型 |
5.4 基于形态动词的藏语语言模型 |
5.4.1 藏语语言模型中形态动词的重要性 |
5.4.2 离线学习通过字频率重新调整 |
5.4.3 在线调整权重 |
5.5 实验结果与分析 |
5.5.1 实验准备 |
5.5.2 结果 |
5.5.3 分析 |
5.6 本章小结 |
第6章 有效融合静态和动态形态结构的藏语语言模型 |
6.1 引言 |
6.2 语法关系和形态动词 |
6.2.1 藏语语法关系 |
6.2.2 形态动词对句子的影响 |
6.3 考虑语法和形态动词的藏语语言模型 |
6.3.1 RNNLM |
6.3.2 语法关系影响藏语语言模型 |
6.3.3 形态动词相关的藏语语言模型 |
6.3.4 静态和动态结构相结合的语言模型 |
6.4 实验结果与分析 |
6.4.1 困惑度评价 |
6.4.2 ASR evaluation |
6.4.3 分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 研究工作的总结 |
7.2 未来展望 |
参考文献 |
附录 |
发表论文和参加科研情况说明 |
致谢 |
(6)相对舌体大小的个体差异及其声学特性研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本文创新工作 |
1.3.1 数据集 |
1.3.2 舌体运动速度 |
1.3.3 声学分析 |
1.4 研究目的和意义 |
1.5 论文结构 |
第2章 核磁共振成像技术 |
2.1 成像技术 |
2.1.1 传统成像技术 |
2.1.2 核磁共振成像技术 |
2.2 静态核磁共振图像 |
2.3 快速核磁共振图像(cine-MRI) |
2.3.1 同步采样MRI数据(Synchronized Sampling MRI) |
2.3.2 实时MRI数据(Real Time MRI) |
2.4 核磁共振图像数据库 |
2.4.1 数据 |
2.4.2 数据采集设置 |
2.5 本章小结 |
第3章 相对舌体大小 |
3.1 图像处理 |
3.1.1 数据预处理 |
3.1.2 正中矢状面选取 |
3.1.3 图像校正 |
3.2 牙模提取和添加 |
3.2.1 牙模获取 |
3.2.2 加牙操作 |
3.3 相对舌体大小定义与计算 |
3.3.1 舌体和声道的下边界确定 |
3.3.2 相对舌体大小的计算 |
3.3.3 相对舌体大小结果 |
3.4 本章小结 |
第4章 舌体运动和共振峰频率变化 |
4.1 实验数据 |
4.2 舌体运动速度 |
4.2.1 先前研究 |
4.2.2 平均像素变化率 |
4.3 声学分析 |
4.3.1 源滤波理论与线性预测编码 |
4.3.2 共振峰频率轨迹 |
4.3.3 共振峰频率的变化率 |
4.4 本章小结 |
第5章 实验结果与分析 |
5.1 实时MRI数据结果 |
5.1.1 实时MRI数据的平均像素变化率 |
5.1.2 声学分析结果 |
5.2 同步采样MRI数据结果 |
5.3 分析讨论 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(7)不同证候肺结节患者的中医声诊特征初步观察(论文提纲范文)
中文摘要 |
Abstract |
英文缩略词 |
引言 |
1.对象和方法 |
1.1 病例来源 |
1.2 病例筛选 |
1.2.1 诊断标准 |
1.2.2 纳入标准 |
1.2.3 排除标准 |
1.3 肺结节患者临床信息采集 |
1.3.1 肺结节患者问诊信息采集 |
1.3.2 肺结节患者声诊信息采集 |
1.4 肺结节患者的语音特征参数提取及分析方法 |
1.4.1 语音信号的预处理 |
1.4.2 语音特征参数分析 |
1.5 建立肺结节患者临床信息数据库 |
1.6 统计分析方法 |
2.结果 |
2.1 基本信息 |
2.1.1 肺结节患者基本信息 |
2.1.2 三组间患者的基本信息比较 |
2.2 肺结节患者临床问诊信息 |
2.2.1 肺结节患者的问诊症状分布 |
2.2.2 肺结节患者证型分布 |
2.2.3 肺结节患者危险因素分布 |
2.2.4 肺结节患者生活习惯 |
2.2.5 肺结节患者共患病情况 |
2.3 肺结节患者语音特征分析 |
2.3.1 肺结节组、哮喘组与正常组语音特征比较 |
2.3.2 肺结节患者不同中医证型的语音特征比较 |
2.3.3 肺结节患者不同危险因素语音特征比较 |
2.3.4 肺结节患者不同生活习惯语音特征比较 |
2.3.5 肺结节患者不同共患病语音特征比较 |
2.4 随访肺结节患者情况 |
2.4.1 随访肺结节患者的基本信息 |
2.4.2 随访肺结节患者的中医证型分布 |
2.4.3 随访肺结节患者的影像学特征 |
3.讨论 |
3.1 声诊客观化研究及其在疾病诊断中的运用 |
3.1.1 声诊的中医理论溯源 |
3.1.2 声诊的客观化研究 |
3.1.3 声诊研究在疾病诊断中的运用 |
3.2 肺结节患者的临床特征 |
3.2.1 肺结节临床表现 |
3.2.2 肺结节检查方法 |
3.2.3 肺结节患者中医证候特征 |
3.2.4 肺结节的危险因素 |
3.2.5 肺结节与合并病关系 |
3.3 肺结节患者语音特征研究 |
3.3.1 肺结节患者语音特征 |
3.3.2 不同证型肺结节患者语音特征 |
3.3.3 危险因素与语音特征 |
3.3.4 不同合并病与语音特征 |
3.4 问题与展望 |
结论 |
致谢 |
参考文献 |
附录 |
附录一:肺结节中医问诊信息采集表 |
附录二:文献综述(暨硕士在读期间已发表论文) |
参考文献 |
附录三:硕士在读期间发表学术论文 |
附录四:参加学术会议情况 |
(8)听觉中脑锁相反应的言语感知效应及连续语音声韵母自动分段(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状 |
1.3 研究内容与创新 |
1.4 本文的组织结构及研究框图 |
2 听觉中脑时频编码机制与语音声学特征处理 |
2.1 中文连续语音的特点 |
2.2 语音材料的选取 |
2.3 听觉中脑对声音的编码机制 |
2.4 支持向量机 |
2.5 语音的短时处理技术 |
2.6 本章小结 |
3 听觉中脑锁相反应的言语感知效应实验 |
3.1 实验设计 |
3.2 实验材料的处理 |
3.3 实验过程 |
3.4 实验结果分析及结论 |
3.5 本章小结 |
4 连续语音流声韵母自动分段算法 |
4.1 算法设计 |
4.2 语音信号预处理 |
4.3 两级支持向量机模型设计 |
4.4 规则边界融合策略设计 |
4.5 对比算法的选取 |
4.6 边界评价标准 |
4.7 算法仿真结果及分析 |
4.8 本章小结 |
5 声韵母自动分段算法的抗噪性分析 |
5.1 含噪语音的获取 |
5.2 本文算法的抗噪性分析 |
5.3 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(9)基于子带分析的耳语音增强算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 耳语音增强的研究背景及意义 |
1.2 耳语音增强的发展现状及趋势 |
1.2.1 语音增强的研究现状及发展趋势 |
1.2.2 耳语音增强的研究现状及发展趋势 |
1.3 耳语音增强研究的难点分析 |
1.4 论文主要工作和章节安排 |
第2章 耳语音增强的理论基础 |
2.1 耳语音的特点 |
2.1.1 耳语音的生理特点 |
2.1.2 耳语音的声学特点 |
2.1.2.1 耳语音产生的数学模型 |
2.1.2.2 耳语音的时域特性分析 |
2.1.2.3 耳语音的频域特性分析 |
2.1.3 耳语音的感知特性 |
2.2 耳语音增强预处理 |
2.3 耳语音增强算法基本理论 |
2.3.1 语音增强基本概念 |
2.3.2 经典谱减法 |
2.3.3 传统的多带谱减法 |
2.3.4 多带谱减法在耳语音增强上的应用 |
2.4 增强算法的质量评价指标 |
2.4.1 客观评价 |
2.4.2 主观评价 |
2.5 本章小结 |
第3章 基于子带谱熵的单通道语音增强算法 |
3.1 引言 |
3.2 ERB尺度的子带谱减法 |
3.2.1 频带划分 |
3.2.2 ERB尺度频带划分 |
3.3 子带谱熵噪声估计上的应用 |
3.3.1 子带谱熵的计算 |
3.3.2 噪声估计的平滑因子 |
3.3.3 噪声的更新 |
3.4 算法的实现框架 |
3.5 单通道语音增强算法结果仿真与质量评估 |
3.5.1 信噪比提高 |
3.5.2 PESQ |
3.5.3 语谱图 |
3.5.4 非正式主观听音测试 |
3.6 本章小结 |
第4章 基于改进的Mel频率尺度和相位修正的耳语音增强算法 |
4.1 引言 |
4.2 Mel频率尺度频带划分 |
4.2.1 普通Mel频率尺度 |
4.2.2 基于耳语音特性改进的Mel频率尺度 |
4.3 修正传统补偿相位谱 |
4.3.1 改进传统补偿相位谱 |
4.3.2 补偿相位中噪声估计幅值的改进 |
4.4 算法的实现框架 |
4.5 耳语音增强算法结果仿真与对比 |
4.5.1 信噪比提高 |
4.5.2 PESQ |
4.5.3 语谱图 |
4.5.4 非正式主观听音测试 |
4.6 本章小结 |
第5章 改进的Mel频率尺度与耳语音共振峰特性相结合的耳语音增强算法 |
5.1 引言 |
5.2 耳语音共振峰的特点 |
5.3 共振峰参数提取的基本算法 |
5.3.1 线性预测LPC法 |
5.3.2 带通滤波器组法 |
5.3.3 倒谱法 |
5.4 改进的Mel频率尺度与耳语音共振峰相结合 |
5.4.1 耳语音共振峰参数的提取 |
5.4.2 改进Mel频率尺度与耳语音共振峰参数结合的具体实现 |
5.5 耳语音增强算法结果仿真与对比 |
5.5.1 信噪比提高 |
5.5.2 PESQ |
5.5.3 语谱图 |
5.5.4 非正式主观听音测试 |
5.6 本章小结 |
第6章 结论与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
研究生期间成果 |
致谢 |
(10)准书面语朝鲜语语音语料自动标注系统的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景、目的和意义 |
1.2 国内外研究现状 |
1.2.1 语音语料库构建研究现状 |
1.2.2 音节分割技术研究现状 |
1.2.3 文语对齐技术研究现状 |
1.3 本文的主要研究内容 |
1.4 本文的组织结构 |
第2章 朝鲜语语音语料自动标注理论基础 |
2.1 引言 |
2.2 朝鲜语语音发音特点 |
2.3 语音信号的时域分析 |
2.3.1 语音信号的前期处理 |
2.3.2 主要的语音特征参数 |
2.4 听觉模型及特征表示 |
2.4.1 Seneff听觉模型 |
2.4.2 基于Seneff听觉模型的特征表示 |
2.5 本章小结 |
第3章 朝鲜语语音语料自动标注方法 |
3.1 引言 |
3.2 语音片段切分算法 |
3.2.1 语音句子切分算法设计 |
3.2.2 基于摩擦/塞擦音的语音片段细切分算法设计 |
3.2.3 语音片段切分算法实验 |
3.3 朝鲜语音节自动分割算法 |
3.3.1 各频段元辅音响应表示 |
3.3.2 朝鲜语语音音节自动分割算法设计 |
3.3.3 朝鲜语语音音节自动分割实验结果及分析 |
3.4 准书面语朝鲜语语料文语对齐算法 |
3.4.1 朝鲜语的连读规则 |
3.4.2 音节边界真伪性判别分类器 |
3.4.3 准书面语朝鲜语语料文语对齐算法设计 |
3.4.4 准书面语朝鲜语语料文语自动对齐算法实验结果及分析 |
3.5 本章小结 |
第4章 语音语料自动标注系统设计与实现 |
4.1 引言 |
4.2 系统需求分析 |
4.3 系统设计 |
4.3.1 功能模块划分 |
4.3.2 标注文件格式 |
4.4 系统功能测试 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
四、语音信号元音检测的新方法(论文参考文献)
- [1]基于神经肌肉生理信息的吞咽与发音功能评估方法研究[D]. 朱明星. 中国科学院大学(中国科学院深圳先进技术研究院), 2021(01)
- [2]蒙古语发音词典建设及其语音识别的应用研究[D]. 萨仁高娃. 内蒙古大学, 2021
- [3]基于语音时频特征的阻塞性睡眠呼吸暂停综合征检测研究[D]. 庞康高. 广东工业大学, 2021
- [4]普通话单字音空气动力学研究[D]. 陈禹风. 天津师范大学, 2021(10)
- [5]融合形态结构与语法关系的藏语语言模型[D]. 更太加. 天津大学, 2020(01)
- [6]相对舌体大小的个体差异及其声学特性研究[D]. 张笑寒. 天津大学, 2019(01)
- [7]不同证候肺结节患者的中医声诊特征初步观察[D]. 宋雪阳. 上海中医药大学, 2019(03)
- [8]听觉中脑锁相反应的言语感知效应及连续语音声韵母自动分段[D]. 孙梦娜. 辽宁工程技术大学, 2019(07)
- [9]基于子带分析的耳语音增强算法研究[D]. 韦怡. 南京师范大学, 2019(02)
- [10]准书面语朝鲜语语音语料自动标注系统的研究与实现[D]. 李洺宇. 延边大学, 2019(01)