语音识别的声学特征有哪些(语音识别的声学特征包括)

在生活中，很多人可能想了解和弄清楚语音识别的声学特征的相关问题？那么关于语音识别的声学特征有哪些的答案我来给大家详细解答下。

声学特征的提取与选择是语音识别的一个重要环节，声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。

一、常用的声学特征

1、线性预测系数LPC

线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。

2、倒谱系数CEP

利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数，使用倒谱可以提高特征参数的稳定性。

3、Mel倒谱系数MFCC和感知线性预测PLP

不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。

MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。

PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

二、声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态有关，这两个假设大大降低了模型的复杂度。

三、语言模型

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

四、搜索

连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。

五、系统实现

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。系统所需的训练数据大小与模型复杂度有关，模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

六、自适应与鲁棒性

语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定。自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。

语音识别系统技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。

温馨提示：通过以上关于语音识别的声学特征内容介绍后，相信大家有新的了解，更希望可以对你有所帮助。