语音识别的原理和过程

语音识别原理五分钟就能弄懂

1.首先，我们知道声音其实是一种波。常见的mp3、wmv等格式都是压缩格式，必须转换成未压缩的纯波形文件进行处理，比如Windows PCM文件，也就是wav文件。除了文件头之外，wav文件还存储声音波形的所有点。

2.在开始语音识别之前，有时需要切断开头和结尾的静音，以减少对后续步骤的干扰。这种无声切割操作通常称为VAD，它需要一些信号处理技术。

3.每帧长度为25ms，每两帧之间有25-10 = 15ms的重叠。我们称之为帧长25ms，帧移位10ms的成帧。每帧长度为25ms，每两帧之间有25-10 = 15ms的重叠。我们称之为帧长25ms，帧移位10ms的成帧。

4.成帧后，声音就变成了很多小段。但是波形在时域上几乎没有描述能力，所以必须对波形进行变换。一种常见的变换方法是提取MFCC特征。

5.此时，声音变成一个12行(假设声学特征为12维)N列的矩阵，称为观察序列，其中N为总帧数。观察顺序如下图所示。图中每一帧用一个12维向量表示，色块的色深表示向量值。

6.接下来，我们将介绍如何将这个矩阵转换为文本。首先要介绍两个概念:音位:一个词的发音是由音位组成的。对于英语来说，一个常用的音素集是卡内基梅隆大学设定的39个音素的集合。参见CMU发音词典。

7.语音识别是如何工作的？其实一点都不神秘。无非是:第一步，识别框架是一种状态(难度)；第二步是将状态组合成音素；第三步，将音素组合成单词。

转载请注明原文地址:https://juke.outofmemory.cn/read/1303694.html

弄懂