语音识别原理 五分钟就能弄懂
1.首先,我们知道声音其实是一种波。常见的mp3、wmv等格式都是压缩格式,必须转换成未压缩的纯波形文件进行处理,比如Windows PCM文件,也就是wav文件。除了文件头之外,wav文件还存储声音波形的所有点。
2.在开始语音识别之前,有时需要切断开头和结尾的静音,以减少对后续步骤的干扰。这种无声切割操作通常称为VAD,它需要一些信号处理技术。
3.每帧长度为25ms,每两帧之间有25-10 = 15ms的重叠。我们称之为帧长25ms,帧移位10ms的成帧。每帧长度为25ms,每两帧之间有25-10 = 15ms的重叠。我们称之为帧长25ms,帧移位10ms的成帧。
4.成帧后,声音就变成了很多小段。但是波形在时域上几乎没有描述能力,所以必须对波形进行变换。一种常见的变换方法是提取MFCC特征。
5.此时,声音变成一个12行(假设声学特征为12维)N列的矩阵,称为观察序列,其中N为总帧数。观察顺序如下图所示。图中每一帧用一个12维向量表示,色块的色深表示向量值。
6.接下来,我们将介绍如何将这个矩阵转换为文本。首先要介绍两个概念:音位:一个词的发音是由音位组成的。对于英语来说,一个常用的音素集是卡内基梅隆大学设定的39个音素的集合。参见CMU发音词典。
7.语音识别是如何工作的?其实一点都不神秘。无非是:第一步,识别框架是一种状态(难度);第二步是将状态组合成音素;第三步,将音素组合成单词。