是今天的语音搜索(人工智能的语音识别技术)
语言是人与人之间最重要的交流方式,可以自然地与机器交流,这是人类一直期待的。随着人工智能的飞速发展。作为人机通信接口的关键技术,语音识别技术发展迅速。在AI领域也经常被提及。作为人工智能领域的从业者,了解语音识别也是很有必要的。接下来,我们来科普一下。话不多说,只管发球!
语音识别概述
语音识别技术是允许机器通过识别和理解的过程将语音信号转换成相应的文本或命令的技术。
语音识别涉及数字信号处理、声学、语音学、计算机科学、心理学、人工智能等。它是一门跨学科的科学技术,涵盖了许多学科。
语音识别的技术原理是模式识别,其一般流程可以概括如下:
完成预处理——特征提取——基于语音模型库的模式匹配——基于语言模型库的语言处理——识别。
预处理
声音的本质是波。语音识别中使用的音频文件格式必须是未压缩的文件,如正常的人类语音输入。
语音输入面临的环境比较复杂,主要有以下几个问题。
自然语言的识别和理解。首先,连续语音必须分解成单词、音素等单元,其次,要建立一个理解语义的规则。
语音信息量大,不仅不同说话人的语音模式不同,同一说话人的语音模式也不同。比如,说话人随便和认真说话时的语音信息是不一样的。一个人说话的方式随着时间而变化。
言语的模糊性。当说话者说话时,不同的单词听起来可能相似。这在英语和汉语中都很常见。
单个字母或单词的语音特征受语境的影响,改变了重音、声调、音量和发音速度。
噪声和干扰严重影响语音识别,导致识别率低。
因此,在预处理中需要两个方面:静音切割、噪声处理和语音增强。
01无声切除
也称为语音边界检测或端点检测,是指区分语音信号和非语音信号的时间段,准确确定语音信号的起始点,然后从连续的语音流中检测出有效的语音段。它包括两个方面:检测有效语音的起点即前端点,检测终点即后端点。端点检测后,只能对语音信号进行后续处理,这对提高模型的准确性和识别的准确性有重要作用。
在语音应用中,需要检测语音的端点。首先很简单,就是在存储或传输语音的场景下,从连续的语音流中分离出有效的语音,可以减少存储或传输的数据量。其次,在某些应用场景下,端点检测可以简化人机交互。比如在录音的场景下,讲话后的端点检测可以省略结束录音的操作。一些产品已经使用递归神经网络(RNN)技术来检测语音端点。
02噪音处理:
实际采集的音频通常有一定强度的背景音,一般是背景噪音。当背景噪声强度较大时,会对语音应用的效果产生显著影响,如语音识别率和端点检测灵敏度的降低。因此,在语音的前端处理中抑制噪声是很有必要的。噪声抑制的一般过程:稳定背景噪声的频谱特征,振幅在一个或几个频谱上非常稳定。假设初始背景是背景噪声,通过对初始背景噪声进行分组和傅立叶变换,并对这些组进行平均,获得噪声谱。在降噪过程中,对含噪语音进行逆补偿,得到降噪后的语音。
03语音增强
主要任务是消除环境噪声对语音的影响。目前,常见的语音增强方法有很多。在基于短时谱估计的增强算法中,谱减法及其改进形式是最常用的,因为它计算量小,易于实时实现,增强效果较好。此外,人们也在尝试将人工智能、隐马尔可夫模型、神经网络、粒子滤波器等应用于语音增强,但目前还没有取得实质性进展。
声学特征提取
声音是由人的声道产生的,声道的形状决定了产生什么样的声音。声道的形状包括舌头、牙齿等。如果我们能准确地知道这个形状,那么我们就能准确地描述产生的音素。当语音较短时,声道的形状可以显示在功率谱的包络中。因此,准确描述该包络的特征是声学特征识别的主要功能。经过上述预处理后,末端接收到的语音信号可以得到有效的语音信号,提取每帧波形的声学特征可以得到多维向量。这个向量包含了一帧波形的内容信息,为进一步的识别做准备。
本文主要介绍最常用的MFCC的声学特性。
01MFCC简介
MFCC是梅尔频率倒谱系数的缩写。顾名思义,MFCC特征提取包括两个关键步骤:转换到梅尔频率,然后倒谱分析。
梅尔频率倒谱系数的缩写。梅尔频率是根据人耳的听觉特性提出的,它与赫兹频率具有非线性对应关系。梅尔频率倒谱系数(MFCC)就是利用它们之间的这种关系计算出来的赫兹频谱特性。
02催化裂化提取工艺
MFCC参数的提取包括以下步骤:
前置滤波:编解码器前端抗混叠滤波器,带宽300-3400Hz。
A/D转换:采样频率8kHz,线性量化精度12bit。
预加重:通过一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受有限字长效应的影响。
分帧:根据语音的短期稳定性,可以对语音进行分帧处理。实验中选取的语音帧长为32毫秒,帧重叠为16毫秒。
加窗:用汉明窗对一帧语音加窗,以减少吉布斯效应的影响。
快速傅立叶变换(FFT):将时域信号变换为信号的功率谱。
三角窗滤波:使用一组线性分布在Mel频率标准上的三角窗滤波器(共24个三角窗滤波器)对信号的功率谱进行滤波。每个三角窗滤波器的覆盖范围类似于人耳的一个临界带宽,以模拟人耳的掩蔽效应。
求对数:求三角窗滤波器组输出的对数,可以得到类似同态变换的结果。
离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空。
谱加权:因为倒谱的低阶参数容易受到说话人特性、信道特性等的影响。,而高阶参数的分辨率相对较低,需要进行谱加权来抑制其低阶和高阶参数。
倒谱均值减法(CMS): CMS可以有效降低语音输入通道对特征参数的影响。
微分参数:大量实验表明,加入代表语音动态特征的微分参数可以提高系统的识别性能。在这个系统中,我们还使用了MFCC参数的一阶差分参数和二阶差分参数。
短时能量:语音的短时能量也是一个重要的特征参数。在该系统中,我们采用语音的短时归一化对数能量及其一阶差分和二阶差分参数。
MFCC提取的一般过程
模式匹配和语言处理
语音特征分析之后,下一步就是模式匹配和语言处理。
声学模型是识别系统的底层模型,是语音识别系统中最关键的部分。声学模型的目的是提供一种有效的方法来计算语音的特征向量序列与每个发音模板之间的距离。声学模型的设计与语言发音的特点密切相关。声学模型单元(单词发音模型、半音节模型或音素模型)的大小对语音训练数据量、系统识别率和灵活性有很大影响。识别单元的大小必须根据不同语言的特征和识别系统的词汇来确定。
语言模型对于中大词汇量的语音识别系统尤为重要。当出现分类错误时,可以根据语言模型、语法结构和语义进行判断和纠正。尤其是一些同音词,只能通过语境结构来确定其意义。语言学理论包括语义结构、语法规则、语言的数学描述模型等相关方面。目前比较成功的语言模型通常是统计语法语言模型和基于正则语法结构的命令语言模型。语法可以限制不同单词之间的联系,减少识别系统的搜索时间,有助于提高系统的识别率。语音识别实际上是一个认知过程。就像人在听语音的时候,并没有把语音的语法结构和语义结构从语言的语法结构和语义结构中分离出来,因为当语音的发音模糊的时候,人们可以用这些知识来指导理解语言的过程,但是对于机器来说,识别系统也需要利用这些方面的知识,但是仍然很难有效地描述这些语法和语义:
小词汇量语音识别系统。通常包含几十个单词的语音识别系统。
中等词汇量语音识别系统。通常包含数百到数千个单词的识别系统。
大词汇量语音识别系统。包括几千到几万字。这些不同的限制
系统也决定了语音识别系统的难度。模式匹配部分是语音识别系统的关键组成部分,一般采用“基于模式匹配的语音识别技术”或“基于统计模型的语音识别技术”。前者主要指“动态时间规整(DTW方法)”,后者主要指“隐马尔可夫(HMM)方法”。
隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,由马尔可夫链演化而来,因此是一种基于参数模型的统计识别方法。由于它的模式库是与经过反复训练形成的训练输出信号匹配概率最高的最佳模型参数,而不是预存的模式样本,并且在识别过程中使用待识别语音序列与HMM参数之间最大似然对应的最佳状态序列作为识别输出,因此是一种理想的语音识别模型。
DTW(DTW)算法是孤立词语音识别中最简单有效的方法。该算法基于动态规划的思想,解决了不同发音的模板匹配问题。它是语音识别中早期的经典算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,模型参数可以通过反复计算得到,而DTW算法在训练中几乎不需要额外的计算。因此,DTW算法仍然广泛应用于孤立词语音识别。
总结:语音识别在移动终端的应用最为火热,语音对话机器人、智能音箱、语音助手、交互工具等等层出不穷。很多互联网公司都投入了人力、物力、财力进行这方面的研究和应用。语音识别技术还将应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子等领域。尤其在智能家居系统中,语音识别将成为人工智能在家庭中的重要入口。同时,随着未来手持设备的小型化,智能穿戴也将成为语音识别技术的重要应用领域。
转载请注明原文地址:https://juke.outofmemory.cn/read/230418.html