“柯南领结”变成现实,字节跳动智创语音团队 SAMI 发布新一代实时 AI 变声方案

黑茶产地2022-09-24  25

“柯南领结”变成现实,字节跳动智创语音团队 SAMI 发布新一代实时 AI 变声方案

机器心脏报告

机器之心编辑部

未来这项技术会在虚拟人、短视频游戏、客服、直播互动游戏等方面有大的落地空。

字节跳动的智能语音创作团队Sami(语音、音频和音乐智能)最近发布了新一代低延迟、超拟人化的实时AI变声技术。与传统的变声不同,AI变声基于深度学习的语音转换技术,可以定制任何说话人的音色,并在很大程度上保留原有的音色特征。

该计划的亮点如下:

在CPU单核上可以实现极低延迟的实时输入和实时变声,就像“柯南领结”一样;

【/s2/】能高度还原输入语音的抑扬顿挫、情绪、口音,甚至轻微的呼吸、咳嗽都能还原;

媲美真人的高保真音质,与目标音色高度一致;

从语音合成到语音转换:探索更多元的语音玩法

语音合成作为人工智能的一个重要分支,旨在通过输入单词和人工智能算法,合成出像人说话一样自然的音频。该技术已经广泛应用于音视频创作场景。与语音合成相比,语音转换创造了一种新的语音交互形式:不再需要输入文字,而是根据用户输入的语音音频,将音频的音色转换到目标说话人,并保持语音内容、节奏和情感的一致。与输入文本相比,输入音频包含了更丰富的副语言信息,如情感、节奏、停顿等。声音转换可以改变音色,很好地还原这些副语言信息:

中文:

英语:

和基于深度学习的语音合成一样,声音转换的模型由声学模型和声码器组成。声学模型通过内容编码器从输入音频中提取发音内容序列,通过音色编码器从参考音频中提取音色特征,最后通过声音转换模型生成输入音频内容和参考音频音色的频谱。声码器负责将声学模型产生的频谱恢复到设备可以直接播放的音频采样点:

实时场景的声音转换模型优化

相比非实时场景下完整音频的声音转换,实时声音转换有更丰富的落地场景。典型场景包括直播、虚拟人等实时互动娱乐场景。声音变化的结果需要在短延迟内实时流式生成,以确保声音和图像的同步。

实时语音转换的难点如下:1 .模型每时每刻只能得到较短的未来音频片段,因此正确识别发音内容的难度较大;2.流式推理的实时率(计算时间/音频时间)需要稳定小于1,因此我们在设计模型时需要更加关注推理性能。这给RD人员带来了更大的挑战。一方面,需要设计合理的模型结构,减少模型感受野和推理延迟;另一方面,要尽量保证变声的发音内容、音色、音质不受影响。

为了满足上述要求,研究人员对模型进行了一系列改进,将模型的首包延迟降低到250 ms左右,实时声音转换的整体框架如下:

对于内容编码器,研究人员使用细粒度的发音提取模块代替传统的基于音素后验概率的方法,使更多的发音细节和韵律情感得以保留,对模型感受域的要求显著降低;对于声音转换模型,研究人员将组块级信息编码和帧级自回归解码相结合,引入了基于教师指导的训练机制,从而保证生成的频谱的发音、音质和音色足够好;对于声码器,研究人员通过巧妙的模型结构设计,大大压缩了感受野,通过反代训练,提高了生成音频的自然度。

现实版《柯南领结》:各种复杂场景不在话下

真实的语音交互往往包含许多复杂的场景,这使得现有的大多数AI变声系统的转换结果极不自然。例如,当用户的输入包含叹息和咳嗽等声音时,现有系统倾向于过滤而不是保留这些声音,这导致用户想要表达的副语言信息丢失。而且现有系统的跨域性能较差,导致用户在输入多语言/方言时无法转换正确的内容。另外,现有系统在低延迟场景下的转换结果容易出现发音错误,音色不稳定。

与现有系统相比,该系统在各种场景下的转换效果显著提高。以下视频演示了在无网络环境下,Macbook上的实时流式声音变化效果。用户通过蓝牙耳机实时输入语音,Macbook实时输出变声结果。模型转换的平均延迟约为250毫秒;

用傻乎乎的音色大声朗读《马卡巴卡》,难懂的文字也能转换得非常准确:

输入的方言也可以自然转换,以上海话为例:

提高难度,连B-box的转换都没有违和感:

萨米新一代AI变声系统,显著提升了对复杂场景的适应能力。这种语音转换服务可以支持云端在线服务的形式输出,以及本地部署。未来虚拟人、短视频游戏、客服、直播互动游戏都有很大的落地空空间。

转载请注明原文地址:https://juke.outofmemory.cn/read/1766430.html

最新回复(0)