今天我们要出一篇文章,看起来很无聊,其实真的很无聊。先说TTS:文本到语音(从文字到语言)。
今天刚和老师傅聊了一会儿,克里斯也算不上是只懂一点的朋友了。所以,经过一段时间的科学研究,如果要用最通俗的语言向大家解释这个看似与技术息息相关的定义,万一以后遇到了呢?
其实第一次接触,换句话说,要知道TTS应该是两年前的事了。
当时Chris来到一家知名企业,在哪个不易点击的步读机上工作了一段时间。当时他接触了内容制作层面的专业知识,亲自制作了几本英语教材的内容。那时候我不像现在这么喜欢总结。所以光靠做事,没有太多自己搭建的知识框架,做事还是比较乱的(虽然现在没有知识框架而且太乱了,哈哈哈哈哈哈)
第一次听说TTS是在2020年4月。
去哪儿TTS(整体解决方案)是企业的平台交易名称。说出这个名字,估计大家还是一头雾水,整体解决?这是什么意思?
掌握的朋友都知道去哪儿是中国度假旅游的大搜索平台。说白了就是要给客户看比价,让客户选择性价比最高,方便快捷安全的服务项目和商品。那么一个关键问题来了。中国各省有这么多的酒店、餐馆、机票、旅游商品的区域代理和旗舰店。如果他们都互相合作,顾客会比较去哪个地方的价格。点击购买,一定要保证最好的客户体验,完善购买步骤,保证安全系数和便捷性。所以TTS(Total solution)这种系统软件就出来了,统一了所有第三方平台的管理方式。这个服务平台也增强了各地区代理商的决策权。
这一段,我只想告诉你一个客观事实:我们都知道很多东西,但是我们还没有上升到基础理论的层面,换句话说,我们还没有建立起自己的知识框架。所以,我们说tts的时候,会很迷茫。事实上,你知道我们背后是什么。(其实我是后来才知道的。所以,努力吧,荡妇们~)
拆塔。
今天的TTS是文本到语音,从文本到语言,文本到语音,文本阅读,类似于一个意思。它常用于智能语音系统的开发和设计。
还记得有一次,我坐了一辆优步,在车上,我坚信大家都听过一句话:“百度地图导航会不断为你指引导航条”。当时我还傻乎乎地问同行的朋友,这次演讲的女声是不是专业视频录制的。(作为一个在百度待过的人,我觉得很受侮辱)。
先说一下tts的主要用途,这样可以有一点定义。
这里涉及到两个定义:CTI和IVR。
CTI技术源于计算机电信一体化的发展趋势。起初,它想将电子信息技术应用于电话系统,可以自动识别和解决电话中的信令信息内容,并传输预留的录音文件、来电等。给客户根据建立相关的电话连接。到目前为止,CTI技术已经发展为“计算机电信一体化”技术,即其中的“T”已经发展为“电信”,这意味着现阶段的CTI技术不仅要解决传统的电话视频语音,还要解决通过传真、电子邮件等方式包含信息内容的新闻媒体。
IVR技术在CTI技术中起着关键作用。
IVR(交互式语音应答),交互式视频语音应答。这个定义会让大家恍然大悟tts。
IVR:只能通过电话进入服务站,根据操作提示回答移动娱乐产品,根据客户键入的内容播报相关信息内容。最常见的业务流程有:视频语音ktv点歌、视频语音交友聊天、客服中心。IVR的另一个关键应用是在客服中心可以分为外置摄像头和后置摄像头。外置IVR是视频和语音高级到IVR的解决方案,当无法处理客户的问题时可以转移到人工服务席位。后置摄像头IVR是指IVR与人工服务席位处于平衡位置,人工服务无法满足客户呼入时切换到IVR的需求,主要是为了拖延时间或者个性化服务。
很快IVR就是tts的一个象征性的主要用途。
目前销售市场上的TTS很多,完成的方式也各种各样,有的还很贵。比如在科大讯飞,听说当时是863计划支持的,技术性很强。有的性价比比较高,比如捷通华声,InfoTalk;也有完全免费的产品,比如微软的TTS产品。
在此发布TTS技术路线图:
地图分为三个部分:数据信息应用、TTS核心和外部应用。
资料的适用部分包括:英语语法知识库系统、影音词库、英语语法词典。在这里,今天和老师傅交流了一下,然后看了一下你们企业的词库后台管理。我理解的数据信息的应用,就是按照抓取和手工输入的方法,准备好必须发音的文本。
外部应用当然是客户手机客户端恳求后的回应。
最重要的是TTS核心的三个部分:
文本分析:对应用语言学中的打字词进行分析,对词汇、英语语法、词义进行逐字分析,从而明确句子的低层结构和每个词的语素,包括断句、分词、复音词的求解、数据和缩略语等。
语音识别:从语音识别数据库文件中获取与求解的单词相匹配的单词或句子,并将应用的语言叙述转换成语言波形。
节奏转换:指语音识别系统软件输出的视频语音质量。一般从画面质量(或可懂度)、确定性、衔接性等方面进行主观评论。画质是更有意义的词能被正确听到和分辨的百分比;当然,程度是用来评论生成的视频语音音色是否接近人说话的声音,生成的话语气是否自然;衔接是用来评论生成的句子是否流畅的。
为了生成高质量的视频语音,选用的优化算法极其复杂,所以对设备要求也很高。优化算法的复杂性决定了目前微机高并发多通道TTS的系统软件量。这部分也很难。
相对于ASR(自动语音识别)来说,完成一个TTS产品所必须的技术水平并不大,我认为这是一个比较繁重的工作。
如果我们要做一个能读出中文句子的TTS,大家会怎么做?
有一个很简单的TTS,就是把每个字都发好。你可以问,六千多个汉字的视频语音不是要录像吗?好在汉语声调很少,多音字很多。每个人最多只需要录像:语音声母数×鼻音韵母数× 4,(其实不是每个字都有四个读音)。那样的话,最多得录几十个视频语音。
在生成的情况下,需要有一个汉字匹配拼音字母的列表。汉字的拼音输入也要靠这个表,网上可以搜到,但是一般没有四声。如果你很棒,自己加。呵呵呵,不然,辛苦了。
这样做的实际TTS效果也可以,非常多,读一些没有太大意义的中文句子,比如姓名、地址、股票编号等。,这听起来够清楚了。这是由于大家的优秀汉语一般都是单音节的。自古以来,每个汉字都有一个字来表达一个意思。而且,汉字和英文不一样。英语连读多,声调节奏变化,汉字就容易多了。
自然你还是要解决一些重点,比如复音构词,把“金融机构”念成“银杏”也不会错;比如标点符号、数据、英文字母的求解,这种难题对于你这种写过很多程序的人来说,并不算太难。
国内一些视频和语音主控板都有TTS,不管是盈利的还是完全免费的,几乎都是这么做的,实际效果就是这样。
要想更好的获得TTS的实际效果,我们再做一个繁重的工作,把基本的单词录制成视频语音,比如常见的二字成语、四字成语,然后做一个字典、语音库的列表,每次要生成的时候就在字典里查。把字当企业当然比把字当企业有效多了。自然,这里还有一个技术性,就是词性标注的技术性。把复杂的句子分解成有效的单词编码序列也有点技术含量。这也要怪新兴文化的先驱们。当时提倡白话文,引入西文的横排文件格式和标点符号时,并没有引入西文原文中的空格。但是,即使匹配算法如此低效和不准确,也没有什么大问题。就像以前经常说的,汉字是单音节词,所以音合起来不容易出错。
自然,科大讯飞做了大量繁重的工作。听说现在已经进化到用常用句子给企业做音频了。大家可以想象,需要付出很大的努力才能得到更强的实际效果。
我觉得对一些“文字和材料”进行改进,做一些装饰色调并不重要,对整体实际效果也没有太大的提升。
目前市面上的商用TTS普遍适用于粤语。请一个粤语广播员音频,修改上面的重活。
再说一个题外话。很多人觉得最好找电台和电视节目的播音主持人做音频。其实找个身边的同事录视频。如果发音清楚,还可以。在某些情况下,不寻常的噪音比中央新闻联播的到来更令人愉快。
但是没有办法解决复杂的字符,有些内容程序必须标注出来。比如简单数据“128”应该读作“128”还是“128”?通常,解决方案是添加XML标记,例如TTS:" < context ID = " number _ cardinal " gt;128 lt/context >;"说“128”," < context ID = " number _ digit " >;128 lt/context >;"会读作“一二八”。TTS模块可以表达这个指示。不幸的是,视频和语音的XML标记并没有产生一个完全公认的标准,大多数都是独立的集合。
再来说说TTS编程。微软的TTS编程套接字叫做SAPI,是一个COM接口。开发设计还是有点不方便,MSDN网站上的资料都是全方位的。虽然微软的TTS是完全免费的,但是现阶段它的中文假面是男声,噪音有点浑浊不舒服。
国内一般厂商展示API enable sockets,相对简单,可以很容易的投入到程序操作中。
商业TTS还有一个高并发批准限制,就是限制额外的高并发线程的数量。我觉得这个极限用处不大。无论什么TTS,都可以将文本文件转换成视频和语音文件供语音卡播放。应用的句子大多比较短,一般不超过100个汉字。如果生成时间很短,找个流程专业人士来承担生成,其他应用只是求流程。句子长的话,就翻译成几个句子,播放速率总是比生成速率慢。
很多应用是离线生成的,没有实际需求,不需要买几个批文。
在大量的情况下,人们甚至不需要购买TTS。比如视频语音的开发设计中,要求付费是很常见的。拨通后会广播:“尊敬的客户,您每月的费用为:212元”。前面部分对所有顾客都一样。只需录制一个视频语音文档,数据生成非常简单。如果录10个数据视频语音,再加十个,一百个,一万个,一万个。
虽然文章看似与内容运营无关(其实真的无关),但是作为运营人,作为年轻人多学习多锻炼还是好的,虽然明天就忘了。