有道智云语音合成——一个懂“人性”的机器人
伴随着AI语音技术的发展和创新,智能化的语音产品如雨后春笋般不断地出现。那么语音识别技术和语音合成技术到底是什么呢?
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,即ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序,从而达到语音识别转文字的效果,其中针对不同的场景,产品又可细分为短语音识别、长语音识别(长语音转写)和实时语音识别。与其相比,语音合成即文字转语音的技术相对来说要成熟一些。文字转语音,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴,换句话说就是让机器“像人一样开口说话”。
近年来,网易有道旗下AI开放平台——有道智的语音合成服务持续升级。相较其它同类产品,它有着更为突出的优势。首先,有道智云文字转语音服务支持多语种和多音色合成,包括30多个国家和地区的语言,还支持男声、女声、词典发音等多种音色,满足人机交互各场景下的合成。文字转语音服务利用有道深度学习技术及用户翻译习惯不断优化算法迭代模型,使得语音数据具有高质量和高准确度。而且,有道智云提供24小时云端高稳定服务,服务可用性高,满足到企业机构对安全性的要求。除此之外,接入形式灵活,支持多种设备和操作系统,提供全平台API调用方式。
在许多应用场景中,语音合成软件都发挥了不可忽视的作用。例如,语音合成软件极大地方便了视障人群的生活,提升了他们学习和阅读的幸福感。根据第三方调查数据,全国有1700多万视障人士,传统的阅读方式不能完全满足他们的需求。有道智云语音合成服务克服了传统阅读方式的局限性,通过多种音色和多种语言,表现出不同的角色和不同的语境,为视障群体打造一个高质量的文字转语音阅读平台。
标签: