百度、滴滴出来的语音大牛,开创AI语音超市,聚焦细分场景应用

“因为真相永远就只有一个! ”当磁性、低沉浑厚的声音在人群散开,显得稳重又成熟,像是重力的吸引,将人们的注意力深深抓住,谁也没想到这样的声音竟是一个几岁的小柯南利用变声器发出的。说到变声器,不少人第一反应会想到《名侦探柯南》中柯南使用的领带变声器,但在之前现实中的变声器十分少,有些只能模仿几种特定的模板,商业用途也很局限。

随着AI技术的迅猛发展,更丰富多样、逼真的语音合成技术不断涌现,更厉害的是,还能在声音中加入“人类感情”元素,更广泛地应用在各种生活场景中,令原来难以置信的想象都成为了现实 。

“技术实力派”——突破传统语音合成两大瓶颈

当你打开智能音响或是手机语音助手时,一句“您好,请问您需要什么服务?”从音响蹦出,虽然清晰洪亮,但听起来“机械感”十足,缺少人声该有的特质——在不同场景下的不一样的语音和语调。

其实,这就是传统语音合成技术的缺陷。

通常,传统语音合成的技术有“拼接法”和“参数法”两种方式。波形拼接在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。

在时间成本上,参数的合成方式需要进行十个小时左右的录音采集,而波形拼接的语音合成方式则需要几十个小时以上的录音采集, 才能完成一套定制化语音包的制作,周期长,耗费精力大。两种方式,在合成效果上,也难以接近真人的发音,音调韵脚都缺乏表现力。

对于攻克语音合成“不逼真”和“缺乏表现力”这两大难题,标贝科技联合创始人CTO李秀林认为,随着深度学习技术的持续发展,解决语音合成的突破口已经越来越近,对此他充满信心。

我们从李秀林的履历,得知他在语音合成行业已深耕10余年,可谓是深谙此道。

李秀林从中国科学院博士毕业后,先后在松下、百度、滴滴任职,从事10余年语音相关技术研发和相关的学术研究,申请了包括文本处理,韵律预测,声学模型,拼接系统,模型自适应,神经网络应用,情感合成等三十余项语音技术相关专利。

在百度工作期间,李秀林博士带领团队针对小说内容丰富,感情起伏大,需要更强的情感表达的特点,利用基于篇章的、情感更丰富的、更大规模的语音数据(数百小时),通过高精度自动预处理技术对数据进行处理和建模,实现了具有情感表达能力的高质量合成系统,并于2015年10月底上线百度的小说频道,取得了非常好的用户反馈。

这一突破性研发成果引起了百度CEO李彦宏及多位高管的注意,他们为此大力赞扬并推广语音合成技术。2016年,这一项目折桂百度的最高奖项。“百度最高奖”是迄今为止国内互联网企业中给予普通员工的最高奖励。

从百度出来后,2016年至2018年,李秀林担任滴滴研究院语音团队负责人兼首席算法工程师。到了2018年,标贝科技向他抛来了“橄榄枝”。今年3月,李秀林决定加入标贝科技,出任联合创始人兼CTO。

谈其为什么加入标贝科技时,李秀林表示,标贝科技拥有专业标注团队和大量自有数据,其数据加工能力已达到业内领先水平,从中他看到了在创业公司做语音合成技术的优势和机遇。而自己在语音合成行业深厚的技术积累和经验,也可为标贝科技的发展加持砝码。两者相辅相成,相得益彰。

近千小时的语音数据积淀,领跑同行

标贝科技认为,要想让机器的声音更贴近人类,需要从音库质量入手,录制足够多的精准声音数据,从源头把控数据质量。

今年年初,标贝科技推出了TTS评测系统,并针对语音合成系统提供了一整套TTS前端解决方案。根据标贝科技相关负责人介绍,评测系统主要分为两大模块:合成缺陷度评测和合成自然度评测。在合成缺陷度方面,主要体现为韵律、多音字、数字符号及分词词性四个模块,而在合成自然度评测则包括ABX和MOS评测。这一系列的测评,保障了数据处理的精准度,成为语音数据质量的护城河。

除此之外,为了采集合适的人声作为语料,标贝科技的数据专家需要和发声人做大量的前期沟通,指导发声人的说话风格、语调和停顿方式等,并在录音环境进行监听,确保发音人的风格一致。

传统的语音语料数据处理需要人工进行标注,标贝科技则利用深度学习技术,通过计算机程序进行预处理,之后再由人工进行校正,极大缩短了处理时间。

在定制型音库方面,标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男声音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和积累中。

同时标贝科技还提供自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性化音库,广大客户现已能直接使用整体解决方案。

在李秀林加入前,标贝专注于数据服务,凭借在数据加工处理方面的优势,致力于为客户提供快速、准确的专业数据服务,帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息。而现在,李秀林希望和标贝一道完成一次转型——从数据公司转为技术公司,为企业用户提供更垂直的合成服务。

首创声音超市,为产品发力,赋予前沿发展新形态

眼下,在AI领域,声音合成因其多元化的需求正成为不可忽视的红利,科技巨头、初创公司纷纷从不同维度布局语音入口相关产业链。

在B端,苹果,谷歌,微软,百度等行业纷纷开始研发的智能语音技术。在C端,个人虚拟助手和智能音响等智能家居方面,竞争也很激烈。

作为曾经的专业数据公司,标贝科技牵手具有深厚AI语音合成技术背景的李秀林,两者结合往往承载着转型升级的艰巨任务。那么,李秀林究竟具体要做什么呢?

“打造一家AI语音超市,精准对焦各种场景应用”李秀林回答。

AI语音超市,其实就是跟生活中的“超市”一样,有需求的企业可以根据自己不同的需要,专门选购和定制自己的语音合成。

李秀林对记者介绍,目前标贝在技术层面有一个3层模型,底层是标贝科技积累的大量语音数据,中间层是自身在语音合成领域多年来的经验和技术,第三层是标贝的产品和服务。在底层和中间层的双倍基础下,开发第三层的合成语音超市,既提高产品和服务,又符合了当下的市场多元化需求。

现阶段,标贝科技已能提供上百种人声模型。最有趣的是,还能选用明星偶像的声音进行合成,比如“杨幂”“鹿晗”“胡歌”等等当下炙手可热的明星声音方案。随着技术的不断沉淀,声音的种类和数量会与日俱增,应用更多的场景。

对于所有的企业和用户来说,这么强大的流量红利,能应用在哪些场景?这是他们最关心的命题。

比如,可以作为私人助手,用于听读书籍,解放双手和双眼,或是个人辅助设备,为有视觉障碍的人士指导出行和生活。

在儿童玩具方面,亲切、幽默的声音会更贴合儿童特性,让孩子接受线上教育时,再也不是对着一个音色机械、生硬的机器。另外,还可以服务于电影动画或者游戏工作室,为游戏中各类NPC定制专属语音。知性、邻家、唯美、搞怪等不同的语音风格可以满足生活出行、娱乐场景、儿童玩具等多种应用场景。

专业化定制为标贝赢得了大量的客户群体。据悉,标贝的客户覆盖了百度、腾讯、滴滴、搜狗、Rokid、暴风集团、出门问问、Roobo、喜马拉雅FM、猎豹移动等众多客户,其中包括很多上市公司、行业巨头。

客户的青睐,与标贝科技的三大优势是密不可分的:一是个性化语音定制,针对产品的特点,可提供各性别和年龄段的语言定制,如:中文普通话、粤语、台语、国内方言、韩语、日语; 二是保持语音合成技术业界领先,合成效果接近真人发声,流畅自然,且极具表现力; 三是免费的合成效果评测,通过自主研发的TTS行业评测系统,为企业客户提供快速、准确的语音合成效果评测服务。这三大优势,为标贝科技在业内获得了良好的口碑。

如今,不可否认的是,标贝科技有了李秀林的技术背书,为其标注了更高天花板的方向。接下来,标贝科技如何攻城扎寨,李秀林表示,会不断地用强大的数据库来验证技术想法,提升合成效果,让更多的语音合成场景落地。

也许,有一天,你突然发现手机播报时发出的声音和你的声音“一模一样”,甚至是音调都如出一辙,并听不出任何的破绽,你会十分惊叹。这就是语音合成的神奇之处。

相关文章

hey,又活捉一枚未来的“独角兽”,点击此处拎包入驻改变世界,我来助你风风火火完成大业!

注册