您所在的位置:首页 > 新闻中心 > 百度地图迈入AI时代下一个强,这才是智能时代样子
公司要闻
百度地图迈入AI时代下一个强,这才是智能时代样子
发布时间:2020-01-12 13:25
访问量:359

极限元致力于为呼叫中心、智能机器人、智能家居、车载导航、有声读物等相关应用场景提供更加优质的语音合成服务,为用户提供高质量的智能交互体验。返回搜狐,查看更多

罗马不是一天建成的,语音技术也是如此。

钛媒体2018十大作者

让声音富有情感和表现力,一直是语音合成技术的一大难点。而极限元在情感语音合成领域,与国际接轨,其创始团队源自中科院自动化研究所并成立“智能交互联合实验室”,号称语音合成界的“黄埔军校”;在人工智能领域有近20年技术积累,在国际会议和期刊上发表论文400余篇,申请语音及音频领域专利100余项;作为负责人、科研骨干参与多项国家自然基金项目、国家863项目和国家重点研发计划等项目,获得音视频情感竞赛第二名、北京市科学进步二等奖、中国专利奖优秀奖、Eurospeech大会奖等多种奖项。

百家号千分好文出彩创作者

作者 | Alter 公众号 | Alter聊IT

极限元语音合成技术专业MOS分可达4.0,拥有标配版女声和男声,女声包括标准型甜美型、萝莉型;男声包括标准型、浑厚型、清爽型。极限元已与百度、腾讯、搜狗、奇虎360、语文出版社等众多客户建立了长期稳定的合作关系。

关于百度地图“语音定制”的体验,最大的感受就是惊艳。

其次在场景上,本以为只是应用在路线导航的特定场景中,在使用自己的语音包后,每次在百度地图中唤醒“小度小度”,听到的居然是自己的声音,进一步深入体验后发现定制的语音包可以在景区智能语音导览、智能语音交互、导航等全部场景使用。

在人机交互中,语音交互已经成为必不可少的交互形式。自然、清晰、流畅的语音是交互体验中重要的一个环节,这就离不开语音合成技术。

“想要定制自己的导航语音,要么你爸爸是王健林,要么你自己是王思聪。”大概就是很多人对语音定制的原始印象。

入驻虎嗅、创业邦、界面等50余家科技媒体

极限元的语音合成技术采用国际先进的数据驱动技术,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力,媲美真人发声。

图片 1

原标题:智能语音私有化,百度地图迈入AI时代下一个强“音” 科技自媒体 / Alter 詹姆斯· 弗拉霍斯在《智能语音时代》中有一个大胆的预测:智能语音有可能成为最有感情的技术。 不过在太多人眼中,当下的合成语音很难和情感特征...

图片 2

作者 | Alter 公众号 | Alter聊IT

“韵律迁移”通俗的说就是一个人的声音可以讲出不同风格的文本,比如一个人说话时的音调、音节、停顿等,目的是让合成语音正确表达语义,听起来更加自然。倘若缺少韵律前移模型,无法无法精确控制语音的发声,语音的表现力和自然地也就无从谈起。百度地图的“语音定制功能”之所以可以实现个性化的语音合成,与“韵律迁移”方面的方面的深厚积累无不关系。

责任编辑:

语音导航早已不是什么新事物,之所以在过去那么长时间里没有出现个性化定制的语音包,最大的门槛就在于录制条件:首先要找到一个专业的录音棚,然后录制上万句导航文本,最后花上半年的时间进行处理。即便是定制化的明星语音包,也需要在通用语音库的基础上录制一两千句语音,大概要在录音棚里待两个礼拜的时间,再花两个月的时间用语音技术生成语音包。

第三步,场景体验的感受。

而随着人机交互市场需求的不断变化,定制化语音合成成为发展趋势。以人机交互中家庭生活场景为例,智能音箱算是一个典型应用,市场上的智能音箱同质化严重,销售情况并不乐观,抓住用户痛点,调动用户使用频次,或许也是提高销售的一种有效手段。试想,拥有同样功能的智能音箱,如果声音是嗲气的小姐姐,或者是呆萌可爱的童声,又或者是喜欢的偶像声音,无论是哪一种,这样真实丰满的人设声音,是不是更容易打动用户,从而调动用户的使用频次。

以至于有人在朋友圈中写下了这样一句话:充满“人气”的导航语音定制,正在打破语音时代的“花园围墙”。

我在之前的文章中梳理过语音识别的进化简史,比如百度2012年开始把深度学习技术DNN技术用于语音搜索,2013年开始基于CNN模型进行研究,2015年初推出基于LSTM –HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统,今年1月份又发布了流式多级的截断注意力模型……

图片 3

只要20分钟,听见自己的声音

市面上并不缺少商用语音合成的产品和服务,但绝大多数都是构建在传统的TTS框架上,至于语音合成的效果,往往少不了合成语音的机械感。

原标题:拥有高质量的人机交互体验,离不开『定制化』语音合成

作为对新技术永远有着尝鲜欲望的泛极客,我在第一时间去AppStore更新了最新版的百度地图,满怀期待地录制了自己的语音包。为了方便大家对“语音定制功能”的理解,这里将整个体验分为三个过程:

只要20分钟,听见自己的声音

极限元的定制化语音合成服务能够满足丰富的个性化声音设定,如林志玲的嗲气十足,郭德纲幽默逗趣,稚气呆萌的童声、游戏动漫角色声、各类方言等。极限元的定制化语音合成服务支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用于多种平台,可应用于多个领域。全方位地为有需要的企业和用户提供专属声音,满足用户在不同应用场景下的个性化音色需求。只需要提供少量发音人样本,通过快速自适应训练,即可合成出高自然度的个性化语音,极大的增强了用户的体验感。

作者系独立撰稿人,微信号imhefei

进入语音定制的界面后,百度地图提供了个性化的选择,在性别上可以选择男声、女声以及童声女和童声男,可供选择的录制文本包括推荐文本、卡通文本、电影台词和超短文本。比较贴心的是,卡通文本中可以看到《喜羊羊与灰太狼》、《超级飞侠》、小猪佩奇等时下热门动画片的台词,并且在朗读文本前设定了“自动跟读”,针对儿童群体进行了一系列细节上的打磨优化。

首先在音色上,合成语音和原始声音的相似度在90%以上,或许一些实验室里可以做到95%左右的水平,考虑到百度地图的规模化应用,这样的成绩已经足够令人兴奋。同样让人惊叹的是,仅仅录制了20个短句,有个人特色的短句方式被完美保留,比如我在读一个长句时习惯在中间进行停顿,百度地图的语音包中精准呈现了这一细节。

百家号千分好文出彩创作者

人人都是产品经理年度作者

由此来看,百度语音技术的想象空间远没有局限在百度地图的个性化语音包上,开始从积累和沉淀进入商业化的爆发期。

“韵律迁移”通俗的说就是一个人的声音可以讲出不同风格的文本,比如一个人说话时的音调、音节、停顿等,目的是让合成语音正确表达语义,听起来更加自然。倘若缺少韵律前移模型,无法无法精确控制语音的发声,语音的表现力和自然地也就无从谈起。百度地图的“语音定制功能”之所以可以实现个性化的语音合成,与“韵律迁移”方面的方面的深厚积累无不关系。

罗马不是一天建成的,语音技术也是如此。

关于“音色转换”可能很多人并不陌生,在动画片《名侦探柯南》中,柯南正是通过胸口的“蝴蝶结变声器”模仿其他人的声音。现实中的“音色转换”少了些魔法的光环,需要收集大量的声音数据,生成训练模型,再通过个性化的学习完成音色的变换。但在百度的Meitron模型中,可以利用少量语音快速合成一个人的专属音库。

“想要定制自己的导航语音,要么你爸爸是王健林,要么你自己是王思聪。”大概就是很多人对语音定制的原始印象。

我在之前的文章中梳理过语音识别的进化简史,比如百度2012年开始把深度学习技术DNN技术用于语音搜索,2013年开始基于CNN模型进行研究,2015年初推出基于LSTM –HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统,今年1月份又发布了流式多级的截断注意力模型……

原先几个月才能搞定的语音包,百度为何在15分钟的时间内完成,百度语音首席架构师贾磊在百度地图的发布会上进行了“揭秘”:

同时对于百度这样的互联网巨头而言,过去几十年中的技术深耕,注定会在人工智能进入大生产时代时一步步变现。

用户只需要在百度地图App上录制20句话,然后等待15分钟左右的时间,即可生成有自己声音特色的个性化语音包。有些预料之外的是,原本被某手机厂商预定的朋友圈,猛然被百度地图语音定制的截图刷了屏。

不客气地说,如果Siri的出现开启了语音助理的时代,百度地图的“语音定制功能”开启了智能语音规模化应用的先河。告别冷冰冰的机械感,自然、有情感、高表现力的声音,将是语音技术进一步在生活中渗透的开始。

以至于有人在朋友圈中写下了这样一句话:充满“人气”的导航语音定制,正在打破语音时代的“花园围墙”。

从时间上来看,百度并非是第一家进行语音合成研究的公司,然而百度地图“语音定制”的国民级应用,无疑阐述了这样一个事实:那些动辄需要几十个小时的语音采集,消耗几个月的时间进行拼接合成的语音技术已经过时,在人工智能技术的赋能下,语音合成技术正在创造无限可能。

7年技术打磨,语音合成的进阶

不过在太多人眼中,当下的合成语音很难和情感特征相关联,韵律表现上不够灵活,声音变化上相对死板。几乎无法让人相信那些冷冰冰的机械音可以承载丰富的情感,直到百度地图的一场发布会。

第二步,语音定制的过程。

7年技术打磨,语音合成的进阶

关于“音色转换”可能很多人并不陌生,在动画片《名侦探柯南》中,柯南正是通过胸口的“蝴蝶结变声器”模仿其他人的声音。现实中的“音色转换”少了些魔法的光环,需要收集大量的声音数据,生成训练模型,再通过个性化的学习完成音色的变换。但在百度的Meitron模型中,可以利用少量语音快速合成一个人的专属音库。

“多情感朗读”顾名思义就是让合成语音拥有自然、有情感的声音,常见的思路是从说话人的情感语音语料中获得平均音模型,对说话人的情感说句进行自适应变换,构建目标情感的声学参数模型,继而合成出目标说话人的情感语音效果。同样的,Meitron模型减少了语音库中的个体差异,只需要少量语料,就能在合成的语音中注入不同的情感。

分钟级语音定制,开启大生产时代

就应用场景而言,除了导航语音之外,电子阅读、智能硬件、智能音箱、机器人等都将是个性化语音的潜在市场。特别是即将到来的5G时代,或将有上百亿台设备入网,作为万物互联以及AIoT的一个重要入口,智能语音赛道终将成为搜索、电商、社交之外的下一个“现金奶牛”。

原标题:智能语音私有化,百度地图迈入AI时代下一个强“音”

品途商业评论2018十佳专栏作者

当然作为普通的“吃瓜群众”,我们无须熟知上述提到的专有名词,在讨论百度地图的语音定制功能时,还要从百度独创的风格迁移技术Meitron模型说起,特点主要体现在音色转换、多情感朗读和韵律迁移三个方面。

分钟级语音定制,开启大生产时代

仅以WaveRNN技术为例,传统的RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点,而百度创新的并行WaveRNN技术,可以把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用,为语音合成的商业化应用奠定了基础。

原标题:百度AI最牛语音技术强力加持百度地图,这才是智能时代样子! 詹姆斯· 弗拉霍斯在《智能语音时代》中有一个大胆的预测:智能语音有可能成为最有感情的技术。 不过在太多人眼中,当下的合成语音很难和情感特征相关联,韵律表现上不够...

二是语音合成的成本控制,百度深度学习平台飞桨实现了纯端侧的廉价GPU部署,无疑是个性化语音合成技术规模化落地的关键。

二是语音合成的成本控制,百度深度学习平台飞桨实现了纯端侧的廉价GPU部署,无疑是个性化语音合成技术规模化落地的关键。

图片 4

占用5分钟的时间录制20句左右的文本,然后等待15分钟上下的时间进行云端语音处理,即可下载自己专属的语音包。

但在最新版的百度地图App中,只需要语音唤醒“小度小度”后说“录制我的语音”,或者在个人中心中找到“语音定制”的按钮,即可进入到语音定制的界面。不需要跑到专业的录音棚中,只要不是那么嘈杂的环境,达到系统自动检测的噪音标准后,即可在手机上定制属于自己的语音包。

入驻虎嗅、创业邦、界面等50余家科技媒体

简单的对比即可以发现,百度地图已然最大程度的降低了语音定制的门槛,原本动辄几个月的语音包生产过程,被压缩到几分钟的时间,重新定义语音包生产模式的同时,也让语音定制进一步普惠化。不再局限在几个明星的语音包,人人都可以是“大明星”。

仅以WaveRNN技术为例,传统的RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点,而百度创新的并行WaveRNN技术,可以把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用,为语音合成的商业化应用奠定了基础。

不客气地说,如果Siri的出现开启了语音助理的时代,百度地图的“语音定制功能”开启了智能语音规模化应用的先河。告别冷冰冰的机械感,自然、有情感、高表现力的声音,将是语音技术进一步在生活中渗透的开始。

市面上并不缺少商用语音合成的产品和服务,但绝大多数都是构建在传统的TTS框架上,至于语音合成的效果,往往少不了合成语音的机械感。

一是语音合成技术本身,业已实现了核心技术的突破,以及与工业级应用的结合;

简单的对比即可以发现,百度地图已然最大程度的降低了语音定制的门槛,原本动辄几个月的语音包生产过程,被压缩到几分钟的时间,重新定义语音包生产模式的同时,也让语音定制进一步普惠化。不再局限在几个明星的语音包,人人都可以是“大明星”。

第一步,录制环境的准备。

原标题:百度AI最牛语音技术强力加持百度地图,这才是智能时代样子!

在体验和技术之外,不应该被忽略的是,百度地图选择在这个时间点上线“语音定制功能”,本质上在于解决了两个棘手问题:

钛媒体2018十大作者

科技自媒体 / Alter

在体验和技术之外,不应该被忽略的是,百度地图选择在这个时间点上线“语音定制功能”,本质上在于解决了两个棘手问题:

就应用场景而言,除了导航语音之外,电子阅读、智能硬件、智能音箱、机器人等都将是个性化语音的潜在市场。特别是即将到来的5G时代,或将有上百亿台设备入网,作为万物互联以及AIoT的一个重要入口,智能语音赛道终将成为搜索、电商、社交之外的下一个“现金奶牛”。

第二步,语音定制的过程。

先来熟悉下百度在语音技术上的深耕,也许是读懂百度语音合成技术跃迁的关键。

先来熟悉下百度在语音技术上的深耕,也许是读懂百度语音合成技术跃迁的关键。

同时对于百度这样的互联网巨头而言,过去几十年中的技术深耕,注定会在人工智能进入大生产时代时一步步变现。

由此来看,百度语音技术的想象空间远没有局限在百度地图的个性化语音包上,开始从积累和沉淀进入商业化的爆发期。

作者系独立撰稿人,微信号imhefei

当然作为普通的“吃瓜群众”,我们无须熟知上述提到的专有名词,在讨论百度地图的语音定制功能时,还要从百度独创的风格迁移技术Meitron模型说起,特点主要体现在音色转换、多情感朗读和韵律迁移三个方面。

作为对新技术永远有着尝鲜欲望的泛极客,我在第一时间去AppStore更新了最新版的百度地图,满怀期待地录制了自己的语音包。为了方便大家对“语音定制功能”的理解,这里将整个体验分为三个过程:

用户只需要在百度地图App上录制20句话,然后等待15分钟左右的时间,即可生成有自己声音特色的个性化语音包。有些预料之外的是,原本被某手机厂商预定的朋友圈,猛然被百度地图语音定制的截图刷了屏。

其实百度的语音技术进化还存在另一条曲线,即语音合成技术的创新进化史。2013年就已启动TSS研发,2014年实现了HTS离线参数合成,2016年在基于深度学习的语音合成产品落地上持续发力,并打造了世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统……

原先几个月才能搞定的语音包,百度为何在15分钟的时间内完成,百度语音首席架构师贾磊在百度地图的发布会上进行了“揭秘”:

首先在音色上,合成语音和原始声音的相似度在90%以上,或许一些实验室里可以做到95%左右的水平,考虑到百度地图的规模化应用,这样的成绩已经足够令人兴奋。同样让人惊叹的是,仅仅录制了20个短句,有个人特色的短句方式被完美保留,比如我在读一个长句时习惯在中间进行停顿,百度地图的语音包中精准呈现了这一细节。

其次在场景上,本以为只是应用在路线导航的特定场景中,在使用自己的语音包后,每次在百度地图中唤醒“小度小度”,听到的居然是自己的声音,进一步深入体验后发现定制的语音包可以在景区智能语音导览、智能语音交互、导航等全部场景使用。

“多情感朗读”顾名思义就是让合成语音拥有自然、有情感的声音,常见的思路是从说话人的情感语音语料中获得平均音模型,对说话人的情感说句进行自适应变换,构建目标情感的声学参数模型,继而合成出目标说话人的情感语音效果。同样的,Meitron模型减少了语音库中的个体差异,只需要少量语料,就能在合成的语音中注入不同的情感。

但在最新版的百度地图App中,只需要语音唤醒“小度小度”后说“录制我的语音”,或者在个人中心中找到“语音定制”的按钮,即可进入到语音定制的界面。不需要跑到专业的录音棚中,只要不是那么嘈杂的环境,达到系统自动检测的噪音标准后,即可在手机上定制属于自己的语音包。

詹姆斯· 弗拉霍斯在《智能语音时代》中有一个大胆的预测:智能语音有可能成为最有感情的技术。

詹姆斯· 弗拉霍斯在《智能语音时代》中有一个大胆的预测:智能语音有可能成为最有感情的技术。

占用5分钟的时间录制20句左右的文本,然后等待15分钟上下的时间进行云端语音处理,即可下载自己专属的语音包。

其实百度的语音技术进化还存在另一条曲线,即语音合成技术的创新进化史。2013年就已启动TSS研发,2014年实现了HTS离线参数合成,2016年在基于深度学习的语音合成产品落地上持续发力,并打造了世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统……

从时间上来看,百度并非是第一家进行语音合成研究的公司,然而百度地图“语音定制”的国民级应用,无疑阐述了这样一个事实:那些动辄需要几十个小时的语音采集,消耗几个月的时间进行拼接合成的语音技术已经过时,在人工智能技术的赋能下,语音合成技术正在创造无限可能。

第三步,场景体验的感受。

语音导航早已不是什么新事物,之所以在过去那么长时间里没有出现个性化定制的语音包,最大的门槛就在于录制条件:首先要找到一个专业的录音棚,然后录制上万句导航文本,最后花上半年的时间进行处理。即便是定制化的明星语音包,也需要在通用语音库的基础上录制一两千句语音,大概要在录音棚里待两个礼拜的时间,再花两个月的时间用语音技术生成语音包。

就情感维系来说,键盘、触控乃至现阶段的语音,以往的人机交互都是效率主导的,在很大程度上缺少了人情味儿,但百度的个性化语音定制已经释放了积极的信号,语音不仅是高效的交互方式,也是情感的载体,人类与机器之间的隔阂势必会进一步缩小,取而代之的是亲和力。

品途商业评论2018十佳专栏作者

一是语音合成技术本身,业已实现了核心技术的突破,以及与工业级应用的结合;

就情感维系来说,键盘、触控乃至现阶段的语音,以往的人机交互都是效率主导的,在很大程度上缺少了人情味儿,但百度的个性化语音定制已经释放了积极的信号,语音不仅是高效的交互方式,也是情感的载体,人类与机器之间的隔阂势必会进一步缩小,取而代之的是亲和力。

第一步,录制环境的准备。

人人都是产品经理年度作者

进入语音定制的界面后,百度地图提供了个性化的选择,在性别上可以选择男声、女声以及童声女和童声男,可供选择的录制文本包括推荐文本、卡通文本、电影台词和超短文本。比较贴心的是,卡通文本中可以看到《喜羊羊与灰太狼》、《超级飞侠》、小猪佩奇等时下热门动画片的台词,并且在朗读文本前设定了“自动跟读”,针对儿童群体进行了一系列细节上的打磨优化。

关于百度地图“语音定制”的体验,最大的感受就是惊艳。

不过在太多人眼中,当下的合成语音很难和情感特征相关联,韵律表现上不够灵活,声音变化上相对死板。几乎无法让人相信那些冷冰冰的机械音可以承载丰富的情感,直到百度地图的一场发布会。