数据集 | 语音合成音库助力机器人客服“声入人心 ”

“尊敬的用户您好,如需办理业务请按1,办理业务请按2…或者您可通过自助语音或关注某某公众号等自助渠道办理相关业务…”联系过客服的人,这句话一定不陌生。

早期智能客服使用的语音合成技术属于播音式风格,音质“机械感”浓重,音色损失大、刻板、语速不够流畅自然,无法做到高度拟人化,用户听多了容易产生听觉疲劳。但是随着语音合成技术的快速发展,应用场景越来越多,市场对更仿真、更悦耳的声音要求也越来越高。区别于传统语音合成表现,个性化的合成语音自然生动,具有情感表现力,丰富了我们的沟通方式。

图片

智能客服市场突破百亿规模

据iiMedia Research(艾媒咨询)数据显示,在人工智能技术不断发展与客服行业转型升级等背景下,中国智能客服兴起并迎来快速增长。人工智能预计2030年将达到1万亿元,平均年增长率为33.3%。其中,智能客服作为企业人工智能应用的重要分支,保守估计占比20%。

图片

智能客服作为人工智能商业化落地场景中最为成熟的应用之一,衍生出了智能外呼机器人,代替人工进行大规模外呼催收,智能外呼机器人通过语音合成、语义识别、人机对话等技术,如今已经可以达到真实客服的话术、音色、情感、语速。作为智能外呼的典型场景:

**智能催收:**贷款催收时,利用智能外呼机器人可以日均拨打数万通电话,大大减轻人工坐席压力。

**精准营销:**利用智能外呼机器人批量拨打客户群电话,根据客户的通话信息自动筛选出有意向的目标客户。

为了让用户的体验更为真实和丰富,机器合成声音需要更加贴合真实客服的语气、语调、停顿。

图片

智能客服趋势:提升语音合成的自然度

基于自然对话风格录制的合成库,可以让机器模拟人类语音中停顿、变速、犹豫等说话习惯,保留自然录音数据中的细微语气表达,使合成效果更加符合人们日常说话习惯。这就需要采集发音人在自然状态下说话的声音,整个录音过程需连续不间断,保留句子之间的语气关联,这样采集的数据才是拟人化的。

小米在2021年推出了超级拟人技术,可以实现用特别像人的声音,生成任意文本,在语调、声调、断句等方面,都和人日常说话习惯无异。小米称,“超级拟人技术”作为有史以来最像人的 AI 声音,完美复刻了人们在日常说话中音量、语速、韵律甚至细微语气表达等习惯,真正做到超级像人。

图片

一份来自数据堂的解决方案

智能客服场景的话术不同于其他场景,为了满足智能客服场景语音合成技术需求,数据堂基于海量语音文本数据标注经验与领先的人工智能语音合成技术,为客户提供多音色、多语言、高音质的语音合成数据解决方案。

客服场景专业发音人合成库

26.1小时中文女声客服合成库

专业录音棚环境,发音人声音活泼亲切,录制了近3万句客服场景句子,以金融领域文本内容为主,并对音节、音素、音调都进行了平衡覆盖。

20.1中文男声客服合成库

声音磁性浑厚的专业发音人,录音内容以金融领域客服场景文本为主,对音节、音素、音调都进行了平衡覆盖。

10.1小时中文女声客服合成库

由声音活泼亲切的专业发音人在专业录音棚内,录制以金融领域客服场景为主的文本内容,并对音节、音素、音调都进行了平衡覆盖。

客服场景多发音人平均模型库

150人中文客服平均音色合成库

男女专业发音人各75名,每名发音人录制700句左右中文句子,录音内容以金融领域客服场景文本为主,对音节、音素、音调都进行了平衡覆盖。

50人中英混读客服平均音色合成库

男女专业发音人各25名,每名发音人录制700句左右中英混合句子,录音内容涵盖多个领域,以客服场景文本为主,对音节、音素、音调都进行了平衡覆盖。

真实客服人员对话式合成库

20小时中文女声对话式客服合成库

国内第一个可商用的对话风格的客服合成库,为了使语音合成更加自然,我们选取声音甜美的真实客服人员,采用自然对话的方式模拟客服场景进行录制。

此外,数据堂丰富的样音资源、突出的技术优势和数据处理经验,支持按语言、音色、年龄、性别个性化定制的采集服务。同时还支持音频切分、音素边界切分(切分精度0.01秒)、音字标注、韵律标注、词性标注、音准校对、声韵标注、乐谱制作等数据定制服务,全面满足多样化语音合成需求。

图片

未来数据堂将持续为客户提供更多高质量的语音合成数据,让人工智能合成声音变得更有感情,互动中更有亲和力,让语音交互效果更“声入人心”。