【好数推荐】方言语音数据集

随着人工智能应用领域的拓展,方言识别问题也越来越受到重视。但是方言与普通话不一样,方言语音识别要复杂得多。

中国的方言南北差异太大,哪怕同属于一个大的方言分区,也分歧异出,方言数据的采集,面临很多困难。一般来说,数据集的采集无非是字、词、句的搜罗,把该方言常用句子、词语通过文字、音标乃至语音的方式记录下来,集成一个数据库,供人工智能学习使用。但众多方言种类意味着需要收集的数据也是海量的,很难在短时间建立起全国通用的方言数据集。

面向方言识别技术的大规模应用,数据堂提前预知、布局,已采集涵盖八大方言区的数万小时以上的方言朗读、方言自然对话语音数据,可分秒交付,快速提高模型识别准确率,数据堂严格遵守相关规定,所采集的数据均已获得被采集人授权,数据堂致力于用高质量的数据推动方言识别技术的发展。

方言朗读语音数据集

东北方言语音数据集

所有发音人均使用东北方言朗读文本,录音内容丰富,覆盖近30多个领域的客户咨询以及短信文本。句子由专业标注人员人工转写校对,句准确率95%,可用于语音识别,声纹识别等任务。

四川方言语音数据集

来自四川盆地发音人在安静的室内环境下的录音数据,录音内容广泛,覆盖日常短信及多领域客户咨询。句子平均重复次数1.3次,平均句长12.5字。由四川本地人参与质检校对,文本转写更精准,匹配主流安卓、苹果系统手机。

粤语语音数据集

来自广东省发音人,在安静的室内环境下的录音数据。录音内容广泛,覆盖50 万句常用口语语句,包括微博高频词、日常用语等。句子平均重复次数1.5次,平均句长12.5字。匹配主流安卓、苹果系统手机,句准确率达95%,可用于语音识别,声纹识别等任务。

维吾尔语语音数据集

来自维吾尔族聚居区的人参与录制,男女均衡。录音内容为30万维语口语化句子,录音环境为安静的室内。所有句子均经过人工精准转写,准确率高。

河南方言语音数据集

由河南本地人员参与录音,口音正宗。录音内容广泛,覆盖日常短信及多领域客户咨询。同时由河南本地人参与质检校对,文本转写更精准,匹配主流安卓、苹果系统手机,可用于语音识别、声纹识别等任务。

方言自然对话语音数据集

四川方言自然对话语音数据集

近2000名四川本地发音人参与录制,录制时长约为800小时,以自然方式进行面对面交流,不限制话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。

河南方言自然对话语音数据集

近1000名河南本地发音人参与录制,录制时长约为500小时,以自然方式进行面对面交流,针对指定的多个话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。

粤语自然对话语音数据集

近1000名河南本地发音人参与录制,以自然方式进行面对面交流,针对指定的多个话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。

未来方言识别会加强对方言字词、方言音标标准化建设,让AI更懂人们的声音。随着语音识别自适应能力增强,不受特定口音影响的语音识别技术将指日可待。


©著作权归作者所有:来自51CTO博客作者北京数据堂的原创作品,请联系作者获取转载授权,否则将追究法律责任
【好数推荐】方言语音数据集
//blog.51cto.com/u_14176533/5408559