几个特征可生成一个语音

人发出的话音由不同频率波组成,但是这些波不是连续的,是周期出现并周期改变,这个周期也在变化的,这些改变的状态所表现的(称其为特征)。反过来生成一个语音,只要有规律地出现类似正弦波的数据,并规律改变波状态,这些不同规律生成音频数据则会是不同的声音,大多数的人讲话的语音的这些变化是有一定范围的,这就是几个特征便可以生成一个语音。端到端地每个音去学习得特征,就不须要大数据和超复杂的算法去学习得大量特征,只对每一个语音去提取其中变化的规则的特征,与之对应生成(或者说还原)有规律变化的波形数据。至于语音(特征)与字对应的识别,正在研究。
本人没有高学低,只能用图说话

null​​

   上图是在粤语发音字典-粤语翻译 //www.yueyv.com/?keyword=%B4%F3%BC%D2%BA%C3+&submit=%B2%E9+%D1%AF录得数据。黑色是录取得(粤语‘饼’字)语音数据,红色是去丢高频并扩宽一倍的数。下图的下部分是基于上图数据获得特征值直接输生成,

null​​

生成音时长是可调的与原音时长是不同。周期的变化,即是我们汉语和粤语音的同音不同声调,这个周期不同频率,是不同年纪的人的语音。上图的上部数据是基于获得的特征数据,上图不部,调整过编入去生成,播放出来的 郊果,原音与两个生成音大至相同。而下图是改变过这个周期的频率生成数据,象是上了年纪的人讲出同一音。
null​​

若想知道效果是什么程度。我有一个 App 在百度网盘上,是出于好奇将字句编成说唱声来的 app.若好奇可下载体验。

声明:本 App 是我边研究,边更改重编测试软件,或有漏洞故障,只是想说明用几个特征可生成一个语音,在 App 里

面有大部分汉字对应的普通话音和粤语音的特征记录,同一音的特征会有多个同音汉字,说话音的时长可编长短,说话人可选年少或年长些的,是男是女暂时还在研究。到这下载//pan.baidu.com/s/1ZT-L-K6zE0SI12MGcD-LHA

提取码:meee

啰哩啰唆只想说明的是,语声主成,并非要由大数据复杂的算法才学习得到,不同语种的单个音与几个特征对应,几个单音又组成字词,它不须要每一语种都要大量数据学习才得出参数,并生成语音也是大概率下单调声,或者清析些,但决少灵活的张池缓急,长短说唱的要求。

   下图是由原数据(黑色)提取主要频率在其本位置上编写半波数据红色部分(数据点多一倍),将其播放,郊果与原音大至相同(即使只用大于0的正数据下图2),只是音质有相差,

lu

null

null​​