聲紋識別發展綜述
本文主要圍繞幾個主題展開:
- 聲紋識別的發展歷程
- 目前的主流方向,基於深度學習的聲紋識別
- 最後介紹一下相關的其他語音技術
首先我們來看下聲紋的概念及為什麼可用於識別
聲音就是一段波,聲紋就是攜帶了信息的聲波頻譜
聲紋特徵與其他生物特徵的對比及特點
聲紋識別在產品上的本質主要就是以下兩種工作方式: 1比1 和 1比N
工作流程大致如下:
- 提取語音,預處理,提取特徵
- 利用訓練好的模型,計算該語音對應的聲紋模型或者聲紋特徵
- 最後進行相似度打分,得到結果
由此我們可以看出聲紋識別主要就是三大部分:特徵,模型,得分。下面根據這三大要素分別闡述
聲紋識別三大部分:特徵,模型,得分
首先看下這三大部分的整體技術流派和技術發展路線
語音特徵介紹
聲紋模型的衍進
傳統的聲紋識別 主要是基於統計思想和概率論,結合聲學,信號學,機器學習等算法
2012年,跨入了以deep learning 為主線的算法,DNN-based系統陸續出現,並基於深度學習領域的新思想持續改良
近兩年發展起來的End-to-End 端到端系統,代表:2018年谷歌百度的相關論文
可以參考回答
聲紋識別算法有哪幾種?www.zhihu.com
//www.zhihu.com/question/53707809/answer/316946465
基於深度學習的聲紋技術
上面的網絡結構中,有一個Statistics Pooling Layer,負責將Frame-level Layer,Map到Segment-Level Layer,計算frame-level Layer的Mean和standard deviation。TDNN是時延架構,Output Layer可以學習到Long-Time特徵,所以x-vector可以利用短短的10s左右的語音,捕捉到用戶聲紋信息,在短語音上擁有更強的魯棒性。