大咖面對面 | 陳果果博士談智能語音

智能語音在近年一直是個很火的話題，商業應用也在不斷增加，在10月10號的深藍&大咖面對面活動中，我們邀請到了語音界大佬陳果果博士，針對目前語音領域問題進行分享與探討。

目錄
1.嘉賓介紹
2.直播精華
3.精選網友提問

1.嘉賓介紹

陳果果，SEASALT.AI聯合創始人，約翰霍普金斯大學博士，清華大學本科。

師從當前最流行的開源語音識別工具Kaldi之父Daniel Povey，以及美國人類語言技術卓越中心(HLTCOE)和約翰霍普金斯語言語音處理中心(CLSP)的Sanjeev Khudanpur教授，主要研究方向是語音識別以及關鍵詞檢索方向。

博士期間為Google開發了Google的喚醒詞Okay Google的原型，現在已經用到數以億計的安卓設備上。博士期間同時也參與開發語音識別開源系統Kaldi，以及神經網絡開源工具CNTK。

博士畢業後，聯合創辦KITT.Al，致力於語音喚醒和自然語音交互技術的研究開發，公司曾被CBInsights評選為首屆AI 100公司，2017年被百度收購後加入百度度秘事業部，擔任主任架構師。2020年離開百度，聯合創辦Seasalt.Al以及Vobil.com，聚焦於語音識別和自然語言處理相關的企業服務。2020年同時發起志願者組織SpeechColab，並發佈GigaSpeech數據集，包括10000小時帶標註的英文語音識別數據，以及33000小時半監督、無監督英文語音識別數據。

2.直播精華

1.目前語音領域（包括語音識別，喚醒）的進展，以及實際落地中遇到的困難

識別和喚醒的發展還是挺不一樣的。關於喚醒的功能，最早我是在google的時候，做了一個基於DNN的喚醒引擎，然後在安卓的手機上進行部署。那時候關於喚醒的工作還相對較少，在功能的實現過程中也遇到了不少挑戰，比如怎麼降低誤喚醒的概率。不過經過這麼多年的發展，喚醒的功能已經比較成熟了。

一是從效果上來看非常好，這就體現在高頻率喚醒的情況下，誤喚醒能保證在一個非常低的概率。第二個是硬件功耗不斷減小，早期我們的工作可能需要基於手機或者高性能的芯片，而如今，在電池的支持下，低功耗的設備就能維持喚醒功能的正常運行。所以，從個人角度，我認為喚醒的功能已經發展的很成熟了。

語音識別是類似的，如果你看過去十多年的發展，會發現進度非常快。

我是2010年開始讀博的，那時候包括谷歌和微軟等企業的一些產品，語音識別的效果還非常糟糕。從工作機會的角度來說，在08年金融危機之後，這部分的工作機會還是相對「僧多粥少」的。但是自從12年Siri的出現，工作崗位越來越多，很多公司的投入也越來越大，語音識別的效果提高也非常快，所以有種觀點就是：語音識別是一個已經解決的問題，因為在很多場景下，語音識別已經能實現很高的準確度。

但是如果大家深入研究，就會發現，語音識別其實還是有很多具有挑戰性的工作。一是從效果方面看，面對有噪聲的場景，比如聚會等，語音識別的效果還是很糟糕，經常會出現一些讓人啼笑皆非的判斷；二是從計算資源的角度看，比如如何保護用戶的隱私？在應用一些規模較大的模型時，如何進行裁剪才能應用到一些小芯片上，並能保證很好的效果？如何實現數據的迴流以及迭代？這些都是一些未解決的問題。

總體來看，喚醒是一個我認為已經基本解決的問題，而語音識別在複雜場景下的效果優化，在低功耗設備上的移植等問題上，還是有很多內容值得研究和討論的。

2.智能語音在嵌入式設備端落地式，相比於服務端，有哪些需要特別考慮的因素？

我認為數據迴流是一個比較頭疼的問題。當用戶的數據返回到服務器端時，我們可以在保護用戶隱私的同時，對模型進行訓練迭代，從而讓網絡的效果越來越好。

而如果在低功耗的芯片上部署時，這些數據很難回傳到服務器上，這意味着廠家很難接收到數據進行訓練。這就是一個很大的挑戰。如何在數據無法迴流的情況下，提升模型的效果？我個人認為聯邦學習是一個很好的方向，只不過大家目前做的還不夠成熟。

第二個是功耗問題，設備端的資源通常是有限的，有時候設備需要依賴電池來進行供電，我們自然更加希望產品的功耗較低，那麼這其中就有很多工作可以做。比如，我們在耳機上實現喚醒的功能，就需要做模型的裁剪和壓縮，以及指令集的優化；再比如用高效的彙編指令來實現FFT等功能。我個人認為，語音識別在嵌入式設備上的部署，雖然還面臨著標準不統一等一些問題，但它仍然是這門技術發展的一個趨勢。

3.對於正在從事語音領域的科研同行以及在校學生，有哪些建議？

語音領域的發展很快，知識的更新迭代也非常快。我認為作為學生，如果能做一個可用的語音識別系統,是非常有鍛煉價值的。

我對學生的建議是多參與接近實際的工作，這對找工作和研究都有很大幫助，不要局限於對一些數據集和一些開源方案的魔改。因為很多時候，這些東西難以落地。

比如做Kaldi這個工作的時候，我們就做了很多並行化的工作，從而讓系統更加實用且可用。同時我們也注意到了一些問題，當下公司和學校的區別在於公司有海量的計算資源和數據可以使用，而學校資源的不足就可能會讓同學們無法展開研究，所以，我們也在通過GigaSpeech等工作去解決這個問題。

4.關於語音識別數據集GigaSpeech的介紹

其實最早在百度的時候，我們就想做一個大型開源的中文語音開源數據集，但是由於種種原因沒有開放。所以，後來，我們就想和小夥伴們做一個更加通用的數據集，也是為了保證數據集的通用性，我們選擇了英文作為數據集的語言。

為什麼我們想做GigaSpeech這個工作呢？

一個原因是「效果」，語音識別算法在libriSpeech等數據集上已經被優化的非常好，識別準確性也非常高，所以我們希望提供新的數據集作為訓練和測試的選擇。第二個是因為近些年工業界傾向於採用由公司自己製作的大規模數據集進行訓練，而學術界使用的數據集則規模較小。我們工作的初衷，也是想給學術界和工業界提供一個大規模並且開源的數據集，像GigaSpeech這種已經優化充足的。

這個數據集是怎麼實現的呢？

第一步就是收集數據，剛開始我們想播客節目來提取語音以及對應的文本，但僅僅是播客的數據源還是不夠多，所以我們又從有聲書中獲得了大量數據，另一個來源是Youtube的各種視頻。我們對於這些音頻的要求是配有人工生成的文本，而如果文本是通過算法自動生成的，我們也會篩選去除。

第二步是文本的規範化，比如字母大小寫的調整，特殊字符的去除，數字到文本的轉變。

第三步是強制對齊，這一工作非常重要，因為很多音頻和字幕並沒有完全對齊。我們後來採取的方式是，把音頻和文本信息分別拼接，然後做強制對齊，從而把每個字的時間都標註出來。

第四步的工作是斷句，比如對於靜音超過一定時間，或者在說話過程中的突然停頓，我們會進行斷句，同時，對於單句時間過長或者噪聲較大等異常的數據，我們也會選擇去除。

第五步是驗證，在用簡單的解碼器做強制對齊後，很多句子會出現錯誤，比如在一些語句的語氣詞停頓處，以及面對一些如」I mean「，」you know「的短語，轉寫可能會發生錯誤，所以，我們後來應用了自己設計的一個解碼圖。這個解碼圖的優點是我們在進行強制對齊的時候，能夠允許出現一些預先定義好的語氣詞和垃圾話。當最後解碼的效果和參考一模一樣時，我們才會選擇保留語句。

GigaSpeech 所採用的解碼圖結構

接下來的工作是評估，我們對人工標註的測試集進行處理，對於幀級別的分類結果進行分析，並進行調參。為了保證最後有一萬小時的可用數據，我們需要把詞錯誤率（word error rate）控制在4%左右。

在數據完成後，我們要對測試集進行人工標註，總共有40小時的測試集，還是相當大的。同時為了避免和libriSpeech的測試集重疊，我們沒有包含有聲書的測試集。此外，我們還在維護一個排行榜，來展示效果最佳的網絡。

而在未來，針對GigaSpeech這個志願者項目，首先，我們計劃添加更多的語種，第二個是希望開放更多的數據進行評測開放，目的是讓大家有更多的數據對於實驗效果進行公平的評估，第三和第四點是希望開放一些預訓練和微調的網絡讓大家可以更便捷的使用。此外，我們也希望分享一些好用的解碼器，還有就是我們也在維護一個代碼庫，叫PySpeechColab，目前已經實現的是GigaSpeech數據集的下載和安裝，其他的功能還在討論中。

精選網友提問

1.應屆生在秋招過程中選擇語音方向就業公司的時候，需要重點關注什麼？

我不是太有經驗，因為我其實也沒有在秋招找過工作。從我自己的一些感受來說，我認為團隊和管理者很重要。

團隊的文化是否和你的個人氣質匹配，團隊是否會在你感興趣的方向進一步投入，都是需要考慮的。對於那些突然決定做語音產品然後瘋狂招人的公司，大家要慎重，因為可能語音這塊的內容和這些公司本身的核心產品不是強相關的，所以之後也很有可能放棄。

另外，我比較關注所在部門是否有很好的管理者，和自己在溝通，未來的規划上是否合拍，這也是很重要的。

2.是否準備開展中文語音數據集的工作？

我們也確實在做這個工作。關於數據的整理標註，我們這塊的處理流程其實已經比較完善了。但是我們現在更關注的其實是數據的源頭，數據集是否能包括更多更豐富的數據源頭，比如電話語音等，是我們想提高的方面或者解決的問題。也歡迎大家多提意見來共同解決這個問題。

3.語音識別的未來方向，商業化前景可能有哪些？

按我的理解，語音更多的是一個工具，未來的發展可能更多的把語音作為一個便捷易使用的工具，這意味着語音識別的門檻需要越來越低，使用它也越來越方便。語音目前主要的商業應用主要還是客服中心（call center），很多公司也願意為它買單。

而關於智能化語音，有音箱，API這類的產品形式，除此之外的盈利方式還包括還有政府的智能化項目和一些雲服務。當然，未來可能也會有更多更豐富的商業模式出現，這也是很難預期的。

Tags: 自然語言處理語料庫語音交互語音識別技術

大咖面對面 | 陳果果博士談智能語音

1.嘉賓介紹

2.直播精華

1.目前語音領域（包括語音識別，喚醒）的進展，以及實際落地中遇到的困難

2.智能語音在嵌入式設備端落地式，相比於服務端，有哪些需要特別考慮的因素？

3.對於正在從事語音領域的科研同行以及在校學生，有哪些建議？

4.關於語音識別數據集GigaSpeech的介紹

精選網友提問

1.應屆生在秋招過程中選擇語音方向就業公司的時候，需要重點關注什麼？

2.是否準備開展中文語音數據集的工作？

3.語音識別的未來方向，商業化前景可能有哪些？

VirMach 便宜 VPS

QNews

大咖面對面 | 陳果果博士談智能語音

1.嘉賓介紹

2.直播精華

1.目前語音領域（包括語音識別，喚醒）的進展，以及實際落地中遇到的困難

2.智能語音在嵌入式設備端落地式，相比於服務端，有哪些需要特別考慮的因素？

3.對於正在從事語音領域的科研同行以及在校學生，有哪些建議？

4.關於語音識別數據集GigaSpeech的介紹

精選網友提問

1.應屆生在秋招過程中選擇語音方向就業公司的時候，需要重點關注什麼？

2.是否準備開展中文語音數據集的工作？

3.語音識別的未來方向，商業化前景可能有哪些？

分享此文：

Related Posts

清華大學張鈸：實現下一代人工智能的兩個範式

阿里巴巴開源大規模稀疏模型訓練/預測引擎DeepRec

宏碁首款永續概念筆記本圖賞：99%可回收面板

ElasticSearch IK熱詞自動熱更新原理與Golang實現

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋