智能語音領域人才內卷嚴重?

深藍學院是專註於人工智能的在線教育平台,已有數萬名夥伴在深藍學院平台學習,很多都來自於國內外知名院校,比如清華、北大等。

近期我們邀請了四位智能語音領域的大佬,共同舉行了一次線上圓桌會議。四位老師根據現在智能語音領域算法工程師的情況進行了一次討論。希望大家通過各位老師輸出的建議及討論,可以引發大家在工作和學習中的一些思考。

分享嘉賓(排名不分先後)
吳本谷
曾先後在百度、北京獵戶星空供職,主要負責各場景下語音識別聲學模型優化,語言模型優化,聲紋系統搭建等工作。在kaldi上開源了aishell、aishell2、hi-mia等recipe,包含語音識別,聲紋識別,語音喚醒等。

張俊博

小米語音技術專家,中國科學院聲學研究所博士,師從顏永紅老師,研究方向為語音識別和發音質量評測,發表論文十餘篇,著有出版物《Kaldi語音識別實戰》。在開源方面,和Daniel Povey博士合作,為K2和Kaldi貢獻代碼,其中在K2子項目Lhotse上貢獻代碼量排名第二。
楊超

出門問問語音技術總監,西北工業大學碩士,師從謝磊教授,研究方向為機器學習、自然語言處理和非參數貝葉斯模型。先後就職於微軟(cortana語義理解和語言模型)、思必馳(知識圖譜和對話系統研發)、蛙聲科技(語音技術落地)。

付立

本科和博士畢業於北京航空航天大學,研究方向包括語言識別,機器學習等,現任京東數科語音算法工程師。在語音技術領域發表多篇論文並申請發明專利,並組織開展JDD第一屆金融對話語音識別比賽。
  • 智能語音領域近幾年企業界發展狀況?

付立老師這幾年,從我們身邊接觸到的智能語音產品,以及語音公司業務擴張的趨勢都可以看出,智能語音領域的景氣度還是很高的。京東數科這幾年在算法領域也有持續的投入,主要包括長期的數據積累和模型迭代優化的工作,公司的語音技術也從早期前幾年的語音探索階段到現在實現了多個內部業務場景技術的落地,並且公司相關的語音技術也已經在一些對外輸出項目中得到了應用。

吳本谷老師:我主要從三個方面跟大家說一下。

第一個方面,從語音整個的技術發展來看,語音技術的開啟點應該是在2015年的時候。2015年之前,語音的碩士或者博士畢業都只能去研究所,或者找工作有點麻煩,2015年之後,整個語音行業開始瘋狂招人,所以從2015年到2019年,尤其是2018年和2019年是語音高速發展的時期。

但是回到現在這個時間點,語音行業開始向下回落,或者說是進入穩定期。不避諱地說,從今年或是去年開始,很多語音公司在裁人,關鍵原因還是前幾年的泡沫太高,而且人工智能的落地都會遇到場景的問題和一些事情的約束。

但其實回落也是好事,因為本質上是越來越集中的一些人、一些公司去做一些事情。在盲目期,很多公司想怎麼干就怎麼干,等到整個事情變得足夠清楚的時候,才開始分析投入產出比。

第二點是技術點,語音技術從識別開始識別是整個語音交互或者整個交互裏面最開始的點,所以大家都會從識別開始做,公司裏面做識別的人也最多。

雖然端到端的技術在往前走,但是識別在工業界的應用發展的還是很緩慢的。其實從識別這個點開始,到後面整個技術鏈條都在發展,像合成的Tacotron把之前的傳統技術都碾壓了一遍,包括聲紋技術、最近比較火的音頻事件檢測,這些以前都是用很傳統的方法做的,現在你會發現很多不一樣的東西,比如歌唱合成,有很多其他的東西和語音融合,跨學科和跨技術的融合。

所以大家不要鑽到某一個技術點裏面去,要去多看看整個大的應用。

第三個點就是落地的問題,已經包含第一點裏面了。不僅是語音方向,還有圖像、NLP,人工智能落地之後,三大學科都在遇到各種各樣的問題,那麼必然會導致公司招了人,落地的時候發現了問題,那麼公司就不再會養這麼多人在團隊里,這就會帶來一些企業的壯大和一些企業的淘汰,或者公司只能做某個方向,什麼都想做是不可能的。

楊超老師:現在國內有幾類不同的語音公司,一類是像訊飛、思必馳、雲知聲以及我所在的出門問問,這類公司是專註語音技術的公司,核心的技術就是語音,所以得在語音這個場景中深耕。這類公司落地的場景是語音落地最好的場景,大家也嘗試了很多,像車載、醫療、政府政務、金融、電信、智能客服,有很多的領域,大家都在落地,但是競爭依然非常激烈。

還有一類公司是互聯網公司,比如BAT、京東、搜狗,包括現在最火的美團、滴滴、頭條、快手,這些公司都有自己的語音團隊,他們可能不需要依靠語音存活下去,他們的團隊主要是在自己公司的產品、業務中落地語音技術,相對而言生存狀況會好一些。

其實語音在這類公司反而更好去落地,純語音的公司想去為互聯網公司做一些業務,要是在五年前可能可行,但是現在大家都有自己的團隊了,想讓他們用其他公司提供的技術是不太可能的。

像這些大型互聯網公司的產品,比如手機遊戲,大家在玩遊戲的時候發一段語音,識別成文字去交流,是很好的一個場景;一些短視頻裏面音頻內容的產出、直播裏面聲音的監管、客服的質檢,還有外賣、打車裏面都有很多的場景,以及現在風口最對的在線教育類的一些公司也都有自己的語音團隊去做一些落地,在這些公司里,語音還是真正的賦能了。

但是因為語音不是To B類的,沒法直接看到它到底產生了多少經濟上的價值。我覺得現在國內大部分的大型互聯公司應該都有自己的語音團隊。

今年CCF的語音專業組辦了一個走進企業的活動,8月走進了19家企業,即使這樣還沒有覆蓋到中國所有的語音公司,可以看出國內語音相關的公司、團隊真的很多。

所以語音整個的發展還是很好的,但是就像本谷說的,之前存在一定的泡沫現象,所以接下來我們還會提到內卷的問題,後面我們再提。

張俊博老師:這個問題是挺大的一個問題,應該說時代一直在變化,各企業選擇自然語音,情況也確實不太相同。一般來說還是有些共性的,做語音的公司幾乎都會有數據積累,他們覺得數據很有價值,但是一直都閑在那用不起來,浪費了很可惜,所以很多企業其實一開始也就是為了這個原因去招一些人在做,包括很多大型的很早就做語音的企業,一開始也是為了充分利用數據。

自己做語音,確實有很多優勢,充分利用數據,並且能夠定製,貼近自己的業務,所以現在很多公司也確實是選擇自己做,這也是正確的。在技術方面,我覺得大家都差不多,Paper都是公開的,尤其現在開源運動這麼火熱,代碼也可以說是公開的,所以各家公司之間應該至少是沒有技術上的代差。

但是有實力的公司,一般來說都能夠騰出一些資源去做一些技術的探索,比如發一些論文,或者讓大家去參加比賽等等,這些事情並不會被業務綁的那麼死。

所以說大家如果有實力進有實力的公司,那一定要爭取進的機會,要比一些比較小的地方機會要多很多。小米其實是非常好的一個選擇,尤其是去年Povey博士也加入了小米,他可以確保我們的技術是領先的。

現在我們團隊已經非常強大了,現在算法團隊大概有幾十人吧,很多大牛,涵蓋了語音的所有方向,而且每個方向都是先進水平,近兩年我們也參加一些算法比賽,每次參賽都是冠軍。雷總剛剛這個在會上宣布了明年的擴招計劃,小米可能至少擴招5000以上的工程師,而且語音是重點的方向。

  • 網上有評論算法工程師內卷嚴重,智能語音領域人才供需現狀怎麼樣?是否有類似狀況?

付立老師:我對內卷的理解就是沒事幹了,但是還得繼續瞎忙活。算法方面的內卷,網上也有很多的討論。

算法內卷出現其實也是跟其他問題一樣,都算是客觀規律吧,我們也不可能天天都在搞創新,每天都能弄出個重大突破,關鍵還是自己要保持一種學習的心態,不斷的提升自我。

其實內卷這個詞我也是前兩天才聽說的,至少上個月我大腦里的語音識別系統還無法識別內卷這個詞,不知道線上的ASR模型會得到什麼樣的結果,這也可以從側面看出,正是因為語言的變化,還有一些場景的多樣性,語音技術其實還有很多實際的問題需要解決,真正到了落地的時候,我們還要花很多精力,投入很多時間去把這個事情做好。

對於我們公司京東數科,我的整體感覺是內卷還不是主要問題。我們公司這幾年也在持續招聘優秀的人才加盟。

吳本谷老師:供需怎麼樣,我覺得其實還是看人,基本上識別的人稍微好一點的早就被定了,大公司的head count少得可憐。如果你有絕對的優勢,或者在語音識別圈子很有名,或者在某個方向上足夠深,其實你找工作都很好找。

但是如果你平庸一點,想去大公司很難,因為大公司基本上好的職位都被佔了,你得想其他的方向。現在投大公司的人太多了,必然會導致大公司對應聘者的要求越來越高,但是你可以看看其他公司,要求可能沒那麼高。不一定創業公司跟大公司哪個更好,核心問題還是你在這個地方是不是能得到成長。

我們可以把公司和個人能力分一二三流,如果你是二流水平找三流的公司,那肯定要你,反之,如果你是三流的水平去搶一流的公司,那你就難了。像百度、阿里、小米這些,想進去都很難。所以還得看你自己跟公司的匹配度,這個是最重要的,至於內卷其實不重要。如果你不匹配,不能適應這個公司的節奏,其實你過去也挺痛苦的。找到一個擅長帶你的老大,或者你跟你對脾氣的老大,或者是對脾氣的一個負責人,然後跟你去做整個的職業規劃,工作幾年之後你能力強了,大公司會搶你的。

楊超老師:就像本谷剛才提到的,同學們覺得特別好的機會比如谷歌、BAT,你肯定要足夠優秀才可以去,因為我認識的去到這些公司的很多都是語音專業畢業的博士或者非常優秀的碩士。

而且這些崗位這幾年已經有很多同學佔了很多位置了,往上升管理的也沒有那麼多,大家還都在一線做,所以並沒有那麼多的職位給大家。就從我們公司而言,想招國內一流實驗室的學生還是比較難的,我們收到這種簡歷也比較少,可能大家現在都想去大廠。

所以你可以根據自己目前的水平、狀況,去做不同的選擇。如果你進入我們公司的語音團隊,對你的基礎培養並不比那些大廠差,而且我非常注重我們這邊同學的職業規劃和技能培養。

像蘇州這邊招聘的TTS的團隊基本上之前都不是做語音的,但是一年下來,他們在這塊兒都已經做的挺深入的了,我們內部我自己會給他們講課,所以都是在從頭去培養這些人才。

但是如果你去大廠的話,可能你本身就比較優秀,可以做一些事情,但是你的leader不一定會為你花那麼多的心思。所以找一個好的團隊、一個好的負責人是同學們需要考慮的一個點。

張俊博老師:內卷這個詞這兩年好像確實挺流行的,按照我的理解,就是競爭激烈的意思。

但是我的體驗是在語音方面一直都是供不應求的,競爭好像也不是那麼明顯,反而人才都是各家爭搶的。每次看到出色的簡歷,第一反應就是趕緊搶,晚了幾分鐘,或者晚了一段時間,別的公司肯定搶去了。

所以,就有一個矛盾,語音算法薪水高,薪水高必然會吸引很多人進入這個領域,每個行業或者每個方向也都是這樣的,優秀的缺乏,不是特別合格的就過剩。

如果僅僅是被這個行業的高薪水吸引,從這個層次看,確實是競爭激烈的。而且這種同學,絕大部分是不會被用人單位認可錄用的。

簡單來說就是經驗豐富的非常搶手,沒有經驗的過剩。那些科班出身,在學校裏面研究的方向就是語音的同學,還沒有畢業就已經有了很多語音方面的經驗,基本上不用為了找工作發愁,反而都是工作來找他們。

非科班出身的同學如果能在讀研期間去比較好的公司實習也是非常有競爭力的。有的同學說「我是本科生」,那我覺得還是不要着急找工作,趕緊去讀研究生。

  • 企業技術部門傾向於招募具備哪些特質的人?會考察面試者哪些知識及素質?

付立老師:考慮到我是第一個發言的,就不提太多了,只提一點我認為最重要的素質吧。我最看重的是這個人剖析問題的能力,不管是在學業上還是在工作中都能將任務分解,並能準確地定位到關鍵的問題在哪裡。這點我是比較看重的,當然這個能力也需要一些時間和經驗來訓練。

在面試的時候,尤其是在面試者描述自己的工作的時候要有所側重,能夠對最關鍵的技術亮點有一個準確的判斷,並把自己的想法、對這個項目的貢獻展示出來。這一點在後續的工作中也會非常影響這個人的工作效率和溝通效率。

舉個簡單的例子,有一套代碼,如果出現了bug,你至少應該知道這個bug在哪個位置,或者知道是哪個模塊上出現的問題,這樣的話即使你解決不了,你把這個問題拋出來,我們也可以通過討論合作的方式一起解決。

所以關鍵是要把問題分析清楚,要以一種有效的方式跟別人交流。

吳本谷老師:我先說會考查哪些知識點吧,各個公司都差不多。第一點是數據結構與算法,先寫寫代碼,代碼寫不過可能就沒有後面的機會了;第二點一般會考察機器學習或者深度學這塊;如果你前兩個都沒有問題,那麼第三點會考察語音類的知識。

基本上是以上3點。具體項目應該會在語音算法里涉及到一些。至於招募具備哪些素質的人,我之前說到的匹配是一個點,還有就是自驅,我會傾向於招一些有自驅力的人,如果你足夠自驅,那麼接下來所有的事情都挺好解決的。

楊超老師:關於傾向於招募具備哪些特質的人:第一個是良好的邏輯思維能力,這是技術人員必須要有的;第二個是優秀的動手能力,要能夠真正的去寫代碼,把你遇到的問題動手拿下;第三個是主動思考的能力,不能被動的讓別人告訴你怎麼去做;第四個是獨立解決問題的能力;第五個是良好的溝通能力。

如果這幾點你都有,那就太優秀了,大部分人都是某些方面比較強,某些比較欠缺,隨着你工作,這些能力會慢慢提升。作為一個剛畢業的學生,其實你只要展現出其中比較優秀的一兩點,可能就可以得到面試官的青睞。

我面試的時候,一般會考察一下候選人基本的編程能力,然後再考查簡歷里你寫的情況的真實度。

如果你寫的東西你掌握得不清晰,說不出來,那我可能要打一個問號。再然後我會想辦法去挖掘這個候選人的優點,因為有些東西可能沒有寫到簡歷里,比如我會問你覺得自己最優秀的地方是什麼,只要你能讓我看到一些優點,而且這個優點符合我剛才說的幾個能力之一,可能我都會選擇聘用。

張俊博老師:感覺每個面試官真的完全不一樣,你無法知道你碰到的面試官是什麼類型的,所以加強自己的能力吧。

講一些我自己個人的傾向:我面試的時候肯定不會讓你手推EM公式之類的,也不會讓你手寫實現某個成熟的算法,如果考這個的話,就相當於考誰事先背題,意義不大。

我個人比較看中兩個能力,一個是靈活解決問題的能力一個是有主動學習的慾望。面試的時候,我會針對你簡歷上寫的某個項目,問你為什麼用這個方法而不用其他的?有沒有想過使用更簡單、更直接的方法?有沒有實驗過自己的想法?這些都需要候選人做出邏輯自洽的解釋。

如果在面試過程中,我能從候選人身上學到一些東西,得到一些新的知識,那我會對這個候選人非常讚賞。

現在的開源運動很火熱,做項目的時候不可避免會用到一些開源的框架,如果你的項目也用到了,我可能就會問你為什麼選這個框架?比其他框架有什麼優勢?這個框架裏面的原理是什麼?如果這個框架沒有開源的話,讓你去自己寫,你寫的出來嗎?如果這個候選人根本不了解他調用的框架,只是表面調用了一下,我覺得這是不合格的。

那麼什麼樣的候選人是比較優秀的呢?比方說你雖然用了這個開源框架,但用的原因僅僅是不想重複造輪子,如果讓你自己實現也能實現出來,並且對技術方向的選擇有非常明確的思路,這種同學我就會非常願意錄用。

還有一個必要條件就是代碼寫得好,代碼寫得好並不是精通某種語,也不是Leetcode題刷得多麼厲害,我看重的是能夠快速地寫代碼,能夠真正解決實際的問題,也就是解決問題的能力,當然代碼規範也是很重要的。