論文翻譯:2021_LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement

論文地址:延遲約束的語音增強基音估計

引用格式:Schröter H, Rosenkranz T, Escalante-B A N, et al. LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement[C]//Interspeech. 2021: 656-660.


摘要

  基頻($f_0$)估計,又稱基音跟蹤,是語音和訊號處理領域長期以來的研究課題。然而,許多基音估計演算法在雜訊條件下失敗,或者由於其幀大小或Viterbi解碼而引入大延遲。

  在本研究中,我們提出了一種基於深度學習的基音估計演算法LACOPE,該演算法在聯合基音估計和語音增強框架中訓練。與之前的工作相比,該演算法允許可配置的延遲,最低可達到0的演算法延遲。這一點是通過利用pitch軌跡的平滑特性實現的。也就是說,一個循環神經網路通過預測期望點的pitch來補償由特徵計算引入的延遲,允許在pitch精確度和延遲之間進行權衡。

  我們將音調估計整合到一個用於助聽器的語音增強框架中。在這個應用中,我們允許 5ms的分析延遲。然後使用基音估計在頻域構建梳狀濾波器,作為後處理步驟,以去除內部諧波雜訊。

  對於所有雜訊條件下的語音,我們的基音估計性能與PYIN或CREPE等SOTA演算法相當,同時引入了最小的延遲

索引術語:基音估計,語音增強,卷積循環神經網路

1  引言

  消除不需要的環境雜訊是現代助聽器的一個共同特徵。助聽器處理的一個重要特性是整體延遲低,這包括分析、濾波等步驟,如降噪以及合成。特別是對於具有開放耦合的助聽器,原始訊號的強分量到達耳鼓。因此,大於10毫秒的延遲通常是不可取的[1],因為它們會引入不必要的梳狀濾波器效應(不要與用於內諧波降噪的數字梳狀濾波器混淆)。這些延遲要求導致處理窗口非常短,約為6毫秒,頻寬為500 Hz。由於這種頻率解析度,它不可能減少諧波內雜訊,導致與純凈的語音相比,訊號聽起來更粗糙。為了能夠減弱語音諧波之間的雜訊,最近提出了一個梳狀濾波器[2, 3]。Valin等人[2]用一種基於自相關的方法估計pitch,與OPUS編解碼器[4]類似。然而,這些方法至少要用20毫秒的幀來分析pitch,因此對於我們的延遲限制來說是不可行的。

  其他基音估計演算法需要類似的甚至更高的look-ahead。RAPT[5]還使用歸一化互相關(NCC)特徵,結合最大搜索(maximum search)和動態規劃(dynamic programming)來選擇最佳$f_0$候選。動態規劃通過利用基音的平滑特性提高了魯棒性,因此被許多方法採用[5、6、7、8]。然而,只有在計算Viterbi反向演算法的至少幾個步驟時,才能利用其全部潛力,這將導致appox的額外延遲。100毫秒[5]。YIN及其概率繼承者PYIN[9,6]使用累積平均歸一化差函數(CMN DF)代替NCC,因為這有助於消除倍頻程誤差。通常,兩者都需要至少20到100ms的幀大小。PYIN需要對動態編程進行額外的look-ahead。CREPE[7]是一種基於時域卷積的深度學習方法,幀大小為64ms,略優於PYIN。Zhang等人[10]還提出了一種聯合基音估計和語音增強框架。然而,它們僅使用基音特徵作為去噪網路的輸入。

2  訊號模型

  設$x(k)$是在有雜訊的房間中記錄的混合訊號。

$$公式1:x(k)=s(k)\star h(k)+n(k)$$

式中$s(k)$為純凈語音訊號,$\star $表示卷積運算元,$h(k)$為從揚聲器到麥克風的房間脈衝響應(RIR), $n(k)$為加性雜訊。在訊號模型中加入混響語音$s^{rev}=s(k)\star h(k)$對於泛化現實世界的訊號具有重要意義。此外,混響語音的周期性成分通常略有下降。梳狀濾波器可以通過改善周期性部分來提高感知品質。

  我們的降噪方法完全適用於頻域。因此,我們使用標準的均勻多相濾波器組(uniform polyphase filter bank)產生以下訊號模型:

$$公式2:X_b(l)=S_b(l)*H_b(l)+N_b(l)$$

其中$b\in \{0…,B-1\}$為頻帶,$l$為幀索引。由於我們對助聽器的實時性要求,分析濾波器組(AFB)大約在6毫秒幀上運行,子取樣率為24。這導致B = 48個波段,頻寬為500 Hz。因此,典型的助聽器降噪演算法只能衰減整個頻譜包絡,而不能增強語音的周期性部分[11,12]。

  與[3]類似,我們的降噪演算法分兩步操作,如圖1所示。首先,通過估計的頻帶增益$G_b$對整個頻譜包絡進行建模,從而得到增強的頻譜圖$\hat{X}_b(l)=X_b(l)G_b(l)$。這還包括通過抑制後期反射來輕微的去混響。接下來,在頻域中應用梳狀濾波器,並在給出濁音概率估計的情況下進行加權,以改善$\hat{X}_b$中的周期分量。我們使用卷積循環神經網路來預測增益、音調和濁音概率估計

圖1:聯合基音估計和語音增強演算法概述

2.1  差分函數

  為了為網路的基音估計任務提供良好的特徵,我們計算了累積平均歸一化差分函數,如[9

$$公式3:d(\tau )=\sum_{j=\tau_{min}}^{\tau_{max}}(x_j-x_{j-\tau})^2$$

其中,$\tau_{max}$和$\tau_{min}$對應60 Hz和500 Hz的lags,lags標誌著我們的演算法搜索的最小和最大基音頻率。然後用累積平均值對差分函數進行歸一化

$$公式4:d'(\tau)=\frac{d(\tau)}{\frac{1}{\tau}\sum^\tau_{j=\tau_{min}}d(j)}$$

我們選擇了20 ms的幀大小,並在時間上對齊特徵,如圖3所示。雖然對於我們的應用程式來說,L = 5 ms的最大值是可以接受的,但是我們測試了幾個從0到20 ms的look-aheads。

圖3:用於DF特徵的卷積編碼器。音頻幀(頂部,以黃色表示)對齊,使其對應於時間位置$t_0$。

這一幀的 look-ahead 是$L=t_{look-ahead}-t_0$。進一步的卷積也會在時間上對齊,這樣它們就不會引入額外的延遲。

卷積權值(第二行)表示頻率軸和時間軸上的核大小以及輸入輸出通道。

2.2  頻譜歸一化

  歸一化通常是使深度神經網路(DNN)對不可見輸入數據具有魯棒性的重要組成部分。因此,我們將頻譜轉換為分貝刻度,並在僅確保零均值的情況下執行指數歸一化[13]。我們發現單位方差不能提供任何性能或泛化改進。

$$公式5:X_{b,norm}[l]=X_{b,dB}[l]-\hat{\mu}_b[l]$$

均值估計$\hat{\mu}$由

$$公式6:\hat{\mu}_{b}[l]=\alpha \hat{\mu}_{b}[l-1]+(1-\alpha) X_{b, \mathrm{~dB}}[l]$$

其中$\alpha$對應於3s的歸一化窗口。

3  梳狀濾波器

  梳狀濾波器通過在輸入訊號中加入延遲訊號,從而產生梳狀頻率響應。最近,梳狀濾波器已被證明可以減少間諧波雜訊來提高整體感知品質[2,3]。通常,梳狀濾波器在時域(TD)計算,定義為

$$公式7:y[k]=\frac{x[k]+x[k-T[k]]}{2}$$

其中$T[k]\in N^+=round(\frac{f_s}{f_0[k]})$是與時間步長$k$處的基音$f_0[k]$相對應的基音周期。在語音應用中,取樣頻率$f_s$足夠高,基音周期的取樣誤差就可忽略不計

  但是在TD中沒有採用梳狀濾波器,而是完全在頻率(濾波器組)域FD中操作。這有幾個優點。首先,它允許在助聽器中進行預處理,比如波束形成。在這種情況下,只有FD訊號可用,向TD的額外轉換將引入額外的延遲。此外,我們只有經過DNN處理後才有基音估計,其中濾波器組延遲已經被引入。最重要的是,我們可以將梳狀濾波器應用於已經增強的$\hat{X}_b$譜圖,而不是未處理的TD訊號。這有助於決定應該將梳狀濾波器應用到哪一個地方。

  因為分析窗口只是appox。FD中的梳狀濾波器長度為6ms,其應用方法與TD相同。

$$公式8:Y_{b}[l]=\frac{X_{b}[l]+X_{b}\left[l-T^{\prime}[l]\right] \cdot e^{-j \omega_{k} \tau}}{2}$$

其中$T'[l]=round(T^*[l])=round(sr/f_0[l]/R)$被子取樣因子$R$減小,為了補償濾波器組域中較低的取樣率,我們需要一個相位校正因子$e^{-jw_f\tau}$。它根據頻帶$b$的中心頻率和剩餘延遲( residual delay) $\tau=T^*[l]-T'[l]$來移動FB表示。

  由於梳式濾波器只能為語音的周期性成分提供好處,因此我們需要對幀l的周期性進行估計。因此,我們估計濁音概率,以便在隨機分量和周期性分量之間定義權重,其中梳狀濾波器應僅應用於周期性幀

$$公式9:\hat{X}_{b}^{\prime}=\hat{X}_{b} \cdot(1-v)+\operatorname{comb}\left(\hat{X}_{b}, T\right) \cdot v$$

$v$可以根據$G_b$估計的局部信噪比進行局部減小。這確保了梳狀濾波器不會衰減純凈的語音。

  我們還嘗試了更高階的梳狀濾波器,如[3]。然而,由於延遲需求,我們不能使用未來tap,由此產生的群延遲不再可行。

4  DNN模型

  我們使用了一個帶有兩個編碼器的卷積循環網路(CRN),以及單獨的輸出增益G、基音$f_0$和濁音概率$v$。整體結構如圖2所示。我們在頻譜和差分函數(DF)編碼器中都使用時間對齊卷積(time aligned convolutions),不引入圖3所示的任何延遲。與DF編碼器相比,譜圖編碼器不包含最後的卷積和maxpool層,以避免過早減少頻率資訊。

圖2:DNN概述。C表示concatenation操作和+表示加法。嵌入的GRU由3層組成,層下的數字表示輸出隱藏單元

4.1  損失函數

  我們採用三種不同損失函數的組合損失來進行多目標優化。

$$公式10:L=L_g+L_p+L_{ft}$$

給定 ground truth以及pitch和濁音概率,其中,$L_g$是增益的損失,$L_p$懲罰pitch$\hat{f}_0$,濁音$\hat{v}$估計誤差,而$L_{ft}$是基於濾波後的時域訊號的損失。我們用理想震幅掩模增益作為目標增益[14],採用[3]的增益損失。這種損失結合了傳統的L2和L4術語,以懲罰過度衰減和退化的語音。

$$公式11:\mathcal{L}_{g}=\sum_{b}\left(g_{b}^{\lambda}-\hat{g}_{b}^{\lambda}\right)^{2}+C_{4} \sum_{b}\left(g_{b}^{\lambda}-\hat{g}_{b}^{\lambda}\right)^{4}$$

其中$\lambda=0.5$是一個常數來匹配感知響度,$C_4$ = 10是一個平衡因子。

  pitch損失包括pitch上的加權$L_1$損失和語音概率上的$L_2$損失。我們發現,由於預測或ground truth異常值,基音上的L1損失比L2損失更穩健。

$$公式12:\mathcal{L}_{p}=C_{p}\left|c\left(f_{0}\right)-\dot{c}\left(\hat{f}_{0}\right)\right| \cdot v+(v-\hat{v})^{2}$$

其中$C_p$是平衡因子,$\dot{c}(f)=1200log_2(\frac{f}{f_{ref}})$是用cent測量的音調,$f_{ref} = 10Hz$。pitch項以$C_p = 10^{-3}$和target voiced 概率$v$加權,強調目標確定的幀,忽略unvoiced幀。

  此外,我們利用時域損失來間接改善這兩個任務。這樣做的動機如下。梳狀濾波器只能提高周期性語音部分的感知品質,不能應用於其他幀。另一方面,梳狀濾波器引入了$T /2$的群延遲,使得原始純凈語音不能作為目標。這將迫使voiced概率估計$\hat{v}$為0,梳狀濾波器將根本不適用。因此,我們在給定目標pitch和語音估計(如Eq. 9)的情況下過濾原始純凈的頻譜,然後按照[15]的建議計算TD中的L1損失。通過合成濾波器組將目標估計和語音估計都轉化為時域估計。濾波後的時域損失

$$公式13:L_{ft}=|x’-\hat{x}’|$$

  結果產生兩種效果。首先,錯誤的基音估計將導致與梳狀濾波器不同的頻率響應,從而導致語音退化,其中有效誤差隨頻率線性增加。在這種情況下,網路可以通過估計更好的基音來改善,或者,如果不可能的話,通過降低$v$至少不降低語音品質。另一個影響是$v$的頻率相關懲罰。對於低基頻,梳狀濾波器的影響減小。諧波更接近,從而產生更好的頻率局部SNR。因此,該網路的基音估計越低,梳狀濾波器的作用就越小。

4.2  訓練數據

  我們在大量的語音和雜訊數據上訓練我們的模型,以確保良好的泛化。語音數據集採用EUROM[17]、VCTK[18]和LJ語音[19]。雜訊來自DEMAND[20]、RNNoise數據集[2]以及MUSAN語料庫[21]。後者也包括音樂,我們認為是噪音類型。包括諧波雜訊類型,如發動機雜訊和音樂在訓練中使基音估計更魯棒的現實世界的訊號。此外,我們從Aachen  RIR數據集[22]或通過使用[23]的影像源模型隨機模擬的RIR中增加30%的語音樣本的房間脈衝響應(RIR)。所有這些數據集以70/15/15分割為訓練集、驗證集和測試集。我們將所有語音錄音隨機混合,最多4個雜訊,信噪比為[-5,0,10,20,100]。

  基於純凈的語音,用PYIN[6]估計訓練的ground truth pitch。雖然這種pitch估計並不完美,但它為我們的應用提供了足夠精確的目標pitch。有趣的是,與來自純凈語音的目標音調相比,DNN最終在雜訊訓練數據(例如倍頻程誤差)或混響條件下更加穩健。

  我們使用音調跟蹤資料庫PTDB-TUG[24]來評估我們的方法,該資料庫包含了超過4600個來自看不見的說話人的樣本。PTDB提供的基礎真實pitch是通過應用於喉鏡記錄的RAPT[5]得到的,喉鏡記錄只捕捉到周期性的語音部分。我們使用測試集中相同信噪比水平的雜訊。RIR增強被禁用以保持幀對齊。

5  實驗和結果

  我們的模型訓練了20個epoch,batch size為32,使用權重衰減為1e-4的AdamW[25]優化器的學習率為5e-4。圖4為PTDB測試集上的 pitch difference。我們將我們的性能與YIN [9], PYIN[6]和CREPE[7]進行比較,它們都使用更大的幀大小和look-aheads。由於語音增強多目標訓練和廣泛的雜訊增強,LACOPE在所有信噪比條件下都具有魯棒性。雖然中值差異比CREPE略差,但從IQR和均值可以看出,異常值的總體數量和強度較低。

圖4:不同信噪比條件下PTDB數據的Pitch difference。括弧中的L表示Look-ahead,用于衡量異常值的數量和強度。

注意,官方的PYIN Vamp插件實現在低信噪比的情況下表現明顯更差。相反,我們將與librosa實現[16]的更好結果進行比較。

  從圖6可以看出,我們的模型對語音的適應性很好,即使在相同頻率範圍記憶體在諧波雜訊的疊加。請注意,我們的網路傾向於將濁音 period後的幀分類為濁音。然而,這通常不是一個問題,因為如果增益接近於0,梳狀濾波器就沒有效果。CREPE和PYIN經常適應雜訊並將大多數幀歸類為濁音,而PYIN的音調估計通常是octave誤差。

圖5:所有信噪比下的pitch平均精度我們比較了不同幀大小的PYIN, CREPE以及延遲10毫秒的CREPE,因為幀大小是固定的。

對於PYIN和CREPE,e look-ahead相當於幀大小的一半,幀移不考慮。

  圖5顯示了以pitch difference低於50 cents的幀的百分比測量的pitch精度。在這裡,look-ahead和pitch準確性之間的權衡變得清晰起來。與相關工作相比,我們可以在較低的預期下取得相當或更好的性能。

圖6:來自含諧波雜訊測試集的樣本。上面:雜訊譜圖,中間:增強譜圖,下面:音調估計

由於其他的演算法對各種周期結構都很敏感,所以它們往往只適應雜訊而不適應語音

  我們不報告語音評估的召回率和精確度等指標。雖然我們的模型是通過PYIN對目標發聲概率估計進行訓練的,但我們認為我們的模型學習了略微不同的表示。最後一項損失的結果並不是語音概率的估計,而是對梳狀濾波器應用到何種程度的估計。因此,輸出是相似的,但不完全相同。

6  結論

  在本文中,我們提出了LACOPE,一種在低延遲要求下進行基音估計和語音增強的聯合方法。我們表明,與CREPE相比,我們獲得了相當的性能,並且比PYIN更好,特別是在有雜訊的條件下。而我們的模型與約。2.4 M參數和每10 ms段57 MFLOPs對於在嵌入式設備上運行來說仍然太大了,我們的計算需求包括語音增強比CREPE低很多。在這裡,我們測量到了每10 ms段28.2 BFLOPs,由於大量的卷積層,這大約增加了$2*10^6$次操作。

  為了進一步降低計算需求,我們計劃集成來自[13]的方法,如分層rnn和Bark縮放輸入譜圖和輸出增益。此外,修剪和量化等技術將用於額外的複雜性降低[26]。

7  參考文獻

[1] J. Agnew and J. M. Thornton, Just noticeable and objectionable group delays in digital hearing aids, Journal of the American Academy of Audiology, vol. 11, no. 6, pp. 330 336, 2000.

[2] J.-M. Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.

[3] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A Perceptually-Motivated Approach for LowComplexity, Real-Time Enhancement of Fullband Speech, in INTERSPEECH 2020, 2020.

[4] J.-M. Valin, G. Maxwell, T. B. Terriberry, and K. Vos, Highquality, low-delay music coding in the opus codec, arXiv preprint arXiv:1602.04845, 2016.

[5] D. Talkin and W. B. Kleijn, A robust algorithm for pitch tracking (RAPT), Speech coding and synthesis, vol. 495, p. 518, 1995.

[6] M. Mauch and S. Dixon, pYIN: A fundamental frequency estimator using probabilistic threshold distributions, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014, pp. 659 663.

[7] J. W. Kim, J. Salamon, P. Li, and J. P. Bello, CREPE: A Convolutional Representation for Pitch Estimation, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 161 165.

[8] K. Han and D. Wang, Neural network based pitch tracking in very noisy speech, IEEE/ACM transactions on audio, speech, and language processing, vol. 22, no. 12, pp. 2158 2168, 2014.

[9] A. De Cheveign e and H. Kawahara, YIN, a fundamental frequency estimator for speech and music, The Journal of the Acoustical Society of America, vol. 111, no. 4, pp. 1917 1930, 2002.

[10] X. Zhang, H. Zhang, S. Nie, G. Gao, and W. Liu, A Pairwise Algorithm Using the Deep StackingNetwork for Speech Separation and Pitch Estimation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 6, pp. 1066 1078, 2016.

[11] E. H ansler and G. Schmidt, Acoustic echo and noise control: a practical approach. John Wiley & Sons, 2005, vol. 40.

[12] M. Aubreville, K. Ehrensperger, A. Maier, T. Rosenkranz, B. Graf, and H. Puder, Deep denoising for hearing aid applications, in 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE, 2018, pp. 361 365.

[13] H. Schr oter, T. Rosenkranz, A. N. Escalante-B. , P. Zobel, and A. Maier, Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks, in INTERSPEECH 2020, 2020. [Online]. Available: //arxiv. org/abs/2006.13067

[14] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 708 712.

[15] U. Isik, R. Giri, N. Phansalkar, J.-M. Valin, K. Helwani, and A. Krishnaswamy, PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings, Semi-Supervised Conversational Data, and Biased Loss, in INTERSPEECH 2020, 2020.

[16] B. McFee, V. Lostanlen, A. Metsai, M. McVicar, S. Balke, C. Thom e, C. Raffel, F. Zalkow, A. Malek, Dana, K. Lee, O. Nieto, J. Mason, D. Ellis, E. Battenberg, S. Seyfarth, R. Yamamoto, K. Choi, viktorandreevichmorozov, J. Moore, R. Bittner, S. Hidaka, Z. Wei, nullmightybofo, D. Here n u, F.-R. St oter, P. Friesch, A. Weiss, M. Vollrath, and T. Kim, librosa/librosa: 0.8.0, Jul. 2020. [Online]. Available: https: //doi.org/10.5281/zenodo.3955228