Facebook研究為空間音頻進行更好的信號增強

2021年11月04日 11:48:18 來源：映維網(wǎng)

　　近年來，使用空間處理算法從干擾揚聲器、混響和/或環(huán)境噪聲所造成的噪點環(huán)境中提取清晰語音的能力一直備受追捧。從僅提取感興趣信號中獲益的常見用例包括自動語音識別、助聽器信號增強、在線語音聊天、視頻會議及其他眾多應(yīng)用，例如在嘈雜的餐廳中實時增強語音。

　　業(yè)內(nèi)認為，跨數(shù)據(jù)方法是降低信號噪點的穩(wěn)健解決方案。例如，在空間信號增強領(lǐng)域，人們已經(jīng)廣泛研究了波束形成器的算法(如延遲和求和算法)和超定向算法(如最大方向性和差分麥克風(fēng)陣列)。

　　其他更為優(yōu)化的方法需要源和非期望噪點的統(tǒng)計知識。最小方差無失真響應(yīng)(MVDR)和線性約束最小方差(LCMV)等方法提供了分離兩種類型信號的最佳濾波器系數(shù)，同時不會使所需信號失真。LCMV公式允許對多個傳遞函數(shù)(如果可用)進行線性約束。僅依賴于期望或非期望的推斷以及兩者的混合信息的替代公式稱為最小功率無失真響應(yīng)(MPDR)和線性約束最小功率(LCMP)方法。

　　盡管上述方法能夠在已知信號參數(shù)的情況下提供最佳解決方案，但僅從信號估計參數(shù)依然具有挑戰(zhàn)性。業(yè)內(nèi)存在幾種空間濾波器參數(shù)估計方法，但它們通常假設(shè)語音源信號，并通�？紤]是否已經(jīng)發(fā)生語音的時間活動和概率。它們通常分類為語音活動檢測器或流行的單通道語音存在概率(SPP)。

　　SPP同時有用于多通道陣列研究，以利用空間域確定不同空間位置的語音概率。所述方法基于這樣一個假設(shè)：語音要么是感興趣的目標信號，要么兩者兼而有之。這種假設(shè)限制了語音方法的能力，特別是當干擾源可能是音樂、交通工具、動物或在時間或頻譜上與語音不相似的其他來源時。

　　其他技術(shù)使用長時間歷史記錄和統(tǒng)計數(shù)據(jù)來分離數(shù)據(jù)源，這可能導(dǎo)致實時應(yīng)用程序中的長延遲。鑒于僅依賴語音信號的局限性，已改名為Meta的Facebook在名為《Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation》的論文中提出了一種空間信號增強方法。

　　所述方法獨立于期望和非期望源信號的頻譜和時間統(tǒng)計，僅利用空間域處理技術(shù)進行自適應(yīng)參數(shù)估計。當存在非語音的空間噪聲源時，算法對源信號類型的獨立性尤為重要。團隊假設(shè)每個源向接收樣本貢獻一部分信號，并且相對貢獻與樣本在估計空間源參數(shù)中的有用性相關(guān)。在所述假設(shè)下，研究人員從初始到達方向(DOA)估計開始，并跟蹤以確定源的位置。所述位置用于播種LCMV過程，然后用于確定每個源對當前接收信號的相對源貢獻估計(SCE)。SCE值用作自適應(yīng)學(xué)習(xí)噪聲混響環(huán)境中聲源統(tǒng)計參數(shù)的權(quán)重，而所述統(tǒng)計參數(shù)同時用于計算最終一組MVDR濾波器的參數(shù)。最終濾波器用于執(zhí)行空間信號增強，從而增強選定的期望聲源。用于最終MVDR的參數(shù)反饋到第一個LCMV中，因此能夠隨著時間的推移自適應(yīng)地細化。

　　在實驗，團隊模擬了在不同混響時間內(nèi)記錄語音。房間尺寸為6 m×7 m×3 m，使用Eyring公式調(diào)整墻壁吸收系數(shù)，使混響時間在0.15 s到0.9 s之間變化�？偣灿�6個不同的RT60值。所述信號是用343ms −1的聲速來模擬，采樣頻率16 kHz。帶有6個等間距話筒的圓形話筒陣列的中心位置為(2,3.5,1.5)。在30 dB SPL的水平上，將高斯白噪聲傳感器噪聲添加到所有接收信號中。三個語音源N=3隨機放置在麥克風(fēng)陣列周圍，距離為1米到2米，角度間隔大于20度，方位角和仰角在±10度以內(nèi) 。然后，團隊從20組隨機位置分析性能，處理接收到的信號。

　　當有清晰的語音片段時，空間自適應(yīng)返回與真實活動密切相關(guān)的SCE。算法在混合源信號段中保持穩(wěn)定性能。特定場景為算法確定正確的參數(shù)提供了明確的機會，從而使其能夠?qū)崿F(xiàn)與理想MVDR的緊密匹配。在更困難的場景中，只有一個源處于活動狀態(tài)，從而限制了算法學(xué)習(xí)正確參數(shù)的能力。所述算法在陣列增益增加的情況下自適應(yīng)地提高了性能。陣列增益的增加速度如圖2所示，當L=8時，在不到2秒的時間內(nèi)與性能匹配。值得注意的是，在圖3中，無論L如何，30s后的值收斂于類似性能。陣列增益都在大約1s內(nèi)超過“Max Directivity”波束形成器。

　　圖4分析了陣列增益性能。對20組隨機位置使用并重復(fù)與圖2中的方法類似的方法。自適應(yīng)在12秒后暫停，以確保分析反映了最大性能。所述方法的陣列增益略低于Oracle性能，但明顯高于“Max Directivity”情況。所述方法的峰值性能平均達到17 dB，比“Oracle”方法的18 dB低1 dB。對于寬帶語音范圍，所述方法的平均性能仍比“Oracle”方法低1 dB至2 dB，且始終比“Max Directivity”方法的陣列增益高4 dB至9 dB。另外，作為RT60函數(shù)的性能顯示了陣列增益和混響的反向相關(guān)性。對于所有混響級別，所述方法的最大性能與“Oracle”MVDR相似，因為它暴露于部分時間分離的源信號中。這一方法比等效的“Max Directivity”波束形成器(900毫秒的RT60)的陣列增益高7 dB以上。

　　總的來說，團隊在這項研究中提出了一種方法來自動估計統(tǒng)計參數(shù)的空間濾波過程。所述方法估計環(huán)境中被跟蹤源的空間能量貢獻，并使用所述貢獻乖離環(huán)境的統(tǒng)計表示。然后，研究人員從自適應(yīng)行為、自適應(yīng)速度和陣列增益收斂性能等方面對所述方法進行了分析。

　　相關(guān)論文：Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation

　　結(jié)果表明，所述方法能夠正確地適應(yīng)給定的一般初始化條件和噪點環(huán)境。自適應(yīng)可以匹配理想空間濾波器的性能，并且當使用較小的緩沖區(qū)大小時，可以在不到兩秒鐘的時間內(nèi)產(chǎn)生優(yōu)于最大方向性波束形成器的陣列增益。由此產(chǎn)生的空間濾波器具有無失真約束，并且所述方法不限于語音源。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔。

[No. ]
分享到微信