火狐体育

科研進展

基于頻域卷積傳遞函數的盲源分離研究獲得進展

來源:聲學研究所發布時間:2022-03-18

  盲源分離是指僅利用傳聲器接收到的信號把各個源信號恢復出來。音頻信號的盲源分離最初是為解決“雞尾酒會問題”發展起來,它在人機語音交互、自動會議紀要、人聲和配樂分離等方面有潛在的重要應用價值。

  目前,流行的音頻盲源分離算法例如頻域ICAindependent component analysis)、頻域IVAindependent vector analysis)和ILRMAindependent low-rank matrix analysis)等都是依賴于秩1的空間模型。該模型基于窄帶假設,也就是短時傅里葉變換的窗長遠大于混響時間。當混響時間變長時,上述這類盲源分離算法的性能嚴重下降。為了解決該問題,FCAfull-rank covariance matrix analysis)、MNMFmultichannel nonnegative matrix factorization)和Fast MNMF等算法將空間模型強制約束為一個滿秩的矩陣,并在強混響環境下取得了性能的提升。但是,滿秩空間模型只是數學上的一個假設,缺乏明確的物理意義和嚴格的數學推導。

  近期,中科院聲學所噪聲與音頻聲學實驗室的博士生王泰輝和導師楊飛然研究員、楊軍研究員提出了一種基于頻域卷積傳遞函數的盲源分離框架。不同于以往廣泛采用的窄帶假設,他們利用頻域卷積傳遞函數模型來建模時域的線性卷積,建立了一種全新的音頻盲源分離框架。研究人員證明上述滿秩空間模型可以利用所提新框架和聲源信號慢變化這一近似條件推導出來,解釋了滿秩模型在強混響場景性能較好的原因。基于所提框架,研究人員還提出了一種新的多通道非負矩陣分解算法。實驗證實這種超定盲源分離算法在強混響場景下比當前的盲源分離算法(ILRMAFastMNMF)具有更好的分離性能和語音質量。

  該項研究為解決強混響條件下的音頻盲源分離提供了一個新思路。

  

  圖1 兩聲源分離實驗中在混響時間Rt60=470毫秒時不同算法的SDR提升。短時傅里葉變換窗長為(a) 64毫秒,(b) 128毫秒,(c) 256毫秒。(圖/中科院聲學所)

  

  圖2 兩聲源分離實驗中在混響時間Rt60=1300毫秒時不同算法的SDR提升。短時傅里葉變換窗長為(a) 64毫秒,(b) 128毫秒,(c) 256毫秒。(圖/中科院聲學所))

  本研究獲得了國家自然科學基金面上項目、中國科學院青年創新促進會和中國科學院聲學研究所自主部署“前沿探索”類項目資助。

  相關研究成果于20221月在線發表于國際期刊

  關鍵詞:

  盲源分離;卷積傳遞函數;非負矩陣分解;空間模型

  參考文獻:

  T. Wang, F. Yang, and J. Yang, “Convolutive transfer function-based multichannel nonnegative matrix factorization for overdetermined blind source separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 802–815, Jan. 2022. DOI:.

  論文鏈接:

  


附件下載:

火狐体育