亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  深度學習重塑助聽器:助聽器佩戴者終于能在嘈雜的房間中辨別聲音了

深度學習重塑助聽器:助聽器佩戴者終于能在嘈雜的房間中辨別聲音了

時間:2024-01-28

━━━ ━━━ 

我離家讀大學時,我母親的聽力開始下降。每當我回家與她分享我在大學學到的知識時,她都要靠過來才聽得清。情況很快變得更糟,如果幾個人同時說話,她就無法聽清了?,F在,即便她佩戴了助聽器,也很難區分每個人的聲音。我們共進晚餐時,仍然要輪流說話她才能聽清楚。

我母親的聽力難題是助聽器制造商面臨的一個經典問題。人類的聽覺系統能夠本能、自然地在喧擾的房間中區分不同的聲音,但是如何制造出具有這種能力的助聽器,已成為數十年來困擾信號處理專家、人工智能專家和聽力學家的難題。英國認知科學家科林?奇瑞(ColinCherry)在1953年首次將這種情況稱為“雞尾酒會問題”。

60多年后,在所有需要助聽器的人之中,真正使用助聽器的人不到25%。潛在用戶感覺最失望的是,助聽器無法分辨不同聲音。舉例來說,當說話聲和一輛汽車經過的聲音同時出現時,助聽器只是將它們的音量調大,生成亂七八糟的喧鬧聲。

現在是我們解決這個問題的時候了。為了給助聽器佩戴者提供更好的體驗,我近期在俄亥俄州立大學哥倫布分校的實驗室里做了一項實驗,將基于深度神經網絡的機器學習技術用于分離聲音。我們對各個版本的數字過濾器進行測試,這些數字過濾器不僅可以放大聲音,還可以從背景噪聲中分離出語音并自動調整每個聲音的音量。 

我們相信,這種方法最終能夠使聽力受損者的理解力恢復到甚至超越正常水平。事實上,我們早期的模型之一就已提高了一些受試者在噪聲干擾下理解口語詞匯的能力,提高程度從10%到90%不等。由于聽者無須聽清短語中的每一個單詞即可掌握短語的意思,所以這里的改進通常是指對一句話的理解。

沒有更好的助聽器,全世界人民的聽力水平會變得越來越糟。據世界衛生組織估計,全球15%的成年人——大約7.66億人——都存在聽力受損的現象。隨著人口增長、老齡化比例不斷擴大,這一數字還在增加。此外,高級助聽器的潛在市場不只局限于聽力受損人群。開發人員可以利用該技術完善智能手機的語音識別功能;雇主可以用它來幫助嘈雜工廠車間內的工人;軍隊可以借此幫助士兵們在混亂喧囂的戰火中聽見彼此的聲音。

要滿足以上新應用的需求,意味著要找到解決“雞尾酒會問題”的出路。最終,深度神經網絡為我們指明了前進的道路。

 ━━━ ━━━ 

幾十年來,電氣和計算機工程師屢次嘗試通過信號處理的方法來實現語音分離,但都以失敗告終。最流行的方法是使用語音活動檢測器來識別人們說話時話語間的間隙。在該方法中,系統將那些在間隙內捕獲的聲音認定為“噪聲”。然后計算程序會從原始記錄中去除噪聲,在理想情況下,剩下的就是無噪聲的語音。

不幸的是,這種被稱為譜減法的技術屢遭詬病,因為它不是刪除太多語音,就是保留太多噪聲。它頻繁地出現令人不快的處理結果(被稱為音樂噪聲),使得音頻聲音像是在水下錄制的。由于問題太嚴重,即便經過多年的發展,這種方法還是對于提高人們在嘈雜環境中識別語音的能力束手無策。

我意識到必須采取不同的方法來解決這個問題。我們從艾伯特?布雷格曼(AlbertBregman)的理論入手。布雷格曼是位于蒙特利爾的麥吉爾大學的心理學家,他在1990年提出,人類聽覺系統將聲音組織成不同的聲音流。每個聲音流基本上對應一個從單一源(例如附近的朋友)發出的聲音。每個聲音流的音調、音量和方向都是獨特的。

眾多聲音流(例如上述朋友在喧鬧的曲棍球比賽中說話的聲音)組成了布雷格曼所稱的“聽覺場景”。如果多種聲音在同一時間處于同一頻帶,那么場景中最響亮的聲音會壓倒其他聲音,這一實用原理被稱為聽覺掩蔽。例如,當暴雨敲打著屋頂時,人們可能不會注意房間角落處時鐘發出的滴答聲。這個原理被用于壓縮MP3文件,通過消除被掩蔽的聲音(例如上文提到的時鐘滴答聲),將文件縮小到原始大小的1/10,而用戶不會察覺。

回顧布雷格曼的工作,我們設想到是否可以構建一個過濾器,來確定一個聲音流在某一時刻是否會壓倒特定頻帶內的其他聲音流。研究聲音感知的心理聲學家將人類的平均聽力范圍劃分為20到2萬赫茲之間的大約24個頻帶。作為分離語音和噪聲的第一步,我們希望過濾器告訴我們,在某些時刻,這些頻帶內包含語音的聲音流是否會強于噪聲的聲音流。

2001年,我的實驗室最先設計出這樣的過濾器,可以標記出聲音流是由語音還是噪聲主導。利用這個過濾器,我們可根據一些區別特征,例如振幅(響度)、諧波結構(音調的特定排列)和開始時間(相對于其他聲音,特定聲音開始發出的相對時間),開發一套機器學習程序,進而將語音與其他聲音分離。

這個原始的過濾器就是我們所說的理想二元掩碼。它對每個音段中發現的噪聲和語音進行標記,這些音段被稱為時頻單元,指在特定頻帶內的某個短暫時間間隔。過濾器分析嘈雜語音樣本中的每個時頻單元,并將每個單元標記為1或0。如果“目標”聲音(此處指語音)比噪聲強,則記錄為1;如果目標聲音弱,則記錄為0。這樣,就得到了0和1的集合,分別表示樣本內噪聲和語音的強度。然后,過濾器去除所有標記為0的單元,并利用被標記為1的單元重建語音。為了從有噪聲的語音中重建可被人們理解的句子,必須要有一定比例的時頻單元被標記為1。

我們從2006年開始,在俄亥俄州的美國空軍研究實驗室測試理想二元掩碼。大約同一時間,來自紐約雪城大學的一個團隊獨立評估了理想二元掩碼。在這些實驗中,過濾器不僅可幫助聽力受損的人,還可以幫助聽力正常的人更好地理解受噪聲干擾的語句。

我們已基本制造出了一個在實驗室內表現完美的語音過濾器。但是這個過濾器的優勢條件并不切實際。根據設計,我們分別向過濾器提供了語音和噪聲樣本,然后再利用其對混合的樣本聲音進行測試。因為過濾器之前被提供了答案(這就是為什么它被稱為“理想”的),過濾器知道什么時候語音比背景噪聲更響亮。而在現實中,語音過濾器必須完全獨立、實時地將房間中的語音和噪聲分離。

盡管如此,理想二元掩碼顯著改善了聽力受損人群和聽力正常人群對語音的理解這一事實還是具有深刻的意義。它表明分類技術(一種監督學習)可以作為一種分離語音和噪聲的方法,以貼近理想二元掩碼。分類后,機器可以通過練習、接收反饋、吸取和總結經驗等來模仿人類的學習。這與人們在小時候學習如何分辨蘋果和橙子的方式是基本相同的。

在此后的幾年中,我的實驗室首次嘗試通過分類的方法來進一步貼近理想二元掩碼。大約在我們開發分類器的同時,匹茲堡卡內基梅隆大學的一個團隊基于機器學習發明了自己的方法,將時頻單元分類用于另一個目的:提高自動語音識別能力。后來,達拉斯得克薩斯大學的一個小組在菲利普斯?洛伊索(PhiliposLoizou,已故)的帶領下采用了不同的分類方法。這種方法第一次取得了意義重大的進展,使聽力正常者依賴單耳特征(與通過雙耳捕獲聲音的雙耳特征相對)理解語音的能力得到提高。

但是,這些早期機器學習方法所使用的分類技術,其效果和準確性尚不足以為助聽器佩戴者提供幫助。它們不能處理世界上混合在一起、復雜且不可預見的噪聲和語音。為此,我們需要更強大的支撐。

 ━━━ ━━━ 

在證明了我們早期分類算法的初步結果后,我們決定進行下一個邏輯步驟:完善系統,使其可以在真實世界的嘈雜環境中發揮作用,而不再針對特定的噪聲和句子進行訓練。這一挑戰促使我們嘗試一些以前從未做過的事:構建在神經網絡上運行的機器學習程序,通過復雜的訓練過程將語音和噪聲分離。該程序將使用理想二元掩碼來指導神經網絡的訓練。這樣做是有效的。在一項包含24名測試對象的研究中,我們證明了該程序可以將聽力受損人群的理解力提高大約50%。

簡單來說,神經網絡是由相對簡單的元素構成的軟件系統,這些元素可以通過協作完成復雜的處理。(我們系統的結構大致模仿了神經元及其網絡在大腦中的工作流程。)當出現新示例時,神經網絡像人腦一樣,可以通過調整其連接的權重進行“學習”。

神經網絡的形狀和尺寸多種多樣,復雜程度各不相同。深度神經網絡具有至少兩個“隱藏”處理層,這些隱藏層不直接與系統的輸入或輸出相連。每個隱藏層會先改善前幾層饋送給它的結果,然后基于先驗知識添加新的考慮。

例如,驗證客戶簽名的程序可能會先比較新簽名與訓練數據庫中的樣本。但是,程序也會通過訓練知道,新簽名與原始簽名的匹配度不需要達到100%。其他處理層可以判斷出新簽名是否具備原始簽名的某些特定特點,例如簽名傾斜的角度,或是有沒有標上字母i上的點。

為了建立我們自己的深度神經網絡,我們開始編寫算法,基于每個聲音振幅、頻率和調制的共同變化提取可以區分語音和噪聲的特性。我們確定了85個屬性并全部采用,它們可以在一定程度上幫助我們的程序區分語音和噪聲,使計算程序盡可能強大。在所有屬性中,最重要的是聲音的頻率及其強度(高聲或輕柔)。

接下來,我們訓練深度神經網絡使用這85個屬性來辨別語音和噪聲。訓練分兩個階段:首先,我們通過無監督學習來設置程序的參數。這意味著我們把很多屬性示例加載到程序中,為隨后實時分類信號類型做準備。

然后我們利用嘈雜的語音樣本及其經理想二元掩碼處理后的相應結果,來完成第二階段的訓練,這一階段是有監督的學習。特別是,構成理想二元掩碼的1和0的集合就像一張答題紙,我們用它來測試和提高程序分離語音和噪聲的能力。對于每個新樣本,程序會先從帶噪語音中提取一組屬性。對屬性(包括頻率、強度等)進行分析之后,過濾器執行臨時分類(是語音還是噪聲),然后將結果與理想二元掩碼在相同情況下確定的結果進行比較。如果結果與理想二元掩碼過濾器中的1和0不同,則相應地調整神經網絡的參數,以便網絡在下一次嘗試時得到與理想二元掩碼中1和0更接近的結果。

為了進行調整,我們首先計算了神經網絡的誤差,測量理想二元掩碼和神經網絡輸出層結果之間的差異。一旦計算出這個誤差,我們接下來就可以用它改變神經網絡連接的權重,從而在下一次進行同樣的分類時減小差異。神經網絡需要進行數千次這樣的訓練。

這個過程中的一項重要精化步驟是構建第二個深度神經網絡。第二個神經網絡接受第一個網絡的饋送并微調其結果。第一個網絡側重于在每個單獨的時頻單元內標記屬性,而第二個網絡則檢查特定單元附近幾個單元的屬性。換言之,第二個網絡向第一個網絡提供其正在處理的語音和噪聲的語義背景,進一步提高分類的準確性。舉例來說,一個音節可能跨越多個時頻單元,但背景噪聲可能在說話時突然改變。在這種情況下,相關的背景線索可以幫助程序更準確地分離語音和音節內的噪聲。

在監督訓練結束時,深度神經網絡分類器被證明遠遠優于原先那些分離語音與噪聲的方法。事實上,這是所有依賴單耳技術的算法中,第一個能在被噪聲淹沒的情況下大大改善聽力受損者理解口語短語能力的算法。

為測試在人類身上的效果,我們讓12位聽力受損者和12位聽力正常的人通過耳機收聽帶噪句子的樣本。樣本是成對的:首先語音和噪聲同時出現,然后播放經深度神經網絡程序處理過的同一樣本。這些包含短語的句子(如“這兒變冷了”和“他們吃了檸檬派”)混雜著兩種類型的噪聲,一種是穩定的嗡嗡聲,另一種是許多人同時說話的嘈雜聲。穩定的噪聲類似冰箱運轉的聲音,其音頻波是重復的,而且頻譜的形狀不會隨時間變化。嘈雜背景聲中加入了4男4女的說話聲,以制造吵鬧的雞尾酒會效果。

實驗證明,在句子經過我們的程序處理后,兩組人對句子的理解程度都有很大提高。未經程序處理前,聽力障礙患者只能在嘈雜的說話聲中辨別出29%的詞匯,但經程序加工后,他們可以聽清84%的詞匯。有些受試者收聽原始樣本時只能理解10%的詞匯,而樣本經加工后,這一比例提高到約90%。聽力受損受試者在穩定噪聲下也有類似的提高,他們的詞匯理解比例從36%提升到82%。

即使聽力正常的人也能更好地理解帶噪句子,說明未來受益于該程序的人群可能會遠遠超過我們最初的預期。未經程序處理的情況下,聽力正常的受試者能夠理解穩定噪聲下大約37%的口語詞匯,經過處理后可提高到80%。在嘈雜的說話情境下,他們所理解的詞匯比例從42%提高到78%。

實驗最有趣的一個結果是,如果有人問:“在我們設計的程序的幫助下,聽力障礙患者的聽力能夠比聽力正常的人還好嗎?”不可思議,答案是肯定的。與那些聽力正常、依靠自身聽覺系統分離語音和噪聲的正常人相比,使用了該程序的聽力障礙患者在嘈雜的說話聲中所理解的詞匯量高出近20%,在穩定噪聲中則約高出約15%。這些結果使我們應用深度神經網絡構建的程序成為目前解決雞尾酒會問題的最好方法。

當然,程序的能力是有限制的。舉例來說,在我們的樣本中,遮蔽語音的噪聲類型與程序進行分類訓練時使用的噪聲類型非常相似。為了在現實生活中發揮作用,該程序將需要快速學習如何過濾掉種類眾多的噪聲,包括程序未曾遇到的不同類型的噪聲。例如,通風系統的嘶嘶聲與冰箱壓縮機的嗡嗡聲就是不同的。此外,我們使用的噪聲樣本沒有涉及房間中物體和墻壁的回聲,而它們也是構成雞尾酒會噪聲問題的因素之一。

在公布了這些早期的結果之后,我們購買了一個聲音效果數據庫(原本用于為電影制作人設計聲效),并使用其中的1萬個噪聲進一步訓練該程序。2016年,我們發現再次接受訓練的程序可以應對全新的噪聲,能夠切實改善聽力障礙患者和聽力正常者的理解力?,F在,在美國國家聽力及其他交流障礙研究所的資助下,我們正在推動該程序在更多的環境中運行,并讓更多的聽力受損者參與測試。

最后,我們相信,該程序可以在強大的計算機上接受訓練,并直接嵌入到助聽器中,或通過無線鏈路(如藍牙)與智能手機配對,將實時處理的信號饋送到耳機。制造商定期用新噪聲重新訓練系統并發布新版本后,助聽器佩戴者可以隨之更新設備。我們已經為該技術申請了多項專利,并正在與合作伙伴(包括美國領先的助聽器制造商、位于明尼蘇達州伊登普雷利的斯達克聽力技術公司)一起實現其商業化。

有了這個方法,雞尾酒會問題就不會再像幾年前那樣令人望而生畏。我們和其他研究人員現在可以創建軟件,預計能夠通過更多噪聲場景的訓練攻克這個難題。事實上,我猜想這個過程與兒童早期學習分離語音和噪聲的方式類似,即反復暴露在大量的語音和噪聲環境中。有了更多的經驗,這種方法一定會變得更好。這正是它的奇妙之處。它正值青年,我們還有時間。

作者:汪德亮

往期推薦

“石墨烯智能人工喉”助聾啞人“開口說話”

貝葉斯深度學習正在覺醒

專題 | 神經形態芯片的成敗時刻,

深度學習能成為這項技術的殺手級應用嗎

主站蜘蛛池模板: 饶河县| 平昌县| 白沙| 平罗县| 马龙县| 赫章县| 平乐县| 永济市| 白银市| 石林| 巴彦县| 南漳县| 会宁县| 疏勒县| 双柏县| 黄平县| 开平市| 安乡县| 讷河市| 宁城县| 蓬安县| 宝应县| 昌都县| 林西县| 蕉岭县| 漳州市| 阳江市| 利津县| 仁布县| 兴宁市| 南江县| 永春县| 东莞市| 徐州市| 济源市| 深州市| 延庆县| 洛扎县| 泰州市| 罗山县| 通化市|