亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  AI本質也是復讀機?阿里和浙大聯合推出讀唇模型,中英雙語實時復述

AI本質也是復讀機?阿里和浙大聯合推出讀唇模型,中英雙語實時復述

時間:2024-01-04
2002年世界杯上,法國球員齊達內到底被對手的話激怒,狠狠地拿頭撞擊對方胸口被逐出賽場,他的對手到底說了什么呢?——AI也許可以給出答案。
隨著人工智能系統被賦予越來越多的功能,它將幫助我們解決更多問題。學會讀唇語的AI暴露了其復讀機的本質,可以解讀許多被消音的謎團。而AI讀唇的真正目的,是成為聽力障礙患者的耳朵,幫助他們“聽到”原本消失在耳朵里的聲音。
據統計,目前全世界約有4.66億的人不幸患有聽力障礙,大約占到了世界人口的5%。根據世界衛生組織的預估,到2050年,這個數字將會攀升至9億。
大多數患有聽力障礙的人與正常交流會存在困難,手語是其中的一種交流方式。如何幫助聽力障礙患者和聾啞人與外界交流,是很多人都在關注的問題。
交流首先要解決的是“聽懂”別人的話,手語和唇語都可以可以作為一種相互理解的方法。聽障患者通過讀唇語得以獲取信息,但是這個技能需要長時間的練習,并且即使掌握了識別率也很低。
“讀唇術”交給AI實際上已經不是什么新鮮事了,早在2016年,谷歌deepmind和牛津大學的研究人員就開發了名為Lipreading視頻標注系統,準確率達95.2%,遠遠優于受訓的讀唇者。2018年哥倫比亞大學研究團隊開發了大型視覺語音識別系統。
為了追求更高性能的系統,近日,阿里巴巴、浙江大學和斯蒂文斯理工學院的研究人員共同開發出名為LIBS(Lip by Speech)的算法,在將從語音識別中提取出來的特征當作補充材料,其準確率達業界領先水平,同時還針對目前最大的普通話唇語語料庫CMLR進行了訓練,讀懂中文也不在話下。

人工智能如何學會讀唇?

機器讀唇很困難,因為它需要從視頻中提取時空特征(位置和運動都很重要)。現大多數機器學習系統只能進行單詞分類,而不進行句子級的序列預測。

LIBS的研究者表示,這個系統在兩個基準上管理著行業領先的準確性,在字符錯誤率上分別比基準高出7.66%和2.75%,能幫助有一定聽力障礙的人群觀看無字幕的視頻。
LIBS可以從視頻中的多個層次提取有用的音頻信息,包括在序列層、語境層和幀數層。將提取的數據與視頻數據對齊,識別對應部分(由于樣本數量和缺失值不同,可能存在開頭或結尾部分的視頻和音頻序列長度不一致的情況),并采用了特定的篩選方法對有用特征數據進行了提純。

利用提出的多粒度知識精餾的不同層次,實現視頻幀與預測字符之間的對齊(其中縱軸表示視頻幀,橫軸表示預測字符)
LIBS的語音識別和唇語識別都是基于注意力機制的“序列到序列”(Sequence-to-sequence)模型,這是一項機器翻譯方法,將序列(例如音頻或視頻序列)輸入轉化為標簽和注意值的輸出。
值得注意的是,序列到序列模型在自動語音識別(ASR)領域越來越受歡迎,因為它將傳統ASR系統的獨立組件折疊成了單一的神經網絡。
總的來說,LIBS通過引入一種新的過濾策略來從語音識別器中提取特征,并通過采用基于交叉模式對齊的方法,來進行幀級知識提取,從而解決兩個序列之間采樣率不一致的問題,以實現準確唇語識別。
研究人員分別使用LRS2和CMLR數據集在上述模型中訓練,LRS2數據集中包含45,000條來自BBC的句子音頻,而CMLR,來源于中國網絡電視網,是包含100,000條以上自然語言句子的最龐大的普通話唇語語料庫(包括3,000以上個的漢字和20,000以上條的詞組)。
“LIBS減少了對非關鍵幀的注意力。”一名研究人員在其論文中這樣描述,“幀數層知識的提純進一步加強了對視頻幀數特征的分辨能力,能使注意力機制更加集中。”

LIBS通過紅色區域分析唇語

論文鏈接:

https://arxiv.org/pdf/1911.11502.pdf

句子越長,讀得越準確

LIBS的研究團隊發現,模型在使用過短句子(如LRS2數據集)進行預訓練時得到的結果不大理想,因為解碼器從少于14個字母的句子中提取有效信息的難度較大。

然而,一旦模型使用最大長度為16個單詞的句子進行預訓練,解碼器由于獲得了語境層的知識,對LRS2數據集的句末解碼質量有了顯著提高。
早在1982年,就有Easton和Basala的研究表明,人的唇讀能力會隨著長單詞的出現而增強,這表明了在模糊的溝通渠道中,上下文間的特征詞句捕捉時間重要性。
2016年的LipNet模型也是針對長句在讀唇上的優勢構建的。該模式利用時空卷積、遞歸網絡和連接主義時間分類損失,將一個可變長度的視頻幀序列映射到文本。LipNet系統通過6個不同的電視節目、共超過10萬個句子進行5000小時的訓練。最終這個AI系統通過只看每個說話人的嘴唇,就能準確地破譯整個短語。

讀唇AI將成為人類的“復讀機”

近年來,隨著深度學習的發展和訓練大數據的可用性,人工智能系統學習讀唇取得了前所未有的進步,表現也有了很大的提高。

讀唇對于人類來說也是一項困難的工作,當人們看到說話人的嘴巴時,通常會被細微的、容易混淆的唇形變化所困惑。所以說,AI讀唇的實現具有巨大的實用潛力,它可以用于改善助聽器、公共空間中的默寫、嘈雜環境中的語音識別、生物識別和無聲電影處理。
AI讀唇不久后將可作為應用程序整合到手機中,這使得聽力障礙患者無論走到哪里都能隨身攜帶一只“耳朵”。這樣的系統還可以幫助那些因為聲帶受損而不能說話的人“發出聲音”。
另外,LIBS團隊表示在未來的工作中,他們期待著將同樣的框架應用到其他模態中,比如語音和手語系統。

相關報道:

https://venturebeat.com/2019/12/04/researchers-develop-ai-that-reads-lips-from-video-footage/
文章來源:大數據文摘出品

IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

下一個牛頓會是AI物理學家嗎?

馬云正式退休:他留下的AI資產要比阿里活得長

中國將成世界AI培訓中心!未來學家預測5年、50年、500年世界變遷

主站蜘蛛池模板: 阿城市| 衡南县| 凤台县| 泽普县| 英德市| 加查县| 共和县| 新建县| 呼玛县| 昌吉市| 德兴市| 筠连县| 蒲江县| 安岳县| 岚皋县| 黔江区| 商南县| 商都县| 柘荣县| 丰宁| 湾仔区| 泸溪县| 上栗县| 兴仁县| 汝州市| 蕉岭县| 屏边| 四川省| 上栗县| 杭锦旗| 元氏县| 北流市| 朝阳县| 镇康县| 和平县| 丽江市| 翁牛特旗| 江永县| 门源| 广昌县| 河源市|