高清語音是自真空管時代以來話音質量的首次重大飛躍,如今在這一技術終于得到普及之時,也恰逢新一代電話服務——全高清語音面世。
在今年年初的巴塞羅那世界移動通信大會上,弗勞恩霍夫集成電路研究所宣布了一款結合強大標準算法的系統,能夠實時將完整的音頻編解碼成20千赫的立體聲。最早到明年,許多設備就能支持全高清語音切換了,這將標志著語音與移動數據流完全融合,是業界多年來一直致力實現的目標。
全高清語音將話音轉換成能夠與數據流共同在互聯網中傳輸的數據包,集成的算法能夠恢復數據包在傳輸中的損失,將今天的網絡電話(VoIP)轉換成碎片化、非智能的散列。這一技術采用的算法能夠編碼音樂和其他非語音音頻,這些聲音通常由優化后的代碼進行處理,以便將眾多語音電話壓縮到一小段頻譜中。由于全高清語音覆蓋了完整音頻頻譜,所以電話中的聲音聽上去像所有人都在一個房間里一樣;你甚至能聽到輕微的背景音,如敲擊鍵盤的微弱聲響。如此強大的編碼解碼軟件可以作為一款智能手機應用來使用。
弗勞恩霍夫集成電路研究所美國加州圣何塞分所主管H?P?鮑邁斯特(H.P. Baumeister)說,“我們希望將電話技術帶入21世紀”,實現類似于高清電視給視頻帶來的那種影響。
語音電話在21世紀無疑仍然占有一席之地。現代固定電話的頻率范圍為300至3400赫茲,這一標準是依據貝爾實驗室在20世紀20年代對易懂語言要求進行的研究制定的。雖然這一頻率范圍剔除了區分f、s等輔音所需的高頻,但能適應當時模擬銅質電話線有限的帶寬。
1988年,國際電信聯盟批準了高清語音的G.722標準,允許數字電話線承載50至7000赫茲的頻段。但是,這需要升級固定電話網絡才能實現,所以該標準的實際應用非常有限。前三代手機依然保留了3400赫茲的窄帶固話音頻,但是為了在有限的移動頻譜中加入更多通話,話音在壓縮后質量變得更差。(見本刊2014年第10期文章《智能當道,通話受損》。)
互聯網更高的帶寬使Skype及其他VoIP服務可以使用7000赫茲高清語音,但是VoIP呼入電話網絡時被限制到3400赫茲。大多數4G智能手機都具備解碼和編碼7000赫茲高清語音算法的電路,但是只有兩部手機以及它們之間的鏈路都能處理高清信號時,才能在7000赫茲進行連接。在實際情況中,這意味著只有同一運營商網絡的4G手機之間才能使用7000赫茲高清語音。
全高清語音將能夠消除網絡或設備之間的語音鴻溝。全高清語音的核心技術被稱為增強語音服務(EVS)編解碼技術。與10年前陳舊的高清語音系統相比,該技術的語音壓縮算法更加復雜和強大,能夠將整個可聽范圍內的立體聲數據速率壓縮至最低每秒9.6千比特。該編解碼技術還包括壓縮音樂的算法。
由于語音與音樂的壓縮方式不同,因此將兩種算法分開是非常必要的。語音壓縮通常采用名為碼本激勵線性預測(CELP)的算法,這種算法是在人類聲音系統的基本物理學基礎上建立的。CELP能夠將聲音信號的數據速率降低至原來的十分之一左右。“這種編碼方式在語音方面非常出色,但在其他方面卻很平庸。”卡耐基?梅隆大學(位于匹茲堡)的電子與計算機工程專家理查德?斯特恩(Richard Stern)說。
音頻流使用的MP3、AAC解編碼等音樂壓縮算法針對人類的聽覺進行了優化。例如,這些算法不會準確再現聲音中容易被其他頻率或其他時間的高音掩蓋的和緩部分。斯特恩說,這種方法能夠表現更寬的聲音范圍,但是需要比語音編解碼更高的比特率。
新的EVS編解碼是混合模式,包含了語音與音樂算法,可以根據需要切換。新的語音解碼算法在復雜程度上遠高于10年前的7000赫茲解編碼技術。早前的解編碼技術圍繞幾種特定語言的特點進行開發,而新的技術基本上與語言無關。音樂編解碼部分是AAC算法的最新低延遲版本,針對實時流通信進行開發。通過傳輸一個立體聲頻道以及低數據速率信號,這種名為AAC-ELDv2的技術僅以32千比特每秒的碼率便能提供CD水準的立體聲,低數據速率信號代表傳輸的立體聲頻道與其他立體聲頻道的區別。
鮑邁斯特說,EVS這種綜合解決方案的一項重要特征在于,它是第一款專為補償數據包損失而設計的編解碼器。這種損失會降低聲音質量,在4G LTE等IP網絡中難以避免。
為了驗證這種編解碼的性能與抗衰減能力,弗勞恩霍夫集成電路研究所與11家合作伙伴(包括愛立信、華為、高通與三星)花費數百萬歐元進行了人類聽覺測試。測試結果顯示,即使在9.6千比特每秒的數據速率下,EVS依然可以達到全高清語音標準。
現代智能手機芯片的處理能力是新型編解碼技術的關鍵要素。這種編解碼技術在數字信號處理芯片中的應用方式可以與4G智能手機的7000赫茲解編碼相同,也可以通過智能手機處理器運行應用程序的方式進行。“與智能手機上的應用相比,EVS編解碼并不復雜。”鮑邁斯特說。
由于具備抗衰減能力,所以全高清語音技術可以直接將壓縮數據導入互聯網數據流,并路由至其他設備,如電腦或智能手機之間的Skype通話。在世界移動通信大會上,弗勞恩霍夫集成電路研究所采用谷歌Nexus 5手機上安裝的應用進行了演示。由于無須網絡升級,鮑邁斯特說,“今年先提供概念服務,明年就可以實際推廣了。”
讀者可訪問http://www.full-hd-voice收聽語音樣本,請在安靜的環境下使用質量較高的耳機試聽。斯特恩將這種變化比作標清與高清電視之間的差別。“差別不會太明顯,不會出現聽覺上的巨大改變,但是音效聽起來會更好、更自然,如同高質量的揚聲系統。”他說。
作者:Jeff Hecht