高清語(yǔ)音是自真空管時(shí)代以來(lái)話(huà)音質(zhì)量的首次重大飛躍,如今在這一技術(shù)終于得到普及之時(shí),也恰逢新一代電話(huà)服務(wù)——全高清語(yǔ)音面世。
在今年年初的巴塞羅那世界移動(dòng)通信大會(huì)上,弗勞恩霍夫集成電路研究所宣布了一款結(jié)合強(qiáng)大標(biāo)準(zhǔn)算法的系統(tǒng),能夠?qū)崟r(shí)將完整的音頻編解碼成20千赫的立體聲。最早到明年,許多設(shè)備就能支持全高清語(yǔ)音切換了,這將標(biāo)志著語(yǔ)音與移動(dòng)數(shù)據(jù)流完全融合,是業(yè)界多年來(lái)一直致力實(shí)現(xiàn)的目標(biāo)。
全高清語(yǔ)音將話(huà)音轉(zhuǎn)換成能夠與數(shù)據(jù)流共同在互聯(lián)網(wǎng)中傳輸?shù)臄?shù)據(jù)包,集成的算法能夠恢復(fù)數(shù)據(jù)包在傳輸中的損失,將今天的網(wǎng)絡(luò)電話(huà)(VoIP)轉(zhuǎn)換成碎片化、非智能的散列。這一技術(shù)采用的算法能夠編碼音樂(lè)和其他非語(yǔ)音音頻,這些聲音通常由優(yōu)化后的代碼進(jìn)行處理,以便將眾多語(yǔ)音電話(huà)壓縮到一小段頻譜中。由于全高清語(yǔ)音覆蓋了完整音頻頻譜,所以電話(huà)中的聲音聽(tīng)上去像所有人都在一個(gè)房間里一樣;你甚至能聽(tīng)到輕微的背景音,如敲擊鍵盤(pán)的微弱聲響。如此強(qiáng)大的編碼解碼軟件可以作為一款智能手機(jī)應(yīng)用來(lái)使用。
弗勞恩霍夫集成電路研究所美國(guó)加州圣何塞分所主管H?P?鮑邁斯特(H.P. Baumeister)說(shuō),“我們希望將電話(huà)技術(shù)帶入21世紀(jì)”,實(shí)現(xiàn)類(lèi)似于高清電視給視頻帶來(lái)的那種影響。
語(yǔ)音電話(huà)在21世紀(jì)無(wú)疑仍然占有一席之地。現(xiàn)代固定電話(huà)的頻率范圍為300至3400赫茲,這一標(biāo)準(zhǔn)是依據(jù)貝爾實(shí)驗(yàn)室在20世紀(jì)20年代對(duì)易懂語(yǔ)言要求進(jìn)行的研究制定的。雖然這一頻率范圍剔除了區(qū)分f、s等輔音所需的高頻,但能適應(yīng)當(dāng)時(shí)模擬銅質(zhì)電話(huà)線有限的帶寬。
1988年,國(guó)際電信聯(lián)盟批準(zhǔn)了高清語(yǔ)音的G.722標(biāo)準(zhǔn),允許數(shù)字電話(huà)線承載50至7000赫茲的頻段。但是,這需要升級(jí)固定電話(huà)網(wǎng)絡(luò)才能實(shí)現(xiàn),所以該標(biāo)準(zhǔn)的實(shí)際應(yīng)用非常有限。前三代手機(jī)依然保留了3400赫茲的窄帶固話(huà)音頻,但是為了在有限的移動(dòng)頻譜中加入更多通話(huà),話(huà)音在壓縮后質(zhì)量變得更差。(見(jiàn)本刊2014年第10期文章《智能當(dāng)?shù)溃ㄔ?huà)受損》。)
互聯(lián)網(wǎng)更高的帶寬使Skype及其他VoIP服務(wù)可以使用7000赫茲高清語(yǔ)音,但是VoIP呼入電話(huà)網(wǎng)絡(luò)時(shí)被限制到3400赫茲。大多數(shù)4G智能手機(jī)都具備解碼和編碼7000赫茲高清語(yǔ)音算法的電路,但是只有兩部手機(jī)以及它們之間的鏈路都能處理高清信號(hào)時(shí),才能在7000赫茲進(jìn)行連接。在實(shí)際情況中,這意味著只有同一運(yùn)營(yíng)商網(wǎng)絡(luò)的4G手機(jī)之間才能使用7000赫茲高清語(yǔ)音。
全高清語(yǔ)音將能夠消除網(wǎng)絡(luò)或設(shè)備之間的語(yǔ)音鴻溝。全高清語(yǔ)音的核心技術(shù)被稱(chēng)為增強(qiáng)語(yǔ)音服務(wù)(EVS)編解碼技術(shù)。與10年前陳舊的高清語(yǔ)音系統(tǒng)相比,該技術(shù)的語(yǔ)音壓縮算法更加復(fù)雜和強(qiáng)大,能夠?qū)⒄麄€(gè)可聽(tīng)范圍內(nèi)的立體聲數(shù)據(jù)速率壓縮至最低每秒9.6千比特。該編解碼技術(shù)還包括壓縮音樂(lè)的算法。
由于語(yǔ)音與音樂(lè)的壓縮方式不同,因此將兩種算法分開(kāi)是非常必要的。語(yǔ)音壓縮通常采用名為碼本激勵(lì)線性預(yù)測(cè)(CELP)的算法,這種算法是在人類(lèi)聲音系統(tǒng)的基本物理學(xué)基礎(chǔ)上建立的。CELP能夠?qū)⒙曇粜盘?hào)的數(shù)據(jù)速率降低至原來(lái)的十分之一左右。“這種編碼方式在語(yǔ)音方面非常出色,但在其他方面卻很平庸。”卡耐基?梅隆大學(xué)(位于匹茲堡)的電子與計(jì)算機(jī)工程專(zhuān)家理查德?斯特恩(Richard Stern)說(shuō)。
音頻流使用的MP3、AAC解編碼等音樂(lè)壓縮算法針對(duì)人類(lèi)的聽(tīng)覺(jué)進(jìn)行了優(yōu)化。例如,這些算法不會(huì)準(zhǔn)確再現(xiàn)聲音中容易被其他頻率或其他時(shí)間的高音掩蓋的和緩部分。斯特恩說(shuō),這種方法能夠表現(xiàn)更寬的聲音范圍,但是需要比語(yǔ)音編解碼更高的比特率。
新的EVS編解碼是混合模式,包含了語(yǔ)音與音樂(lè)算法,可以根據(jù)需要切換。新的語(yǔ)音解碼算法在復(fù)雜程度上遠(yuǎn)高于10年前的7000赫茲解編碼技術(shù)。早前的解編碼技術(shù)圍繞幾種特定語(yǔ)言的特點(diǎn)進(jìn)行開(kāi)發(fā),而新的技術(shù)基本上與語(yǔ)言無(wú)關(guān)。音樂(lè)編解碼部分是AAC算法的最新低延遲版本,針對(duì)實(shí)時(shí)流通信進(jìn)行開(kāi)發(fā)。通過(guò)傳輸一個(gè)立體聲頻道以及低數(shù)據(jù)速率信號(hào),這種名為AAC-ELDv2的技術(shù)僅以32千比特每秒的碼率便能提供CD水準(zhǔn)的立體聲,低數(shù)據(jù)速率信號(hào)代表傳輸?shù)牧Ⅲw聲頻道與其他立體聲頻道的區(qū)別。
鮑邁斯特說(shuō),EVS這種綜合解決方案的一項(xiàng)重要特征在于,它是第一款專(zhuān)為補(bǔ)償數(shù)據(jù)包損失而設(shè)計(jì)的編解碼器。這種損失會(huì)降低聲音質(zhì)量,在4G LTE等IP網(wǎng)絡(luò)中難以避免。
為了驗(yàn)證這種編解碼的性能與抗衰減能力,弗勞恩霍夫集成電路研究所與11家合作伙伴(包括愛(ài)立信、華為、高通與三星)花費(fèi)數(shù)百萬(wàn)歐元進(jìn)行了人類(lèi)聽(tīng)覺(jué)測(cè)試。測(cè)試結(jié)果顯示,即使在9.6千比特每秒的數(shù)據(jù)速率下,EVS依然可以達(dá)到全高清語(yǔ)音標(biāo)準(zhǔn)。
現(xiàn)代智能手機(jī)芯片的處理能力是新型編解碼技術(shù)的關(guān)鍵要素。這種編解碼技術(shù)在數(shù)字信號(hào)處理芯片中的應(yīng)用方式可以與4G智能手機(jī)的7000赫茲解編碼相同,也可以通過(guò)智能手機(jī)處理器運(yùn)行應(yīng)用程序的方式進(jìn)行。“與智能手機(jī)上的應(yīng)用相比,EVS編解碼并不復(fù)雜。”鮑邁斯特說(shuō)。
由于具備抗衰減能力,所以全高清語(yǔ)音技術(shù)可以直接將壓縮數(shù)據(jù)導(dǎo)入互聯(lián)網(wǎng)數(shù)據(jù)流,并路由至其他設(shè)備,如電腦或智能手機(jī)之間的Skype通話(huà)。在世界移動(dòng)通信大會(huì)上,弗勞恩霍夫集成電路研究所采用谷歌Nexus 5手機(jī)上安裝的應(yīng)用進(jìn)行了演示。由于無(wú)須網(wǎng)絡(luò)升級(jí),鮑邁斯特說(shuō),“今年先提供概念服務(wù),明年就可以實(shí)際推廣了。”
讀者可訪問(wèn)http://www.full-hd-voice收聽(tīng)語(yǔ)音樣本,請(qǐng)?jiān)诎察o的環(huán)境下使用質(zhì)量較高的耳機(jī)試聽(tīng)。斯特恩將這種變化比作標(biāo)清與高清電視之間的差別。“差別不會(huì)太明顯,不會(huì)出現(xiàn)聽(tīng)覺(jué)上的巨大改變,但是音效聽(tīng)起來(lái)會(huì)更好、更自然,如同高質(zhì)量的揚(yáng)聲系統(tǒng)。”他說(shuō)。
作者:Jeff Hecht