一項新的基準測試顯示,即便谷歌的臉部識別算法也遠遠達不到完美。
特洛伊的海倫的美貌足以發動一場千艘戰艦參加的戰爭,但即使最優秀的臉部識別算法可能也很難在100萬個陌生人中找到她。首次基于100萬張面孔的公開基準測試表明,谷歌及全世界其他研究團體的臉部識別算法還遠遠達不到完美。
之前的臉部識別算法準確率在95%以上,但在新一屆MegaFace挑戰賽上,這些算法的準確率卻大幅下降。表現最佳的谷歌FaceNet算法從五位數面孔測試時近乎完美的準確率降到了百萬面孔測試時的75%。其他頂級算法也從90%以上的準確率掉到了60%以下。某些算法的識別準確率甚至跌到了35%。艾拉?卡美哈美哈-施利澤爾曼是華盛頓大學的計算機科學助理教授,同時也是MegaFace挑戰賽的項目負責人,他表示:“MegaFace認為應該在大范圍內對算法進行評估。我們得出了大量只有在大范圍評估時才能得到的發現。”
實際上,在現實世界中,臉部識別算法不可避免地會遇到準確率大幅下降的挑戰。如今人們越來越相信這些算法會在安全驗證時準確地識別他們,執法機構也可能依靠臉部識別從監控錄像拍攝到的數十萬張臉孔中找到嫌疑人。到目前為止最流行的基準測試是“人面數據庫”(LabeledFaces in the Wild, LFW)于2007年進行的測試。LFW僅存儲了5000個人的1.3萬張圖像。許多臉部識別算法都經過了精心調試,對LFW圖像進行臉部識別時準確率幾乎可以達到百分之百。然而大部分研究人員都表示,新的基準挑戰早就該出現了。卡美哈美哈-施利澤爾曼說表示“FW上有許多算法的準確率都在95%以上,這就造成一種假象——臉部識別問題已得到解決。”考慮到這一點,華盛頓大學的研究人員決定提高門檻,利用在“知識共享”許可下可公開獲得的69萬張獨特臉孔的100萬張Flickr圖像,舉辦了MegaFace挑戰賽。
MegaFace挑戰賽要求臉部識別算法進行兩項單獨卻相互關聯的任務——驗證與識別。驗證指的是正確判斷呈現給臉部識別算法的兩張臉孔是否屬于同一個人。識別指在100萬張“干擾”面孔中找到同一個人的匹配照片。6月30日,IEEE計算機視覺與模式識別大會上展示了谷歌和另外4個研究團隊開發的算法得出的初步結果。
展現的結果既有趣又令人期待。算法的性能表現隨著干擾面孔數量的增加而降低,對這一點,任何人都不感到吃驚。而且算法在識別不同年齡階段的同一個人方面還有難度,這也是一個已知問題。不過,此次結果也表明,在相對較小的數據集里訓練過的算法竟然可以與經過大型數據集訓練的算法相媲美,如谷歌的FaceNet,它曾經經過了來自1000萬人5億多張照片的訓練。例如,俄羅斯N-TechLab實驗室的FaceN算法,雖然只經過了來自20萬人1800萬張照片的訓練,但在某些任務上的表現可與FaceNet相匹敵。在中國科學院深圳先進技術研究院喬宇教授帶領下創建的中科院深圳先進技術研究院多媒體集成技術研究中心(SIATMMLab)的算法也在某些任務上表現出色。
但是,到目前為止FaceNet的綜合表現最佳,在所有測試上的表現最為穩定。倫敦帝國理工學院的計算機視覺專家斯特凡諾?澤菲里奧表示,看到谷歌算法如何超過其競爭對手的算法,可能是這項挑戰賽最有價值的結果了。他和其他未參加MegaFace挑戰賽的研究人員都對FaceNet的穩定表現印象深刻。另一方面,它75%的準確率表明,即便是最好的臉部識別算法,面對“世界級規模”的數百萬張甚至數十億張干擾臉孔,在臉部識別方面也可能出現問題。此外,MegaFace還為未來研究提供了一個重點方向。美國國家標準與技術研究院的工程師喬納森?菲利普斯表示,到目前為止,大多數學術研究團隊的焦點放在了利用更大的訓練數據集來改進他們的算法上,而不是用更大的基準數據集來進行挑戰。
華盛頓大學的研究人員計劃基于MegaFace照片發布了一個訓練數據集,供所有研究人員使用。哪怕是最小的學術團隊也能從中獲得幫助。“以更接近人們手機中存儲的圖片的照片作為大型數據集來測試這些算法的表現,越多越好。”科羅拉多州立大學計算機科學家羅斯?貝弗里奇如是說。
作者:Jeremy Hsu
