機器識字:復雜文檔/圖像/ 視頻文本識別新技術
經過多年的科研攻關,中國科學院自動化研究所模式識別國家重點實驗室劉成林研究員團隊構建了自由手寫/歷史文檔文本識別與檢索新理論與新方法,北京科技大學計算機科學與技術系模式識別技術創新實驗室殷緒成教授團隊研制了先進的自然場景/網絡圖片/復雜視頻文本檢測與識別創新技術,兩個單位的研究團隊取得了大量國際領先的研究成果。
復雜文檔/圖像/視頻(如自由手寫、歷史文檔、自然場景、網絡圖片、復雜視頻等)文本識別是利用人工智能與模式識別技術,使計算機能夠像人一樣認識物理世界與互聯網等復雜環境中普遍存在的文字。它以具有重大社會與經濟價值的歷史文檔檢索及文化保護、互聯網圖片與視頻內容安全、移動服務與智慧城市、互聯網+、大數據等應用為背景,以復雜環境下的文檔與圖片為對象,融合模式識別、機器學習(深度學習)、圖像處理、計算機視覺等先進技術,自動智能地分析、提取、識別和挖掘圖像中的文本信息。
基于掃描圖像的歷史文檔/自由手寫文本識別,其任務是對復雜文檔圖像進行版面分析,提取文本區域,從而進行精準的文字識別,在個人筆記、檔案、歷史文檔、票據的數子化方面具有重要的應用前景。歷史文檔/自由手寫文本識別,其技術的挑戰性主要來自于歷史文檔本身的高度復雜性和自由手寫文本本身的多樣性。
而基于拍照或人工生產等的自然場景/網絡圖片/復雜視頻文本識別,則是從高度差異及異構的圖像/視頻中檢測、提取并識別文本信息。具體而言,自然場景文本識別是利用人工智能與模式識別技術,使計算機、智能手機等能夠像人一樣認識自然界中普遍存在的文字,在數字移動服務、信息檢索、智慧城市等方面具有重要的應用價值。網絡圖片文本識別同樣也是利用人工智能與模式識別技術,使網關、計算機等自動識別提取出互聯網中海量圖片與視頻中的文字信息,并進行相應的內容智能分析,在網絡內容監控與社會公共安全、互聯網+、大數據等行業中具有重要的應用前景。
自然場景、網絡圖片和復雜視頻中的文字識別大大難于傳統掃描文檔中的文字識別,因為它們具有極大的多樣性和明顯的不確定性,諸如多語言文字、不同的文字大小、不同的字體、多樣的文本與背景顏色、多變的光照與亮度、不一致的對比度與分辨率、多方向與形變文本、復雜的圖像背景等。所以,傳統的應用于掃描書刊報紙等文檔圖像的光學字符識別(OCR)技術在自然場景與網絡圖片文本識別中具有巨大的局限性。近10年來,國內外模式識別、文檔分析與識別、計算機視覺等領域的眾多科研機構和大量IT界巨頭都對自然場景/網絡圖片/復雜視頻文本識別技術進行研究與攻關。經過多年的科研攻關,以中國科學院自動化研究所(以下簡稱中科院自動化所)劉成林研究員、清華大學丁曉青教授、華南理工大學金連文教授、華東師范大學呂岳教授、北京科技大學殷緒成教授、華中科技大學白翔教授、南京大學路通教授等為代表的中國研究人員在復雜環境下文本識別方面構建了一系列國際領先的創新技術;特別是在自由手寫、自然場景、網絡圖片等文本識別方面,取得了大量國際頂級的研究成果。值得一提的是,劉成林研究員團隊在2013年國際文檔分析與識別技術競賽中,榮獲“歷史書籍版面分析”和“歷史報紙版面理解”兩項冠軍,在2014年國際手寫識別前沿會議的“手寫數字串識別”競賽中獲得冠軍;殷緒成教授團隊在2013年國際文檔分析與識別技術競賽中,榮獲“自然場景文本檢測”“網絡圖片文本檢測”和“網絡圖片文本提取”3項冠軍,在2015年國際文檔分析與識別技術競賽中,又榮獲“自然場景文本端到端識別(通用類)”“網絡圖片文本端到端識別(通用類)”“視頻文本檢測提取”等4項冠軍。
自由手寫文本行識別是對一個自由手寫的文本行或句子同時進行字符切分和識別。由于字符大小、間距不規則,有些字符多部首、有些字符之間粘連等因素,字符切分和識別不能分開進行,否則不能正確切分。一般的做法是將文本行過切分成小的片段,每個片段是一個字符或部分字符,相鄰片段合并生成候選字符,用字符識別器對候選字符分類。分類結果與語言上下文、幾何上下文(候選字符外形位置特征及相互關系)結合對所有的候選切分方式(路徑)進行評價,搜索最優路徑得到切分和識別結果。
中科院自動化所劉成林研究員團隊在粘連字符切分、候選路徑評價和搜索、語言模型適應等方面提出了一系列新理論與新方法。尤其是通過融合多種上下文的路徑評價與搜索,在中文手寫文本識別中取得了突破性的進展。
自由手寫文本行識別候選切分-識別網格示意圖
對經過切分生成的候選字符進行分類后得到候選切分-識別網格,對網格中的候選路徑進行評價和搜索成為關鍵問題,關系到最終的切分和識別性能。在此框架下,研究者對候選路徑評價準則、路徑搜索算法、模型參數訓練這3個方面進行了深入研究。對于路徑評價,在貝葉斯決策框架下融合了多種上下文(包括字符識別模型、幾何模型、語言模型),同時采用置信度轉換的方式將分類器的輸出轉為后驗概率形式,以達到更好的模型之間的融合效果。該新方法在中科院自動化所脫機手寫樣本數據庫(CASIA-HWDB)上進行了一系列實驗,結果表明置信度轉換以及多種上下文的融合大大提高了文檔識別的性能,取得了91.39%的字符正確率。該新方法的結果也顯著地優于文檔分析與識別國際會議(ICDAR)2011年中文手寫識別競賽的最好結果(脫機手寫文本行識別字符正確率77.26%)。
近年來,深度卷積神經網絡(CNN)被用于手寫漢字識別,通過巨大規模樣本訓練,可以得到超過人類的識別精度。可以把CNN用于文本行識別,代替其中的字符分類器,有望提高文本行識別的性能。在英文手寫詞和文本行識別中,基于長短時記憶再生神經網絡(LSTM-RNN)的序列分類模型取得了領先的識別性能;其在手寫中文文本行識別中還沒有顯現優勢,但將來會有潛力。
自然場景與網絡圖片文本識別技術新進展
自然場景、網絡圖片和復雜視頻(幀)文本識別技術主要分為兩個階段:首先是對圖片中的文字進行檢測與提取,輸入的是原始圖片而輸出的是文本區域,即文本檢測;然后,對檢測出的文本區域進行識別,輸入的是文本區域而輸出的是結果文字,即文字識別。如果一個系統,輸入的是原始圖片而輸出的直接為最終識別的結果文字,則稱之為端到端識別(End-To-End Recognition)技術。
如何對自然場景/網絡圖片/復雜視頻進行有效的文本檢測、識別(特別是端到端識別),一直都是學術界和工業界共同關注的重點與難點。北京科技大學計算機系模式識別技術創新實驗室(殷緒成教授團隊)針對自然場景、網絡圖片和復雜視頻文本識別相關核心技術問題,近幾年在文本檢測、文本提取、文字識別等各方面進行了持續攻關,提出了先進的自然場景與網絡圖片文本(端到端)識別統一框架,研制了一系列領先的自然場景與網絡圖片文本識別新技術。
(1)基于自適應聚類和多通道融合的文本檢測與提取技術
自然場景與網絡圖片等復雜環境下的文本檢測,一般都利用連通域分析或圖像分割技術等提取候選字符塊,然后利用聚類算法把這些候選字符塊聚成文本塊。這些方法主要涉及3個核心問題:1)在字符塊提取中,如何利用多通道的信息盡可能地檢測出復雜背景中的文字塊;2)在相似性度量中,如何考慮不同特征的不同影響力,即如何選擇相似度計算特征的權重;3)在聚類計算中,如何針對實際文本塊數目確定聚類數目。在以往的方法中,往往對這些問題進行分割處理。而基于尺度學習的自適應聚類和多通道融合的文本檢測新技術,同步學習相似度特征權重和聚類數目,能夠快速、魯棒、精確地檢測與提取出圖片和視頻中各種各樣的文本。
(2)基于深度學習和樣本自生成的文本分類器及文字識別器技術
近幾年火熱的深度學習技術同樣也流行于文本判別器和文字識別器構建中,在復雜場景下文本檢測與識別中發揮了重要的作用。然而,深度學習都是基于較大規模數據來進行訓練的,在小數量樣本集上的學習依然是一個挑戰性的難題。在自然場景與網絡圖片中,面對較多的語言文字、不同的字體與大小、多樣的文本顏色與光照等諸多挑戰,需要更大規模的訓練數據;如何采集整理與深度學習相匹配的有效訓練數據,已成為文本檢測與識別深度學習技術的核心問題之一。巧妙的是,新技術根據少量真實樣本,自動生成大規模訓練樣本,設計基于深度學習的文本分類器及文字識別器,能夠精確地識別自然場景與網絡圖片中各式各樣的文本。
(3)基于檢測-識別信息反饋的文本識別框架
如何分析并克服自然場景與網絡圖片文本檢測與識別的主要困難,充分利用端到端識別系統中檢測、識別一系列過程信息共享和反饋,是業界攻關的主要技術方向。新技術基于檢測-識別信息反饋,構建統一的信息共享和反饋文本識別整體框架,通過文字識別信息來優化文本檢測,并以改進后的文本檢測提升文字識別效果,較大幅度地提高了端到端場景文本識別系統的整體性能。
最近,殷緒成教授團隊攜手熟慮智能技術(北京)公司,在2015年國際文檔分析與識別大會技術競賽最具挑戰性、代表性和通用性(無字典約束)的“自然場景文本端到端識別(通用類)”和“網絡圖片文本端到端識別(通用類)”中,雙雙榮獲第一名,評測成績比競賽第二名的團隊高出了數十個百分點,比上一次(2013年)國際文檔分析與識別大會論文公開的結果提高了將近一倍,引起了國內外學術界及產業界同行的廣泛關注。
殷緒成教授在2015年國際文檔分析與識別大會現場
通過幾十年的文檔分析與識別持續研究,特別是最近幾年的模式識別、機器學習等新技術與新手段的涌現,復雜環境下的文本識別理論、方法、技術與系統等各方面取得了重要的突破,復雜文檔/圖像/視頻文本識別技術將迎來應用的新天地。
從“線下”走到“網上”(自由手寫文本識別)。例如,每次工作會議后,無須再把白板上的討論內容抄寫下來,只要將白板用手機等智能設備拍照留存,并對其中的自由手寫文本及圖片進行識別,系統便能自動識別并分檢出相關人員的后續工作,并將待辦事項自動存放到各自的電子日歷中。
讓“自然界”融入“信息界”(自然場景文本識別)。例如,把手機攝像頭對準菜單上的英文菜名,屏幕上實時顯示出翻譯好的中文菜名;從車載攝像頭所拍攝的街景中自動提取并識別文字,讓地圖信息更豐富、更準確,進行精確的導航;戴著智能眼鏡在超市購物,看到心儀商品上的文字,能自動搜索出商品的詳細信息。
把“凈化器”“瞄準器”移至“互聯網”(網絡圖片/復雜視頻文本識別)。例如,網絡社交APP中的圖片與視頻內容傳輸與發布時,網關實時檢測識別圖像中的不良文本信息并進行內容管理,構建一個健康干凈的互聯網大數據環境;富媒體移動通信網絡中,計算機對圖像、視頻類多媒體的不良信息內容進行自動化識別與分類檢索,確保通信通暢與數據安全;在互聯網+電商平臺上,自動識別海量圖片/視頻中內嵌的文本信息,進行商品的精準搜索和用戶的個性推薦。
另外,傳統的文字識別技術應用,比如票據識別、郵政地址識別、手寫檔案和歷史文檔數字化,過去由于技術制約,長期得不到規模化應用。現在,隨著新一代文字識別技術的發展和性能提升,這些人們長期期待的傳統應用有望迎來新一輪的爆發。
作者:莊琰