??
字號:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0040)http://166.111.64.166/thocr_descript.htm -->
<HTML><HEAD><TITLE>印刷體漢字識別系統</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.2800.1276" name=GENERATOR></HEAD>
<BODY><FONT face=宋體>
<H1 align=center>印刷體漢字識別系統</H1></FONT>
<P> <B><FONT face=宋體 size=6></P></FONT><FONT face=宋體 size=3>
<P></FONT><FONT face=黑體 size=5>一、文字識別概述</FONT></B><FONT face=宋體></P>
<P>漢字是歷史悠久的中華民族文化的重要結晶,閃爍著中國人民智慧的光芒。漢字數量眾多,僅清朝編纂的《康熙字典》就包含了</FONT><FONT
face="MS Sans Serif,Arial">49</FONT><FONT face=宋體>,</FONT><FONT
face="MS Sans Serif,Arial">000</FONT><FONT
face=宋體>多個漢字,其數量之大,構思之精,為世界文明史所僅有。由于漢字為非字母化、非拼音化的文字,所以在信息技術及計算機技術日益普及的今天,如何將漢字方便、快速地輸入到計算機中已成為關系到計算機技術能否在我國真正普及的關鍵問題。</P>
<P align=center><IMG height=196 src="印刷體漢字識別系統.files/ocr_catalog.gif"
width=387></P>
<P> <B></P>
<P align=center>圖</FONT><FONT face="MS Sans Serif,Arial">1 </FONT><FONT
face=宋體>文字識別的分類</B></P>
<P>將漢字輸入到計算機里一般有兩種方法:人工鍵入和自動輸入。其中人工鍵入速度慢而且勞動強度大,一般的使用者每分鐘只能輸入</FONT><FONT
face="MS Sans Serif,Arial">40</FONT><FONT face=宋體>~</FONT><FONT
face="MS Sans Serif,Arial">50</FONT><FONT
face=宋體>個漢字。這種方法不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高,利用人工方法進行漢字輸入也將面臨經濟效益的挑戰。自動輸入又分為漢字識別輸入及語音識別輸入。</P>
<P>由于漢字數量眾多,漢字識別問題屬于超多類模式集合的分類問題。漢字識別技術可以分為印刷體識別及手寫體識別技術。而手寫體識別又可以分為聯機</FONT><FONT
face="MS Sans Serif,Arial">(on-line)</FONT><FONT face=宋體>與脫機</FONT><FONT
face="MS Sans Serif,Arial">(off-line)</FONT><FONT
face=宋體>兩種。這種劃分方法可以用圖</FONT><FONT face="MS Sans Serif,Arial">1</FONT><FONT
face=宋體>來表示。</P>
<P>從識別技術的難度來說,手寫體識別的難度高于印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過了聯機手寫體識別。</P>
<P>到目前為止,除了脫機手寫體數字的識別已有實際應用外,漢字等文字的脫機手寫體識別還處在實驗室階段。</P>
<P>聯機手寫體的輸入,是依靠電磁式或壓電式等手寫輸入板來完成的。在書寫時,筆在板上的運動軌跡</FONT><FONT
face="MS Sans Serif,Arial">(</FONT><FONT face=宋體>在板上的坐標</FONT><FONT
face="MS Sans Serif,Arial">)</FONT><FONT
face=宋體>被轉化為一系列的電信號,電信號可以串行地進入到計算機中。從這些電信號我們可以比較容易地抽取筆劃和筆順的信息。從</FONT><FONT
face="MS Sans Serif,Arial">90</FONT><FONT
face=宋體>年代以來,聯機手寫體的識別正逐步走向實用,方興未艾。中國大陸及臺灣地區的科研工作者推出了多個聯機手寫體漢字識別系統,國外的一些大公司也開始進入這一市場。這一技術也迎合了</FONT><FONT
face="MS Sans Serif,Arial">PDA(Personal Digital Assistant)</FONT><FONT
face=宋體>的發展潮流。</P>
<P>與脫機手寫體和聯機手寫體識別相比,印刷體漢字識別已經實用化,而且在向更高的性能、更完善的用戶界面的方向發展。因為它有著廣泛的應用前景。目前,辦公自動化已成為信息社會不可避免的發展趨勢。雖然在計算機網絡飛速發展的今天,許多信息已經電子化,世界各地出現了許多“電子版”的報紙、雜志等出版物。但是我們可以看到印刷材料的數量也大大地增加了,一些專業單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,畢竟閱讀印刷材料更為符合人的自然閱讀習慣;同時,網絡信息資源的爆炸性增長以及網絡傳輸容量的限制,都是方便、快速地獲取這些信息的約束因素。電子化的與印刷文本材料如同一枚硬幣的兩面,互相補充、互相促進,在未來的十幾年或更長的時間內將不會出現一者被另一者取代的情況。</FONT><FONT
face=黑體 size=5><B></P>
<P>二、印刷體文字識別流程簡介</B></FONT><FONT face=宋體></P>
<P>印刷體文字識別的過程如圖</FONT><FONT face="MS Sans Serif,Arial">2</FONT><FONT
face=宋體>所示。原始圖象是通過光電掃描儀,</FONT><FONT face="MS Sans Serif,Arial">CCD</FONT><FONT
face=宋體>器件或電子傳真機等獲得的二維圖象信號,可以是灰度</FONT><FONT
face="MS Sans Serif,Arial">(Grayscale)</FONT><FONT face=宋體>或二值</FONT><FONT
face="MS Sans Serif,Arial">(Binary) </FONT><FONT
face=宋體>圖象。為簡單計,在本文以后的論述中,除非特別提及,圖象輸入的方式均指由掃描儀輸入。</P>
<P> <B></P>
<P align=center><IMG height=306 src="印刷體漢字識別系統.files/OCR_process.gif"
width=230></P>
<P align=center>圖</FONT><FONT face="MS Sans Serif,Arial">2 </FONT><FONT
face=宋體>印刷體文字識別的簡單流程圖</B></P>
<P>預處理包括對原始圖象的去噪、傾斜校正或各種濾波處理。版面分析完成對于文本圖象的總體分析,區分出文本段落及排版順序,圖象、表格的區域;對于文本區域將進行識別處理,對于表格區域進行專用的表格分析及識別處理,對于圖象區域進行壓縮或簡單存儲。行字切分是將大幅的圖象先切割為行,再從圖象行中分離出單個字符的過程。特征提取是整個環節中最重要的一環,它是從單個字符圖象上提取統計特征或結構特征的過程,包括為此而做的細化</FONT><FONT
face="MS Sans Serif,Arial">(Thinning)</FONT><FONT face=宋體>、歸一化</FONT><FONT
face="MS Sans Serif,Arial">(Normalization)</FONT><FONT
face=宋體>等步驟。提取的特征的穩定性及有效性,直接決定了識別的性能。文字識別即從學習得到的特征庫中找到與待識字符相似度最高的字符類的過程。后處理則是利用詞義、詞頻、語法規則或語料庫等語言先驗知識對識別結果進行校正的過程。</P>
<P>由此可見,印刷漢字識別技術主要包括:</P>
<BLOCKQUOTE>
<BLOCKQUOTE>
<BLOCKQUOTE></FONT><FONT face="MS Sans Serif,Arial">
<P>(1) </FONT><FONT face=宋體>掃描輸入文本圖象。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(2) </FONT><FONT face=宋體>圖象的預處理,包括傾斜校正和濾除干擾噪聲等。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(3) </FONT><FONT face=宋體>圖象版面的分析和理解。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(4) </FONT><FONT face=宋體>圖象的行切分和字切分。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(5) </FONT><FONT face=宋體>基于單字圖象的特征選擇和提取。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(6) </FONT><FONT face=宋體>基于單字圖象特征的模式分類。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(7) </FONT><FONT face=宋體>將被分類的模式賦予識別結果。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(8) </FONT><FONT
face=宋體>識別結果的編輯修改后處理。</P></BLOCKQUOTE></BLOCKQUOTE></BLOCKQUOTE>
<P>其中</FONT><FONT face="MS Sans Serif,Arial">(4)</FONT><FONT
face=宋體>、</FONT><FONT face="MS Sans Serif,Arial">(5)</FONT><FONT
face=宋體>和</FONT><FONT face="MS Sans Serif,Arial">(6)</FONT><FONT
face=宋體>,也就是圖</FONT><FONT face="MS Sans Serif,Arial">2</FONT><FONT
face=宋體>中的陰影部分,是印刷漢字識別中最為核心的技術。近幾年來,印刷漢字識別系統的單字識別正確率已經超過</FONT><FONT
face="MS Sans Serif,Arial">95%</FONT><FONT
face=宋體>,為了進一步提高系統的總體識別率,掃描圖象、圖象的預處理以及識別后處理等方面的技術,也都得到了深入的研究,并取得了長足的進展,有效地提高了印刷漢字識別系統的總體性能。</FONT><FONT
face=黑體 size=5><B></P>
<P>三、印刷體文字識別的研究歷程</B></FONT><FONT face=宋體></P>
<P>印刷體文字的識別可以說很早就成為人們的夢想,早在</FONT><FONT
face="MS Sans Serif,Arial">1929</FONT><FONT face=宋體>年,</FONT><FONT
face="MS Sans Serif,Arial">Taushek</FONT><FONT face=宋體>就在德國獲得了一項有關</FONT><FONT
face="MS Sans Serif,Arial">OCR</FONT><FONT
face=宋體>的專利。歐美國家為了將浩如煙海、與日俱增的大量報刊雜志、文件資料和單據報表等文字材料輸入計算機進行信息處理,從</FONT><FONT
face="MS Sans Serif,Arial">50</FONT><FONT face=宋體>年代就開始了西文</FONT><FONT
face="MS Sans Serif,Arial">OCR(Optical Character Recognition</FONT><FONT
face=宋體>,光學字符識別</FONT><FONT face="MS Sans Serif,Arial">)</FONT><FONT
face=宋體>技術的研究,以便代替人工鍵盤輸入。</P>
<P>印刷體漢字的識別最早可以追溯到</FONT><FONT face="MS Sans Serif,Arial">60</FONT><FONT
face=宋體>年代。</FONT><FONT face="MS Sans Serif,Arial">1966</FONT><FONT
face=宋體>年,</FONT><FONT face="MS Sans Serif,Arial">IBM</FONT><FONT
face=宋體>公司的</FONT><FONT face="MS Sans Serif,Arial">Casey</FONT><FONT
face=宋體>和</FONT><FONT face="MS Sans Serif,Arial">Nagy</FONT><FONT
face=宋體>發表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了</FONT><FONT
face="MS Sans Serif,Arial">1,000</FONT><FONT face=宋體>個印刷體漢字。</FONT><FONT
face="MS Sans Serif,Arial">70</FONT><FONT
face=宋體>年代以來,日本學者做了許多工作,其中有代表性的系統有</FONT><FONT
face="MS Sans Serif,Arial">1977</FONT><FONT face=宋體>年東芝綜合研究所研制的可以識別</FONT><FONT
face="MS Sans Serif,Arial">2000</FONT><FONT face=宋體>漢字的單體印刷漢字識別系統;</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT
face=宋體>年代初期,日本武藏野電氣研究所研制的可以識別</FONT><FONT
face="MS Sans Serif,Arial">2300</FONT><FONT
face=宋體>個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識別系統。這些系統在方法上,大都采用基于</FONT><FONT
face="MS Sans Serif,Arial">K-L</FONT><FONT
face=宋體>數字變換的匹配方案,使用了大量專用硬件,其設備有的相當于小型機甚至大型機,價格極其昂貴,沒有得到廣泛應用。</P>
<P>我國對印刷漢字識別的研究始于</FONT><FONT face="MS Sans Serif,Arial">70</FONT><FONT
face=宋體>年代末、</FONT><FONT face="MS Sans Serif,Arial">80</FONT><FONT
face=宋體>年代初,大致可以分為三大階段:</FONT><FONT face="MS Sans Serif,Arial"></P>
<P>(1) </FONT><FONT face=宋體>第一階段從</FONT><FONT
face="MS Sans Serif,Arial">70</FONT><FONT face=宋體>年代末期到</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT face=宋體>年代末期,主要是算法和方案探索。</FONT><FONT
face="MS Sans Serif,Arial"></P>
<P>(2) </FONT><FONT face=宋體>第二階段是</FONT><FONT
face="MS Sans Serif,Arial">90</FONT><FONT face=宋體>年代初期,中文</FONT><FONT
face="MS Sans Serif,Arial">OCR</FONT><FONT face=宋體>由實驗室走向市場,初步實用。</FONT><FONT
face="MS Sans Serif,Arial"></P>
<P>(3) </FONT><FONT
face=宋體>第三階段也就是目前,主要是印刷漢字識別技術和系統性能的提高,包括漢英雙語混排識別率的提高和穩健性的增強。</P>
<P>同國外相比,我國的印刷體漢字識別研究起步較晚。但由于我國政府對漢字自動識別輸入的研究從</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT
face=宋體>年代開始給予了充分的重視和支持,經過科研人員十多年的辛勤努力,印刷體漢字識別技術的發展和應用,有了長足進步:從簡單的單體識別發展到多種字體混排的多體識別,從中文印刷材料的識別發展到中英混排印刷材料的雙語識別。各個系統可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析,同時漢字識別率已達到了</FONT><FONT
face="MS Sans Serif,Arial">98%</FONT><FONT face=宋體>以上。</P>
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -