計算所漢語詞法分析系統ICTCLAS介紹
詞是最小的能夠獨立活動的有意義的語言成分。 但漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。為此,我們中國科學院計算技術研究所在多年研究基礎上,耗時一年研制出了漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。分詞正確率高達97%以上,未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%處理速度為31.5Kbytes/s。ICTCLAS的特色還在于:可以根據需要輸出多個高概率結果,有多種輸出格式,支持北大詞性標注集,973專家組給出的詞性標注集合。該系統得到了專家的好評,并有多篇論文在國內外發表。
計算所漢語詞法分析系統ICTCLAS同時還提供一套完整的動態連接庫ICTCLAS.dll和相應的概率詞典,開發者可以完全忽略漢語詞法分析,直接在自己的系統中調用ICTCLAS,ICTCLAS可以根據需要輸出多個高概率的結果,輸出格式也可以定制,開發者在分詞和詞性標注的基礎上繼續上層開發。
標簽:
ICTCLAS
漢語
分
計算
上傳時間:
2014-01-02
上傳用戶:15736969615