計算所漢語詞法分析系統(tǒng)ICTCLAS介紹
詞是最小的能夠獨立活動的有意義的語言成分。 但漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此,中文詞語分析是中文信息處理的基礎(chǔ)與關(guān)鍵。為此,我們中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上,耗時一年研制出了漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。分詞正確率高達(dá)97%以上,未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%處理速度為31.5Kbytes/s。ICTCLAS的特色還在于:可以根據(jù)需要輸出多個高概率結(jié)果,有多種輸出格式,支持北大詞性標(biāo)注集,973專家組給出的詞性標(biāo)注集合。該系統(tǒng)得到了專家的好評,并有多篇論文在國內(nèi)外發(fā)表。
計算所漢語詞法分析系統(tǒng)ICTCLAS同時還提供一套完整的動態(tài)連接庫ICTCLAS.dll和相應(yīng)的概率詞典,開發(fā)者可以完全忽略漢語詞法分析,直接在自己的系統(tǒng)中調(diào)用ICTCLAS,ICTCLAS可以根據(jù)需要輸出多個高概率的結(jié)果,輸出格式也可以定制,開發(fā)者在分詞和詞性標(biāo)注的基礎(chǔ)上繼續(xù)上層開發(fā)。
標(biāo)簽:
ICTCLAS
漢語
分
計算
上傳時間:
2014-01-02
上傳用戶:15736969615