計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS介紹
詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。 但漢語(yǔ)是以字為基本的書寫單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,因此,中文詞語(yǔ)分析是中文信息處理的基礎(chǔ)與關(guān)鍵。為此,我們中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞正確率高達(dá)97%以上,未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%處理速度為31.5Kbytes/s。ICTCLAS的特色還在于:可以根據(jù)需要輸出多個(gè)高概率結(jié)果,有多種輸出格式,支持北大詞性標(biāo)注集,973專家組給出的詞性標(biāo)注集合。該系統(tǒng)得到了專家的好評(píng),并有多篇論文在國(guó)內(nèi)外發(fā)表。
計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS同時(shí)還提供一套完整的動(dòng)態(tài)連接庫(kù)ICTCLAS.dll和相應(yīng)的概率詞典,開發(fā)者可以完全忽略漢語(yǔ)詞法分析,直接在自己的系統(tǒng)中調(diào)用ICTCLAS,ICTCLAS可以根據(jù)需要輸出多個(gè)高概率的結(jié)果,輸出格式也可以定制,開發(fā)者在分詞和詞性標(biāo)注的基礎(chǔ)上繼續(xù)上層開發(fā)。
標(biāo)簽:
ICTCLAS
漢語(yǔ)
分
計(jì)算
上傳時(shí)間:
2014-01-02
上傳用戶:15736969615