?? 1.txt
字號:
Google的中文分詞技術采用的是美國一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分詞技術,百度使用的是自己公司開發的分詞技術,中搜使用的是國內海量科技(http://www.hylanda.com)提供的分詞技術。業界評論海量科技的分詞技術目前被認為是國內最好的中文分詞技術,其分詞準確度超過99%,由此也使得中搜在搜索結果中搜索結果的錯誤率很低。
(以上內容摘錄自附錄1)
二、計算所漢語詞法分析系統 ICTCLAS
中國科學院計算技術研究所在多年研究基礎上,耗時一年研制出了基于多層隱馬模型的漢語詞法分析系統 ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。分詞正確率高達97.58%(最近的973專家組評測結果),基于角色標注的未登錄詞識別能取得高于90% 召回率,其中中國人名的識別召回率接近98%,分詞和詞性標注處理速度為31.5KB/s。ICTCLAS 和計算所其他14項免費發布的成果被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。
下載頁面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 語言寫成的,現在主流的開發工具用起來不太方便,于是有一些熱心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。
(1)fenci,Java 的 ICTCLAS,下載頁面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一個 Java 的 ICTCLAS,已經找不到下載頁面,點擊本地下載
(3)小叮咚中文分詞,曾經有下載頁面,現在找不到了。據作者介紹,從 ICTCLAS 中改進,有 Java,C# 和 C++ 三個版本,介紹頁面: http://www.donews.net/accesine
三、海量智能分詞研究版
海量智能計算技術研究中心為了使中文信息處理領域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發布《海量智能分詞研究版》,供專家、學者和愛好者進行研究。
下載頁面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分詞組件
運行環境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發語言中調用。
簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規漢語詞組進行拆分,并以指定方式進行分隔,且可對其拆分后的詞組進行語義、詞頻標注。其廣范應用于各行各業的信息資料檢索、分析。
下載頁面: http://www.vgoogle.net/
(2) C# 寫的中文分詞組件
據作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫,獨立開發。
下載頁面: http://www.rainsts.net/article.asp?id=48
Stanford parser相當不錯,之前用它作英文的分析處理,最近發現它對中文的支持也相當好。
舉個例子:
國務院日前發出緊急通知,要求各地切實落實保證市場供應的各項政策,維護副食品價格穩定。
java -mx1g -cp “stanford-parser.jar” edu.stanford.nlp.parser.lexparser.LexicalizedParser -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams -sentences newline -escaper edu.stanford.nlp.trees.international.pennchinese.ChineseEscaper -outputFormat “penn,typedDependencies” -outputFormatOptions “removeTopBracket” xinhuaFactoredSegmenting.ser.gz sampleInput.txt
分析結果:
Parsing file: chinese-onesent-unseg-gb18030.txt with 1 sentences.
Parsing [sent. 1 len. 24]: [國務院, 日前, 發出, 緊急, 通知, ,, 要求, 各, 地, 切
實, 落實, 保證, 市場, 供應, 的, 各, 項, 政策, ,, 維護, 副食品, 價格, 穩定, 。]
(IP
(NP (NN 國務院))
(VP
(NP (NT 日前))
(VP
(VP (VV 發出)
(NP
(ADJP (JJ 緊急))
(NP (NN 通知))))
(PU ,)
(VP (VV 要求)
(NP
(DP (DT 各))
(NP (NN 地)))
(IP
(VP
(VP
(ADVP (AD 切實))
(VP (VV 落實)
(NP
(CP
(IP
(VP (VV 保證)
(NP (NN 市場) (NN 供應))))
(DEC 的))
(DP (DT 各)
(CLP (M 項)))
(NP (NN 政策)))))
(PU ,)
(VP (VV 維護)
(NP (NN 副食品) (NN 價格) (NN 穩定))))))))
(PU 。))
nsubj(發出-3, 國務院-1)
tcomp(發出-3, 日前-2)
amod(通知-5, 緊急-4)
dobj(發出-3, 通知-5)
ccomp(發出-3, 要求-7)
det(地-9, 各-8)
dobj(要求-7, 地-9)
advmod(落實-11, 切實-10)
ccomp(要求-7, 落實-11)
rcmod(政策-18, 保證-12)
nmod(供應-14, 市場-13)
dobj(保證-12, 供應-14)
cpm(保證-12, 的-15)
det(政策-18, 各-16)
clf(各-16, 項-17)
dobj(落實-11, 政策-18)
ccomp(落實-11, 維護-20)
nmod(穩定-23, 副食品-21)
nmod(穩定-23, 價格-22)
dobj(維護-20, 穩定-23)
Parsed file: chinese-onesent-unseg-gb18030.txt [1 sentences].
Parsed 24 words in 1 sentences (7.21 wds/sec; 0.30 sents/sec).
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -