?? -
字號:
2007年5月
* KTDictSeg 簡介: KTDictSeg 是由KaiToo搜索開發的一款基于字典的簡單中英文分詞算法
* 主要功能: 中英文分詞,未登錄詞識別,多元歧義自動識別,全角字符識別能力
* 主要性能指標:
* 分詞準確度:90%以上(有待專家的權威評測)
* 處理速度: 600KBytes/s
*
* 版本: V1.0 Bata
* Copyright(c) 2007 http://www.kaitoo.com
* 作者:肖波
* 授權: 開源GPL
* 公司網站: http://www.kaitoo.com
* 個人博客: http://blog.csdn.net/eaglet; http://www.cnblogs.com/eaglet
* 聯系方式: blog.eaglet@gmail.com
代碼采用 Visual Studio 2005 編譯通過,需在.net framework 2.0 下運行
目錄說明
Demo : 演示程序代碼及解決方案
DictSeg : 分詞算法組件代碼
FTAlgorithm: 全文分析時用的一些基本算法
2007年6月2日
版本更新說明
V1.2.01
1、 增加中文人名判斷
2、 增加了正向匹配分詞和反向匹配分詞的選項
3、 增加了停用詞過濾
4、 增加了詞性標注
2007年6月5日
版本更新說明
V1.2.02
1、 修改如下bug, 連續輸入重復詞如"藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍藍",效率會隨著重復次數的增加
急劇變慢。
2008年5月29日
V1.3.01
1、 修改字典格式,提高字典加載速度
2、 增加對英文專業名詞的支持 如C++,C#等只要加入字典就可以被分出來
3、 增加詞頻判斷功能,在無法取舍時根據詞頻取舍
4、 增加優先優先詞頻選項,通過這個選項動態決定分詞粒度 需打開 FreqFirst
5、 增加中文人名前后綴統計和根據該統計定位人名的功能
6、 增加中文人名和未登錄詞出現頻率統計功能
7、 增加自動更新字典功能,對超過閾值的人名和未登錄詞自動插入字典 需打開 AutoInsertUnknownWords 開關 并設置 UnknownWordsThreshold,(不推薦自動插入,推薦手工插入)
8、 增加定期保存字典和統計結果功能 需設置 AutoSaveInterval
9、 增加KTDictSeg.xml配置文件來配置分詞參數
10、增加對Lucene.net 的支持,提供 KTDictSegAnalyzer 分析器給Lucene.net
11、增加字典管理功能,可以添加刪除修改字典
12、字典管理中提供從未登錄詞中批量插入字典功能,可幫助使用者手工選擇合適的未登錄詞插入字典(推薦)
13、提供一個新聞搜索的簡單例子,采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,項目名為Demo.KTDictSegAnalyzer
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -