亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

? 歡迎來到蟲蟲下載站! | ?? 資源下載 ?? 資源專輯 ?? 關于我們
? 蟲蟲下載站

?? 中文分詞程序源代碼.txt

?? 前幾天因為好久沒發blog了
?? TXT
字號:
前幾天因為好久沒發blog了,就拿我畢設中的一段算法湊數,沒想到引起很多人的興趣。因此就把我的分詞算法單獨拎出來做了一個項目叫作DartSplitter。暫時把分詞算法的名稱叫做樹狀詞庫分詞法。




剛剛統計了一下源代碼,一共也就950多行代碼,加上測試用例共1200行代碼。看來確實還是想法比實現重要。說明如下:



1、由于不能用原來的專業詞庫,因此我特地去網上找了個Access的詞庫,一共有一萬條記錄左右,還有很多單字,因此分詞的效果不會太理想。不過我這里只是為了演示一下功能,幸好從數據庫轉成我現的詞庫并不復雜,我的演示程序里提供了例子,后面還會有說明。而且,真正好的詞庫可能還要加入機器學習等功能,真正全面的分詞可能還需要將基于詞庫的分詞與無意義的分詞結合,不過這些功能都不是那么簡單的啦。



2、由于測試對詞庫的依賴性太強了,因此我的測試用例里沒有用太多的assert,只是簡單地log一下結果。而且考慮到大家用TestNG的還比較少,因此我把測試用例都改成JUnit了。測試用例與外部資源的依賴一直是困擾著我的問題,不知大家有何良策?



3、由于我現在寫程序已經對Spring產生依賴癥了,因此雖然我希望我程序依賴的包越少越好,但還是用了Spring,這樣的好處是所有接口與關聯都是可配置的。因此如果要替換掉某一部分實現也會比較簡單,例如從關系數據庫的詞庫取詞的接口肯定是要重寫,只要配置文件里修改一行就可以了,這個在后面說明。



4、為了方便大家使用我特意寫了示例splitterTest,里面提供了兩個main,一個是建詞庫(DictSerializationMain),另一個是對一篇文章的analysis(AnalysisTest),用了SimpleAnalyzer,StandardAnalyzer和我的TreeDictAnalyzer進行對比。



5、系統在設計的時候就是與lucene緊耦合,分詞的單位也是lucene中token。這是通用性與效率平衡的結果,最后我選擇了效率,而且畢竟lucene是大家用得最多的全文檢索引擎包。




下面講一下使用說明:



1、如果不需要修改源代碼的話,只要下載dartsplitter-0.3.jar就可以了。



2、需要在新建項目的source的etc下放入以下配置文件(示例項目里都有,只要copy就行了):dartSplitter.properties, dictJdbc.properties, dartSplitterContext.xml。



dartSplitter.properties的大概內容如下:



splitter.dictDir=f:/WebDict (指定了詞典的路徑,主要用于lazy load,目前還沒用到)



splitter.dictFile=f:/WebDict/common.dict (詞典的文件名,只要將詞典文件與配置對就行了)



splitter.maxWordLength=20 (放入詞庫的最大詞長,load之后相當于樹的高度)



演示的字典文件名位于dict文件夾下:common.dict。 commonDict.mdb則是當時找來的access文件。




dictJdbc.properties的內容如下:



dict.jdbc.driverClassName=sun.jdbc.odbc.JdbcOdbcDriver



dict.jdbc.url=jdbc:odbc:commonDict



dict.jdbc.username=



dict.jdbc.password=



其實就是詞庫文件對應的Jdbc鏈接啦。




dartSplitterContext.xml是Spring的配置文件,除了建詞庫時訪問關系數據庫的DAO配置要改動外,其它都不要去動。




3、建自己的詞庫



A、自己implements一下DictDAO接口,提供自己的實現,DictDAO的接口定義很簡單,只要實現兩個方法就行了,可參考CommonDictDAO的實現:



public interface DictDAO {



/**



* @param strPrefix 詞的首個字



* @return 以這個字為首字的詞對象(@see cn.edu.zju.dartsplitter.data.DictValue)的列表



*/



public List<DictValue> getDictValues(String strPrefix);




/**



* @return 詞庫中所有詞的首字列表



*/



public List<String> getAllPrefixes();



}



B、修改dartSplitterContext.xml的配置:



<bean id="dictTree" class="cn.edu.zju.dartsplitter.impl.DictTreeImpl">



<property name="rebuild"><value>false</value></property>



<property name="maxWordLength"><value>${splitter.maxWordLength}</value></property>



<property name="fileName"><value>${splitter.dictFile}</value></property>



<property name="dictDAOList">



<list>



<ref local="commonDictDAO "/>



</list>



</property>



</bean>



只要在以下這段里將替換commonDictDAO為自己的DAO就行了,也可以加入新的DAO,因為我們考慮到有多個數據來源的情況,因此可以把多個DAO實現一起放入List里。



C、執行一下包里或者示例程序里的DictSerializationMain就OK了




最后感謝要一下blueGuitar,如果沒有當時與他討論時的靈感,就不會有現在的算法。還要謝謝車東,是他引導我使我對中文分詞感興趣的。

?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频
亚洲一区二区三区四区五区中文| 91蝌蚪porny九色| 国产欧美日韩精品在线| bt欧美亚洲午夜电影天堂| 亚洲视频在线观看一区| 在线精品视频免费播放| 男人操女人的视频在线观看欧美| 精品国产免费人成电影在线观看四季| 国产美女精品在线| 国产精品美女久久久久久久| 欧美综合一区二区三区| 免费在线观看视频一区| 国产亚洲人成网站| 91视频免费看| 肉丝袜脚交视频一区二区| 亚洲精品一区二区三区福利| av在线不卡免费看| 午夜久久福利影院| 久久噜噜亚洲综合| 日本二三区不卡| 青青草伊人久久| 欧美国产精品久久| 欧美人狂配大交3d怪物一区| 国产在线视频一区二区三区| 亚洲精品视频自拍| 日韩欧美第一区| 97久久人人超碰| 日韩在线播放一区二区| 久久免费国产精品| 欧美日韩综合在线免费观看| 国产自产高清不卡| 一区二区三区在线播| 日韩欧美的一区| 一本高清dvd不卡在线观看| 蜜臀99久久精品久久久久久软件| 欧美国产日产图区| 在线成人小视频| 国产.欧美.日韩| 香蕉影视欧美成人| 欧美精彩视频一区二区三区| 欧美日韩三级视频| 从欧美一区二区三区| 午夜伊人狠狠久久| 国产人成一区二区三区影院| 欧美日韩免费视频| 成人免费高清视频在线观看| 天天做天天摸天天爽国产一区 | 国产一区二区三区四区在线观看| 亚洲免费资源在线播放| 精品国产成人在线影院| 欧美在线视频你懂得| 国产美女久久久久| 日韩中文字幕区一区有砖一区| 中文字幕va一区二区三区| 欧美一级在线免费| 色婷婷综合久久久久中文 | 久久久精品tv| 欧美剧情片在线观看| www.亚洲色图.com| 九九国产精品视频| 三级久久三级久久| 一区二区三区日韩欧美精品| 国产亚洲精品超碰| 4438x亚洲最大成人网| 99久久精品国产一区二区三区| 九一久久久久久| 日本特黄久久久高潮| 亚洲午夜一区二区三区| 中文字幕不卡的av| 久久女同精品一区二区| 欧美一区二区三区不卡| 欧美午夜精品免费| 99视频热这里只有精品免费| 国产精品一区在线观看你懂的| 奇米888四色在线精品| 亚洲成人先锋电影| 亚洲美腿欧美偷拍| 国产精品高潮呻吟| 久久精品男人天堂av| 日韩亚洲国产中文字幕欧美| 欧美日韩免费一区二区三区| 色婷婷综合久色| 91麻豆免费观看| 成人免费视频播放| 国产aⅴ综合色| 国产九色sp调教91| 久草精品在线观看| 久久99国产精品久久| 蜜臀av在线播放一区二区三区| 亚洲成人1区2区| 亚洲精品你懂的| 亚洲欧美另类综合偷拍| 中文字幕一区二区在线观看| 国产欧美精品区一区二区三区 | 亚洲一区二区三区四区的| 亚洲欧美激情插 | ...av二区三区久久精品| 久久久91精品国产一区二区三区| 久久综合九色综合欧美98 | 亚洲日本乱码在线观看| 国产精品久久久久影院| 国产精品欧美一区喷水| 亚洲国产精品成人综合| 中文字幕欧美激情一区| 中文一区在线播放| 国产精品久久久久影院老司| 国产精品灌醉下药二区| 亚洲色图第一区| 亚洲免费高清视频在线| 一区二区三区四区视频精品免费| 亚洲狼人国产精品| 亚洲综合一二区| 亚洲18女电影在线观看| 人禽交欧美网站| 久久精品国产精品亚洲红杏| 九九九久久久精品| 国产成人综合视频| 成人国产在线观看| 91影视在线播放| 在线观看一区二区精品视频| 欧美日韩国产乱码电影| 91麻豆精品国产91久久久使用方法| 91精选在线观看| 精品嫩草影院久久| 国产亚洲一区二区三区四区| 国产精品的网站| 亚洲一区二区三区四区在线观看| 天涯成人国产亚洲精品一区av| 久久精品噜噜噜成人88aⅴ| 极品少妇一区二区三区精品视频| 国产成人午夜精品影院观看视频| 成人国产精品免费网站| 一本久久综合亚洲鲁鲁五月天 | 成人精品国产福利| 色av综合在线| 91精品啪在线观看国产60岁| 欧美r级在线观看| 国产日本欧洲亚洲| 亚洲精品国产精华液| 日韩专区中文字幕一区二区| 激情综合色播五月| 99久久精品免费| 欧美精品vⅰdeose4hd| 精品国产乱码久久久久久蜜臀| 国产蜜臀97一区二区三区| 亚洲视频一区二区在线观看| 天天综合色天天| 国产福利精品导航| 欧美亚洲一区二区三区四区| 日韩三级视频中文字幕| 日本一区二区高清| 亚洲成人中文在线| 国产传媒一区在线| 欧美亚洲一区二区在线观看| 精品欧美一区二区三区精品久久| 国产精品久久久久久久久久免费看| 亚洲一区二区三区三| 国内精品伊人久久久久av一坑| 97久久人人超碰| 日韩欧美一级片| 亚洲婷婷国产精品电影人久久| 视频一区二区国产| 成人美女视频在线观看| 欧美日韩情趣电影| 中文字幕不卡在线播放| 天堂蜜桃一区二区三区| 国产精品888| 欧美日韩在线直播| 国产日产欧美一区二区视频| 亚洲高清免费观看高清完整版在线观看| 久久99久久99小草精品免视看| 91在线观看成人| 亚洲精品一区在线观看| 亚洲香肠在线观看| 国产一区二区看久久| 欧美三区在线观看| 国产欧美日韩三区| 日韩二区三区在线观看| 99综合影院在线| 久久一区二区视频| 午夜精品123| 99热在这里有精品免费| 欧美刺激脚交jootjob| 一区二区三区欧美日韩| 国产精品资源网| 欧美一级艳片视频免费观看| 成人免费一区二区三区视频| 久草热8精品视频在线观看| 欧美性受xxxx黑人xyx| 亚洲午夜视频在线| 97精品国产露脸对白| 69堂亚洲精品首页| 亚洲乱码国产乱码精品精的特点 | 欧美一区二区三区在线观看| 亚洲欧美日韩国产综合在线| 国产一区二区日韩精品| 91精品啪在线观看国产60岁| 亚洲综合一区二区精品导航| 99久久婷婷国产综合精品| 久久久噜噜噜久久中文字幕色伊伊|