?? 說明.txt
字號(hào):
分詞、特征選擇、SVM和ME模型的參數(shù)設(shè)置都存儲(chǔ)在文件properties.txt中
=================分割線===概況==================================
segment包,全切分,粗切分(利用概率詞圖求NShorts),貌似實(shí)體識(shí)別和分詞都流行用B、I、E、S等標(biāo)記詞的開始、中間、結(jié)尾等,分類問題。以后可以試一試。
feature包,特征選擇,CHI,MI等,一般CHI和IG效果不錯(cuò)。
svm包,訓(xùn)練使用SMO算法,DAGSVM多分類。RBF核函數(shù)的參數(shù)選取經(jīng)驗(yàn),sita趨于0所有的訓(xùn)練樣本都越會(huì)表現(xiàn)為支持向量,sita取值大了的時(shí)候測(cè)試表現(xiàn)為都分為一個(gè)類。另,用殼向量來縮減訓(xùn)練集,看到過有這樣的中文文獻(xiàn),只是估計(jì)求殼費(fèi)時(shí)比全算上還費(fèi)。
ME包,CGGIS訓(xùn)練算法(簡(jiǎn)單易實(shí)現(xiàn)^-^),擬牛頓法的wolfe取步長(zhǎng)有時(shí)候死循環(huán),求導(dǎo)計(jì)算E(P)也要很長(zhǎng)的計(jì)算時(shí)間,so,待處理。高斯先驗(yàn)來平滑感覺效果不怎么樣。
=================分割線===使用方法====================================
UsingME.java測(cè)試使用ME模型分類,UsingSVM.java測(cè)試使用支持向量機(jī)分類,UsingSegment.java測(cè)試分詞。
使用方法:
=======SVM分類:(UsingSVM.java)
1.默認(rèn)的選擇特征詞和訓(xùn)練SVM的文件目錄保存在properties.txt文件中的"statsourcedir"屬性,默認(rèn)為同目錄下sample/train目錄,更換目錄可以修改這個(gè)屬性的值,需要保持train的那種目錄結(jié)構(gòu)。
2.默認(rèn)使用CHI方法來選擇特征詞,可修改UsingSVM類的selectFeatureWordForSVM()方法中的cacu.computeValueChi()這條語(yǔ)句來更改特征選擇方法。
3.選擇的特征數(shù)目的方法有寫了兩種,在UsingSVM類的selectFeatureWordForSVM()方法中如果修改,每個(gè)類選取固定個(gè)數(shù)select.selectDirByNum(CHI計(jì)算的結(jié)果目錄, n)或者使用選取大于某個(gè)權(quán)值的詞select.selectDirByWeight(CHI計(jì)算的結(jié)果目錄, value)
4.訓(xùn)練模型,在properties.txt中的參數(shù)設(shè)置好的情況下使用UsingSVM類的trainSVM()方法。
5.測(cè)試分類,UsingSVM類的classifyFile(File filedir),方法中的參數(shù)為被測(cè)試的文件目錄,將對(duì)這個(gè)目錄下的所有文件分類,單層目錄。
======ME分類:(UsingME.java)
1.默認(rèn)的選擇特征詞文件目錄保存在properties.txt文件中的"statsourcedir"屬性,訓(xùn)練ME的文件目錄為"ME.testdir"屬性。
2.特征選擇同SVM,使用select.selectForME(sourcedir, 100)語(yǔ)句來選擇,表示每個(gè)類選取100個(gè)。
3.訓(xùn)練模型,在gis.caculate(10)語(yǔ)句中設(shè)置迭代次數(shù),設(shè)置大了要等很久...
4.測(cè)試分類,
=================分割線====================================
=================分割線===其他=================================
分詞詞典用的是在搜狗下載的。
幾個(gè)很有用的網(wǎng)址:
SVM:http://www.csie.ntu.edu.tw/~cjlin/ 從這個(gè)地址可以找到很多SVM的東西
ME:http://homepages.inf.ed.ac.uk/s0450736/maxent.html 所有關(guān)于ME的東西,其中作者寫的一篇綜述性的文章個(gè)人覺得很有用。
CRF:http://www.inference.phy.cam.ac.uk/hmw26/crf/
作者:謝廷彥.xietingyan1984@163.com 。歡迎指正錯(cuò)誤。程序僅供學(xué)習(xí)交流使用。找工作很上火順便附個(gè)簡(jiǎn)歷。
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -