?? 1.txt
字號(hào):
發(fā)信人: mining (key), 信區(qū): DataMining
標(biāo) 題: 建議做文本分類的大蝦使用同一個(gè)數(shù)據(jù)集
發(fā)信站: 南京大學(xué)小百合站 (Mon Sep 16 10:59:02 2002)
目前,由于文本分類和挖掘缺乏統(tǒng)一的數(shù)據(jù)集,各種算法之間根本就不具有可比性。
而且,文本數(shù)據(jù)集的缺乏是困擾很多研究者的一個(gè)問(wèn)題。
我上載了reuter21578文本數(shù)據(jù)集在上載區(qū)。此數(shù)據(jù)集是reuters22173的升級(jí)版,國(guó)際
期刊上的一些論文集采用了這一數(shù)據(jù)集。
這個(gè)數(shù)據(jù)集目前包含了21578篇短文,并對(duì)全部文檔進(jìn)行了標(biāo)志,對(duì)大部分文檔給定了
主題類,并提取了各種主題詞,使用起來(lái)很為方便。細(xì)節(jié)大家可以看看它的readme文件。
希望這個(gè)數(shù)據(jù)集能對(duì)做文本分類的同志有點(diǎn)幫助!
--
※ 來(lái)源:.南京大學(xué)小百合站 http://bbs.nju.edu.cn [FROM: 202.118.237.39]
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -