?? 895.txt
字號:
發信人: francois (斷玉), 信區: DataMining
標 題: Re: 求文本分類語料
發信站: 南京大學小百合站 (Tue Nov 19 13:21:44 2002)
英文的公認分類語料庫是reuters21578,一般評價分類系統都是基于此語料庫
中文的可以采用TREC的中文分類語料(新華社的1998年人民日報),但需要購買
可以參考“精華區- ○ 網絡資源共享 - ○ DM測試數據 ”的如下帖子:
發信人: WbAI (wbAI), 信區: DataMining
標 題: Re: 路透社的數據集如何使用?
發信站: 南京大學小百合站 (Fri Oct 11 09:39:04 2002)
在下面的網址可以找到reuters數據集http://www.research.att.com/~lewis/reuters215
78.html
另外,還有一個網址上有各種數據集:
http://kdd.ics.uci.edu/summary.data.type.html
進行文本分類,還有一個數據集是可以用的,即rainbow的數據集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
【 在 pxh1018 的大作中提到: 】
:
: 請問誰有已經分好類的語料庫!?
: 我的郵箱是:pxh@csru.edu.cn
--
歡迎光臨智能信息檢索論壇
http://202.112.116.44
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 211.138.108.171]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -