?? 861.txt
字號:
發信人: chdq135 (阿權), 信區: DataMining
標 題: Re: 各位大蝦,進來討論一下!
發信站: 南京大學小百合站 (Tue Sep 10 08:44:47 2002), 站內信件
盡管在國外已經做了不少,但是中文方面還是不夠。
如果作中文呢?中文發展情況怎樣?
就我所致,也是用字、詞結合的方法(統計),結合元數據,一起來提高
分類性能。
請大俠點評點評!
【 在 sinokdd (KDD in China) 的大作中提到: 】
:
: 【 在 singhoo 的大作中提到: 】
: : 我準備做web文本分類方面的研究(碩士),看了2個月論文,本來打算做個
: : 原形系統,實現別人的算法,但是偶實驗室一老師從美國回來,說別人都有
: : 現成的系統,這樣做沒有意義!要做一些算法改進和創新
: I think two months' reading is not a short period, you should know
: that some people have implemented such systems.
:
:
: : 搞的我現在很慌張,只好重做打算
: : 1:根據目前我的理解,做www文本分類,在機器學習(分類)算法上很難有突破
: : 無論是naive bayes,KNN還是SVM都比較成熟,我目前也沒有能力去做這個
: : 算法的改進,所以想在特征提取算法/層次分類/使用超連接上做點研究,
: As I know, one people in CMU has done this, he uses bag of word to
: represent the web page, but give weight for each word, for example,
: word in title head, hyperlink has more weight.
:
: : 2:另外,我打算建立自己的數據集(中文新聞web),目前國內好像沒有公開的
: : web訓練集,這樣應該有點意義吧,不過國外的論文一般都使用幾個常用的數據
: : 集,我這樣的數據集能被承認嗎?
: (以下引言省略 ... ...)
--
知我者謂我心憂 ☆★ ★☆ 不知我者謂我何求?
憂憂蒼天 ★ 此何人哉![0m
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 159.226.100.205]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -