?? 871.txt
字號:
發(fā)信人: singhoo (tony), 信區(qū): DataMining
標(biāo) 題: Re: 各位大蝦,進來討論一下!
發(fā)信站: 南京大學(xué)小百合站 (Tue Sep 10 13:18:33 2002), 站內(nèi)信件
典型的新聞web頁面超連接是很豐富的,一般下面都有
相關(guān)新聞連接(例如sina),對分類很有意義,當(dāng)然還有
一些噪音連接,包含廣告,投票,版權(quán)什么
【 在 sinokdd (KDD in China) 的大作中提到: 】
:
: 【 在 chdq135 的大作中提到: 】
: : 盡管在國外已經(jīng)做了不少,但是中文方面還是不夠。
: : 如果作中文呢?中文發(fā)展情況怎樣?
: : 就我所致,也是用字、詞結(jié)合的方法(統(tǒng)計),結(jié)合元數(shù)據(jù),一起來提高
: : 分類性能。
: : 請大俠點評點評!
:
: 僅供參考
: 我覺得單純提取基于字詞的特征,和現(xiàn)在通用的英文的WWW文本分類區(qū)別
: 不大,我認為如果你能夠根據(jù)漢語的一些特點提取出一些英文沒有
: 的特征,也許會對分類有幫助,比如漢語不同的語氣。我的建議是你可以
: 看看漢語語言學(xué)方面的文章,看看他們的研究結(jié)果能否被你所用。
:
: 建立一個中文的新聞分類數(shù)據(jù)集是個好事,但我覺得新聞更像純文本,因為
: 其中的連接并不多,這好像少了一些WWW的味道。
--
※ 來源:.南京大學(xué)小百合站 bbs.nju.edu.cn.[FROM: 202.38.240.195]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -