?? 862.txt
字號(hào):
發(fā)信人: francois (斷玉), 信區(qū): DataMining
標(biāo) 題: Re: 請(qǐng)教中文文本分類(lèi)問(wèn)題
發(fā)信站: 南京大學(xué)小百合站 (Sat Nov 16 21:45:09 2002)
呵呵,指點(diǎn)談不上,共同探討吧
文本分類(lèi)我原來(lái)也做過(guò),不過(guò)關(guān)注的是基于語(yǔ)義的分類(lèi),期望能比基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的
方法有所改善,想法應(yīng)該是不錯(cuò),可惜沒(méi)能完善就畢業(yè)了
你提到在已經(jīng)得到分類(lèi)主題詞(即你所說(shuō)的特征詞條集)的基礎(chǔ)上,進(jìn)行文本分類(lèi)是否不
需要分詞,而是直接掃描統(tǒng)計(jì)?我覺(jué)得是可以的,因?yàn)閭鹘y(tǒng)的方法(先分詞,然后對(duì)語(yǔ)料
進(jìn)行統(tǒng)計(jì),根據(jù)TFIDF公式抽取出文檔的特征詞,構(gòu)造文檔的特征向量)和你的方法(根據(jù)
主題詞典掃描語(yǔ)料,直接根據(jù)相應(yīng)主題詞的TF來(lái)構(gòu)造文檔的特征向量)在原理上是差不多
的,只是用人工(事先整理好分類(lèi)主題詞典)來(lái)代替了機(jī)器的統(tǒng)計(jì)。
這里主要的問(wèn)題是你得到的特征詞條集的完備性如何?是否能有效涵蓋所要分類(lèi)語(yǔ)料的絕
大部分特征?舉個(gè)例子來(lái)說(shuō),對(duì)于數(shù)據(jù)挖掘相關(guān)的文檔,如果你的特征詞條集只包含了“
數(shù)據(jù)挖掘”而沒(méi)有“知識(shí)發(fā)現(xiàn)”的話(huà),就會(huì)在生成文檔特征向量時(shí)造成相應(yīng)的維度缺失,
從而導(dǎo)致分類(lèi)性能降低。
而基于統(tǒng)計(jì)的方法則可以彌補(bǔ)這個(gè)缺點(diǎn),當(dāng)然同時(shí)也引入另外一個(gè)缺點(diǎn),就是噪聲的引入
,會(huì)錯(cuò)誤地把TFIDF較高但與文檔主題無(wú)關(guān)的詞作為特征。也許你以后可以考慮兩種方法的
結(jié)合吧
【 在 mining 的大作中提到: 】
: 非常感謝你的指點(diǎn)。
: 我因?yàn)榘氲莱錾阶鑫谋痉诸?lèi),所以有很多概念不是很清楚。
: 這是一片關(guān)于文本分類(lèi)的文章,用的方法是K-近鄰
: 我在做中文文本分類(lèi)時(shí),因?yàn)楹苋菀啄艿玫教卣髟~條集
: 所以我寫(xiě)了我的方法無(wú)需詞條切分過(guò)程
: 審稿意見(jiàn)認(rèn)為我這一點(diǎn)上沒(méi)寫(xiě)清楚,需要補(bǔ)充。
: 而我認(rèn)為我已知特征詞條集合,因此無(wú)需分詞,直接掃描統(tǒng)計(jì)即可
: 不知我的觀點(diǎn)對(duì)否?
: 請(qǐng)斷玉兄繼續(xù)指點(diǎn)。
: 【 在 francois (斷玉) 的大作中提到: 】
: : 覺(jué)得你的問(wèn)題描述有些含糊,也許至少你應(yīng)該說(shuō)明一下文章的標(biāo)題和摘要吧
: : 如果這篇文章是關(guān)于文本分類(lèi)的,那么用的是什么分類(lèi)方法呢?在此假設(shè)你用的是..
: : 計(jì)和機(jī)器學(xué)習(xí)的文本分類(lèi)方法,比如Naive Bayes,KNN,SVM或者Neuron Network
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -