?? 31.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: [合集]關于SVM的書籍論文和方向(2)
發信站: 南京大學小百合站 (Fri Jul 18 00:25:02 2003)
GzLi (笑梨) 于Fri Jun 27 00:24:07 2003)
提到:
< ---- phd candidate -- >
國內研究大概是從清華開始的吧,
去年有幸看到張學工老師的學生的一本論文,
是研究核方法的,將核可以把線性方法轉化為非線性方法的技巧做了些工作。
記得一個主要的成果是作了一個最小二乘核方法,
當然還研究了幾種其它的核方法。
后來我師兄畢業,主要研究推廣能力,
不過理論上不算深入,主要是把這個概念應用到了其它方法上,比如
遺傳算法等。我師兄的論文可以從ftp 上下載。其它的文章我手里也沒有,
請不要問我要。
今年浙江大學有個博士生畢業,其論文
主要是研究svm的各種變形算法,比如one class svm,
他為其加入了一個正則項,然后還為不平衡樣本的改進了一個算法,
不過論文的實驗非常不充分。只有一個數據集,只作了一個測試。
我不知道其改進的確切結果怎么樣。這篇論文是否通過我都不曉的,
不過他論文總結了一下SVM算法的變形,到是可以看看。
其它交大好像還有做應用的,比如自動化系剛畢業的一個用于控制。
國外的研究跟幾個博士生很有關系,
比如 raecsch,boleosting了margin 分類器。結果跟SVM相媲美。
還有jochims,的文本分類的應用。主要是做了SVM的實現,在large scale
data sets 上取得了較好的效果。軟件是SVMlight。
還有一個mit的學生,主要是研究了svm的推廣能力,主要理論上的成果,
正則化網絡和SVM的關系主要是他研究的,引用率很高。
Bernhard Scholkopf的工作也很引人注目,他編了一本書,
極大促進了SVM的發展,而且kernel的技巧,大概是他先提出的。
其它大概還有吧,我就不太知道了,請高手出手。
jueww (不朽鋼) 于Fri Jun 27 08:46:59 2003)
提到:
剛看了一點相關文章.
我比較關心gaussian process和svm的關系. 原來搞NN和BAYESIAN網絡的一幫人, mackey等
, 有些文章比較有意思. 用gaussian process理解SVM的優點我覺得是具有概率意義, 但總
得來說失去支持向量的稀疏性, 有點得不償失. 另外計算量也是大問題.
有個relevant vector machine, 聽說在回歸問題上很有特點, 但它已經不是margin clas
sifier了. 是否是MARGIN分類器好還是基于概率的分類器好, 我想肯定要看具體應用.
我看到很多KERNEL設計方面的文章, 但我懷疑這種脫離具體應用問題的純數學的KERNEL設
計到底有沒有重要用處, 在我的應用問題(文本分類)上數學上的不同KERNEL的差異顯得很
TRIVIAL. 可能在其它問題上, 比如計算機視覺等, 這個很重要. 不過我相信世界上的東西
總是簡單的為主, 一般都是線性的/對稱的/平滑的, 除非迫不得已, 總是采用線性或其變
體(比如RBF核)來逼近比較好, 如果要靠數學上的核來強制修正, 那還不如檢查檢查自己對
應用的前端特征抽取是否充分了.
另外我懷疑KERNEL能夠將低維空間非線性映射到高維空間的解釋方法是否符合實際, 如果
真是這樣, 那么為什么RBF核總是比多項式核好呢? 我想可能是因為這種映射有很強的附加
約束條件.
下面提到有人做不平衡樣本的處理, 而我覺得SVM是MARGIN方法, 樣本的不平衡性應該沒有
太大影響吧?
【 在 GzLi 的大作中提到: 】
: < ---- phd candidate -- >
: 國內研究大概是從清華開始的吧,
: 去年有幸看到張學工老師的學生的一本論文,
: 是研究核方法的,將核可以把線性方法轉化為非線性方法的技巧做了些工作。
: 記得一個主要的成果是作了一個最小二乘核方法,
: 當然還研究了幾種其它的核方法。
: 后來我師兄畢業,主要研究推廣能力,
: 不過理論上不算深入,主要是把這個概念應用到了其它方法上,比如
: 遺傳算法等。我師兄的論文可以從ftp 上下載。其它的文章我手里也沒有,
: 請不要問我要。
: 今年浙江大學有個博士生畢業,其論文
: 主要是研究svm的各種變形算法,比如one class svm,
: 他為其加入了一個正則項,然后還為不平衡樣本的改進了一個算法,
: 不過論文的實驗非常不充分。只有一個數據集,只作了一個測試。
: 我不知道其改進的確切結果怎么樣。這篇論文是否通過我都不曉的,
: 不過他論文總結了一下SVM算法的變形,到是可以看看。
: 其它交大好像還有做應用的,比如自動化系剛畢業的一個用于控制。
: 國外的研究跟幾個博士生很有關系,
: 比如 rastch,boleosting了margin 分類器。結果跟SVM相媲美。
: 還有jochims,的文本分類的應用。主要是做了SVM的實現,在large scale
: (以下引言省略...)
GzLi (笑梨) 于Fri Jun 27 15:10:38 2003)
提到:
kernel的設計是有用的,但是
一是當沒有發揮到極致,也就是沒有針對每一個問題設計一個核,可能優越性不突出,
或者問題太復雜了,怎么可能做到呢,而且問題本身往往是不了解的,
所以只能試試拉。
關于RBF核比poly核好的看法,我的經驗剛好相反。
關于不平衡樣本,需要一個不同的C,這樣超平面偏向到多樣本一方,
可以留給樣本少的多一些空間。
【 在 jueww (不朽鋼) 的大作中提到: 】
: 剛看了一點相關文章.
:
:
: (以下引言省略 ... ...)
jueww (不朽鋼) 于Fri Jun 27 18:26:56 2003)
提到:
不知你是什么應用啊?
我是文本分類. 對不同比例的樣本, 使用不平衡C, 影響幾乎沒有. 呵呵.
可能我的問題太簡單了.
【 在 GzLi 的大作中提到: 】
: kernel的設計是有用的,但是
: 一是當沒有發揮到極致,也就是沒有針對每一個問題設計一個核,可能優越性不突出..
: 或者問題太復雜了,怎么可能做到呢,而且問題本身往往是不了解的,
: 所以只能試試拉。
: 關于RBF核比poly核好的看法,我的經驗剛好相反。
: 關于不平衡樣本,需要一個不同的C,這樣超平面偏向到多樣本一方,
: 可以留給樣本少的多一些空間。
: 【 在 jueww (不朽鋼) 的大作中提到: 】
GzLi (笑梨) 于Fri Jun 27 18:46:21 2003)
提到:
【 在 jueww (不朽鋼) 的大作中提到: 】
: 不知你是什么應用啊?
: 我是文本分類. 對不同比例的樣本, 使用不平衡C, 影響幾乎沒有. 呵呵.
: 可能我的問題太簡單了.
這個問題,我沒有研究過,只是說一下原理吧,
不過那篇論文上是有很好效果的。
嘿嘿,具體我就不知道了。
:
: 【 在 GzLi 的大作中提到: 】
jueww (不朽鋼) 于Fri Jun 27 18:54:19 2003)
提到:
你是說Joachiasm的結論? 我不相信文章中的吹噓, 我只相信自己的實驗. 呵呵.
特別在文本分類上, 太多的文章說了太多的假話, 所以有Yang最后搞的幾篇比較研究.
不過我的語料庫不是reuter21598, 是我自己建的東東.
【 在 GzLi 的大作中提到: 】
: 【 在 jueww (不朽鋼) 的大作中提到: 】
: 這個問題,我沒有研究過,只是說一下原理吧,
: 不過那篇論文上是有很好效果的。
: 嘿嘿,具體我就不知道了。
mnls (蒙娜麗莎的微笑) 于Sat Jun 28 00:10:49 2003)
提到:
偶也用svm做文本分類的實驗,我的經驗是poly比rbf要好。偶建議你在reuters21578上
跑一下,跟joachims的結果比較,我的結論跟joachims也不一致。不同數據集上的結論
不同也是很正常的。
【 在 jueww (不朽鋼) 的大作中提到: 】
: 你是說Joachiasm的結論? 我不相信文章中的吹噓, 我只相信自己的實驗. 呵呵.
: 特別在文本分類上, 太多的文章說了太多的假話, 所以有Yang最后搞的幾篇比較研究.
: 不過我的語料庫不是reuter21598, 是我自己建的東東.
:
: 【 在 GzLi 的大作中提到: 】
jueww (不朽鋼) 于Sat Jun 28 10:44:40 2003)
提到:
有個問題請假同行. 就是如何做特征的歸一化, 是用特征選擇之前的所有單詞做歸一化,
還是用特征選擇之后的單詞做歸一化?
另外有沒有人做過詞組作為特征, 以及stemming, morphological normalization的影響?
如果對付單詞間的相關性?
【 在 mnls 的大作中提到: 】
: 偶也用svm做文本分類的實驗,我的經驗是poly比rbf要好。偶建議你在reuters21578..
: 跑一下,跟joachims的結果比較,我的結論跟joachims也不一致。不同數據集上的結..
: 不同也是很正常的。
: 【 在 jueww (不朽鋼) 的大作中提到: 】
jueww (不朽鋼) 于Sun Jun 29 13:49:28 2003)
提到:
剛看了張鈴老師在復旦研討班上的幻燈片, 發現他的強調之處和我的經驗一致,
即核變換會將在原空間中容易區分的點在特征空間中拉近, 導致分類器泛化能力下降.
同時還造成結果違反人們的直覺. 比如我發現SVM的出錯很難理解, 而NB的出錯非常容易看
到問題處在何處.
張鈴老師提出是否可以設計構造性的局部化的泛化算法, 但我覺得這是個大家都看到的比
較徹底解決問題的途徑, 但是不是也屬于"看上去很美"一類? 呵呵.
【 在 mnls 的大作中提到: 】
: 偶也用svm做文本分類的實驗,我的經驗是poly比rbf要好。偶建議你在reuters21578..
: 跑一下,跟joachims的結果比較,我的結論跟joachims也不一致。不同數據集上的結..
: 不同也是很正常的。
: 【 在 jueww (不朽鋼) 的大作中提到: 】
mnls (蒙娜麗莎的微笑) 于Sun Jun 29 17:51:55 2003)
提到:
【 在 jueww (不朽鋼) 的大作中提到: 】
: 有個問題請假同行. 就是如何做特征的歸一化, 是用特征選擇之前的所有單詞做歸一化,
: 還是用特征選擇之后的單詞做歸一化?
特征選擇后
:
: 另外有沒有人做過詞組作為特征, 以及stemming, morphological normalization的影響?
英文語料庫上有人做過比較,中文的文章沒怎么看見過
:
: 如果對付單詞間的相關性?
:
: 【 在 mnls 的大作中提到: 】
daniel (飛翔鳥) 于Sun Jun 29 22:38:04 2003)
提到:
【 在 jueww (不朽鋼) 的大作中提到: 】
: 剛看了張鈴老師在復旦研討班上的幻燈片, 發現他的強調之處和我的經驗一致,
: 即核變換會將在原空間中容易區分的點在特征空間中拉近, 導致分類器泛化能力下降.
: 同時還造成結果違反人們的直覺. 比如我發現SVM的出錯很難理解, 而NB的出錯非常容..
: 到問題處在何處.
:
: 張鈴老師提出是否可以設計構造性的局部化的泛化算法, 但我覺得這是個大家都看到的比
: 較徹底解決問題的途徑, 但是不是也屬于"看上去很美"一類? 呵呵.
沒有任何途徑是可以“徹底”解決問題的,除非P=NP,所有的途徑都不過
是在把難點搬家,搬好了就可以解決一批問題,但新問題肯定會隨之而生。
:
: 【 在 mnls 的大作中提到: 】
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -