?? 28.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: 數據挖掘書評之一zz
發信站: 南京大學小百合站 (Wed Dec 11 23:33:34 2002)
發信人: three (破阿三——虎鶴雙形), 信區: AI
標 題: 數據挖掘書評之一
發信站: 日月光華 (2002年09月03日00:34:09 星期二)
1. Data Mining: Concepts and Techniques
國內學生最熟悉的數據挖掘教科書可能就是這本了。其作者之一,韓家瑋教授是國際著名
的數據庫、數據挖掘領域的學者。這本書的優點和缺點一樣突出:
優點:
1). 包括了到作者寫作時幾乎所有的最重要的從數據庫角度切入的數據挖掘研究成果;
2). 幾乎每個小節都包含了一項研究成果,各小節相互獨立;
3). 全書使用一個相對簡單的框架來組織。
缺點:
1). 全書僅從數據庫角度切入,忽略了很多其它方向,例如機器學習、信息檢索、統計領
域的研究成果;
2). 由于每個小節篇幅較短,介紹的僅僅是結論,而且是相關論文的結論,缺乏論證(這
也是一個優點:畫龍點睛),比較片面,需要閱讀大量文獻并作深入研究才能真正理解;
3). 每個小節相對獨立,缺乏統一的描述,符號不統一,比較是定性的(有時是主觀的)
,有些結論有矛盾;
4). 框架是從技術角度入手的,而不是從應用或者功能角度入手的。
雖然一般認為數據挖掘有著“廣義”和“狹義”之分[注1],但是這是從過程上進行定義的
。從學科角度看,其實還有另一種廣義和狹義:
廣義:在任何應用中,對任何種類的數據進行挖掘
狹義:對商務數據(特別是電子商務數據)進行挖掘
從數據庫角度進行切入的學者們其實常常是站在第二種立場上的,而且這種立場是主流的
。然而,很多學者(特別是來自于人工智能、多媒體信息檢索領域的學者)認為對數據的
分析就是數據挖掘。從這個角度看,韓老師的書是非常傳統的,并不包含獨立的與檢索、
多媒體等相關的信息。
Web作為一個數據庫(最大的?),是挖掘的好來源。但是Web挖掘本身并沒有被很好地定
義。從很多角度看,Web挖掘的很多方面就是傳統的數據挖掘(因為數據清洗不包含在狹義
的定義里)。但是,從用戶行為(Web Log)中發現知識本身是Web這種交互式系統所特有
的。由于這部分的研究工作本身并不深入,韓老師的書并沒有詳細的敘述。比較可惜。(
韓老師的WebMiner始終沒有發布!快6年了!)
從應用角度看(我想這是最終目的),特定應用決定了特定的挖掘任務。這就是為什么Ke
Wang強調profit-driven mining,Guozhu Dong專注于研究emergency patterns... 然而
,韓老師的書沒有從這個角度對技術進行分析,而是采取了“純技術”路線。
最后,作為總結,我要說明,韓老師的書是研究數據挖掘的經典教材,是進入數據挖掘研
究必備索引之一。但是要全面了解數據挖掘,還需要進一步補充:
2). 來自于統計、機器學習、人工智能、信息檢索領域的文獻
3). 來自于應用的案例
另:SIGMOD Record 31(2) 上有一篇對該書的很好的review。我是從學生的角度進行介紹
的。
注1:廣義數據挖掘又稱數據庫中的知識發現,包括需求分析、數據準備(清洗)、挖掘分
析、知識理解與管理等多個階段。狹義數據挖掘僅指挖掘分析階段。
(待續)
--
※ 來源:·日月光華 bbs.fudan.edu.cn·HTTP [FROM: 61.169.223.130]
--
*** 端莊厚重 謙卑含容 事有歸著 心存濟物 ***
數據挖掘 http://DataMining@bbs.nju.edu.cn/
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -