?? 2.txt
字號:
發信人: threeman (三鏡先生), 信區: DataMining
標 題: 統計學與數據挖掘的關系
發信站: 南京大學小百合站 (Tue May 27 15:42:28 2003)
[+red]數據挖掘和統計學有什么聯系?
[+green]J.H.Friedman 斯坦佛大學統計系
[+black]
摘要:數據挖掘是揭示存在于數據里的模式及數據之間關系的學科,它強調對大量觀測到的數據庫的處理。它涉及到數據庫管理,人工智能,機器學習,模式識別,以及數據
可視化等學科,是一門邊緣學科。從統計學的觀點看,它可以看成是通過計算機對大量的
復雜的數據集的自動探索性分析。目前對該學科的作用盡管有點夸大其詞,但該領域對商
業,工業,以及科學研究都有極大的影響,且提供了大量的為促使新方法的發展而進行的
研究工作。盡管數據挖掘和統計分析之間有明顯的聯系,但迄今為止大部分的數據挖掘方
法都不是產生于統計學科。這篇文章對這一現象作了一些解釋,并說明了為什么統計學家
應該關注數據挖掘。統計學可能會對數據挖掘產生很大影響,但這可能要求統計學家們改
變他們的一些基本思路及操作原則。
[+green]
1什么是數據挖掘?
[+black]
數據挖掘的定義非常模糊,不同的專家基于自己的研究背景與觀點給出了不同的定義
,如下是一些DM文獻中的定義:
數據挖掘是一個確定數據中有效的,新的,可能有用的并且最終能被理解的模式的重要過
程。--Fayyad.
數據挖掘是一個從大型數據庫中提取以前未知的,可理解的,可執行的信息并用它來進行
關鍵的商業決策的過程。--Zekulin.
數據挖掘是用在知識發現過程,來辯識存在于數據中的未知關系和模式的一些方法。--Fe
rruzza
數據挖掘是發現數據中有益模式的過程。--Jonn
數據挖掘是我們為那些未知的信息模式而研究大型數據集的一個決策支持過程。--Parsay
e
數據挖掘是.決策樹.神經網絡.規則推斷.最近鄰方法.遺傳算法—Mehta
雖然數據挖掘的這些定義有點不可觸摸,但在目前它已經成為一種商業事業。如同在過去
的歷次淘金熱中一樣,目標是“開發礦工”。利潤最大的是賣工具給礦工,而不是干實際
的開發。數據挖掘這個概念被用作一種裝備來出售計算機硬件和軟件。硬件制造商強調數
據挖掘需要高的計算能力。必須存儲,快速讀寫非常大的數據庫,并將密集的計算方法用
于這些數據。這需要大容量的磁盤空間,快速的內置大量RAM的計算機。數據挖掘為這些硬
件打開了新的市場。
軟件提供者強調競爭優勢。“你的對手使用它,你最好得跟上?!蓖瑫r強調它將增加傳統
的數據庫的價值。許多組織在處理存貨,帳單,會計的數據庫方面有大量的業務。這些數
據庫的創建和維護都耗資巨大。現在只需要將相對少的投資用于數據挖掘工具,就可以發
現隱藏在這些數據中的具有極高利潤的信息“金塊”。
目前硬件和軟件供應者的目的是在市場還未飽和前通過迅速推出數據挖掘產品為數據挖掘
作廣告。如果一個公司為數據挖掘包投資了五萬至十萬美元,這也可能只是實驗,人們在
新產品未被證實比舊產品具有很大優勢之前是不會貿然購買的。以下是一些當前的數據挖
掘產品:
IBM: “Intelligent Miner”――智能礦工
Tandem: “relational Data Miner”――關系數據礦工
AngossSoftware: “Knowledge SEEDER”――知識搜索者,等。
除了這些“綜合”軟件包外,還有許多專門用途的產品。另外,許多專業于數據挖掘的咨
詢公司也成立了。在這個領域,統計學家和計算機科學家的不同在于:當統計學家有一個
想法時,他(她)將它寫成文章,而計算機科學家者開一家公司。
當前數據挖掘產品的特點有:
迷人的圖形用戶界面
數據庫(查尋語言)
一套數據分析過程
窗口形式的界面
靈活方便的輸入
點擊式按鍵和說明
輸入對話框--利用圖表分析
復雜的圖形輸出
大量數據圖
靈活的圖形解釋樹,網絡,飛行模擬
結果方便的處理。
這些軟件包對決策者來說就象數據挖掘專家。在當前的數據挖掘軟件包中被用到的統計分
析過程包括:
.決策樹推斷
規則推斷(AQ,CN2,RECON,etc)
最近鄰方法(合乎情理的方案)
聚類方法(數據分離)
聯合規則(市場籃子分析)
特征提取
可視化
另外,有些還包括:
神經網絡
bayesian belief 網絡(圖形模型)
遺傳算法
自組織圖
神經模糊系統
幾乎所有包都不包括:
假設檢驗
實驗設計
響應表面模型
ANOVA,MANOVA,etc.
線性回歸
判別分析
對數回歸
廣義線性模型
正則相關性
主成分分析
因子分析
后面的這些方法是標準統計包里的主要部分。因此,當前被市場化的數據挖掘包中的大部
分方法在統計學科之外產生和發展。統計學核心的方法已被忽略。
[+green]2 現狀
[+black]從數據學習的想法已經提出很長時間了。但在忽然之間人們對數據挖掘的興趣卻變得
如此強烈,這是為什么呢?主要原因是近來它與數據庫管理領域有了聯系。數據,特別大
量的數據保存在數據庫管理系統中。傳統的DBMS集中于在線轉換過程(OLTP On-line tra
nsaction processing);也就是數據組織的目的是存儲并快速恢復單個記錄。它們過去常
用來記錄庫存,薪水表記錄,帳單記錄,發貨記錄,等等。
最近,數據庫管理界對將數據庫管理系統用于決策支持越來越感興趣。這樣一個決策支持
系統將允許對原本為在線轉換過程應用收據的數據進行統計查詢。比如“上月我們的所有
連鎖店一共賣了多少尿布?”,決策支持系統需要“數據倉庫”的結構。數據倉庫用相同
的格式將某組織分散在各個部門的數據統一成一個單一的中心數據庫(通常有100GB大)。
有時較小一點的子數據庫也可以建成來進行特殊的分析;這些又叫“數據市場”(Data M
arts)
決策支持系統為在線分析過程(OLAP)和關系在線分析過程設計。關系在線分析過程為“多
維分析”設計。關系在線分析過程數據庫通過維組織,維即屬性(變量)的邏輯類。數據
體可以看成是高維偶然事件表。關系在線分析過程支持如下類型的查詢:
顯示春季運動服部門總的銷售量,及California大城市商業街中商店數
和小城市中商店進行比較
顯示所有利潤邊界值為負的項
如果關系在線分析過程的查尋由使用者手工進行,使用者提出潛在的相關問題;得到結果
需要附加的查尋,其答案可能暗示進一步的問題。這樣的分析過程一直到不再有感興趣的
問題提出,或者到分析員精疲力盡或耗完時間。如果用關系在線分析過程進行數據挖掘,
那它需要一個經驗豐富的使用者,他能不睡且不老,使用者必須不斷地重復提出見聞廣博
的問題。
數據挖掘也可以用數據挖掘系統(軟件)進行,它只需要使用者提供模糊的指令,就能自
動搜索相應的模式,并顯示重要的項,預測,或反常記錄。
.利潤邊界值為負的項有什么特征?
.如果決定開發某項產品的市場-預測它的利潤邊界值
.尋找那些其利潤邊界值可以準確預測的項的特征
不是所有的大的數據庫都是商業化的,比方說科學和工程中大量存在的數據庫。這些數據
庫通常和計算機自動收據數據聯系在一起,比方說:
.天文的(天空圖)
.氣象的(氣候,環境污染監測站)
.衛星遙感
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -