?? 4.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘的定義
發信站: 南京大學小百合站 (Wed Aug 22 20:10:36 2001)
數據挖掘的定義
1 技術上的定義及含義
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用
數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
與數據挖掘相近的同義詞有數據融合、數據分析和決策支持等。這個定義包括好幾層含義
:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要
可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。
----何為知識?從廣義上理解,數據、信息也是知識的表現形式,但是人們更把概念、規則
、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦
或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,
如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數
學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息
管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘
是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識
,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人
工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數
據挖掘這一新興的研究領域,形成新的技術熱點。
這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然
科學定理和純數學公式,更不是什么機器定理證明。實際上,所有發現的知識都是相對的
,是有特定前提和約束條件,面向特定領域的,同時還要能夠易于被用戶理解。最好能用
自然語言表達所發現的結果。
2 商業角度的定義
數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進
行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷
史,只不過在過去數據收集和分析的目的是用于科學研究,另外,由于當時計算能力的限
制,對大數據量進行分析的復雜數據分析方法受到很大限制。現在,由于各行業業務自動
化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,
而是由于純機會的(Opportunistic)商業運作而產生。分析這些數據也不再是單純為了研
究的需要,更主要是為商業決策提供真正有價值的信息,進而獲得利潤。但所有企業面臨
的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的
數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣
,數據挖掘也因此而得名。
因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,
揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -