?? 1.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘入門(一)
發信站: 南京大學小百合站 (Mon Aug 20 10:03:59 2001)
什么是數據挖掘
當今數據庫的容量已經達到上萬億的水平(T)--- 1,000,000,000,000個字節。在這些大
量數據的背后隱藏了很多具有決策意義的信息,那么怎么得到這些“知識”呢?也就是怎
樣通過一顆顆的樹木了解到整個森林的情況?
計算機科學對這個問題給出的最新回答就是:數據挖掘,在“數據礦山”中找到蘊藏的“
知識金塊”,幫助企業減少不必要投資的同時提高資金回報。數據挖掘給企業帶來的潛在
的投資回報幾乎是無止境的。世界范圍內具有創新性的公司都開始采用數據挖掘技術來判
斷哪些是他們的最有價值客戶、重新制定他們的產品推廣策略(把產品推廣給最需要他們
的人),以用最小的花費得到最好的銷售。
數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型
和關系可以用來做出預測。
數據挖掘的第一步是描述數據 --- 計算統計變量(比如平均值、均方差等),再用圖表或
圖片直觀的表示出來,進而可以看出一些變量之間的相關性(比如有一些值經常同時出現
)。選擇正確的數據源對整個數據挖掘項目的成敗至關重要,在后面數據挖掘的步驟中我
們會著重強調這一點。
單單是數據描述并不能為人們制訂行動計劃提供足夠的依據,你必須用你的這些歷史數據
建立一個預言模型,然后再用另外一些數據對這個模型進行測試。一個好的模型沒必要與
數據庫中的數據100%的相符(城市交通圖也不是完全的實際交通線路的等比縮?。?,但他
在你做決策時是一個很好的指南和依據。
最后一步是驗證你的模型。比如你用所有對你的產品推廣計劃做出回應的人的數據庫做了
一個模型,來預測什么樣的人會對你的產品感興趣。你能在得到這個模型后就直接利用這
個模型做出決策或采取行動嗎?還是更穩妥一點先對一小部分客戶做一個實際的測試,然
后再決定?
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -