?? 8.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘入門(二)
發信站: 南京大學小百合站 (Mon Aug 20 10:04:42 2001)
數據挖掘:不能干什么
數據挖掘是一個工具,而不是有魔力的權杖。它不會坐在你的數據庫上一直監視著數據庫
,然后當他發現有意義的模型時給你發一封電子郵件。他仍然需要了解你的業務,理解你
的數據,弄清分析方法。數據挖掘只是幫助商業人士更深入、更容易的分析數據 --- 他無
法告訴你某個模型對你的企業的實際價值。而且數據挖掘中得到的模型必須要在現實生活
中進行驗證。
注意數據挖掘中得到的預言模型并不會告訴你一個人為什么會做一件事、采取某個行動,
他只會告訴你他會這樣做,為什么要人去考慮。比如,數據挖掘可能會告訴你,如果這個
人是男的、年收入在5萬到6萬之間,那么他可能會買你的商品/服務。你可能會利用這條規
則,集中向這類人推銷你的商品而從中獲益,但是數據挖掘工具不會告訴你他們為什么會
買你的東西,也不能保證所有符合這條規則的人都會買。
為了保證數據挖掘結果的價值,你自己必須了解你的數據,這一點至關重要。輸入數據庫
中的異常數據、不相關的字段或互相沖突的字段(比如年齡和生日不一致)、數據的編碼
方式等都會對數據挖掘輸出結果的質量產生影響。雖然一些算法自身會對上面提到的這些
問題做一些考慮,但讓算法自己做所有這些決定是不明智的。
數據挖掘不會在缺乏指導的情況下自動的發現模型。你不能這樣對數據挖掘工具說,“幫
我提高直接郵件推銷的響應率”,你應該讓數據挖掘工具找(1)對你的推銷回應的人,或(
2)即回應又做了大量訂單的人的特征。在數據挖掘中尋找這兩種模型是很不相同的。
雖然數據挖掘工具使你不必再掌握艱深的統計分析技術,但你仍然需要知道你所選用的數
據挖掘工具是如何工作的,他所采用的算法的原理是什么。你所選用的技術和優化方法會
對你的模型的準確度和生成速度產生很大影響。
數據挖掘永遠不會替代有經驗的商業分析師或管理人員所起的作用,他只是提供一個強大
的工具。每個成熟的、了解市場的公司都已經具有一些重要的、能產生高回報的模型,這
些模型可能是管理人員花了很長時間,作了很多調查,甚至是經過很多失誤之后得來的。
數據挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -