?? 5.txt
字號:
發(fā)信人: ccipt (北方的狼), 信區(qū): DataMining
標 題: 什么是數(shù)據(jù)挖掘?
發(fā)信站: 南京大學小百合站 (Mon Aug 27 09:57:12 2001)
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。
1. 數(shù)據(jù)挖掘能做什么?
1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
2)數(shù)據(jù)挖掘分類
以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
· 直接數(shù)據(jù)挖掘
目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以
理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。
· 間接數(shù)據(jù)挖掘
目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系
。
· 分類、估值、預言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數(shù)據(jù)中選出已經分好類的訓練集,在該訓練集上運用數(shù)據(jù)挖掘分類的技術,建立分
類模型,對于沒有分類的數(shù)據(jù)進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數(shù)是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的
輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
例子:
a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù)
b. 根據(jù)購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的
連續(xù)變量的值,然后,根據(jù)預先設定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務,運
用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時
間后,才知道預言準確性是多少。
· 相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)
決定哪些事情將一起發(fā)生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯(lián)規(guī)則)
b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預先
定義好的類,不需要訓練集。
例子:
a. 一些特定癥狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Description and Visualization)
是對數(shù)據(jù)挖掘結果的表示方式。
2.數(shù)據(jù)挖掘的商業(yè)背景
數(shù)據(jù)挖掘首先是需要商業(yè)環(huán)境中收集了大量的數(shù)據(jù),然后要求挖掘的知識是有價值的。有
價值對商業(yè)而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數(shù)據(jù)挖掘作為研究工具 (Research)
2)數(shù)據(jù)挖掘提高過程控制(Process Improvement)
3)數(shù)據(jù)挖掘作為市場營銷工具(Marketing)
4)數(shù)據(jù)挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數(shù)據(jù)挖掘的技術背景
1)數(shù)據(jù)挖掘技術包括三個主要部分:算法和技術;數(shù)據(jù);建模能力
2)數(shù)據(jù)挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智能AI發(fā)展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網絡);從例子中歸納出規(guī)則(如決
策樹)
· 數(shù)據(jù)挖掘由來
數(shù)據(jù)挖掘是八十年代,投資AI研究項目失敗后,AI轉入實際應用時提出的。它是一個新興
的,面向商業(yè)應用的AI研究。選擇數(shù)據(jù)挖掘這一術語,表明了與統(tǒng)計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數(shù)據(jù)挖掘和統(tǒng)計
統(tǒng)計也開始支持數(shù)據(jù)挖掘。統(tǒng)計本包括預言算法(回歸)、抽樣、基于經驗的設計等
4)數(shù)據(jù)挖掘和決策支持系統(tǒng)
· 數(shù)據(jù)倉庫
· OLAP(聯(lián)機分析處理)、Data Mart(數(shù)據(jù)集市)、多維數(shù)據(jù)庫
· 決策支持工具融合
將數(shù)據(jù)倉庫、OLAP,數(shù)據(jù)挖掘融合在一起,構成企業(yè)決策分析環(huán)境。
4. 數(shù)據(jù)挖掘的社會背景
數(shù)據(jù)挖掘與個人預言:數(shù)據(jù)挖掘號稱能通過歷史數(shù)據(jù)的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結果,沒有人們想象中
神秘,它不可能是完全正確的。
客戶的行為是與社會環(huán)境相關連的,所以數(shù)據(jù)挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
--
FAMILY=(F)ATHER (A)ND (M)OTHER, (I) (L)OVE (Y)OU!
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.100.5.132]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -