?? 11.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘入門(五)
發信站: 南京大學小百合站 (Mon Aug 20 10:10:58 2001)
描述型數據挖掘
統計和可視化
要想建立一個好的預言模型,你必須了解自己的數據。最基本的方法是計算各種統計變量
(平均值、方差等)和察看數據的分布情況。你也可以用數據透視表察看多維數據。
數據的種類可分為連續的,有一個用數字表示的值(比如銷售量)或離散的,分成一個個
的類別(如紅、綠、藍)。離散數據可以進一步分為可排序的,數據間可以比較大小(如
,高、中、低)和標稱的,不可排序(如郵政編碼)。
圖形和可視化工具在數據準備階段尤其重要,它能讓你快速直觀的分析數據,而不是給你
枯燥乏味的文本和數字。它不僅讓你看到整個森林,還允許你拉近每一棵樹來察看細節。
在圖形模式下人們很容易找到數據中可能存在的模式、關系、異常等,直接看數字則很難
。
可視化工具的問題是模型可能有很多維或變量,但是我們只能在2維的屏幕或紙上展示它。
比如,我們可能要看的是信用風險與年齡、性別、婚姻狀況、參加工作時間的關系。因此
,可視化工具必須用比較巧妙的方法在兩維空間內展示n維空間的數據。雖然目前有了一些
這樣的工具,但它們都要用戶“訓練”過他們的眼睛后才能理解圖中畫的到底是什么東西
。對于眼睛有色盲或空間感不強的人,在使用這些工具時可能會遇到困難。
聚集(分群)
聚集是把整個數據庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群
之間的數據盡量相似。與分類不同(見后面的預測型數據挖掘),在開始聚集之前你不知
道要把數據分成幾組,也不知道怎么分(依照哪幾個變量)。因此在聚集之后要有一個對
業務很熟悉的人來解釋這樣分群的意義。很多情況下一次聚集你得到的分群對你的業務來
說可能并不好,這時你需要刪除或增加變量以影響分群的方式,經過幾次反復之后才能最
終得到一個理想的結果。神經元網絡和K-均值是比較常用的聚集算法。
不要把聚集與分類混淆起來。在分類之前,你已經知道要把數據分成哪幾類,每個類的性
質是什么,聚集則恰恰相反。
關聯分析
關聯分析是尋找數據庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則
是尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相
關性。序列模式與此類似,他尋找的是事件之間時間上的相關性,如對股票漲跌的分析。
關聯規則可記為A==>B,A稱為前提和左部(LHS),B稱為后續或右部(RHS)。如關聯規則
“買錘子的人也會買釘子”,左部是“買錘子”,右部是“買釘子”。
要計算包含某個特定項或幾個項的事務在數據庫中出現的概率只要在數據庫中直接統計即
可。某一特定關聯(“錘子和釘子”)在數據庫中出現的頻率稱為支持度。比如在總共10
00個事務中有15個事務同時包含了“錘子和釘子”,則此關聯的支持度為1.5%。非常低的
支持度(比如1百萬個事務中只有一個)可能意味著此關聯不是很重要,或出現了錯誤數據
(如,“男性和懷孕”)。
要找到有意義的規則,我們還要考察規則中項及其組合出現的相對頻率。當已有A時,B發
生的概率是多少?也即概率論中的條件概率。回到我們的例子,也就是問“當一個人已經
買了錘子,那他有多大的可能也會買釘子?”這個條件概率在數據挖掘中也稱為可信度,
計算方法是求百分比:(A與B同時出現的頻率)/(A出現的頻率)。
讓我們用一個例子更詳細的解釋這些概念:
總交易筆數(事務數):1,000
包含“錘子”:50
包含“釘子”:80
包含“鉗子”:20
包含“錘子”和“釘子”:15
包含“鉗子”和“釘子”:10
包含“錘子”和“鉗子”:10
包含“錘子”、“鉗子”和“釘子”:5
則可以計算出:
“錘子和釘子”的支持度=1.5%(15/1,000)
“錘子、釘子和鉗子”的支持度=0.5%(5/1,000)
“錘子==>釘子”的可信度=30%(15/50)
“釘子==>錘子”的可信度=19%(15/80)
“錘子和釘子==>鉗子”的可信度=33%(5/15)
“鉗子==>錘子和釘子”的可信度=25%(5/20)
我們可以看到買錘子的人也買釘子的可能性(30%)高于買釘子的人要買錘子的可能性(1
9%)。錘子和釘子關聯的支持度已經足夠高了,意味著這是一條有意義的關聯規則。
改善度(lift)是另外一個描述規則價值的數值。改善度越高A的出現對B出現的可能性影
響越大。改善度是一個比值:(A==>B的可信度)/(B出現的頻率)。如:
“錘子==>釘子”的改善度:3.75(30% / 8%)
“錘子和釘子==>鉗子”的改善度:16.5(33% / 2%)
關聯規則算法的另一個重要的性質是指定項的概念層次。比如在我們討論的錘子和釘子的
例子中沒有涉及產品的品牌和型號。這一點很重要,如在“金屬制品-->五金工具-->釘子
-->5號釘子-->XX廠的5號釘子”的概念層次上,基于不同的目的,你可能需要選擇不同的
層次。
注意數據挖掘得到的關聯規則或序列模式并不是真正的規則,他只是對數據庫中數據之間
相關性的一種描述。還沒有其他數據來驗證得到的規則的正確性,也不能保證利用過去的
數據得到的規律在未來新的情況下仍有效。
有時很難決定能利用你發現的關聯規則做些什么。比如,在超市貨架的擺放策略上,按照
發現的關聯規則把相關性很強的物品放在一起,反而可能會使整個超市的銷售量下降—顧
客如果可以很容易的找到他要買的商品,他就不會再買那些本來不在他的購買計劃上的商
品。總之,在采取任何行動之前一定要經過分析和實驗,即使它是利用數據挖掘得到的知
識。
有些軟件產品用圖形的方式顯示項之間的相關性。如圖3所示,每個圓圈代表一個項或一個
事件,線代表他們間的關系,線越粗表示相關性越強,這樣對軟件的使用者來說就很直觀
。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -