?? 18.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘入門(十二)
發信站: 南京大學小百合站 (Mon Aug 20 10:26:26 2001)
3.分析數據。
請察看“描述型數據挖掘”以獲得更詳細的關于可視化、連結分析,及其他數據分析方法
。分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。
如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情
,這時你需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。
4.準備數據。
這是建立模型之前的最后一步數據準備工作。可以把此步驟劃分成4個部分:
a. 選擇變量
b. 選擇記錄
c. 創建新變量
d. 轉換變量
a. 選擇變量。理想情況下,你可以選擇你所有的全部變量,把他們輸入到數據挖
掘工具中,讓他來幫你選擇哪些是最好的預測變量。實際上這樣做并不是很好,一方面是
由于隨著變量個數的增加,模型的建立時間也隨之上升;另一方面盲目的把所有的變量都
加進去會導致建立錯誤的模型。比如,建立預測模型的一個常見錯誤就是把一個依賴于目
標變量的變量(由目標變量導出)作為預測變量,像用生日來“預測”年齡。
在原理上說,一些數據挖掘算法自動忽略不相關的變量、自動計算相關的(協)變量,在
實際應用中完全依賴這些工具是不明智的,畢竟最了解你的數據的還是你自己。利用你的
領域知識,你會做出大部分正確的選擇。例如,用身份證號或人名做預測變量要么不會有
任何用處,要么甚至降低了其他重要變量的影響力。
b. 選擇記錄。與選擇變量類似,你可能也想用你所有的數據行來建立模型,然而
如果你的數據量確實非常巨大的話,要么要花費很長的時間來建立這個模型,要么買一臺
計算能力非常強大的機器。
因此,如果數據量特別大,進行抽樣就是一個很好的主意。如果做的足夠仔細,保證抽樣
是按真正的隨機來進行的,采樣對大部分商業問題來說都不會丟失信息。你可以用所有的
數據建立一個模型;你還可以用采樣的方法根據不同得采樣方法建立幾個模型,然后評價
這幾個模型選擇一個最好的。我們認為后面這種方法得到的方法更準確、更健壯。
你可能選擇數據中明顯的異常數據刪除掉。然而在某些情況下,這些看來異常的數據可能
包含了你要建立模型的重要信息。基于你對問題的理解方式的不同,通常可以把這些異常
忽略掉。比如可以把異常認為是人為的錄入錯誤。
有時也需要向數據中添加一些新的數據(如,那些沒有做出購買得客戶)。
c. 創建新變量。很多情況下需要從原始數據中衍生一些新的變量作為預測變量。
比如,用負債占收入百分比來預測信用風險比直接用負債和收入做預測變量更準確一些,
也更容易理解一些。很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力
更大。一些變量如果擴大它的范圍也會成為一個非常好的預測變量,比如用一段時間內收
入變化情況代替一個單一的收入數據。
d. 轉換變量。你所選擇的算法和工具決定了都要對數據做哪些轉換工作。如神經
網絡要求所有的變量都在0-1之間,因此在這些數據被提交到算法之前就必須先對不在[0,
1]內的變量進行映射。同樣一些決策樹算法不接受數值型變量作為輸入,在使用他們之前
也要把這些數值映射到“高、中、低”等。當然你的轉換方式也在一定程度上影響了模型
的準確度。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -