?? 745.txt
字號:
識進行操作的。當我們拿到了一個樣本數據集后,它是否達到我們原來設想的要求
;其中有沒有什么明顯的規律和趨勢;有沒有出現你所從未設想過的數據狀態;因
素之間有什么相關性;它們可區分成怎樣一些類別……這都是要首先探索的內容。
進行數據特征的探索、分析,最好是能進行可視化的操作。SAS有:
SAS/INSIGHT和SAS/SPECTRAVIEW兩個產品給你提供了可視化數據操作的最強有力的
工具、方法和圖形。它們不僅能做各種不同類型統計分析顯示,而且可做多維、動
態、甚至旋轉的顯示。
這里的數據探索,就是我們通常所進行的深入調查的過程。你最終要達到的目
的可能是要搞清多因素相互影響的,十分復雜的關系。但是,這種復雜的關系不可
能一下子建立起來。一開始,可以先觀察眾多因素之間的相關性;再按其相關的程
度,以了解它們之間相互作用的情況。這些探索、分析,并沒有一成不變操作規律
性;相反,是要有耐心的反復的試探,仔細的觀察。在此過程中,你原來的專業技
術知識是非常有用的,它會幫助你進行有效的觀察。但是,你也要注意,不要讓你
的專業知識束縛了你對數據特征觀察的敏銳性。可能實際存在著你的先驗知識認為
不存在的關系。假如你的數據是真實可靠的話,那末你絕對不要輕易地否定數據呈
現給你的新關系。很可能這里就是發現的新知識!有了它,也許會導引你在此后的
分析中,得出比你原有的認識更加符合實際的規律性知識。假如在你的操作中出現
了這種情況,應當說,你的數據挖掘已挖到了有效的礦脈。
在這里要提醒你的是要有耐心,做幾種分析,就發現重大成果是不大可能的。
所幸的是SAS向你提供了強有力的工具,它可跟隨你的思維,可視化、快速的作出
反應。免除了數學的復雜運算過程和編制結果展現程序的煩惱和對你思維的干擾。
這就使你數據分析過程集聚于你業務領域的問題,并使你的思維保持了一個集中的
較高級的活動狀態,從而加速了你的思維過程,提高了你的思維能力。
Modify──問題明確化、數據調整和技術選擇
通過上述兩個步驟的操作,你對數據的狀態和趨勢可能有了進一步的了解。對
你原來要解決的問題可能會有了進一步的明確;這時要盡可能對問題解決的要求能
進一步的量化。問題越明確,越能進一步量化,問題就向它的解決更前進了一步。
這是十分重要的。因為原來的問題很可能是諸如質量不好、生產率低等模糊的問題
,沒有問題的進一步明確,你簡直就無法進行有效的數據挖掘操作。
在問題進一步明確化的基礎上,你就可以按照問題的具體要求來審視你的數據集了
,看它是否適應你的問題的需要。Gartner group在評論當前一些數據挖掘產品時
特別強調指出:在數據挖掘的各個階段中,數據挖掘的產品都要使所使用的數據和
所將建立模型處于十分易于調整、修改和變動的狀態,這才能保證數據挖掘有效的
進行。
針對問題的需要可能要對數據進行增刪;也可能按照你對整個數據挖掘過程的
新認識,要組合或者生成一些新的變量,以體現對狀態的有效的描述。SAS對數據
強有力的存取、管理和操作的能力保證了對數據的調整、修改和變動的可能性。若
使用了SAS的數據倉庫產品技術時就更進一步保證了有效、方便的進行這些操作。
在問題進一步明確;數據結構和內容進一步調整的基礎上,下一步數據挖掘應
采用的技術手段就更加清晰、明確了。
Model──模型的研發、知識的發現
這一步是數據挖掘工作的核心環節。雖然數據挖掘模型化工作涉及了非常廣闊
的技術領域,但對SAS研究所來說并不是一件新鮮事。自從SAS問世以來,就一直是
統計模型市場領域的領頭羊,而且年年提供新產品,并以這些產品體現業界技術的
最新發展。
按照SAS提出的SEMMA方法論走到這一步時,你對應采用的技術已有了較明確的
方向;你的數據結構和內容也有了充分的適應性。SAS在這時也向你提供了充分的
可選擇的技術手段:廣泛的數理統計方法;人工神經元網絡;決策樹……等。
正如Gartner group評論中所指出的:數理統計方法還是數據挖掘工作中最常
用的主流技術手段。在SAS的SAS/STAT軟件包中就覆蓋了所有的實用數理統計方法
,并成為國際上統計分析領域的標準軟件。SAS/STAT提供了十多個過程可進行各種
不同類型模型、不同特點數據的回歸分析,如正交回歸、響應面回歸、Logistic回
歸、非線性回歸等,且有多種形式模型化的方法選擇。可處理的數據有實型數據、
有序數據和屬性數據,并能產生各種有用的統計量和診斷信息。在方差分析方面,
SAS/STAT為多種試驗設計模型提供了方差分析工具。更一般的,它還有處理一般線
性模型和廣義線性模型的專用過程。在多變量統計分析方面,SAS/STAT為主成分分
析、典型相關分析、判別分析和因子分析提供了許多專用過程。SAS/STAT含有多種
聚類準則的聚類分析方法。利用SAS/STAT可進行生存分析(這對客戶保有程度分析
等特別有用)。SAS/ETS提供了豐富的計量經濟學和時間序列分析方法,是研究復
雜系統和進行預測的有力工具。它提供方便的模型設定手段、多樣的參數估計方法
。實際上SAS的數理統計工具不僅能揭示企業已有數據間的新關系、隱藏著的規律
性;而且能反過來預測它的發展趨勢,或是在一定條件下將會出現什么結果。
SAS以GUI式的友好界面提供了人工神經元網絡的應用環境。一般的情況下人工
神經元網絡對數據處理的要求比較多,在處理上資源的消耗也比較大。但在SAS的
集成環境下,有規范的數據維護、管理機制;可在諸如Client/Server等綜合調度
環境中運行,這就保證了你的人工神經元網絡應用更順暢的實現。
人工神經元網絡和決策樹的方法結合起來可用于從相關性不強的多變量中選
出重要的變量。SAS還支持 平方自動交互檢驗(CHAID)。分類和回歸樹的軟件包
(CART)也已交付使用。
在你的數據挖掘中使用哪一種方法,用SAS軟件包中什么方法來實現,這主要
取決于你的數據集的特征和你要實現的目標。實際上這種選擇也不一定是唯一的。
好在SAS軟件運行效率十分高,你不妨多試幾種方法,從實踐中選出最適合于你的
方法和軟件。
隨著業界方法研究的進展,SAS會不斷地向你提供實現它們的軟件包,這將支
持你數據挖掘工作可持續的發展。
Assess──模型和知識的綜合解釋和評價
從上述過程中將會得出一系列的分析結果、模式或模型。若能得出一個直接的
結論當然很好。但更多的時候會得出對目標問題多側面的描述。這時就要能很好的
綜合它們的影響規律性提供合理的決策支持信息。所謂合理,實際上往往是要你在
所付出的代價和達到預期目標的可靠性的平衡上作出選擇。假如在你的數據挖掘過
程中,就預見到最后要進行這樣的選擇的話,那末你最好把這些平衡的指標盡可能
的量化,以利你綜合抉擇。
你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數據處理過
程中SAS軟件提供給你的許多檢驗參數外,評價的辦法之一是直接使用你原來建立
模型的樣板數據來進行檢驗。假如這一關就通不過的話,那末你的決策支持信息的
價值就不太大了。一般來說,在這一步應得到較好的評價。這說明你確實從這批數
據樣本中挖掘出了符合實際的規律性。
另一種辦法是另外找一批數據,已知這些數據是反映客觀實際的規律性的。這
次的檢驗效果可能會比前一種差。差多少是要注意的。若是差到你所不能容忍程度
,那就要考慮第一次構建的樣本數據是否具有充分的代表性;或是模型本身不夠完
善。這時候可能要對前面的工作進行反思了。若這一步也得到了肯定的結果時,那
你的數據挖掘應得到很好的評價了。
再一種辦法是在實際運行的環境中取出新鮮數據進行檢驗。如在一個應用實例
中,就進行了一個月的現場實際檢驗。
以上敘述的是數據挖掘的基本流程。如圖所示這一過程可能是要反復進行的。
在反復過程中,不斷的趨近事物的本質,不斷的優化你的問題的解決方案。在各個
行業SAS大量的成功實踐證明了這一方法的強大威力。SAS的SEMMA方法論也一定能
幫助你在數據挖掘中取得成功。
SAS數據挖掘的集成軟件工具-SAS/EM(Enterprise Miner)
利用SAS軟件技術進行數據挖掘可以有三種方式:
使用SAS軟件模塊組合進行數據挖掘
將若干SAS軟件模塊聯結成一個適合你的需要的綜合應用軟件
使用SAS數據挖掘的集成軟件工具SAS/EM
在SAS數據挖掘的方法論──SEMMA的介紹中已經說明了可利用哪些SAS軟件模
塊組合進行數據挖掘。這里將向你介紹SAS數據挖掘的集成軟件工具SAS/EM。
SAS/EM是一個圖形化界面,菜單驅動的,對用戶非常友好且功能強大的數據挖
掘集成軟件。其中集成了:
數據獲取工具
數據取樣工具
數據篩選工具
數據變量轉換工具
數據挖掘數據庫
數據挖掘過程
多種形式的回歸工具
為建立決策樹的數據剖分工具
決策樹瀏覽工具
人工神經元網絡
數據挖掘的評價工具
可利用SAS/EM中具有明確代表意義的圖形化的模塊將這些數據挖掘的工具單元
組成一個處理流程圖,并依此來組織你的數據挖掘的過程。這一過程在任何時候均
可根據具體情況的需要進行修改、更新并將適合你需要的模式存儲起來,以便此后
重新調出來使用。SAS/EM圖形化的界面,可視化的操作,可導引即使是數理統計經
驗不太多的使用者也能按照SEMMA的原則成功的進行數據挖掘。對于有經驗的專家
,SAS/EM也可讓你一展身手精細的調整分析處理過程。
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -