?? 745.txt
字號(hào):
這一強(qiáng)大的數(shù)據(jù)挖掘工具組合陣容,保證了可以支持企業(yè)級(jí)的數(shù)據(jù)挖掘的各個(gè)
方面工作。
數(shù)據(jù)獲取工具
在SAS/EM的這個(gè)數(shù)據(jù)獲取工具中,你可以通過對(duì)話框指定要使用的數(shù)據(jù)集的名
稱,并指定要在數(shù)據(jù)挖掘中使用的數(shù)據(jù)變量。變量分為兩類:區(qū)間變量(Interval
Variable)和分類變量(Class Variable)。區(qū)間變量是指那些要進(jìn)行統(tǒng)計(jì)處理
的變量。對(duì)于這樣一些變量,在數(shù)據(jù)輸入階段你就可以指定它們是否要作最大值、
最小值、平均值、標(biāo)準(zhǔn)差等的處理。還可給出該變量是否有值的缺漏,缺漏的百分
比是多少等。利用這些指定可對(duì)輸入數(shù)據(jù)在獲取伊始就進(jìn)行了一次檢查,并把結(jié)果
告訴你,你可初步審視其質(zhì)量如何。
區(qū)間變量以外的變量稱之為分類變量。在數(shù)據(jù)輸入階段將會(huì)提供給你每個(gè)分類
變量共有多少種值可供分類之用。
數(shù)據(jù)取樣工具
對(duì)獲取的數(shù)據(jù),可再?gòu)闹凶魅硬僮鳌H拥姆绞绞嵌喾N多樣的,有:隨機(jī)取
樣、等距取樣、分層取樣、從起始順序取樣和分類取樣等方式。
隨機(jī)取樣
在采用隨機(jī)取樣方式時(shí),數(shù)據(jù)集中的每一組觀測(cè)值都有相同的被取樣的概率。如按
10%的比例對(duì)一個(gè)數(shù)據(jù)集進(jìn)行隨機(jī)取樣,則每一組觀測(cè)值都有10%的機(jī)會(huì)被取到。
等距取樣
如按5%的比例對(duì)一個(gè)有100組觀測(cè)值的數(shù)據(jù)集進(jìn)行等距取樣,則有:100 / 5 = 20
,等距取樣方式是取第20、40、60、80和第100等五組觀測(cè)值。
分層取樣
在這種取樣操作時(shí),首先將樣本總體分成若干層次(或者說分成若干個(gè)子集)。在
每個(gè)層次中的觀測(cè)值都具有相同的被選用的概率,但對(duì)不同的層次你可設(shè)定不同的
概率。這樣的取樣結(jié)果可能具有更好的代表性,進(jìn)而使模型具有更好的擬合精度。
從起始順序取樣
這種取樣方式是從輸入數(shù)據(jù)集的起始處開始取樣。取樣的數(shù)量可以給定一個(gè)百分比
,或者就直接給定選取觀測(cè)值的組數(shù)。
分類取樣
在前述幾種取樣方式中,取樣的單位都是一組觀測(cè)值。分類取樣的單位是一類觀測(cè)
值。這里的分類是按觀測(cè)值的某種屬性進(jìn)行區(qū)分。如按客戶名稱分類、按地址區(qū)域
分類等。顯然在同一類中可能會(huì)有多組觀測(cè)值。分類取樣的選取方式就是前面所述
的幾種方式,只是取樣以類為單位。
設(shè)置多種形式的取樣方式不僅給了你取樣的靈活性,更重要的是從取樣階段你
就能主動(dòng)的考慮數(shù)據(jù)挖掘的目的性,強(qiáng)化了最后結(jié)論的效果。
數(shù)據(jù)篩選工具
通過數(shù)據(jù)篩選工具你可從觀測(cè)值樣本中篩選掉你不希望包括進(jìn)來的觀測(cè)值。對(duì)
于分類變量可給定某一類的類值說明此類觀測(cè)值是要排除于取樣范圍之外的。對(duì)于
區(qū)間變量可指定其值大于或小于某值時(shí)的這些組觀測(cè)值是要排除于取樣范圍之外的
。
通過數(shù)據(jù)篩選使樣本數(shù)據(jù)更適合你要數(shù)據(jù)挖掘的目標(biāo)。
數(shù)據(jù)變量轉(zhuǎn)換工具
利用此工具可將某一個(gè)數(shù)據(jù)進(jìn)行某種轉(zhuǎn)換操作,然后將轉(zhuǎn)換后的值作為新的變
量存放在樣本數(shù)據(jù)中。轉(zhuǎn)換的目的是為了使你的數(shù)據(jù)和將來要建立的模型擬合的更
好。例如,原來的非線性模型線性化、加強(qiáng)變量的穩(wěn)定性等。可進(jìn)行取冪、對(duì)數(shù)、
開方…等轉(zhuǎn)換。當(dāng)然,你亦可給定一個(gè)公式進(jìn)行轉(zhuǎn)換。
建立數(shù)據(jù)挖掘用的數(shù)據(jù)庫
在進(jìn)行數(shù)據(jù)挖掘分析模型的操作之前,要建立一個(gè)數(shù)據(jù)挖掘的數(shù)據(jù)庫(DMDB)
,其中就放置此次要進(jìn)行操作的數(shù)據(jù)。因?yàn)榇撕罂赡芤M(jìn)行許多復(fù)雜的數(shù)學(xué)運(yùn)算,
在這里建立一個(gè)專門的數(shù)據(jù)集將使你的工作更加有效率。在處理之前,可對(duì)你選進(jìn)
數(shù)據(jù)挖掘數(shù)據(jù)庫的各個(gè)變量預(yù)先進(jìn)行諸如最大、最小、平均、標(biāo)準(zhǔn)差…等處理。對(duì)
一些要按其分類的變量的等級(jí)也先放入Meta Data之中,以利接下來的操作。總之
在這個(gè)數(shù)據(jù)庫中為數(shù)據(jù)挖掘建立一個(gè)良好的工作環(huán)境。
數(shù)據(jù)挖掘過程
在數(shù)據(jù)挖掘的過程中可以使用SAS廣泛的數(shù)學(xué)方法,以及實(shí)現(xiàn)最新數(shù)學(xué)方法的
環(huán)境。這給你提供了幾乎無所不能的數(shù)據(jù)挖掘天地。限于篇幅這里主要介紹幾種常
用的工具。
多種形式的回歸工具
在圖形化工具中提供的回歸操作中主要有線性回歸和Logistic回歸。在線性回
歸中有若干不同方法供你選擇,諸如向前、向后的逐步回歸等,還有多種回歸運(yùn)算
結(jié)束的準(zhǔn)則給你指定。
在Logistic回歸過程中可擬合邏輯型的模型,其中響應(yīng)變量可以是雙值的或者
是多值的。亦可使用逐步法選擇模型,還可以進(jìn)行回歸診斷及計(jì)算預(yù)測(cè)值和殘差值
。
回歸處理結(jié)束后,將會(huì)給你提供一份供討論的詳細(xì)的結(jié)果。內(nèi)容包括:對(duì)回歸
參數(shù)的評(píng)價(jià);對(duì)于模型擬合的統(tǒng)計(jì)結(jié)果;回歸結(jié)果的標(biāo)準(zhǔn)輸出:F-檢驗(yàn)、均方差、
自由度…等;回歸運(yùn)行的LOG;全部回歸處理程序的代碼;以及對(duì)此次回歸記錄文
檔資料。
為建立決策樹的數(shù)據(jù)剖分工具
對(duì)數(shù)據(jù)集進(jìn)行聚類、剖分建立決策樹,是近來數(shù)據(jù)處理,進(jìn)行決策支持常用的
方法。在SAS/EM中亦支持這一功能。在建立決策樹的過程中可有多種數(shù)據(jù)聚類、剖
分的方法供你選擇。
圖形化界面的交互式操作,可分成六個(gè)層次:
對(duì)你在數(shù)據(jù)挖掘數(shù)據(jù)庫中選定的數(shù)據(jù)集的操作
對(duì)數(shù)據(jù)集中的變量的處理
聚類、剖分時(shí)的基本選擇項(xiàng)
聚類、剖分時(shí)的進(jìn)一步操作選擇項(xiàng)
模型的初步確定
結(jié)果的評(píng)價(jià)
聚類、剖分可以多種不同的方法進(jìn)行,不能說哪種方法更"準(zhǔn)確",這要看是否
滿足了你決策問題的需要。也許你應(yīng)當(dāng)試試不同方法所產(chǎn)生的結(jié)果。恰好SAS/EM不
僅具有多種多樣的處理方式的選擇,而且具有相當(dāng)高的"自動(dòng)化"程度,使你能以極
快的速度嘗試多種方法,盡快得出你的最佳選擇。
決策樹瀏覽工具
你最后作出來滿意的決策樹可能是個(gè)"枝繁葉茂"的架構(gòu)。SAS/EM給你提供了可
視化的瀏覽工具。這一點(diǎn)很重要,一個(gè)復(fù)雜的決策樹若難以觀察,則會(huì)影響你實(shí)施
決策時(shí)的效率,甚至是有效性。決策樹瀏覽工具包括有:
決策樹基本內(nèi)容和統(tǒng)計(jì)值的匯總表
決策樹的導(dǎo)航瀏覽器
決策樹的圖形顯示
決策樹的評(píng)價(jià)圖表
人工神經(jīng)元網(wǎng)絡(luò)
人工神經(jīng)元網(wǎng)絡(luò)是近來使用越來越廣的模型化方法,特別是對(duì)回歸中難以處理
的非線性關(guān)系問題,它往往能以更真實(shí)反映世界的能力使之得到更靈活的處理。在
SAS/EM中有強(qiáng)有力的實(shí)現(xiàn)人工神經(jīng)元網(wǎng)絡(luò)模型的各種工具,使你免除了繁雜的數(shù)據(jù)
處理,集中精力于模型本身的考慮。
在SAS/EM中的人工神經(jīng)元網(wǎng)絡(luò)應(yīng)用功能可以處理線性模型;多層感知模型(
MLP-Multilayer perceptron這是采用較多的缺省方式)和放射型功能(
RBF-Radial basis function)。在交互式圖形化界面上,在一個(gè)在線的關(guān)于SAS人
工神經(jīng)元網(wǎng)絡(luò)問答的支持下,使你能高效的通過以下四個(gè)步驟建立人工神經(jīng)元網(wǎng)絡(luò)
的模型:
數(shù)據(jù)準(zhǔn)備
神經(jīng)網(wǎng)絡(luò)的定義
人工神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練
生成預(yù)報(bào)模型
數(shù)據(jù)挖掘的評(píng)價(jià)工具
在SAS/EM的評(píng)價(jià)工具中,向你提供了一個(gè)通用的數(shù)據(jù)挖掘評(píng)價(jià)的架構(gòu),可以比
較不同的模型效果;預(yù)報(bào)各種不同類型分析工具的結(jié)果。
在進(jìn)行了各種比較和預(yù)報(bào)的評(píng)價(jià)之后,將給出一系列標(biāo)準(zhǔn)的圖表,供你進(jìn)行定量評(píng)
價(jià)。可能你會(huì)有自己獨(dú)特的評(píng)價(jià)準(zhǔn)則,在SAS/EM的評(píng)價(jià)工具中,你還可以進(jìn)行客戶
化的工作,對(duì)那些標(biāo)準(zhǔn)的評(píng)價(jià)圖表按你的具體要求進(jìn)行更改。這樣一來,評(píng)價(jià)工作
可能就會(huì)更有意義。
SAS/EM讓你以可操作的規(guī)范性實(shí)現(xiàn)了前面所講的SEMMA數(shù)據(jù)挖掘方法學(xué)。它所
涵蓋的技術(shù)深度和廣度你是可以想見的。這對(duì)于各種不同類型的計(jì)算機(jī)用戶來說都
是非常適合的。如果讓你自己規(guī)劃這樣一個(gè)系統(tǒng),可能你很難想象得這樣完整,更
不要說你是否有這么多的時(shí)間和精力象SAS的數(shù)據(jù)挖掘?qū)<疫@樣去開發(fā)這樣的工具
。
--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,請(qǐng)先鑒定一下是否為真金!!!
熱烈歡迎大家到數(shù)據(jù)挖掘版(DataMining)光臨指導(dǎo)。
※ 來源:.南京大學(xué)小百合站 bbs.nju.edu.cn.[FROM: 202.204.34.97]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -