?? 745.txt
字號(hào):
發(fā)信人: yaomc (白頭翁&山東大漢), 信區(qū): DataMining
標(biāo) 題: SAS的數(shù)據(jù)挖掘方法與技術(shù)。
發(fā)信站: 南京大學(xué)小百合站 (Sat Dec 8 11:21:38 2001), 站內(nèi)信件
SAS數(shù)據(jù)挖掘
目 錄
SAS幫助你進(jìn)行數(shù)據(jù)挖掘
SAS的數(shù)據(jù)挖掘的方法論-SEMMA
SAS數(shù)據(jù)挖掘的集成軟件工具--SAS/EM(Enterprise Miner)
------------------------------------------------------------------------
--------
SAS幫助你進(jìn)行數(shù)據(jù)挖掘
早期的計(jì)算機(jī)主要就是用來(lái)進(jìn)行數(shù)據(jù)處理或稱數(shù)值計(jì)算的。后來(lái)隨著計(jì)算機(jī)技
術(shù)及其周邊設(shè)備和通訊能力的發(fā)展,計(jì)算機(jī)更多地用于了大量繁雜事務(wù)的在線處理
,生產(chǎn)設(shè)備的實(shí)時(shí)控制等。在此過(guò)程中,計(jì)算機(jī)系統(tǒng)積累了越來(lái)越多的數(shù)據(jù),數(shù)據(jù)
處理的任務(wù)就更加繁重。到今天,即使是發(fā)展中的我們中國(guó),在一個(gè)企業(yè)中有數(shù)以
幾十或上百GB(10 字節(jié))計(jì)的生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)已不是什么希奇的事情了。企業(yè)的數(shù)
據(jù)和由此而產(chǎn)生的信息是企業(yè)的重要財(cái)富。它最真實(shí)、具體的反映了企業(yè)運(yùn)作的本
質(zhì)狀況。但是,面對(duì)堆積如"山"的數(shù)據(jù),你可能并未看清企業(yè)運(yùn)作的本質(zhì)規(guī)律是什
么,或者說(shuō)你至少是未能全部看清楚。面對(duì)激烈競(jìng)爭(zhēng)的市場(chǎng)經(jīng)濟(jì),企業(yè)的經(jīng)營(yíng)和管
理者任何不符合客觀事物規(guī)律性的決策都會(huì)給企業(yè)帶來(lái)?yè)p失,甚至失敗。運(yùn)用有力
的工具,不斷地探索企業(yè)成敗、得失的原委,并以此不斷完善企業(yè)運(yùn)作,這是每一
個(gè)成功的企業(yè)家必不可少的工作任務(wù)。美國(guó)SAS軟件從60年代在北卡洲立大學(xué)開(kāi)創(chuàng)
伊始就致力于計(jì)算機(jī)數(shù)據(jù)處理的研究。幾十年來(lái)無(wú)數(shù)的成功事例使人們推崇SAS為
國(guó)際上標(biāo)準(zhǔn)的數(shù)理統(tǒng)計(jì)分析軟件;進(jìn)而,SAS的豐富數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)分
析和信息展現(xiàn)的能力,又使之成為決策支持的最好的工具;現(xiàn)在SAS又推出了套裝
的SAS/Enterprise Miner這一企業(yè)級(jí)的數(shù)據(jù)處理分析和決策支持軟件包。SAS系統(tǒng)
的軟件和這些軟件運(yùn)用的無(wú)數(shù)成功經(jīng)驗(yàn),一定能幫你從企業(yè)堆積如"山"的數(shù)據(jù)中"
挖掘"出隱藏著的規(guī)律性,以支持你正確的經(jīng)營(yíng)決策。
SAS的數(shù)據(jù)挖掘軟件集成了一系列有效的技術(shù)手段全面地支持你的工作。首先
是支持你的數(shù)據(jù)重組工作。在你的企業(yè)或組織中或許已經(jīng)有了成功的MIS系統(tǒng)、
CIMS系統(tǒng)或是有了大量卓有成效的過(guò)程控制系統(tǒng),甚至是辦公自動(dòng)化系統(tǒng)。其中的
數(shù)據(jù)體系對(duì)應(yīng)著一項(xiàng)項(xiàng)事務(wù)處理和一個(gè)又一個(gè)控制環(huán)節(jié),它們定能完美的支持其原
有的工作。但當(dāng)你從企業(yè)級(jí)的角度去審視,并想進(jìn)一步分析處理時(shí),你會(huì)感到這些
數(shù)據(jù)過(guò)于分散,數(shù)量越來(lái)越大,并難以整合。美國(guó)數(shù)據(jù)挖掘技術(shù)開(kāi)拓者Gregory
Piatetsky-Shapiro曾戲言說(shuō):"原來(lái)曾希望計(jì)算機(jī)系統(tǒng)成為我們智慧的源泉,但從
中涌出的卻是洪水般的數(shù)據(jù)!"其實(shí)不必埋怨數(shù)據(jù)太多,也不必埋怨原來(lái)的數(shù)據(jù)結(jié)
構(gòu)不好,它們是適應(yīng)原有工作任務(wù)的,只是不適合你現(xiàn)在的要求而已。要支持你的
企業(yè)級(jí)的決策,就是需要"洪水般的數(shù)據(jù)量",但是要面向企業(yè)級(jí)的工作任務(wù)對(duì)其進(jìn)
行重組。SAS有連續(xù)兩年獲獎(jiǎng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持你進(jìn)行數(shù)據(jù)重組,并以全新的數(shù)
據(jù)、信息的結(jié)構(gòu)形式支持你的全新的工作方式。這在前面五篇連載文章中已作了詳
盡的介紹。建立數(shù)據(jù)倉(cāng)庫(kù),這是進(jìn)一步能有成效的進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)工作。
要看清企業(yè)或組織運(yùn)作的狀況,第一步就是能查詢到反映你所關(guān)心事情的相應(yīng)
數(shù)據(jù)、信息。以SAS的多維數(shù)據(jù)庫(kù)產(chǎn)品MDDB構(gòu)造的數(shù)據(jù)倉(cāng)庫(kù)從物理結(jié)構(gòu)上保證了你
查詢的迅速、方便。E.F.Codd在提出在線分析處理OLAP概念時(shí),多維數(shù)據(jù)結(jié)構(gòu)是實(shí)
現(xiàn)其任務(wù)的第一項(xiàng)要求。一些簡(jiǎn)單的決策支持所需要的就是有針對(duì)性的數(shù)據(jù)。在數(shù)
據(jù)重組后的數(shù)據(jù)倉(cāng)庫(kù)中還建立了所謂數(shù)據(jù)市場(chǎng)(Data Marts),它就可以更針對(duì)決
策支持的需要而設(shè)計(jì),其中還可綜合不同層次的匯總數(shù)據(jù)和跨數(shù)據(jù)倉(cāng)庫(kù)主題的數(shù)據(jù)
。
SAS軟件研究所對(duì)數(shù)據(jù)挖掘所下的定義是:數(shù)據(jù)挖掘是按照既定的業(yè)務(wù)目標(biāo),
對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索、揭示隱藏其中的規(guī)律性并進(jìn)一步將之模型化的先進(jìn)、
有效的方法。
對(duì)數(shù)據(jù)的探索、挖掘首先要有一個(gè)明確的業(yè)務(wù)目標(biāo)。一組生產(chǎn)數(shù)據(jù)可作生產(chǎn)能
力的分析;可作生產(chǎn)成本核算的分析;亦可作影響產(chǎn)品質(zhì)量諸因素的分析。目標(biāo)決
定了此后數(shù)據(jù)挖掘過(guò)程的各種運(yùn)作,并導(dǎo)引了運(yùn)作的方向。雖然說(shuō)數(shù)據(jù)挖掘的業(yè)務(wù)
目標(biāo)在過(guò)程中不是不可修正的,也應(yīng)當(dāng)在工作進(jìn)程中不斷的進(jìn)一步明確化,但其基
本原則內(nèi)容要保持穩(wěn)定不變,否則數(shù)據(jù)挖掘工作是難以有效的進(jìn)行的。
這里所指的大量企業(yè)數(shù)據(jù)最好是按照數(shù)據(jù)倉(cāng)庫(kù)的概念重組過(guò)的,在數(shù)據(jù)倉(cāng)庫(kù)中
的數(shù)據(jù)、信息才能最有效的支持?jǐn)?shù)據(jù)挖掘。假如所取用的數(shù)據(jù)并不足以反映企業(yè)的
真實(shí)情況,當(dāng)然也不可能挖掘出有用的規(guī)律。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)重組,首先是從企業(yè)
正在運(yùn)行的計(jì)算機(jī)系統(tǒng)中完整地將數(shù)據(jù)取出來(lái)。所謂完整,就是決策支持目標(biāo)所涉
及的各個(gè)環(huán)節(jié)不能有遺漏;其次各個(gè)環(huán)節(jié)的數(shù)據(jù)要按一定的規(guī)則有機(jī)、準(zhǔn)確地銜接
起來(lái)。從決策支持的主題來(lái)看,這重新組織過(guò)的數(shù)據(jù),以極易取用的數(shù)據(jù)結(jié)構(gòu)方式
,全面的描述了該主題。
有了反映業(yè)務(wù)主題全貌的數(shù)據(jù)后,在進(jìn)行數(shù)據(jù)的分析、探索時(shí),對(duì)于不同的人
,可能會(huì)采用不同的方式方法。Gartner Group在評(píng)價(jià)數(shù)據(jù)挖掘工具時(shí),也特別提
到了面對(duì)各種不同類型人員的可伸縮性和完整性。SAS支持各層次用戶:
業(yè)務(wù)水平和數(shù)學(xué)水平可能比較一般,對(duì)這樣的用戶提供方便的數(shù)據(jù)查詢是非常重要
的。實(shí)際上早期的決策支持主要就是數(shù)據(jù)查詢的支持。可能也要做一些簡(jiǎn)單的數(shù)理
統(tǒng)計(jì)分析。若統(tǒng)計(jì)分析的要求是較明確的,可以事先做好,向他們提供統(tǒng)計(jì)分析的
結(jié)果。這可做成SAS數(shù)據(jù)倉(cāng)庫(kù)中的信息市場(chǎng)(Information Mart)。對(duì)應(yīng)他們隨機(jī)
的需求,應(yīng)當(dāng)提供菜單式選擇的方便工具。
業(yè)務(wù)水平較高,但數(shù)學(xué)水平一般,且沒(méi)有時(shí)間和興趣再鉆研數(shù)學(xué)方法的人,除了以
上資源外,還應(yīng)提供能簡(jiǎn)便的實(shí)現(xiàn)各種常用的數(shù)理統(tǒng)計(jì)的工具。讓他們不必受累于
繁雜的過(guò)程,通過(guò)簡(jiǎn)單的需求設(shè)定,即可執(zhí)行他們需要的操作。
有計(jì)算機(jī)和數(shù)學(xué)知識(shí),但對(duì)業(yè)務(wù)的熟悉程度一般的人員。對(duì)他們要提供較全面的數(shù)
據(jù)處理工具,如:數(shù)理統(tǒng)計(jì);聚類分析;決策樹(shù);人工神經(jīng)元網(wǎng)絡(luò);……等。
對(duì)有很深計(jì)算機(jī)和數(shù)學(xué)造詣的數(shù)據(jù)分析專家不僅要提供上述環(huán)境,而且還要提供實(shí)
現(xiàn)各種算法的工具和開(kāi)發(fā)平臺(tái)。
SAS系統(tǒng)提供了適合各類人員使用的既完整,又有伸縮性的摸塊化的工具。
通過(guò)探索和模型化所得的結(jié)果可分成兩種類型:一種是描述型的;另一種是預(yù)
測(cè)型的。描述型的結(jié)果是指通過(guò)數(shù)據(jù)挖掘量化的搞清了業(yè)務(wù)目標(biāo)的現(xiàn)狀。如在原來(lái)
工藝規(guī)程中允許的范圍內(nèi),生產(chǎn)出來(lái)的產(chǎn)品質(zhì)量水平波動(dòng)很大。通過(guò)數(shù)據(jù)挖掘找出
了這同一種產(chǎn)品在什么條件下產(chǎn)出的產(chǎn)品質(zhì)量比較好;什么條件下產(chǎn)出的產(chǎn)品質(zhì)量
較差。通過(guò)數(shù)據(jù)挖掘,描述清楚了產(chǎn)品質(zhì)量高低的規(guī)律性,這就為修改原來(lái)的工藝
規(guī)程提供了決策的支持依據(jù)。
通過(guò)數(shù)據(jù)挖掘還可以建立起企業(yè)或某個(gè)過(guò)程的各種不同類型模型。這些模型不
僅能描述當(dāng)前的現(xiàn)狀和規(guī)律性,而且利用它還可以預(yù)測(cè)當(dāng)條件變化后可能發(fā)生的狀
況。這就為企業(yè)開(kāi)發(fā)新產(chǎn)品;甚至于為企業(yè)業(yè)務(wù)重組提供決策支持依據(jù)。
在世界走向信息化的今天,充分利用企業(yè)的信息資源,挖掘企業(yè)和所對(duì)應(yīng)市場(chǎng)
的運(yùn)作規(guī)律性,以不斷提高企業(yè)的經(jīng)濟(jì)效益是先進(jìn)企業(yè)的必由之路。世界有名的
Gartner Group咨詢顧問(wèn)公司預(yù)計(jì):不久的將來(lái)先進(jìn)的大企業(yè)將會(huì)設(shè)置"統(tǒng)一數(shù)據(jù)分
析專家"的工作崗位。
在以SAS數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘應(yīng)用獲獎(jiǎng)的美國(guó)LTV鋼鐵公司闡述其獲獎(jiǎng)文章的題
目是"DW + DM = $aving"亦即在企業(yè)中建立數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)挖掘就是挖取企業(yè)的
經(jīng)濟(jì)效益。
SAS的數(shù)據(jù)挖掘的方法論-SEMMA
正象是你拿個(gè)鎬在山上挖幾下不能算是開(kāi)采礦山一樣,用數(shù)理統(tǒng)計(jì)方法或人工
神經(jīng)元網(wǎng)絡(luò)作個(gè)數(shù)據(jù)分析,也不能說(shuō)就是在進(jìn)行數(shù)據(jù)挖掘了。要開(kāi)采礦山,首先要
按照人類總結(jié)千百年來(lái)經(jīng)驗(yàn)所形成的理論規(guī)律去找礦;發(fā)現(xiàn)礦藏后還要根據(jù)其實(shí)際
地質(zhì)情況,有針對(duì)性的采用相應(yīng)的方法最有效的挖掘才能獲得有價(jià)值的寶藏。同樣
,要想有效地進(jìn)行數(shù)據(jù)挖掘也必須要有好的工具和一整套妥善的方法論。可以說(shuō)在
數(shù)據(jù)挖掘中你采用的工具、使用工具的能力、以及數(shù)據(jù)挖掘過(guò)程中的方法論在很大
程度上決定了你能開(kāi)拓的成果。SAS研究所不僅有豐富的工具供你選用,而且在多
年的數(shù)據(jù)處理研究工作中積累了一套行之有效的數(shù)據(jù)挖掘方法論──SEMMA,通過(guò)
使用SAS技術(shù)進(jìn)行數(shù)據(jù)挖掘,我們?cè)敢夂湍惴窒磉@些經(jīng)驗(yàn):
Sample──數(shù)據(jù)取樣
Explore──數(shù)據(jù)特征探索、分析和予處理
Modify──問(wèn)題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇
Model──模型的研發(fā)、知識(shí)的發(fā)現(xiàn)
Assess──模型和知識(shí)的綜合解釋和評(píng)價(jià)
Sample──數(shù)據(jù)取樣
當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與你要探索問(wèn)題相關(guān)的
樣板數(shù)據(jù)子集,而不是動(dòng)用全部企業(yè)數(shù)據(jù)。這就象在對(duì)開(kāi)采出來(lái)礦石首先要進(jìn)行選
礦一樣。通過(guò)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通
過(guò)數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來(lái)。
通過(guò)數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān)。在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,即
使你是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)取樣,也不要忘記檢查其質(zhì)量如何。因?yàn)橥ㄟ^(guò)數(shù)
據(jù)挖掘是要探索企業(yè)運(yùn)作的規(guī)律性的,原始數(shù)據(jù)有誤,還談什么從中探索規(guī)律性。
若你真的從中還探索出來(lái)了什么"規(guī)律性",再依此去指導(dǎo)工作,則很可能是在進(jìn)行
誤導(dǎo)。若你是從正在運(yùn)行著的系統(tǒng)中進(jìn)行數(shù)據(jù)取樣,則更要注意數(shù)據(jù)的完整性和有
效性。再次提醒你在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,慎之又慎!
從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達(dá)到的
目標(biāo)來(lái)區(qū)分采用不同的辦法:如果你是要進(jìn)行過(guò)程的觀察、控制,這時(shí)你可進(jìn)行隨
機(jī)取樣,然后根據(jù)樣本數(shù)據(jù)對(duì)企業(yè)或其中某個(gè)過(guò)程的狀況作出估計(jì)。SAS不僅支持
這一取樣過(guò)程,而且可對(duì)所取出的樣本數(shù)據(jù)進(jìn)行各種例行的檢驗(yàn)。若你想通過(guò)數(shù)據(jù)
挖掘得出企業(yè)或其某個(gè)過(guò)程的全面規(guī)律性時(shí),必須獲得在足夠廣泛范圍變化的數(shù)據(jù)
,以使其有代表性。你還應(yīng)當(dāng)從實(shí)驗(yàn)設(shè)計(jì)的要求來(lái)考察所取樣數(shù)據(jù)的代表性。唯此
,才能通過(guò)此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。利用它支持你進(jìn)行決策才
是真正有效的,并能使企業(yè)進(jìn)一步獲得技術(shù)、經(jīng)濟(jì)效益。
Explore──數(shù)據(jù)特征探索、分析和予處理
前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對(duì)如何達(dá)到數(shù)據(jù)挖掘目的的先驗(yàn)的認(rèn)
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -