?? 704.txt
字號:
發信人: yaomc (白頭翁&山東大漢), 信區: DataMining
標 題: SAS數據挖掘技術的實現。
發信站: 南京大學小百合站 (Tue Dec 4 10:50:02 2001), 站內信件
SAS數據挖掘技術的實現
吳修霆
---- 在數據挖掘方面,SAS公司不僅提供了完整有伸縮性的模塊化工具,還在挖
掘過程中提供了從數據取樣(Sample)、數據探索(Explore)、數據調整(
Modify)、模型研發(Model)到模型綜合解釋和評價(Assess)的完整科學的
SEMMA方法論。下面,筆者將向大家介紹SAS的數據挖掘產品及其在國內外的應用實
例。
SAS數據挖掘產品
一、智能型的數據挖掘集成工具:
---- SAS/EM
---- 作為智能型的數據挖掘集成工具,SAS/EM的圖形化界面、可視化操作可引導
用戶(即使是數理統計經驗不太多的用戶)按SEMMA原則成功地進行數據挖掘,用
戶只要將數據輸入,經過SAS/EM運行,即可得到一些分析結果。有經驗的專家還可
通過修改數據調整分析處理過程。
---- SAS/EM可實現同數據倉庫和數據集市、商務智能及報表工具的無縫集成,它
內含完整的數據獲取工具、數據取樣工具、數據篩選工具、數據變量轉換工具、數
據挖掘數據庫、數據挖掘過程以及數據挖掘評價工具。
二、基于傳統統計算法的數據挖掘工具:
---- SAS/INSIGHT、SAS/STAT以及SAS/ETS等
---- SAS/INSIGHT 是一個可視化數據探索與分析工具,它將統計方法與交互式圖
形顯示融合在一起,為用戶提供全新的使用統計分析方法的環境。用戶用
SAS/INSIGHT可以考察單變量(或指標)的分布,顯示多變量(或指標)數據,用
回歸分析、方差分析和廣義線形模型等方法去建立模型。由于所有的圖形和分析都
是動態的,用戶可以通過3D旋轉圖形來探索數據,并通過點擊圖形上的點來識別它
們,方便快捷地增加或刪除一些變量。用戶還可以發現數據中的規律性,快捷地建
立模型,并分析各指標間的關系。
---- SAS/STAT軟件包中覆蓋所有實用數理統計方法,提供多個過程進行不同類型
模型與不同特點數據的回歸分析,具有多種形式模型化的選擇方法,可處理多種復
雜數據,并為多種試驗設計模型提供方差分析工具;它可處理一般線性模型和廣義
線性模型的專用過程,為主成分分析、典型相關分析、判別分析和因子分析提供許
多專用過程;此外,它含有多種聚類準則的聚類分析方法,用戶可利用SAS/STAT進
行生存分析。
---- SAS/ETS擁有豐富的計量經濟學和時間序列分析方法,是研究復雜系統和進行
預測的有力工具。它提供方便的模型設定手段與多樣的參數估計方法。
---- 除此之外,SAS/OR可提供全面的運籌學方法,SAS/QC為全面質量管理提供一
系列工具,SAS/IML提供功能強大的面向矩陣運算的編程語言。
---- 在數據挖掘中使用哪種方法,用SAS軟件包中什么方法來實現,主要取決于用
戶的數據集的特征和要實現的目標。實際上,選擇不是惟一的,用戶不妨多試幾種
方法,從實踐中選出最適合自己的方法和軟件。
---- 除了使用SAS的開發工具以外,用戶還可選擇其他廠商的開發工具,將SAS提
供的數據挖掘功能通過界面集成起來,實現用戶定制的數據挖掘應用。
三、產品應用范圍
---- SAS數據挖掘軟件廣泛應用于客戶關系管理、金融風險防范、供應關系管理、
數據庫營銷及競爭優勢分析等方面。據悉,SAS新近推出了專用于網絡流量分析的
最新軟件產品e-Discovery和webHound,可對優化網站的結構起到非常有效的作用
。
數據挖掘技術的成功應用
一、在寶鋼配礦系統中的應用
---- 寶鋼在冶煉鋼鐵的過程中要使用多種礦石原料,且大多靠進口,這使得配礦
一直是寶鋼努力研究解決的問題。1995年,寶鋼將配礦系統的研究開發列為重大科
研項目,希望利用計算機和信息技術,結合寶鋼十多年來的配礦經驗,探索出配礦
規律,提高燒結礦質量,降低配礦成本。
---- 在寶鋼的配料過程中,燒結礦的質量控制問題十分復雜:礦石以及輔料的種
類越多,越難以把握礦石配比;礦石之間的相互作用和交叉影響,使得配礦具有很
強的非線性特征,難以進行單因素分析;因為成本過高,不能進行工業實驗等等。
---- 寶鋼在配礦上迫切需要解決的問題有如下幾點:
---- 1.選用什么礦石,用怎樣的比例混勻,才能保證燒結礦的質量?
---- 2. 如何評價各種礦石以及它們對燒結礦有怎樣的影響?
---- 3.如何形成多種配礦方案,以應付各種情況?
---- 4.怎樣降低配礦成本?
---- 由于寶鋼多年來堅持計算機化管理,積累的大量數據,為數據挖掘提供了最
基本的條件。因此,為解決上述問題,寶鋼決定采用數據挖掘技術,應用SAS全套
的數據挖掘和數據分析軟件產品。
---- 在系統中,寶鋼應用SAS的聚類分析技術解決配礦方案分類和礦石分類的問題
;采用SAS神經元網絡來探索配礦規律,建立配礦模型;應用SAS全面的數據分析技
術,對配礦方案整體優化,尋求配礦方案中“足夠優”的答案。
---- 整個配礦系統由轉換和編輯、礦石評價和分類、訓練、方案預測、方案優化
和回歸分析等模塊組成。數據轉換和數據編輯模塊用來將多種異構的數據源轉換為
SAS格式;礦石評價和分類模塊用來進行聚類分析和綜合評價礦石;利用訓練模塊
訓練形成各種配礦模型,而方案預測模塊根據需求調用相應的模型對新方案進行質
量預測;方案優化模塊利用配礦模型產生優化的配礦方案。
二、鐵路春運客運研究
---- 解放后,中國鐵路總量雖然增長迅速,但運力仍然無法滿足中國人口流動需
要。尤其是在春運期間,如何對現有運力進行更加合理的調度、尋找春運期間影響
客運量的主要因素及制定合理對策等是鐵路部門迫切需要解決的問題。
---- 1998年鐵道部應用SAS數據分析預測和數據挖掘工具,對春運期間的鐵路客流
量進行了分析和研究,目的是對全國鐵路客運總量進行分析和預測,同時對北京、
上海、廣州、南京及西安等大城市的鐵路客運總量進行分別預測,挖掘春運期間影
響鐵路客運總量的關鍵因素。本次數據挖掘和分析的數據包括:1995、1996和
1997年全年的客運數據,以及1998年截止到最新日期能夠得到的數據,客運數據每
天都在以超過40MB的容量進行增加。所有鐵路客運數據都存儲在Sybase數據庫中,
運行在IBM的RISC/6000硬件平臺之上。
---- 在本次研究過程中,試驗了如下幾種方法,并對這幾種方法進行了比較。
采用SAS/ETS軟件對鐵路客運數據進行分析。應用SAS/ETS提供的時間序列模型和分
析方法對數據進行處理,尋找影響鐵路客運總量的因素,并對將來的鐵路客運總量
進行較為準確的預測。經試驗發現,這種分析方法能夠在一定程度上對中國每年及
每個時期的客運數據進行預測,但是,僅用此法并不足以很好地解決春運期間對鐵
路客運數據的預測和分析。
應用SAS/EM軟件工具對得到的數據進行處理。在對多樣化的數據進行清洗和處理的
基礎上,應用SAS/EM軟件中提供的決策樹工具對加工后的數據進行挖掘操作。通過
在客戶端應用該軟件,實時地改變解釋變量的組合。結果發現:農歷天的偏移量、
民工返潮及一些其他關鍵性因素和春運期間鐵路客運總量有很大關系。這就為在預
測過程中對模型進行優化,消除突發性因素對鐵路客運總量預測和分析結果的影響
提供了很好支持。
根據運輸局專家的意見對春運進行研究。多年工作使運輸專家們積累起豐富的經驗
。根據他們的經驗以及對中國鐵路春運情況的了解,糾正數據分析和預測過程中產
生的偏差,提高數據挖掘軟件的效率,使包含豐富數據模型工具和分析方法的軟件
功能得到最大限度的發揮。本次研究使鐵路部門發現了春運期間影響中國鐵路客運
運輸的一些關鍵因素,為鐵路部門在春運期間合理地調配全國的鐵路運力和安排相
關車次提供了決策支持。
三、數據挖掘在AutoTrader.com站點訪問量分析中的應用
---- 美國亞特蘭大的AutoTrader.com是世界上最大的汽車超級站點,站點上提供
非常豐富的二手汽車及其他交通工具信息。每天有許多用戶訪問該站點,尋求有用
的信息。
---- 由于決策者需要從多角度和層次來對客戶訪問站點的情況進行分析和管理,
所以他們需要知道:什么樣的客戶訪問這個站點、客戶喜歡怎樣的站點訪問路徑來
獲得所需信息、各個站點層次訪問量如何、同一位客戶訪問站點的頻率、客戶經常
重復進行怎樣的購買行為、哪位老客戶介紹來了新客戶以及經介紹來的新客戶和不
是經介紹來的新客戶購買習慣有什么不同等等。最后,AutoTrader.com 決定用相
關的分析和數據挖掘工具對用戶的網絡點擊流進行分析,從而決定自己是否需要根
據客戶的不同喜好開設特定服務區。
---- AutoTrader.com的數據存放在有4個處理器的Sun Microsystems 4000服務器
上,選用了SAS的分析和數據挖掘軟件,因為它們具有應用開發、信息和圖形展現
、Web發布及SAS/SPDS等方面集成的能力,使得AutoTrader.com對站點下一年度的
訪問流量可以進行預測。另外,由于它們可以很好地支持大數據量,AutoTrader.
com將不會為逐漸增長的數據量而擔心。
---- 不僅如此,AutoTrader.com還自己定制了應用系統,它每天凌晨2點應用系統
訪問日志文件中的數據,對數據自動解壓與分析,還自動生成包含訪問統計量和圖
表的網頁,并在第二天早晨自動送到決策人員的桌面機上。這樣,人們可以對這些
報表進行操作,以報表或3D圖表的形式進行瀏覽與觀察。
---- (作者地址:北京市海淀區花園路4號通恒大廈203室,100088)
--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,請先鑒定一下是否為真金!!!
熱烈歡迎大家到數據挖掘版(DataMining)光臨指導。
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 202.204.36.15]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -