?? 8.txt
字號:
發信人: Axiao (阿肖期待涅磐中), 信區: DataMining
標 題: 轉自數據倉庫之路.西陸論壇
發信站: 南京大學小百合站 (Sat Mar 16 21:34:50 2002)
如果已經有人發過,請斑竹刪了,謝謝
構建基于數據倉庫的DSS [heymans77]
由于DSS(決策支持系統)的先天不足,它的橫空出世并沒有給業界帶來多大的驚喜。然而
,隨著數據倉庫的加入,DSS系統的尷尬處境正在逐步好轉。
一.DSS的先天不足
決策支持系統(DDS)是在管理信息系統的基礎上發展起來的,在數據倉庫、OLAP技術和數
據開采工具出現以前,DDS在實際應用開發過程中暴露出許多問題,主要有以下4個方面:
(1)DDS使用的數據庫(DB)只能對原始數據進行一般的加工和匯總,致使決策所需信息
不足,難以滿足DDS的需要。DB中的數據還存在以下缺點:
①缺乏組織性從各個部門抽取的數據沒有統一的格式標準,數據雜亂且不穩定;
②數據的利用率低由于數據缺少統一標準,而難以轉化為有用的信息,原始數據定義的不
一致性導致其可信度降低;
③數據存儲不完整DDS只有對較長一段時間的完整數據進行分析才會有較高的預測率。
(2)由于決策本身的動態性和復雜性,針對不同的情況應有不同的處理方法,而模型庫提
供的分析能力有限,它所提供的模型獨立于環境之外,決策者和模型交互很少,模型參數
固定不變,不符合決策要求,DDS所作出的決策常被有經驗的決策者一口否定,使決策者對
DDS產生不信任感。
(3)在實際開發DDS過程中,人機接口部件占整個DDS開發工作量的一半,人的任何意圖及
系統對人的任何支持都要通過人機接口才能最終實現,因此它在整個系統中起著舉足輕重
的作用。現在人機接口開發得不理想,可以說是DDS實施中的一個瓶頸。
二.DSS因數據倉庫而實現了突破
進入90年代后,信息技術界悄然掀起數據倉庫和OLAP技術及數據采掘技術的研究和開發熱
潮,這為克服傳統DDS存在的問題提供了技術上的支持,使DDS的發展躍上一個新的臺階,
也為DDS開辟了一條新的途徑。目前開發的綜合DDS是以數據倉庫(DataWarehouse)技術為
基礎,以聯機分析處理(OLAP)和數據采掘(DataMining)工具為手段進行實施的一整套
解決方案。
一般決策所需的數據總是與一些維數(每一維代表對數據的一個特定的觀察視角,如地區
、時間等)和不同級別(如部門、單位、地區和國家)的統計和計算有關。以多維數據為
核心的多維數據分析是決策的主要內容,數據倉庫的多維特征滿足DDS對數據的分析要求,
并且克服數據庫的數據組織性差、利用率低的缺點。數據庫不具有多維特征,但卻是DW構
建的基礎。在數據庫多年的應用中已經積累大量數據,而且目前數據庫的數量和規模還在
迅速增加和擴大,從而出現“數據豐富、知識貧乏”的問題。因此,從龐大的數據庫中抽
出有用的信息已是當務之急,要成功地進行信息抽取首先要建立數據倉庫。
三.如何建立數據倉庫
數據倉庫的實現主要以關系數據庫(RDB)技術為基礎,因為關系數據庫的數據存儲和管理
技術發展得較為成熟,其成本和復雜性較低,已開發成功的大型事務數據庫多為關系數據
庫,但關系數據庫系統并不能滿足數據倉庫的數據存儲要求,需要通過使用一些技術,如
動態分區、位圖索引、優化查詢等,使關系數據庫管理系統在數據倉庫應用環境中的性能
得到大幅度的提高。
數據倉庫在構建之初應明確其主題,主題是一個在較高層次將數據歸類的標準,每一個主
題對應一個宏觀的分析領域,針對具體決策需求可細化為多個主題表,具體來說就是確定
決策涉及的范圍和所要解決的問題。但是主題的確定必須建立在現有聯機事務處理(OLTP
)系統基礎上,否則按此主題設計的數據倉庫存儲結構將成為一個空殼,缺少可存儲的數
據。但一味注重OLTP數據信息,也將導致迷失數據提取方向,偏離主題。需要在OLTP數據
和主題之間找到一個“平衡點”,根據主題的需要完整地收集數據,這樣構建的數據倉庫
才能滿足決策和分析的需要。
建立一個數據倉庫需要經過以下幾個處理過程:①數據倉庫設計;②數據抽取;③數據管
理。
(1)數據倉庫設計
根據決策主題設計數據倉庫結構,一般采用星型模型和雪花模型設計其數據模型,在設計
過程中應保證數據倉庫的規范化和體系各元素的必要聯系。主要有以下3個步驟:
①定義該主題所需各數據源的詳細情況,包括所在計算機平臺、擁有者、數據結構、使用
該數據源的處理過程、倉庫更新計劃等。
②定義數據抽取原則,以便從每個數據源中抽取所需數據;定義數據如何轉換、裝載到主
題的哪個數據表中。
③將一個主題細化為多個業務主題,形成主題表,據此從數據倉庫中選出多個數據子集,
即數據集市(DataMart)。數據集市通常針對部門級的決策或某個特定業務需求,它開發
周期短,費用低,能在較短時間內滿足用戶決策的需要。因此,在實際開發過程中可以選
擇在成功建立幾個數據集市后再構建數據倉庫這種策略。
這些數據定義直接輸入系統中,作為元數據(metadata)存儲,供數據管理模塊和分析使
用。元數據存儲在元數據庫中,它不僅是數據倉庫的文檔資料,供管理、維護人員使用,
而且亦可供用戶查詢,使之更好地了解數據倉庫結構,提高自己的使用水平。
(2)數據抽取模塊
該模塊是根據元數據庫中的主題表定義、數據源定義、數據抽取規則定義對異地異構數據
源(包括各平臺的數據庫、文本文件、HTML文件、知識庫等)進行清理、轉換,對數據進
行重新組織和加工,裝載到數據倉庫的目標庫中。在組織不同來源的數據過程中,先將數
據轉換成一種中間模式,再把它移至臨時工作區。加工數據是保證目標數據庫中數據的完
整性、一致性。例如,有兩個數據源存儲與人員有關的信息,在定義數據組成的人員編碼
類型時,可能一個是字符型,一個是整型;在定義人員性別這一屬性的類型時,一個可能
是char(2),存儲的數據值為“男”和“女”,而另一個屬性類型為char(1),數據值
為“F”和“M”。這兩個數據源的值都是正確的,但對于目標數據來說,必須加工為一種
統一的方法來表示該屬性值,然后交由最終用戶進行驗證,這樣才能保證數據的質量。在
數據抽取過程中,必須在最終用戶的密切配合下,才能實現數據的真正統一。早期數據抽
取是依靠手工編程和程序生成器實現,現在則通過高效的工具來實現,如Ardent公司的In
fomoter產品、SAS的數據倉庫產品SAS/WA(WarehouseAdministrator)及各大數據倉庫廠
商推出的、完整的數據倉庫解決方案。
(3)數據維護模塊
該模塊分為目標數據維護和元數據維護兩方面。目標數據維護是根據元數據庫所定義的更
新頻率、更新數據項等更新計劃任務來刷新數據倉庫,以反映數據源的變化,且對時間相
關性進行處理。更新操作有兩種情況,即在倉庫的原有數據表中進行某些數據的更新和產
生一個新的時間區間的數據,因為匯總數據與數據倉庫中的許多信息元素有關系,必需完
整地匯總,這樣才能保證全體信息的一致性。
數據倉庫規模一般都很大,從建立之初就要保證它的可管理性,一個企業可能建立幾個數
據倉庫或數據集市,但他們可共用一個元數據庫對其進行管理。首先從元數據庫查詢所需
元數據,然后進行數據倉庫更新作業,更新結束后,將更新情況記錄于元數據庫中。當數
據源的運行環境、結構及目標數據的維護計劃發生變化時,需要修改元數據。元數據是數
據倉庫的重要組成部分,元數據的質量決定整個數據倉庫的質量。
四.數據倉庫的DDS的支持
DDS對數據的使用是非結構化的,它的一次查詢操作要涉及上百張表的上千行數據,復雜的
表連接會嚴重影響系統的性能,而且用戶僅僅在分析的時候才查找有關數據,查找條件是
隨機的,因此基于事務型數據庫的DDS的數據分析能力很有限。目前,基于數據倉庫的DDS
的決策技術包括聯機分析處理(OLAP)和數據挖掘(DataMining),在DDS環境中數據倉庫
直接為聯機分析處理和數據挖掘提供數據能力。
1.聯機分析處理(OLAP)
OLAP是針對特定問題的聯機數據訪問和數據分析而產生的一種技術,它滿足DDS從多種角度
對數據進行快速、一致、交互地分析,克服傳統DDS交互能力差的弊病,使決策者能夠對數
據進行深入觀察。OLAP服務器使用為用戶預定義的多維數據視圖對數據倉庫的信息進行統
計分析處理,為具有明確分析范圍和分析要求的用戶提供高性能的決策支持。OLAP將分析
結果存儲在信息庫中,便于決策者通過對比多種分析結果作出更好的決策。此外,信息庫
中還存放決策準則、管理經驗、常識。OLAP工具目前以多維分析/ROLAP為主,如Informix
Metacube分析工具軟件。
2.數據挖掘
數據挖掘是指從大量數據中發現潛在的、有價值的及未知的關系、模式和趨勢,并以易被
理解的方式表示出來。在DDS中通過進行數據挖掘用以發現數據之間的復雜聯系以及這種聯
系對決策的影響。
在數據倉庫基礎上挖掘的知識通常以圖表、可視化、類自然語言等形式表示出來,但所挖
掘的知識并不都是有意義的,必須進行評價、篩選和驗證,把有意義的知識放到知識庫中
,隨著時間的推移將積累更多的知識。知識庫根據挖掘的知識類型包括總結性知識、關聯
性知識、分類模型知識、聚類模型知識,這些知識通過相應挖掘算法得到。
五.基于數據倉庫的DDS決策可以解決哪些類型的問題
DDS可以解決4個類型的問題:
(1)查詢一組數據,可回答的問題如產品A的價格是多少?
(2)采用數理統計模型、運籌模型進行定量分析,預測趨勢,可回答的問題如:某產品明
年銷售形勢如何?
(3)采用OLAP方法,通過代數運算將有關信息抽取出來作為問題的答案,如:某月某公司
的銷售怎樣?
(4)采用數據挖掘技術,通過對數據進行邏輯運算,找出它們之間內在聯系,可回答的問
題如:在某地影響某產品銷售的因素是什么?
第1類和第2類問題在過去傳統DDS中得到一定解決,現在的DDS重點解決第3類和第4類問題
。這些問題的提出與回答通過可視化工具在問題綜合與交互系統中實現,可視化工具提高
人機接口開發質量和效率,使人機界面更加簡潔、標準化。另外,可選用手寫輸入和聲音
輸入工具軟件,便于決策者提出問題。該系統根據對決策問題的判斷,在知識庫和信息庫
中查找解決方案,如查找到以直觀易理解的形式呈現給決策者,如查找不到再根據問題的
性質向下調用相應的決策工具。
--
歌 興 其 其 以 聊 縱 樂 失 得 俱 百 唯 日 所 有 何 情 塵 人 歲 日
以 之 理 言 遺 作 酒 之 之 之 化 年 利 落 謂 酒 須 仇 事 生 月 出 自
自 所 頗 雖 世 此 狂 最 何 何 塵 之 是 日 消 且 執 難 頗 苦 磋 日 遣
遣,至,重,微,俗,篇,呼,者,憂,喜,土,后,圖,出,磨,飲,著,了,多,短,跎,落
歡迎造訪http://xiaoysh.home.chinaren.com (新地址) 有更多我的作品
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 172.16.5.62]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -