?? 11.txt
字號:
發信人: rlp (阿茲貓), 信區: DataMining
標 題: 基于數據倉庫的銀行決策支持系統初步分析
發信站: 南京大學小百合站 (Sat May 3 06:01:49 2003)
基于數據倉庫的銀行決策支持系統初步分析
1 數據倉庫技術的發展
隨著計算機信息系統在全球范圍內的廣泛應用,許多機構和公司都積累了大量的歷史數
據.從這些數據中,可以研究過去的經營狀況、管理狀況,發現和挖掘可以改進的地方,可
使決策者很快地對自己的經營情況做出準確的評估,并為制訂計劃、確定發展規劃提供依據
.然而準確地從這成堆的歷史數據中挖掘、整理出有用的數據,需要使用新的方法。1990年
Prism Solutions公司W. H. Inmon在"Building the Data Warehouse"一書中提出數據倉庫
(Data Warehouse)的概念.這一概念和引入聯機分析處理(OLAP)方法解決了在信息技術
發展中存在的擁有大量數據及如何利用其中有價值信息的問題,為構筑合理可行的DSS/EIS
系統提出了解決方案。數據倉庫的設計是一個非常重要的基礎,國內外諸多研究者對此也提
出了許多建模的規劃及實現方法。
近年來,微電子、計算機技術快速發展,網絡通訊、操作平臺與工具、數據庫、多媒體(超
媒體)等新興技術領域,連連取得重大突破與實用化進展;企業競爭的日益激烈為DSS的需
求不斷注入活力,新興技術的發展尤其數據庫技術的發展,以數據倉庫(Data Warehouse,
DW)技術為基礎,以在線分析處理(On Line Analytical Processing,OLAP)技術和數據挖
掘(Data Mining,DM)技術工具為手段的決策支持系統解決方案逐漸成熟。這是一種對于
DSS問題的更為完整統一的解決途徑,它具有技術起點高、支持工具強、有廣闊實用前景等
優勢。
早期的決策支持系統(DSS)在應用需求推動和人工智能技術支持下,經過長期探索,建立
了一套理想化的框架體系,這就是以數據庫(DB)、模型庫(MB)和知識庫(KB)等"三庫
"為核心的理論體系結構和系統建設方法。有些系統取得了令人矚目的成績,然而就其總體
而言,以往的系統多數只能停留在演示階段,錄活性、可用性差,因而不夠實用,未能邁入
大規模的工業工程實踐。多年來,DSS仍然處在設計方案與系統規劃階段,缺乏可操作、可
實施的技術、方法和工具。究其原因,概因為缺乏豐富的數據資源所致,不論是內部數據還
是外部數據,操作數據還是管理數據,綜合數據還是歷史數據統統不足;DSS是面向分析的
,然而分析模型和算法設計均缺少堅實的數據基礎;所得少量信息,其關聯性又差(如"三
庫"無法有機結合),結果形成信息弧島;最后,缺乏有力的分析工具,無法從外部市場得
到成熟的分析工具產品,多數為自行開發,力不從心只能就事論事。
數據倉庫技術高性能的數據庫服務器,可處理數據量巨大、查詢要求復雜,且具查詢優化機
制的難題,并行數據庫技術,可并行存貯管理超大規模數據庫(VLDB),提供高速度復雜查
詢的能力;網絡與數據庫的互操作技術,使大量數據通過網絡的傳輸、轉化高得簡易可靠,
這些都為新興的數據倉庫技術的發展開辟了道路。
數據倉庫是面向主題的集成化的穩定的、隨時間變化的數據集合,用以支持決策管理的一個
過程。它是從數據庫技術發展而來,為決策服務的數據組織、數據存貯技術。數據倉庫把數
據使用者(企業的生產經營決策者)所關心的帶有統計性趨勢性的數據,從大量業已存在的
數據庫或業務處理過程中集中起來,經過加工、提煉和重組,形成新的存貯管理體系-數據
倉庫,作為向決策者提供查詢和分析用的集成化信息庫。
數據倉庫的信息源具有分布和異構的特點,主要信息可視為定義在各信息源上的實體化視圖
集合。數據倉庫管理系統把實體化視圖所對應的數據從信息源中提取出來,物理地存貯到
DW中,使之成為物理存貯的數據實體。因此,數據倉庫應具有兩方面功能,一是從信息源提
取數據并加工轉化存入DW中;二是在DW上處理用戶查詢與決策分析請求,要盡量避免直接訪
問數據源。數據倉庫要由不同信息源的數據(微數據)產生綜合數據,這可由各種聚集操作
(如分類、求和、計數等)得到。如何從綜合數據恢復微數據,以及如何在保持DW及時增加
新數據的同時,又支持對其數據實施有效存取,都是重要的技術。
數據倉庫是面向主題的,因而適合于決策支持的應用。數據倉庫中的數據是多維的,構成多
維數據庫,以便于從不同角度觀察分析問題。數據倉庫中的數據包括:近期基本數據(
Current detail data)遠期基本數據(Older detail data)、輕度綜合數據(Lightly
summarized data)、高度綜合數據(Highly summarized data)和元數據(Meta data)。
元數據是定義數據的數據,在數據倉庫中地位十分重要。建立數據倉庫的步驟是:(1)分
析決策需求,確定數據來源;(2)定義數據結合轉化過程;(3)建立數據倉庫;(4)建
立供用戶使用的DW工具。數據倉庫系統的體系結構,以及DW數據服務器結構已有多種實現途
徑,主要有:(1)專用的RDBMS,即在索引、掃描、復雜查詢諸方面,加以特殊處理的
RDBMS;(2)關系型OLAP用DBMS,即擴棄型RDBMS,將多維數據的操作映射到標準的關系型
操作上;(3)多維OLAP用DBMS,可直接實現對多維數據的管理與操作。
2 銀行決策支持系統建立的必要性
在當今信息社會里,信息正以爆炸的速度增長,面對來勢兇猛的信息,人們往往感到無所適
從。事實上,在這信息海洋里有用的信息比率很低。據IBM公司的測算,目前許多企業花費
昂貴代價建立起來的數據庫,真正有用的只有7%,問題就在于怎樣發現那些真正有用的信息
。就我國的銀行業而言,每家銀行都有自己龐大的客戶信息庫,可管理人員往往視這個信息
庫而不見,只注重其量的總和,如存款余額等,而不去研究開發這個信息庫的具體內容,無
法把數據轉化為對企業有用的信息,導致信息黃金的流失和資源的浪費,同時另一方面在其
新開發的業務中又不得不面對高風險威脅。在信息中搜尋黃金又不被信息表面的假象所迷惑
,不被信息海洋所淹沒,就要采用科學的方法和工具。
目前我國銀行業所做的各種信息系統一般都是OLTP系統,用于完成各種各樣的柜面業務,如
儲蓄系統、會計系統、信用卡系統等。有些銀行正在開發集各種柜面業務為一體的綜合柜面
業務系統,這些系統都是OLTP系統,重在提高業務運行管理效率。只要我們對各家銀行的系
統進行分析觀察,就會發現各系統的內容、模式及所提供的功能基本都是相同的,最多只是
所選軟硬件平臺的不同,這樣看來各家銀行耗費巨資進行的都是重復的開發,沒有把事務處
理系統外包出去,從事務處理中擺脫出來,不注重或從沒有查詢和分析已有的各種客戶信息
資料,從中找出潛在有用的信息。
我國各商業銀行比較長的一段時間來處在依靠擴大規模、搶占地盤來提高效益的規模效益階
段。經過盲目的機構設置、地盤搶占、人員投入之后,才發現實際產出的效益并沒有達到期
望的效果。目前國內金融機構日益增多,一些外資銀行也已搶灘,競爭日趨激烈,擴大規模
已不再是行之有效的經營手段。
隨著競爭的日益深入,美國商業銀行中的"深度效益"觀念必將融入我國商業銀行的管理
策略之中:把客戶細化為不同的個體,細化客戶信息的組織和分析,由分析工具和經驗選擇
特定的客戶群來劃定戰場,跟蹤每位消費者個體以及個性化的需求,在營銷方面實施關系營
銷,由傳統的注重交易轉變為注重客戶關系和客戶價值,從而產生了"關系銀行"這個概念。
美國Bank One銀行對自己的客戶進行調查發現,百分之二十的客戶創造銀行利潤,其它百分
之八十的客戶并沒有給銀行創造利潤。如果我國的銀行對自己的客戶進行調查,也會發現同
樣的結果,只是百分比不同而已。我們就是要把零散的、無序的、歷史的、當前的各種數據
集中起來建立數據倉庫,從所建立的數據倉庫中挖掘出為銀行創造利潤的這部分客戶,從復
雜的客戶信息中建立模型,對客戶記錄信息進行動態跟蹤和監測,計算客戶價值,鎖定特定
客戶群,分析潛在客戶群,制定不同市場需求、不同客戶群的市場戰略,根據客戶的價值選
定服務產品配置,從而與創造利潤的優良客戶建立長期關系。美國西部一家銀行測算以"深
度效益"為指導的促銷為1美元帶來10美元的回報。
建立數據倉庫,進行數據挖掘是金融監管的需要。我國的金融監管實時性差,嚴重滯后,東
南亞金融危機的發生迫使我國加強和改善金融監管,降低我國金融市場的風險。建立數據倉
庫,進行數據挖掘也是商業銀行生存發展、提高競爭力的需要。我國各商業銀行提供的服務
內容基本相同,市場競爭日益激烈,風險越來越大,僅靠傳統的服務已不能創造更多的利潤
,為了提高投資的有效性,降低風險,就要廣泛收集各方面信息,充分利用已有的各種數據
來爭取更多的優良客戶,支持決策的科學性、可靠性。
3建立銀行決策支持系統的原則方案
銀行決策支持系統主要是面對金融市場上資金的運作以及與此相關的金融和經濟行為。銀行
決策是為了實現銀行經營管理貨幣信用的方向、目標、規劃、政策策略和重大措施所做的考
慮和選擇。為了實現銀行決策的科學化,決策必須有明確的目標,可靠的高質量的信息基礎
,優選的科學理論和方法及進行反饋和調整的有效機制。
管理部門需要及時地了解銀行的關鍵數據,如借貸金額、大宗交易的頻繁程度,以便控制風
險,掌握各分行、支行的數據匯總,來促進管理、提高效率,了解客戶分布狀況和帶來的收
益,并為進一步拓展業務提供依據。
3.1需求的確定
數據倉庫系統的使用者是銀行各級的決策和業務人員,他們關心的問題和一般的操作人員不
同。具體說,銀行需要及時掌握的數據包括:儲蓄帳戶余額、含金量、應付利息、現金流入
量、現金流出量、現金轉入量、現金轉出量等等。對這些數據又需要從不同的類別和層次進
行統計與分析:
(1) 事實(Facts):如儲蓄帳戶余額、含金量、應付利息、現金流入量、現金流出量
、現金轉入量、現金轉出量等。這些數據是實際分析的基礎數據,它們日積月累,數量龐大
。
(2) 維(Dimensions):它是事實信息的屬性,如銀行組織結構營業網點、業務類別、
交易方式、客戶類型、時間。它們一般變化不大,數量也相對較小。
(3) 粒度(Units):它是維劃分的單位,如營業網點維(分行、支行甚至基層儲蓄所)
、業務類別維(活期、整存整取、大額定期、存本取息、定活兩便、POS)、交易方式維(柜員
、ATM、POS、銀聯、電話、Internet等)、客戶類型維(個人、全民企業、集體企業、外資企
業、合資企業、個體業主等等)、時間維(年、季、月、甚至旬、日)。每個交點就是事實,
即實際的情況,即×日××網點××資金的運作數據。如果是兩維的數據,就是平面;如果
超三維,則構成多維超立方體。決策者的查詢無非就是對事實立方體按一定的粒度切塊或組
合的過程。事實和維也不是一成不變的,有時也會根據決策者不同的思考角度而發生變化。
3.2模型與環境設計
設計數據倉庫的數據模型時,常用的邏輯建模工具是以維數據建模來表示事實、維、粒度的
關系,結構型式是星形模型和雪花模型.
3.2.1星形模型
模型中間表示資金運作情況(事實),四周表示的是與之相關維的信息(時間、客戶、方向
和地域等),每個維表有自己的屬性,維表和事實通過維關鍵字相關聯.星形模型的核心是
事實表(FactTable).它是按維進行查詢的中心--存儲真實數據即事實的地方.事實為數
字型的屬性,如計算和數量,可以求和、求平均、求最大及最小,并且按照各種統計運算進
行合計計算.事實屬性包含了適度的、關于事實表所管理的內容的數字型值.
使用星形模型的主要原因可提高查詢的性能和便于用戶安排不同的查詢.由于主要數據都在
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -