?? 中文—[6]數(shù)據(jù)倉庫技術(shù)在圖書館的應(yīng)用探討.txt
字號:
第1 期(總第85 期) 情報(bào)探索 2003 年3 月
№
1(Serial
№
85) Information Research M ar12003
數(shù)據(jù)倉庫技術(shù)在圖書館的應(yīng)用探
討
摘 要 介紹了數(shù)據(jù)倉庫的概念、特點(diǎn)及其相關(guān)技術(shù), 并對數(shù)據(jù)倉庫技術(shù)應(yīng)用于圖書館領(lǐng)域的可行性及
武漢大學(xué)信息管理學(xué)院 湖北
蔡 敏
430072(
)
應(yīng)用前景進(jìn)行探討。
關(guān)鍵詞 數(shù)據(jù)倉庫 圖書館自動(dòng)化 決策
1 數(shù)據(jù)倉庫技術(shù)
1. 1 概念
對數(shù)據(jù)倉庫的解釋, 目前較權(quán)威的是號稱“數(shù)據(jù)倉
庫之父”的W. H. Inmon 在《Building the Data Ware2
house 》中提出的: 數(shù)據(jù)倉庫是支持管理決策過程的、面
向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)
據(jù)集合。我們可以這樣來理解: 數(shù)據(jù)倉庫為支持海量存
儲和高層決策分析提供了一種解決方案。它抽取和凈
化來自不同應(yīng)用系統(tǒng)的數(shù)據(jù), 從事物發(fā)展和歷史的角
度進(jìn)行組織和存儲, 并通過對這種集成化數(shù)據(jù)的分析
和挖掘, 為最終用戶提供綜合性和分析性的深層次信
息, 是基于傳統(tǒng)數(shù)據(jù)庫技術(shù)的一種應(yīng)用拓展。
1. 2 特點(diǎn)
(1) 海量信息: 數(shù)據(jù)倉庫的數(shù)據(jù)量應(yīng)足以支持?jǐn)?shù)據(jù)
分析、查詢報(bào)表生成以及與歷史數(shù)據(jù)的對比, 因此容量
遠(yuǎn)遠(yuǎn)大于一般的數(shù)據(jù)庫。數(shù)據(jù)倉庫的一般容量在
50GB 左右, 大型的可達(dá)到TB 級。
(2) 數(shù)據(jù)面向主題: 數(shù)據(jù)倉庫圍繞確定的主題來組
織和提供數(shù)據(jù)。所謂主題, 是根據(jù)用戶提出的決策需求
進(jìn)行抽象的結(jié)果。每一個(gè)主題基本對應(yīng)一個(gè)宏觀的分
析領(lǐng)域, 可以統(tǒng)一刻畫出各個(gè)分析對象所涉及的各項(xiàng)
數(shù)據(jù)及數(shù)據(jù)間的關(guān)系, 具有更高的數(shù)據(jù)抽象級別。
(3) 數(shù)據(jù)的集成性: 由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自不
同的信息源, 進(jìn)入數(shù)據(jù)倉庫之前, 必須統(tǒng)一原始數(shù)據(jù)中
的所有矛盾之處, 進(jìn)行合理的重組、轉(zhuǎn)換與集成, 以適
應(yīng)數(shù)據(jù)倉庫面向主題的要求。
(4) 數(shù)據(jù)的穩(wěn)定性: 數(shù)據(jù)倉庫反映的不是日常事務(wù)
中的聯(lián)機(jī)處理數(shù)據(jù), 而是相當(dāng)長時(shí)間內(nèi)的歷史數(shù)據(jù), 一
般不進(jìn)行數(shù)據(jù)的即時(shí)更新, 因此具有相對的穩(wěn)定性。
(5) 數(shù)據(jù)的時(shí)間變化性: 數(shù)據(jù)倉庫是不同時(shí)間的數(shù)
據(jù)集合, 其保存的數(shù)據(jù)具有一定的時(shí)限, 隨著時(shí)間的變
化, 需要不斷增加新內(nèi)容, 刪去過時(shí)的信息以及對綜合
數(shù)據(jù)進(jìn)行重新計(jì)算綜合。
1. 3 相關(guān)技術(shù)
數(shù)據(jù)倉庫的相關(guān)技術(shù)構(gòu)成了數(shù)據(jù)倉庫系統(tǒng)前端的
工具層。正是通過利用這些工具, 人們才能真正高效地
發(fā)掘出數(shù)據(jù)倉庫中蘊(yùn)藏的寶貴信息。
(1) 聯(lián)機(jī)分析處理: 聯(lián)機(jī)分析處理專門用于支持復(fù)
雜的分析操作。它可以采用多維的形式對信息進(jìn)行多
方面和多角度的觀察, 并提供直觀易懂的查詢結(jié)果, 使
決策人員能夠?qū)?shù)據(jù)進(jìn)行深入了解。
(2) 決策支持系統(tǒng)(DSS): 決策支持系統(tǒng)和數(shù)據(jù)倉
庫執(zhí)行的都是決策和趨勢分析類的應(yīng)用。DSS 中的一
些技術(shù)可以很好地集成到數(shù)據(jù)倉庫中, 使數(shù)據(jù)倉庫的
分析能力更加強(qiáng)大。例如:DSS 中的傳統(tǒng)統(tǒng)計(jì)分析模
型可以幫助用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行更加有效、
更加深入的分析, 從而更好地掌握和利用信息。
(3) 數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘是數(shù)據(jù)倉庫應(yīng)用中比較重
要且相對獨(dú)立的部分, 它可以從數(shù)據(jù)倉庫的海量數(shù)據(jù)
中提取出人們感興趣的知識, 這些知識是隱含的、事先
未知的潛在有用信息。提取的知識以概念、規(guī)則、規(guī)律、
模式等形式提供給用戶。
2 數(shù)據(jù)倉庫技術(shù)應(yīng)用于圖書館領(lǐng)域的可行性分析
2. 1 信息化需求的牽引
在信息化社會(huì)中, 圖書館更好的生存與發(fā)展和先
進(jìn)技術(shù)的運(yùn)用是密不可分的。從近代圖書館的理論與
實(shí)踐來看, 圖書館一直在不遺余力地追逐著信息.計(jì)算
機(jī)技術(shù)的發(fā)展。信息技術(shù)極大地推動(dòng)了圖書館的現(xiàn)代
化進(jìn)程, 同時(shí)也帶來了信息的爆炸式增長。在知識經(jīng)濟(jì)
時(shí)代, 解決好海量信息的存儲開發(fā)與利用, 是關(guān)系到圖
書館未來的生存與發(fā)展的重大問題。運(yùn)用數(shù)據(jù)倉庫技
術(shù)實(shí)現(xiàn)海量數(shù)據(jù)的存儲和利用、支持圖書館各種層次
的科學(xué)決策服務(wù), 實(shí)現(xiàn)高效的行業(yè)信息合作模式, 是信
息化帶來的外部壓力與圖書館內(nèi)部發(fā)展機(jī)制的共同需
求。
2. 2 物質(zhì)基礎(chǔ)的形成
一方面, 我國的圖書館系統(tǒng)經(jīng)過多年的自動(dòng)化建
設(shè), 已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲備, 并積累了大量
·32
·
情報(bào)探索 2003 年3 月
數(shù)據(jù), 為數(shù)據(jù)倉庫應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方
面, 圖書館的數(shù)字化發(fā)展是我國信息化建設(shè)的重要組
成部分, 國家對此給予了高度的重視并提供了大量政
策上和經(jīng)濟(jì)上的支持, 為行業(yè)性數(shù)據(jù)倉庫的實(shí)施提供
了良好的政策環(huán)境和經(jīng)濟(jì)保障。
2. 3 實(shí)現(xiàn)技術(shù)的成熟
數(shù)據(jù)倉庫在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對成
熟的技術(shù)體系, 特別是在數(shù)據(jù)倉庫設(shè)計(jì)、數(shù)據(jù)抽取以及
有當(dāng)前信息, 同時(shí)還集成有外部數(shù)據(jù), 為咨詢館員提供
了一個(gè)廣闊的查詢數(shù)據(jù)源。同時(shí), 數(shù)據(jù)倉庫為分析和挖
掘信息提供了一個(gè)良好的數(shù)據(jù)環(huán)境, 利用OLA P 和信
息挖掘工具, 一方面咨詢館員可以從海量數(shù)據(jù)中分析
出事物之間的關(guān)聯(lián), 挖掘出隱藏其中的規(guī)律信息, 形成
滿足用戶需求的深層次信息產(chǎn)品。另一方面, 還可以根
據(jù)用戶的歷史咨詢記錄, 分析出他們的研究方向和興
趣所在, 實(shí)現(xiàn)主動(dòng)信務(wù)。息服化的個(gè)性
聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展, 3.3 支持圖書館的未來發(fā)展
為數(shù)據(jù)倉庫的應(yīng)用奠定了技術(shù)基礎(chǔ)。另外, 數(shù)據(jù)倉庫技作為圖書館的未來發(fā)展趨勢, 數(shù)字圖書館在研究
術(shù)在發(fā)達(dá)國家的電信、制造、零售、金融等領(lǐng)域已有較中遭遇了重重的困難, 知識的有效組織與發(fā)現(xiàn)就是一
深程度的應(yīng)用, 并取得了巨大的回報(bào), 這些成功應(yīng)用的段時(shí)期內(nèi)數(shù)字圖書館所面臨的重要課題之一。鑒于數(shù)
例子為我們提供了可資借鑒的寶貴經(jīng)驗(yàn)。
3 數(shù)據(jù)倉庫技術(shù)在圖書館領(lǐng)域的應(yīng)用前景
3. 1 支持圖書館的決策管理
管理水平低下是影響我國圖書館事業(yè)發(fā)展的重要
因素之一, 管理水平的提高很大程度上取決于決策的
科學(xué)與否。傳統(tǒng)的圖書館決策方式大多依靠經(jīng)驗(yàn)進(jìn)行
決策, 存在主觀、片面、盲目等諸多問題, 無法適應(yīng)時(shí)代
發(fā)展的要求, 采用數(shù)據(jù)倉庫技術(shù)能夠?yàn)轭I(lǐng)導(dǎo)層的科學(xué)
決策提供強(qiáng)有力的保障。首先, 數(shù)據(jù)倉庫能將涉及圖書
館這一信息系統(tǒng)的各種內(nèi)部數(shù)據(jù)和外部信息匯集起
來, 經(jīng)過處理和轉(zhuǎn)換, 形成集中統(tǒng)一、隨時(shí)可用的決策
信息, 防止因信息不足造成的錯(cuò)誤決策。其次, 利用數(shù)
據(jù)倉庫系統(tǒng)提供的OLA P 工具可以對集成數(shù)據(jù)進(jìn)行
多維分析比較, 對決策假設(shè)進(jìn)行審查和驗(yàn)證, 提高決策
的可靠度和可行性, 達(dá)到合理利用有限資金, 優(yōu)化圖書
館的資源配置的目的。第三, 數(shù)據(jù)挖掘工具可以從歷史
數(shù)據(jù)中找出潛在的模式, 并在模式的基礎(chǔ)上自動(dòng)作出
預(yù)測, 這對啟發(fā)圖書館決策者的創(chuàng)新思維, 應(yīng)對信息化
社會(huì)的挑戰(zhàn)具有重大意義。
3. 2 支持圖書館的業(yè)務(wù)工作
數(shù)據(jù)倉庫技術(shù)對圖書館業(yè)務(wù)工作的支持主要體現(xiàn)
在信息采集和信息咨詢兩個(gè)方面:
作為信息鏈的第一個(gè)關(guān)鍵環(huán)節(jié), 信息采集是整個(gè)
圖書館系統(tǒng)高效運(yùn)轉(zhuǎn)的基礎(chǔ)。隨著出版物的數(shù)量日益
增多, 載體日益豐富, 圖書館信息結(jié)構(gòu)、讀者需求與資
金利用的平衡問題越來越不易把握, 也令采購工作的
決策變得更加復(fù)雜。數(shù)據(jù)倉庫技術(shù)可以在分析內(nèi)部的
歷史采購數(shù)據(jù)、讀者數(shù)據(jù)、流通數(shù)據(jù)、反饋信息以及來
自外部的各種學(xué)科發(fā)展信息的基礎(chǔ)上深入了解學(xué)科的
走勢和讀者的需求, 幫助采購人員確定采購重點(diǎn), 保障
圖書館信息資源體系的科學(xué)性和合理性。
網(wǎng)絡(luò)時(shí)代的圖書館咨詢需求不再局限于簡單層次
的信息查詢與反饋, 而是轉(zhuǎn)向廣闊的信息源, 要求咨詢
人員提供綜合度高、附加值大的信息產(chǎn)品。數(shù)據(jù)倉庫作
為新型的信息架構(gòu), 既含有了圖書館的歷史信息, 也含
據(jù)倉庫技術(shù)在數(shù)據(jù)的組織與分析、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)
等方面存在的巨大潛力, 學(xué)術(shù)界普遍認(rèn)為數(shù)據(jù)倉庫可
以為數(shù)字圖書館的建設(shè)提供關(guān)鍵技術(shù)。例如: 元數(shù)據(jù)的
介定與自動(dòng)抽取, 海量信息的有效存儲和利用, 超大規(guī)
模分布式數(shù)據(jù)庫的快速存取以及分布式資源庫互操作
性的實(shí)現(xiàn)等都能夠借助和參考數(shù)據(jù)倉庫技術(shù)。正在實(shí)
施的國家863 計(jì)劃中國數(shù)字圖書館工程對數(shù)據(jù)倉庫技
術(shù)在數(shù)字圖書館建設(shè)中實(shí)際應(yīng)用進(jìn)行了有益的嘗試,
工程的一個(gè)重要部分就包括建立分布式存儲、集中式
管理的大型數(shù)據(jù)倉庫, 并對其進(jìn)行智能化的管理與挖
掘, 再通過個(gè)性化和智能化的人機(jī)交互界面實(shí)現(xiàn)網(wǎng)絡(luò)
信息服務(wù)。
總之, 在社會(huì)信息化浪潮的推動(dòng)下, 未來的圖書館
與信息技術(shù)的結(jié)合將更加緊密。數(shù)據(jù)倉庫技術(shù)作為信
息技術(shù)構(gòu)架的新焦點(diǎn), 雖然在圖書館領(lǐng)域的應(yīng)用還處
于起步階段, 但基于其在數(shù)據(jù)的組織、分析和知識發(fā)現(xiàn)
等方面的巨大優(yōu)勢和對信息的深層挖掘能力, 將日益
顯示出強(qiáng)大的發(fā)展?jié)摿蛷V闊的應(yīng)用前景。
參考文獻(xiàn)
1 VidettePoe . BuildingaDataWarehouseforDeci2
sion Support . By Prentice PTR , Prentice-Hall.
Inc, 1996
2 王珊. 數(shù)據(jù)倉庫技術(shù)和聯(lián)機(jī)分析處理. 北京: 科學(xué)出
版社, 1998
3 胡侃, 夏紹瑋. 基于大型數(shù)據(jù)倉庫的數(shù)據(jù)挖掘: 研究
綜述. 軟件學(xué)報(bào), 1998, 9 (1)
4 張瀾, 康增培. 數(shù)據(jù)倉庫企業(yè)的錦囊, http:
.
m edi2
a. ccidnet. m edia.445..
com .ccu.06901h tm
5 張學(xué)福. 數(shù)據(jù)倉庫技術(shù)與我國市場決策支持信息資
源建設(shè). 中國圖書館學(xué)報(bào), 1999 (2)
6 張述林, 陳敏. 數(shù)據(jù)倉庫技術(shù)及其在圖書館決策中
的應(yīng)用. 現(xiàn)代圖書情報(bào)技術(shù), 2000 (1)
7 徐仲. 數(shù)據(jù)倉庫技術(shù)及其在圖書館中的應(yīng)用. 圖書
館建設(shè), 2001 (1)
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -