?? 58.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 孟小峰先生談面向Internet的數據挖掘技術
發信站: 南京大學小百合站 (Mon Aug 27 09:54:11 2001)
數據挖掘走向Internet
——孟小峰先生談面向Internet的數據挖掘技術
記者: 於丹 FROM: 微電腦世界歷史期刊
(http://www.pcworld.com.cn/2000/back_issues/2014/1436.asp)
---- 問:隨著企業信息化建設的不斷深入,企業積累的數據量也越來越龐大。如何從這些
數據中發現其內在的規律,更加充分地利用數據,數據挖掘技術起到了至關重要的作用。
然而究竟什么是數據挖掘技術,很多人還知之不詳。您能否首先為我們介紹一下它的概念
及由來呢?
---- 答:近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據
庫被用于商業管理、政府辦公、科學研究和工程開發等等領域,這一勢頭仍將持續發展下去
。于是,一個新的挑戰被提了出來。在這所謂的信息爆炸的時代,信息過量幾乎成為人人需
要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息
利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和
戰略發展服務,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹
沒,同時卻仍然感到知識饑餓”的挑戰,數據挖掘(Data Mining)技術應運而生,并得以蓬勃
發展,越來越顯示出其強大的生命力。
---- 數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其
中的、人們事先不知道的但又是潛在有用的信息和知識的過程。還有很多和這一術語相近
似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持
等。
---- 數據挖掘的前身即知識發現(Knowledge Discovery),它源自于人工智能的機器學
習領域,其實質的內涵是在一個已知狀態的數據集(Data Set)上,通過設定一定的學習
算法,從數據集中獲取所謂的知識。坦白地說,人工智能領域中的知識發現技術已經發展
到了一個很成熟的階段,但是由于缺乏應用的土壤,它的路越走越窄。而與此同時,數據
庫技術也已經發展到一定的階段,并得到了廣泛的應用,各個企業都已經積累了無數的數
據資源,迫切需要有一種技術能夠幫助他們從數據中發掘出其內在的規律,數據挖掘技術
正好能滿足這一需求,它實質上就是知識發現技術在數據庫領域中的應用。
---- 知識發現技術的相關研究為數據挖掘技術提供了堅實的理論基礎,而且在數據挖掘領
域的研究中,也以有人工智能、統計學科背景的人居多,而有數據庫技術背景的人參與卻
很少。因此從某方面來說,數據挖掘技術仍然沒有發展到實用的階段。有人工智能背景的
人研究的出發點通常是試圖去構造一些精致的算法,卻很少考慮到實際的應用?,F在數據
挖掘的算法多達成百上千種,產品的使用難度也很大,如果用戶不是一個人工智能專家或
統計專家,都很難讓它發揮效用。在這一方面亟待進一步將技術實用化。
---- 問:談到數據挖掘,常常是和數據倉庫、OLAP等等聯系在一起,但人們對它們通常存
在著一些概念上的混淆,請問它們之間存在著怎樣的相互關系呢?
---- 答:很多人在這方面都確實存在著概念上的混淆。數據倉庫也是近年來逐漸興起的
一個概念。隨著企業信息化建設的不斷深入,企業的數據積累越來越大,企業信息系統本
身的構成也越來越復雜,例如原有的系統中可能會采用面向對象數據庫,也可能會采用關
系數據庫,而關系數據庫也可能采用的是不同廠家的產品,由此就出現了一個龐大而異構
的數據資源。數據倉庫就是要將這些數據資源集成起來,以滿足決策支持的需求。
---- 數據倉庫的實質就是一個數據庫,但是它存儲的數據與普通數據庫中的數據不太一樣
,它存儲的是從數據庫里面經過加工整理后的數據。例如對于商場應用來說,原有數據庫
中存儲的是每一筆交易的數據,而數據倉庫則要根據過往的歷史記錄進行提煉整理,存放
的可能是某種產品某月在某地區的特定銷量等記錄。
---- 數據倉庫將異構的數據集成起來,經過加工整理變成一個可用的數據資源,而數據挖
掘和OLAP(OnLine Analysis Process,聯機分析處理)則是在數據倉庫上進行操作,它們
都是基于數據倉庫的分析工具。數據挖掘和OLAP最本質的區別在于,數據挖掘是一種挖掘
性的分析工具,它主要是利用各種分析方法主動地去挖掘大量數據中蘊含的規律,而OLAP
則是一種求證性的分析工具,即已有一個假設,通過OLAP來得到驗證。OLAP所采用的驗證
方法多是基于數據立方體法,即通過對數據立方體的切片、切塊、旋轉、鉆取等操作來實
現對數據立方體快速的多維存取。所謂多維存取,是從不同的角度根據數據倉庫中的不同
主題來得出不同的結論。數據挖掘和OLAP這兩種分析工具本身是相輔相成的,因為OLAP可
以幫助人們提出假設,也可以驗證數據挖掘預測出的結果;數據挖掘能夠挖掘出一個結論
,但這個結論正確不正確,可以用OLAP去驗證。
---- 從圖1中我們可以清楚地了解到,傳統的數據環境基本上是數據操作型的,傳統的信
息系統只負責數據的增、刪及修改操作,而在數據庫的基礎上可實現的工作就是OLTP(On
Line Transaction Process,聯機事務處理)?,F在由于數據積累的不斷增多,人們需要
分析型的數據環境,于是就出現了由數據庫導出的數據倉庫,以此為基礎則可以實現OLAP
和數據挖掘,這里我們可以形象地用“深挖洞、廣積糧”來概括企業信息化建設的這種局
面。
---- 問:在Internet浪潮的沖擊下,人們面臨著數據爆炸的挑戰,如何從浩如煙海的數據中
找到內在的規律,數據挖掘技術顯然能為我們提供極大的幫助。那么,面向Internet的數
據挖掘技術進展程度如何呢?
---- 答:面向Internet的數據挖掘可以說是一個比較前瞻性的問題,有人稱之為Interne
t Mining或者是Web Mining,也取得了一些令人感興趣的結果,例如最近有不少產品用來
篩選Internet上的新聞,保護用戶不受無聊電子郵件的干擾和商業推銷,受到極大的歡迎。
但目前在學術界仍然對這一問題沒有什么特定的結論。面向Internet的數據挖掘比面向單
個數據倉庫的數據挖掘要復雜得多。因為傳統數據庫中的數據是結構化的,而Internet上
的數據其最大特點是半結構化的,這就決定了面向Internet的數據挖掘將是一個頗具挑戰
性的課題。所謂半結構化是相對于結構化和非結構化而言的。例如傳統數據庫中的數據結
構性很強,我們稱之為完全結構化的數據,而同時還存在一些諸如一本書、一張圖片等完
全無結構的數據。但是Internet上存在的數據既不是完全結構化的也不是完全非結構化的
,因為它的頁面也具有一定的描述層次的,存在一定的結構,所以我們將它稱為半結構化
的數據。
---- 從數據庫研究的角度出發,Web上網站的信息也可以看作是一個數據庫,一個更大的
、復雜性更高的數據庫。Web上的每一個站點就是一個數據源,每一個數據源都是異構的,
因為每一站點跟每一站點的信息和組織形式都不一樣,這就構成了一個巨大的、異構的數
據庫環境。如果想要利用這些數據進行數據挖掘,首先必須要研究站點之間異構數據的集
成問題。因為只有將這些站點上的數據都集成起來,提供給用戶一個統一的視圖或視角,
才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Internet上的數據查詢問
題。因為如果所需的數據都不能很有效地得到,對這些數據進行分析、處理就更是無從談
起。這些基礎性的問題都亟待解決。
---- 眾所周知,傳統的數據庫都有一定的數據模型,可以根據這個模型來具體地描述特定
的數據,同時可以很好地定義和解釋相關的查詢語言。而Internet上的數據特點很復雜,
沒有這樣特定的模型來描述。每一個站點上的數據都是由站點開發人員自行設計放置的,
而且數據本身具有自描述性和動態可變性等一系列復雜特性,其結構也不可琢磨。在這種
情況下如何來解決異構數據的集成和數據查詢問題呢?這就迫切需要有一個模型來清晰地
描述Internet上的數據。針對Internet上的數據半結構化的特點,尋找一個半結構化的數
據模型則成為了解決上述問題的關鍵所在。此外,除了要定義這樣一個半結構化數據模型
外,還需要一項技術能夠自動地從現有數據中將這個模型抽取出來,這就是所謂的模型抽
取技術。因為半結構化數據模型和半結構化數據模型抽取技術是面向Internet的數據挖掘
技術實施的前提,因此堪稱是當今數據庫研究領域的最大熱點。
---- 問:您剛才談到面向Internet的數據挖掘技術的實現首先要解決半結構化數據模型和
半結構化數據模型的抽取問題。那么請問這一方面的研究進展如何?
---- 答:半結構化數據模型的研究對數據庫界來說是一個全新的領域,早在1995年,斯坦
福大學已經開始了相關方面的研究。但當時研究的重點還沒有真正面對Web,而主要研究的
是異構數據環境,因為在異構環境中的數據已經存在這種半結構化的特征。后來隨著Inte
rnet的發展,Web上的數據半結構化特征日漸明顯,這一問題也就擴展到Web領域,最終提
出了針對Web數據的模型問題。相關的研究工作在1997~1998年間取得了一些結果,提出了
諸如Web SQL等大約一二十種的查詢語言?;赪eb上的內容查詢主要有兩個含義,一是頁
面內容的查詢,二是頁面與頁面之間鏈接的查詢,而像頁面之間鏈接的這種關系我們則稱
之為路徑表達。由于當時的Web都是基于HTML(HyperText Markup Language,超文本標記
語言)實現的,而HTML在路徑表達的實現上難度很大。因為HTML實際上只提供了如何在瀏
覽器中顯示信息的方式,而沒有反映數據本身所包含的語義,所以要想真正做到準確、高
效地查詢數據,十分困難。
---- 所幸的是,近年來新涌現了一個標記語言叫XML(eXtensive Markup Language,可擴
展標記語言),它最大的特點在于其Tag是具有語義的,是由用戶定義的,能夠反映一定的
數據的含義。XML的出現給做數據庫研究的人帶來了很大的驚喜。從某種意義上說,XML就
是一種半結構化的數據模型,雖然這個說法還不是很確切,但是XML可供操作的基礎要比H
TML好得多。圖2是HTML和XML的文檔比較,我們不難看出,XML的文檔描述的語義非常清楚
,而且我們很容易就可以將之和關系數據庫中的屬性一一對應起來,能夠支持實施十分精
確的查詢。而HTML文檔只是按顯示方式進行描述的。由此可見,XML將為在Web上的數據查
詢和模式抽取提供了一個重要的契機,以此為基礎,基于Web的數據挖掘的實現距離我們也
不會太遙遠。目前已經有很多關于XML數據存儲、XML數據的查詢和XML的系統實現與應用模
式等方面的研究工作紛紛開展起來,以XML家族為基礎的新一代的WWW環境是直接面對Web數
據的,不僅可以很好地兼容原有的Web應用,而且可以更優地實現WWW這一分布計算環境下
的信息共享與交換。因此,它已成為Web信息發展的可喜的趨勢。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -