?? 862.txt
字號:
發信人: 8088 (8088), 信區: DataMining
標 題: 11.2 XML與Web數據挖掘技術
發信站: 南京大學小百合站 (Wed Dec 12 16:39:55 2001)
以XML為基礎的新一代WWW環境是直接面對Web數據的,不僅可以很好地兼容原有的Web應用
,而且可以更好地實現Web中的信息共享與交換。XML可看作一種半結構化的數據模型,可
以很容易地將XML的文檔描述與關系數據庫中的屬性一對應起來,實施精確地查詢與模型抽
取。
1.XML的產生與發展
XML(extensible Markup Language)是由萬維網協會(W3C)設計,特別為Web應用服務的
SGML(Standard General Markup Language)的一個重要分支。總的來說,XML是一種中介標
示語言(Meta-markup Language),可提供描述結構化資料的格式,詳細來說,XML是一種類
似于HTML,被設計用來描述數據的語言。XML提供了一種獨立的運行程序的方法來共享數據
,它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信
息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規則組成,這些規則可用于創建標
記語言,并能用一種被稱作分析程序的簡明程序處理所有新創建的標記語言,正如HTML為
第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創建了一種任何人都能
讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發展速度快而
接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XM
L能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML
的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。
XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進
行自解釋(Self Describing)的語言。XML使用DTD(Document Type Definition文檔類型定
義)來顯示這些數據,XSL(eXtensible Style Sheet Language)是一種來描述這些文檔如何
顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表Cascad
ing Style Sheets)還要悠久,XSL包括兩部分:一個用來轉換XML文檔的方法;一個用來格
式化XML文檔的方法。XLL(eXtensible Link Language)是XML連接語言,它提供XML中的連
接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象
層級,而不僅僅是頁面層級。由于XML能夠標記更多的信息,所以它就能使用戶很輕松地找
到他們需要的信息。利用XML,Web設計人員不僅能創建文字和圖形,而且還能構建文檔類
型定義的多層次、相互依存的系統、數據樹、元數據、超鏈接結構和樣式表。
2.XML的主要特點
正是XML的特點決定了其卓越的性能表現。XML作為一種標記語言,有許多特點:
(1)簡單。XML經過精心設計,整個規范簡單明了,它由若干規則組成,這些規則可用
于創建標記語言,并能用一種常常稱作分析程序的簡明程序處理所有新創建的標記語言。
XML能創建一種任何人都能讀出和寫入的世界語,這種創建世界語的功能叫做統一性功能。
如XML創建的標記總是成對出現,以及依靠稱作統一代碼的新的編碼標準。
(2)開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標準
XML的基礎是經過驗證的標準技術,并針對網絡做最佳化。眾多業界頂尖公司,與W3C的工
作群組并肩合作,協助確保交互作業性,支持各式系統和瀏覽器上的開發人員、作者和使
用者,以及改進XML標準。XML解釋器可以使用編程的方法來載入一個XML的文檔,當這個文
檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息,加快了網
絡運行速度。
(3)高效且可擴充。支持復用文檔片斷,使用者可以發明和使用自己的標簽,也可與他
人共享,可延伸性大,在XML中,可以定義無限量的一組標注。XML提供了一個標示結構化
資料的架構。一個XML組件可以宣告與其相關的資料為零售價、營業稅、書名、數量或其它
任何數據元素。隨著世界范圍內的許多機構逐漸采用XML標準,將會有更多的相關功能出現
:一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現,或者轉交到
其他應用程序做進一步的處理。XML提供了一個獨立的運用程序的方法來共享數據,使用D
TD,不同的組中的人就能夠使用共同的DTD來交換數據。你的應用程序可以使用這個標準的
DTD來驗證你接受到的數據是否有效,你也可以使用一個DTD來驗證你自己的數據。
(4)國際化。標準國際化,且支持世界上大多數文字。這源于依靠它的統一代碼的新的
編碼標準,這種編碼標準支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多
數字處理而言,一個文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯
語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XM
L語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計算
機系統之間交換信息,而且能跨國界和超越不同文化疆界交換信息。
3.XML在Web數據挖掘中的應用
XML已經成為正式的規范,開發人員能夠用XML的格式標記和交換數據。XML在三層架構
上為數據處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的數據中產生出
來,使用XML結構化的數據可以從商業規范和表現形式中分離出來。
促進XML應用的是那些用標準的HTML無法完成的Web應用。這些應用從大的方面講可以
被分成以下四類:需要Web客戶端在兩個或更多異質數據庫之間進行通信的應用;試圖將大
部分處理負載從Web服務器轉到Web客戶端的應用;需要Web客戶端將同樣的數據以不同的瀏
覽形式提供給不同的用戶的應用;需要智能Web代理根據個人用戶的需要裁減信息內容的應
用。顯而易見,這些應用和Web的數據挖掘技術有著重要的聯系,基于Web的數據挖掘必須
依靠它們來實現。
XML給基于Web的應用軟件賦予了強大的功能和靈活性,因此它給開發者和用戶帶來了
許多好處。比如進行更有意義的搜索,并且Web數據可被XML唯一地標識。沒有XML,搜索軟
件必須了解每個數據庫是如何構建的,但這實際上是不可能的,因為每個數據庫描述數據
的格式幾乎都是不同的。由于不同來源數據的集成問題的存在,現在搜索多樣的不兼容的
數據庫實際上是不可能的。XML能夠使不同來源的結構化的數據很容易地結合在一起。軟件
代理商可以在中間層的服務器上對從后端數據庫和其它應用處來的數據進行集成。然后,
數據就能被發送到客戶或其他服務器做進一步的集合、處理和分發。XML的擴展性和靈活性
允許它描述不同種類應用軟件中的數據,從描述搜集的Web頁到數據記錄,從而通過多種應
用得到數據。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換
和處理。利用XML,用戶可以方便地進行本地計算和處理,XML格式的數據發送給客戶后,
客戶可以用應用軟件解析數據并對數據進行編輯和處理。使用者可以用不同的方法處理數
據,而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數據,數
據計算不需要回到服務器就能進行。XML可以被利用來分離使用者觀看數據的界面,使用簡單靈活開放的格式,可以給Web創建功能強大的應用軟件,而原來
這些軟件只能建立在高端數據庫上。另外,數據發到桌面后,能夠用多種方式顯示。
XML還可以通過以簡單開放擴展的方式描述結構化的數據,XML補充了HTML,被廣泛地
用來描述使用者界面。HTML描述數據的外觀,而XML描述數據本身。由于數據顯示與內容分
開,XML定義的數據允許指定不同的顯示方式,使數據更合理地表現出來。本地的數據能夠
以客戶配置、使用者選擇或其他標準決定的方式動態地表現出來。CSS和XSL為數據的顯示
提供了公布的機制。通過XML,數據可以粒狀地更新。每當一部分數據變化后,不需要重發
整個結構化的數據。變化的元素必須從服務器發送給客戶,變化的數據不需要刷新整個使
用者的界面就能夠顯示出來。但在目前,只要一條數據變化了,整一頁都必須重建。這嚴
重限制了服務器的升級性能。XML也允許加進其他數據,比如預測的溫度。加入的信息能夠
進入存在的頁面,不需要瀏覽器重新發一個新的頁面。XML應用于客戶需要與不同的數據源
進行交互時,數據可能來自不同的數據庫,它們都有各自不同的復雜格式。但客戶與這些
數據庫間只通過一種標準語言進行交互,那就是XML。由于XML的自定義性及可擴展性,它
足以表達各種類型的數據。客戶收到數據后可以進行處理,也可以在不同數據庫間進行傳
遞。總之,在這類應用中,XML解決了數據的統一接口問題。但是,與其他的數據傳遞標準不同的是,XML并沒有定義數據文件中數據出現的具體規范,而是
在數據中附加TAG來表達數據的邏輯結構和含義。這使XML成為一種程序能自動理解的規范
。
XML應用于將大量運算負荷分布在客戶端,即客戶可根據自己的需求選擇和制作不同的
應用程序以處理數據,而服務器只須發出同一個XML文件。如按傳統的“Client/Server”
工作方式,客戶向服務器發出不同的請求,服務器分別予以響應,這不僅加重服務器本身
的負荷,而且網絡管理者還須事先調查各種不同的用戶需求以做出相應不同的程序,但假
如用戶的需求繁雜而多變,則仍然將所有業務邏輯集中在服務器端是不合適的,因為服務
器端的編程人員可能來不及滿足眾多的應用需求,也來不及跟上需求的變化,雙方都很被
動。應用XML則將處理數據的主動權交給了客戶,服務器所作的只是盡可能完善、準確地將
數據封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數據的
同時也理解數據的邏輯結構與含義,從而使廣泛、通用的分布式計算成為可能。
XML還被應用于網絡代理,以便對所取得的信息進行編輯、增減以適應個人用戶的需要
。有些客戶取得數據并不是為了直接使用而是為了根據需要組織自己的數據庫。比方說,
教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封
裝進XML文件,接下來在各個學校讓其通過一個過濾器,濾掉所有的答案,再發送到各個考
生面前,未經過濾的內容則可直接送到老師手中,當然考試過后還可以再傳送一份答案匯
編。此外,XML文件中還可以包含進諸如難度系數、往年錯誤率等其他相關信息,這樣只需
幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。
面向Web的數據挖掘是一項復雜的技術,由于Web數據挖掘比單個數據倉庫的挖掘要復
雜的多,因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖
掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而
使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。X
ML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述搜集的Web頁中
的數據記錄。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換
和處理。作為表示結構化數據的一個工業標準,XML為組織、軟件開發者、Web站點和終端
使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數據的一種標準方式
的出現,面向Web的數據挖掘將會變得非常輕松。
--
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.36.151]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -