?? 634.txt
字號:
發(fā)信人: zrs (tita), 信區(qū): DataMining
標(biāo) 題: XML與面向Web的數(shù)據(jù)挖掘技術(shù) 4
發(fā)信站: 南京大學(xué)小百合站 (Thu May 9 09:16:04 2002)
XML與面向Web的數(shù)據(jù)挖掘技術(shù)
2001-12-21· ·徐振航、劉莉芹··Yesky
XML還可以通過以簡單開放擴(kuò)展的方式描述結(jié)構(gòu)化的數(shù)據(jù),XML補(bǔ)充了HTML,被廣泛地
用來描述使用者界面。HTML描述數(shù)據(jù)的外觀,而XML描述數(shù)據(jù)本身。由于數(shù)據(jù)顯示與內(nèi)容分
開,XML定義的數(shù)據(jù)允許指定不同的顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來。本地的數(shù)據(jù)能夠
以客戶配置、使用者選擇或其他標(biāo)準(zhǔn)決定的方式動態(tài)地表現(xiàn)出來。CSS和XSL為數(shù)據(jù)的顯示
提供了公布的機(jī)制。通過XML,數(shù)據(jù)可以粒狀地更新。每當(dāng)一部分?jǐn)?shù)據(jù)變化后,不需要重發(fā)
整個結(jié)構(gòu)化的數(shù)據(jù)。變化的元素必須從服務(wù)器發(fā)送給客戶,變化的數(shù)據(jù)不需要刷新整個使
用者的界面就能夠顯示出來。但在目前,只要一條數(shù)據(jù)變化了,整一頁都必須重建。這嚴(yán)
重限制了服務(wù)器的升級性能。XML也允許加進(jìn)其他數(shù)據(jù),比如預(yù)測的溫度。加入的信息能夠
進(jìn)入存在的頁面,不需要瀏覽器重新發(fā)一個新的頁面。XML應(yīng)用于客戶需要與不同的數(shù)據(jù)源
進(jìn)行交互時,數(shù)據(jù)可能來自不同的數(shù)據(jù)庫,它們都有各自不同的復(fù)雜格式。但客戶與這些
數(shù)據(jù)庫間只通過一種標(biāo)準(zhǔn)語言進(jìn)行交互,那就是XML。由于XML的自定義性及可擴(kuò)展性,它
足以表達(dá)各種類型的數(shù)據(jù)。客戶收到數(shù)據(jù)后可以進(jìn)行處理,也可以在不同數(shù)據(jù)庫間進(jìn)行傳
遞。總之,在這類應(yīng)用中,XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是
在數(shù)據(jù)中附加TAG來表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義。這使XML成為一種程序能自動理解的規(guī)范
。
XML應(yīng)用于將大量運(yùn)算負(fù)荷分布在客戶端,即客戶可根據(jù)自己的需求選擇和制作不同的
應(yīng)用程序以處理數(shù)據(jù),而服務(wù)器只須發(fā)出同一個XML文件。如按傳統(tǒng)的“Client/Server”
工作方式,客戶向服務(wù)器發(fā)出不同的請求,服務(wù)器分別予以響應(yīng),這不僅加重服務(wù)器本身
的負(fù)荷,而且網(wǎng)絡(luò)管理者還須事先調(diào)查各種不同的用戶需求以做出相應(yīng)不同的程序,但假
如用戶的需求繁雜而多變,則仍然將所有業(yè)務(wù)邏輯集中在服務(wù)器端是不合適的,因?yàn)榉?wù)
器端的編程人員可能來不及滿足眾多的應(yīng)用需求,也來不及跟上需求的變化,雙方都很被
動。應(yīng)用XML則將處理數(shù)據(jù)的主動權(quán)交給了客戶,服務(wù)器所作的只是盡可能完善、準(zhǔn)確地將
數(shù)據(jù)封裝進(jìn)XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數(shù)據(jù)的
同時也理解數(shù)據(jù)的邏輯結(jié)構(gòu)與含義,從而使廣泛、通用的分布式計算成為可能。
XML還被應(yīng)用于網(wǎng)絡(luò)代理,以便對所取得的信息進(jìn)行編輯、增減以適應(yīng)個人用戶的需要
。有些客戶取得數(shù)據(jù)并不是為了直接使用而是為了根據(jù)需要組織自己的數(shù)據(jù)庫。比方說,
教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封
裝進(jìn)XML文件,接下來在各個學(xué)校讓其通過一個過濾器,濾掉所有的答案,再發(fā)送到各個考
生面前,未經(jīng)過濾的內(nèi)容則可直接送到老師手中,當(dāng)然考試過后還可以再傳送一份答案匯
編。此外,XML文件中還可以包含進(jìn)諸如難度系數(shù)、往年錯誤率等其他相關(guān)信息,這樣只需
幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。
結(jié)束語
面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù),由于Web數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的挖掘要復(fù)
雜的多,因而面向Web的數(shù)據(jù)挖掘成了一個難以解決的問題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖
掘的難題帶來了機(jī)會。由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而
使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。X
ML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁中
的數(shù)據(jù)記錄。同時,由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換
和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個工業(yè)標(biāo)準(zhǔn),XML為組織、軟件開發(fā)者、Web站點(diǎn)和終端
使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式
的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)兊梅浅]p松。
--
※ 來源:.南京大學(xué)小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -