?? 4.txt
字號(hào):
發(fā)信人: zrs (tita), 信區(qū): DataMining
標(biāo) 題: XML與面向Web的數(shù)據(jù)挖掘技術(shù) 4
發(fā)信站: 南京大學(xué)小百合站 (Thu May 9 09:16:04 2002)
XML與面向Web的數(shù)據(jù)挖掘技術(shù)
2001-12-21· ·徐振航、劉莉芹··Yesky
XML還可以通過(guò)以簡(jiǎn)單開放擴(kuò)展的方式描述結(jié)構(gòu)化的數(shù)據(jù),XML補(bǔ)充了HTML,被廣泛地
用來(lái)描述使用者界面。HTML描述數(shù)據(jù)的外觀,而XML描述數(shù)據(jù)本身。由于數(shù)據(jù)顯示與內(nèi)容分
開,XML定義的數(shù)據(jù)允許指定不同的顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來(lái)。本地的數(shù)據(jù)能夠
以客戶配置、使用者選擇或其他標(biāo)準(zhǔn)決定的方式動(dòng)態(tài)地表現(xiàn)出來(lái)。CSS和XSL為數(shù)據(jù)的顯示
提供了公布的機(jī)制。通過(guò)XML,數(shù)據(jù)可以粒狀地更新。每當(dāng)一部分?jǐn)?shù)據(jù)變化后,不需要重發(fā)
整個(gè)結(jié)構(gòu)化的數(shù)據(jù)。變化的元素必須從服務(wù)器發(fā)送給客戶,變化的數(shù)據(jù)不需要刷新整個(gè)使
用者的界面就能夠顯示出來(lái)。但在目前,只要一條數(shù)據(jù)變化了,整一頁(yè)都必須重建。這嚴(yán)
重限制了服務(wù)器的升級(jí)性能。XML也允許加進(jìn)其他數(shù)據(jù),比如預(yù)測(cè)的溫度。加入的信息能夠
進(jìn)入存在的頁(yè)面,不需要瀏覽器重新發(fā)一個(gè)新的頁(yè)面。XML應(yīng)用于客戶需要與不同的數(shù)據(jù)源
進(jìn)行交互時(shí),數(shù)據(jù)可能來(lái)自不同的數(shù)據(jù)庫(kù),它們都有各自不同的復(fù)雜格式。但客戶與這些
數(shù)據(jù)庫(kù)間只通過(guò)一種標(biāo)準(zhǔn)語(yǔ)言進(jìn)行交互,那就是XML。由于XML的自定義性及可擴(kuò)展性,它
足以表達(dá)各種類型的數(shù)據(jù)。客戶收到數(shù)據(jù)后可以進(jìn)行處理,也可以在不同數(shù)據(jù)庫(kù)間進(jìn)行傳
遞。總之,在這類應(yīng)用中,XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是
在數(shù)據(jù)中附加TAG來(lái)表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義。這使XML成為一種程序能自動(dòng)理解的規(guī)范
。
XML應(yīng)用于將大量運(yùn)算負(fù)荷分布在客戶端,即客戶可根據(jù)自己的需求選擇和制作不同的
應(yīng)用程序以處理數(shù)據(jù),而服務(wù)器只須發(fā)出同一個(gè)XML文件。如按傳統(tǒng)的“Client/Server”
工作方式,客戶向服務(wù)器發(fā)出不同的請(qǐng)求,服務(wù)器分別予以響應(yīng),這不僅加重服務(wù)器本身
的負(fù)荷,而且網(wǎng)絡(luò)管理者還須事先調(diào)查各種不同的用戶需求以做出相應(yīng)不同的程序,但假
如用戶的需求繁雜而多變,則仍然將所有業(yè)務(wù)邏輯集中在服務(wù)器端是不合適的,因?yàn)榉?wù)
器端的編程人員可能來(lái)不及滿足眾多的應(yīng)用需求,也來(lái)不及跟上需求的變化,雙方都很被
動(dòng)。應(yīng)用XML則將處理數(shù)據(jù)的主動(dòng)權(quán)交給了客戶,服務(wù)器所作的只是盡可能完善、準(zhǔn)確地將
數(shù)據(jù)封裝進(jìn)XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數(shù)據(jù)的
同時(shí)也理解數(shù)據(jù)的邏輯結(jié)構(gòu)與含義,從而使廣泛、通用的分布式計(jì)算成為可能。
XML還被應(yīng)用于網(wǎng)絡(luò)代理,以便對(duì)所取得的信息進(jìn)行編輯、增減以適應(yīng)個(gè)人用戶的需要
。有些客戶取得數(shù)據(jù)并不是為了直接使用而是為了根據(jù)需要組織自己的數(shù)據(jù)庫(kù)。比方說(shuō),
教育部門要建立一個(gè)龐大的題庫(kù),考試時(shí)將題庫(kù)中的題目取出若干組成試卷,再將試卷封
裝進(jìn)XML文件,接下來(lái)在各個(gè)學(xué)校讓其通過(guò)一個(gè)過(guò)濾器,濾掉所有的答案,再發(fā)送到各個(gè)考
生面前,未經(jīng)過(guò)濾的內(nèi)容則可直接送到老師手中,當(dāng)然考試過(guò)后還可以再傳送一份答案匯
編。此外,XML文件中還可以包含進(jìn)諸如難度系數(shù)、往年錯(cuò)誤率等其他相關(guān)信息,這樣只需
幾個(gè)小程序,同一個(gè)XML文件便可變成多個(gè)文件傳送到不同的用戶手中。
結(jié)束語(yǔ)
面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù),由于Web數(shù)據(jù)挖掘比單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的挖掘要復(fù)
雜的多,因而面向Web的數(shù)據(jù)挖掘成了一個(gè)難以解決的問題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖
掘的難題帶來(lái)了機(jī)會(huì)。由于XML能夠使不同來(lái)源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而
使搜索多樣的不兼容的數(shù)據(jù)庫(kù)能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來(lái)了希望。X
ML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁(yè)中
的數(shù)據(jù)記錄。同時(shí),由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換
和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個(gè)工業(yè)標(biāo)準(zhǔn),XML為組織、軟件開發(fā)者、Web站點(diǎn)和終端
使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式
的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)?huì)變得非常輕松。
--
※ 來(lái)源:.南京大學(xué)小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -