?? 631.txt
字號:
發(fā)信人: zrs (tita), 信區(qū): DataMining
標 題: XML與面向Web的數(shù)據(jù)挖掘技術1
發(fā)信站: 南京大學小百合站 (Thu May 9 09:13:18 2002)
XML與面向Web的數(shù)據(jù)挖掘技術
2001-12-21· ·徐振航、劉莉芹··Yesky
面向Web的數(shù)據(jù)挖掘
Web上有海量的數(shù)據(jù)信息,怎樣對這些數(shù)據(jù)進行復雜的應用成了現(xiàn)今數(shù)據(jù)庫技術的研究
熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應用質量問題
。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術的最重要的應用。相對于
Web的數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結構性很強,即其中的數(shù)據(jù)為完全結構化的數(shù)據(jù),
而Web上的數(shù)據(jù)最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統(tǒng)數(shù)據(jù)庫的
數(shù)據(jù)而言。顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。
1.異構數(shù)據(jù)庫環(huán)境
從數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個數(shù)據(jù)庫,一個更大、更復
雜的數(shù)據(jù)庫。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構的,因而每一站點
之間的信息和組織都不一樣,這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。如果想要利用這些
數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,必須要研究站點之間異構數(shù)據(jù)的集成問題,只有將這些站點的
數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的
東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因為如果所需的數(shù)據(jù)不能很有效地得到,對
這些數(shù)據(jù)進行分析、集成、處理就無從談起。
2.半結構化的數(shù)據(jù)結構
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以
根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復雜,沒有特定的模型描述,每一站
點的數(shù)據(jù)都各自獨立設計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而,Web上的數(shù)據(jù)具
有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數(shù)據(jù),這也被稱之為
半結構化數(shù)據(jù)。半結構化是Web上數(shù)據(jù)的最大特點。
3.解決半結構化的數(shù)據(jù)源問題
Web數(shù)據(jù)挖掘技術首要解決半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型的查詢與集成問題
。解決Web上的異構數(shù)據(jù)的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數(shù)
據(jù)。針對Web上的數(shù)據(jù)半結構化的特點,尋找一個半結構化的數(shù)據(jù)模型是解決問題的關鍵所
在。除了要定義一個半結構化數(shù)據(jù)模型外,還需要一種半結構化模型抽取技術,即自動地
從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術。面向Web的數(shù)據(jù)挖掘必須以半結構化模型和半結構
化數(shù)據(jù)模型抽取技術為前提。
XML與Web數(shù)據(jù)挖掘技術
以XML為基礎的新一代WWW環(huán)境是直接面對Web數(shù)據(jù)的,不僅可以很好地兼容原有的Web
應用,而且可以更好地實現(xiàn)Web中的信息共享與交換。XML可看作一種半結構化的數(shù)據(jù)模型
,可以很容易地將XML的文檔描述與關系數(shù)據(jù)庫中的屬性一對應起來,實施精確地查詢與模
型抽取。
1.XML的產(chǎn)生與發(fā)展
XML(eXtensibleMarkupLanguage)是由萬維網(wǎng)協(xié)會(W3C)設計,特別為Web應用服務的S
GML(StandardGeneralMarkupLanguage)的一個重要分支。總的來說,XML是一種中介標示
語言(Meta-markupLanguage),可提供描述結構化資料的格式,詳細來說,XML是一種類
似于HTML,被設計用來描述數(shù)據(jù)的語言。XML提供了一種獨立的運行程序的方法來共享數(shù)據(jù)
,它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信
息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標
記語言,并能用一種被稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言,正如HTML為
第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創(chuàng)建了一種任何人都能
讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發(fā)展速度快而
接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XM
L能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML
的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網(wǎng)絡業(yè)務量。
--
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -