?? 1.txt
字號:
發信人: zrs (tita), 信區: DataMining
標 題: XML與面向Web的數據挖掘技術1
發信站: 南京大學小百合站 (Thu May 9 09:13:18 2002)
XML與面向Web的數據挖掘技術
2001-12-21· ·徐振航、劉莉芹··Yesky
面向Web的數據挖掘
Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究
熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題
。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。相對于
Web的數據而言,傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,
而Web上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的
數據而言。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。
1.異構數據庫環境
從數據庫研究的角度出發,Web網站上的信息也可以看作一個數據庫,一個更大、更復
雜的數據庫。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點
之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些
數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題,只有將這些站點的
數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的
東西。其次,還要解決Web上的數據查詢問題,因為如果所需的數據不能很有效地得到,對
這些數據進行分析、集成、處理就無從談起。
2.半結構化的數據結構
Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以
根據模型來具體描述特定的數據。而Web上的數據非常復雜,沒有特定的模型描述,每一站
點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具
有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,這也被稱之為
半結構化數據。半結構化是Web上數據的最大特點。
3.解決半結構化的數據源問題
Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題
。解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數
據。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所
在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地
從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構
化數據模型抽取技術為前提。
XML與Web數據挖掘技術
以XML為基礎的新一代WWW環境是直接面對Web數據的,不僅可以很好地兼容原有的Web
應用,而且可以更好地實現Web中的信息共享與交換。XML可看作一種半結構化的數據模型
,可以很容易地將XML的文檔描述與關系數據庫中的屬性一對應起來,實施精確地查詢與模
型抽取。
1.XML的產生與發展
XML(eXtensibleMarkupLanguage)是由萬維網協會(W3C)設計,特別為Web應用服務的S
GML(StandardGeneralMarkupLanguage)的一個重要分支。總的來說,XML是一種中介標示
語言(Meta-markupLanguage),可提供描述結構化資料的格式,詳細來說,XML是一種類
似于HTML,被設計用來描述數據的語言。XML提供了一種獨立的運行程序的方法來共享數據
,它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信
息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規則組成,這些規則可用于創建標
記語言,并能用一種被稱作分析程序的簡明程序處理所有新創建的標記語言,正如HTML為
第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創建了一種任何人都能
讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發展速度快而
接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XM
L能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML
的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。
--
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -