?? 631.txt

?? This complete matlab for neural network
?? TXT
字號:
發(fā)信人: zrs (tita), 信區(qū): DataMining
標  題: XML與面向Web的數(shù)據(jù)挖掘技術1
發(fā)信站: 南京大學小百合站 (Thu May  9 09:13:18 2002)

XML與面向Web的數(shù)據(jù)挖掘技術 

 

2001-12-21· ·徐振航、劉莉芹··Yesky



面向Web的數(shù)據(jù)挖掘 


　　Web上有海量的數(shù)據(jù)信息，怎樣對這些數(shù)據(jù)進行復雜的應用成了現(xiàn)今數(shù)據(jù)庫技術的研究
熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容，解決數(shù)據(jù)的應用質量問題
。充分利用有用的數(shù)據(jù)，廢棄虛偽無用的數(shù)據(jù)，是數(shù)據(jù)挖掘技術的最重要的應用。相對于
Web的數(shù)據(jù)而言，傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結構性很強，即其中的數(shù)據(jù)為完全結構化的數(shù)據(jù)，
而Web上的數(shù)據(jù)最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統(tǒng)數(shù)據(jù)庫的
數(shù)據(jù)而言。顯然，面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。 


　　1.異構數(shù)據(jù)庫環(huán)境 


　　從數(shù)據(jù)庫研究的角度出發(fā)，Web網(wǎng)站上的信息也可以看作一個數(shù)據(jù)庫，一個更大、更復
雜的數(shù)據(jù)庫。Web上的每一個站點就是一個數(shù)據(jù)源，每個數(shù)據(jù)源都是異構的，因而每一站點
之間的信息和組織都不一樣，這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。如果想要利用這些
數(shù)據(jù)進行數(shù)據(jù)挖掘，首先，必須要研究站點之間異構數(shù)據(jù)的集成問題，只有將這些站點的
數(shù)據(jù)都集成起來，提供給用戶一個統(tǒng)一的視圖，才有可能從巨大的數(shù)據(jù)資源中獲取所需的
東西。其次，還要解決Web上的數(shù)據(jù)查詢問題，因為如果所需的數(shù)據(jù)不能很有效地得到，對
這些數(shù)據(jù)進行分析、集成、處理就無從談起。 


　　2.半結構化的數(shù)據(jù)結構 


　　Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同，傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型，可以
根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復雜，沒有特定的模型描述，每一站
點的數(shù)據(jù)都各自獨立設計，并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而，Web上的數(shù)據(jù)具
有一定的結構性，但因自述層次的存在，從而是一種非完全結構化的數(shù)據(jù)，這也被稱之為
半結構化數(shù)據(jù)。半結構化是Web上數(shù)據(jù)的最大特點。 


　　3.解決半結構化的數(shù)據(jù)源問題 


　　Web數(shù)據(jù)挖掘技術首要解決半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型的查詢與集成問題
。解決Web上的異構數(shù)據(jù)的集成與查詢問題，就必須要有一個模型來清晰地描述Web上的數(shù)
據(jù)。針對Web上的數(shù)據(jù)半結構化的特點，尋找一個半結構化的數(shù)據(jù)模型是解決問題的關鍵所
在。除了要定義一個半結構化數(shù)據(jù)模型外，還需要一種半結構化模型抽取技術，即自動地
從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術。面向Web的數(shù)據(jù)挖掘必須以半結構化模型和半結構
化數(shù)據(jù)模型抽取技術為前提。 


XML與Web數(shù)據(jù)挖掘技術 


　　以XML為基礎的新一代WWW環(huán)境是直接面對Web數(shù)據(jù)的，不僅可以很好地兼容原有的Web
應用，而且可以更好地實現(xiàn)Web中的信息共享與交換。XML可看作一種半結構化的數(shù)據(jù)模型
，可以很容易地將XML的文檔描述與關系數(shù)據(jù)庫中的屬性一對應起來，實施精確地查詢與模
型抽取。 


　　1.XML的產(chǎn)生與發(fā)展 


　　XML(eXtensibleMarkupLanguage)是由萬維網(wǎng)協(xié)會(W3C)設計，特別為Web應用服務的S
GML（StandardGeneralMarkupLanguage）的一個重要分支。總的來說，XML是一種中介標示
語言（Meta-markupLanguage），可提供描述結構化資料的格式，詳細來說，XML是一種類
似于HTML，被設計用來描述數(shù)據(jù)的語言。XML提供了一種獨立的運行程序的方法來共享數(shù)據(jù)
，它是用來自動描述信息的一種新的標準語言，它能使計算機通信把Internet的功能由信
息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規(guī)則組成，這些規(guī)則可用于創(chuàng)建標
記語言，并能用一種被稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言，正如HTML為
第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣，XML也創(chuàng)建了一種任何人都能
讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題，即Internet發(fā)展速度快而
接入速度慢的問題，以及可利用的信息多，但難以找到自己需要的那部分信息的問題。XM
L能增加結構和語義信息，可使計算機和服務器即時處理多種形式的信息。因此，運用XML
的擴展功能不僅能從Web服務器下載大量的信息，還能大大減少網(wǎng)絡業(yè)務量。 


 



--

※ 來源:．南京大學小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]
?? 文件大小 7787 K
?? 上傳用戶 zdh103
?? 所屬分類 matlab例程
??? 相關標簽

#complete #network #matlab #neural
?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

?? 631.txt

?? 快捷鍵說明