?? 861.txt
字號:
發信人: 8088 (8088), 信區: DataMining
標 題: 11.1 Web數據挖掘的難點
發信站: 南京大學小百合站 (Wed Dec 12 16:39:23 2001)
Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點
。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充
分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。相對于Web的
數據而言,傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,而We
b上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的數據
而言。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。
1.異構數據庫環境
從數據庫研究的角度出發,Web網站上的信息也可以看作一個數據庫,一個更大、更復
雜的數據庫。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點
之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些
數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題,只有將這些站點的
數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的
東西。其次,還要解決Web上的數據查詢問題,因為如果所需的數據不能很有效地得到,對
這些數據進行分析、集成、處理就無從談起。
2.半結構化的數據結構
Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以
根據模型來具體描述特定的數據。而Web上的數據非常復雜,沒有特定的模型描述,每一站
點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具
有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,這也被稱之為
半結構化數據。半結構化是Web上數據的最大特點。
3.解決半結構化的數據源問題
Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題
。解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數
據。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所
在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地
從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構
化數據模型抽取技術為前提。
--
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.36.151]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -