?? 58.txt

?? This complete matlab for neural network
?? TXT
字號:
發信人: ashun (阿順), 信區: DataMining
標  題: 孟小峰先生談面向Internet的數據挖掘技術
發信站: 南京大學小百合站 (Mon Aug 27 09:54:11 2001)

                             數據挖掘走向Internet 

               ——孟小峰先生談面向Internet的數據挖掘技術 


                     記者: 於丹  FROM: 微電腦世界歷史期刊

           (http://www.pcworld.com.cn/2000/back_issues/2014/1436.asp)


---- 問：隨著企業信息化建設的不斷深入，企業積累的數據量也越來越龐大。如何從這些
數據中發現其內在的規律，更加充分地利用數據，數據挖掘技術起到了至關重要的作用。
然而究竟什么是數據挖掘技術，很多人還知之不詳。您能否首先為我們介紹一下它的概念
及由來呢？ 


---- 答：近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據
庫被用于商業管理、政府辦公、科學研究和工程開發等等領域,這一勢頭仍將持續發展下去
。于是,一個新的挑戰被提了出來。在這所謂的信息爆炸的時代,信息過量幾乎成為人人需
要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息
利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和
戰略發展服務，否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹
沒,同時卻仍然感到知識饑餓”的挑戰,數據挖掘(Data Mining)技術應運而生,并得以蓬勃
發展,越來越顯示出其強大的生命力。 


---- 數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其
中的、人們事先不知道的但又是潛在有用的信息和知識的過程。還有很多和這一術語相近
似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持
等。 


---- 數據挖掘的前身即知識發現（Knowledge Discovery），它源自于人工智能的機器學
習領域，其實質的內涵是在一個已知狀態的數據集（Data Set）上，通過設定一定的學習
算法，從數據集中獲取所謂的知識。坦白地說，人工智能領域中的知識發現技術已經發展
到了一個很成熟的階段，但是由于缺乏應用的土壤，它的路越走越窄。而與此同時，數據
庫技術也已經發展到一定的階段，并得到了廣泛的應用，各個企業都已經積累了無數的數
據資源，迫切需要有一種技術能夠幫助他們從數據中發掘出其內在的規律，數據挖掘技術
正好能滿足這一需求，它實質上就是知識發現技術在數據庫領域中的應用。 


---- 知識發現技術的相關研究為數據挖掘技術提供了堅實的理論基礎，而且在數據挖掘領
域的研究中，也以有人工智能、統計學科背景的人居多，而有數據庫技術背景的人參與卻
很少。因此從某方面來說，數據挖掘技術仍然沒有發展到實用的階段。有人工智能背景的
人研究的出發點通常是試圖去構造一些精致的算法，卻很少考慮到實際的應用?，F在數據
挖掘的算法多達成百上千種，產品的使用難度也很大，如果用戶不是一個人工智能專家或
統計專家，都很難讓它發揮效用。在這一方面亟待進一步將技術實用化。 


---- 問：談到數據挖掘，常常是和數據倉庫、OLAP等等聯系在一起，但人們對它們通常存
在著一些概念上的混淆，請問它們之間存在著怎樣的相互關系呢？ 


 ---- 答：很多人在這方面都確實存在著概念上的混淆。數據倉庫也是近年來逐漸興起的
一個概念。隨著企業信息化建設的不斷深入，企業的數據積累越來越大，企業信息系統本
身的構成也越來越復雜，例如原有的系統中可能會采用面向對象數據庫，也可能會采用關
系數據庫，而關系數據庫也可能采用的是不同廠家的產品，由此就出現了一個龐大而異構
的數據資源。數據倉庫就是要將這些數據資源集成起來，以滿足決策支持的需求。 


---- 數據倉庫的實質就是一個數據庫，但是它存儲的數據與普通數據庫中的數據不太一樣
，它存儲的是從數據庫里面經過加工整理后的數據。例如對于商場應用來說，原有數據庫
中存儲的是每一筆交易的數據，而數據倉庫則要根據過往的歷史記錄進行提煉整理，存放
的可能是某種產品某月在某地區的特定銷量等記錄。 


---- 數據倉庫將異構的數據集成起來，經過加工整理變成一個可用的數據資源，而數據挖
掘和OLAP（OnLine Analysis Process，聯機分析處理）則是在數據倉庫上進行操作，它們
都是基于數據倉庫的分析工具。數據挖掘和OLAP最本質的區別在于，數據挖掘是一種挖掘
性的分析工具，它主要是利用各種分析方法主動地去挖掘大量數據中蘊含的規律，而OLAP
則是一種求證性的分析工具，即已有一個假設，通過OLAP來得到驗證。OLAP所采用的驗證
方法多是基于數據立方體法，即通過對數據立方體的切片、切塊、旋轉、鉆取等操作來實
現對數據立方體快速的多維存取。所謂多維存取，是從不同的角度根據數據倉庫中的不同
主題來得出不同的結論。數據挖掘和OLAP這兩種分析工具本身是相輔相成的，因為OLAP可
以幫助人們提出假設，也可以驗證數據挖掘預測出的結果；數據挖掘能夠挖掘出一個結論
，但這個結論正確不正確，可以用OLAP去驗證。 


---- 從圖1中我們可以清楚地了解到，傳統的數據環境基本上是數據操作型的，傳統的信
息系統只負責數據的增、刪及修改操作，而在數據庫的基礎上可實現的工作就是OLTP（On
Line Transaction Process，聯機事務處理）?，F在由于數據積累的不斷增多，人們需要
分析型的數據環境，于是就出現了由數據庫導出的數據倉庫，以此為基礎則可以實現OLAP
和數據挖掘，這里我們可以形象地用“深挖洞、廣積糧”來概括企業信息化建設的這種局
面。 


---- 問：在Internet浪潮的沖擊下,人們面臨著數據爆炸的挑戰,如何從浩如煙海的數據中
找到內在的規律，數據挖掘技術顯然能為我們提供極大的幫助。那么，面向Internet的數
據挖掘技術進展程度如何呢？ 


---- 答：面向Internet的數據挖掘可以說是一個比較前瞻性的問題，有人稱之為Interne
t Mining或者是Web Mining，也取得了一些令人感興趣的結果，例如最近有不少產品用來
篩選Internet上的新聞,保護用戶不受無聊電子郵件的干擾和商業推銷,受到極大的歡迎。
但目前在學術界仍然對這一問題沒有什么特定的結論。面向Internet的數據挖掘比面向單
個數據倉庫的數據挖掘要復雜得多。因為傳統數據庫中的數據是結構化的，而Internet上
的數據其最大特點是半結構化的，這就決定了面向Internet的數據挖掘將是一個頗具挑戰
性的課題。所謂半結構化是相對于結構化和非結構化而言的。例如傳統數據庫中的數據結
構性很強，我們稱之為完全結構化的數據，而同時還存在一些諸如一本書、一張圖片等完
全無結構的數據。但是Internet上存在的數據既不是完全結構化的也不是完全非結構化的
，因為它的頁面也具有一定的描述層次的，存在一定的結構，所以我們將它稱為半結構化
的數據。 


---- 從數據庫研究的角度出發，Web上網站的信息也可以看作是一個數據庫，一個更大的
、復雜性更高的數據庫。Web上的每一個站點就是一個數據源，每一個數據源都是異構的，
因為每一站點跟每一站點的信息和組織形式都不一樣，這就構成了一個巨大的、異構的數
據庫環境。如果想要利用這些數據進行數據挖掘，首先必須要研究站點之間異構數據的集
成問題。因為只有將這些站點上的數據都集成起來，提供給用戶一個統一的視圖或視角，
才有可能從巨大的數據資源中獲取所需的東西。其次，還要解決Internet上的數據查詢問
題。因為如果所需的數據都不能很有效地得到，對這些數據進行分析、處理就更是無從談
起。這些基礎性的問題都亟待解決。 




---- 眾所周知，傳統的數據庫都有一定的數據模型，可以根據這個模型來具體地描述特定
的數據，同時可以很好地定義和解釋相關的查詢語言。而Internet上的數據特點很復雜，
沒有這樣特定的模型來描述。每一個站點上的數據都是由站點開發人員自行設計放置的，
而且數據本身具有自描述性和動態可變性等一系列復雜特性，其結構也不可琢磨。在這種
情況下如何來解決異構數據的集成和數據查詢問題呢？這就迫切需要有一個模型來清晰地
描述Internet上的數據。針對Internet上的數據半結構化的特點，尋找一個半結構化的數
據模型則成為了解決上述問題的關鍵所在。此外，除了要定義這樣一個半結構化數據模型
外，還需要一項技術能夠自動地從現有數據中將這個模型抽取出來，這就是所謂的模型抽
取技術。因為半結構化數據模型和半結構化數據模型抽取技術是面向Internet的數據挖掘
技術實施的前提，因此堪稱是當今數據庫研究領域的最大熱點。 




---- 問：您剛才談到面向Internet的數據挖掘技術的實現首先要解決半結構化數據模型和
半結構化數據模型的抽取問題。那么請問這一方面的研究進展如何？ 


---- 答：半結構化數據模型的研究對數據庫界來說是一個全新的領域，早在1995年，斯坦
福大學已經開始了相關方面的研究。但當時研究的重點還沒有真正面對Web，而主要研究的
是異構數據環境，因為在異構環境中的數據已經存在這種半結構化的特征。后來隨著Inte
rnet的發展，Web上的數據半結構化特征日漸明顯，這一問題也就擴展到Web領域，最終提
出了針對Web數據的模型問題。相關的研究工作在1997～1998年間取得了一些結果，提出了
諸如Web SQL等大約一二十種的查詢語言?；赪eb上的內容查詢主要有兩個含義，一是頁
面內容的查詢，二是頁面與頁面之間鏈接的查詢，而像頁面之間鏈接的這種關系我們則稱
之為路徑表達。由于當時的Web都是基于HTML（HyperText Markup Language，超文本標記
語言）實現的，而HTML在路徑表達的實現上難度很大。因為HTML實際上只提供了如何在瀏
覽器中顯示信息的方式，而沒有反映數據本身所包含的語義，所以要想真正做到準確、高
效地查詢數據，十分困難。 


---- 所幸的是，近年來新涌現了一個標記語言叫XML（eXtensive Markup Language，可擴
展標記語言），它最大的特點在于其Tag是具有語義的，是由用戶定義的，能夠反映一定的
數據的含義。XML的出現給做數據庫研究的人帶來了很大的驚喜。從某種意義上說，XML就
是一種半結構化的數據模型，雖然這個說法還不是很確切，但是XML可供操作的基礎要比H
TML好得多。圖2是HTML和XML的文檔比較，我們不難看出，XML的文檔描述的語義非常清楚
，而且我們很容易就可以將之和關系數據庫中的屬性一一對應起來，能夠支持實施十分精
確的查詢。而HTML文檔只是按顯示方式進行描述的。由此可見，XML將為在Web上的數據查
詢和模式抽取提供了一個重要的契機，以此為基礎，基于Web的數據挖掘的實現距離我們也
不會太遙遠。目前已經有很多關于XML數據存儲、XML數據的查詢和XML的系統實現與應用模
式等方面的研究工作紛紛開展起來，以XML家族為基礎的新一代的WWW環境是直接面對Web數
據的，不僅可以很好地兼容原有的Web應用，而且可以更優地實現WWW這一分布計算環境下
的信息共享與交換。因此，它已成為Web信息發展的可喜的趨勢。 
--
業精于勤荒于嬉，行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。           —— 班固
勿以惡小而為之，勿以善小而不為。 —— 劉備

※ 來源:．南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
?? 文件大小 7787 K
?? 上傳用戶 zdh103
?? 所屬分類 matlab例程
??? 相關標簽

#complete #network #matlab #neural
?? 快捷鍵說明

復制代碼 Ctrl + C
搜索代碼 Ctrl + F
全屏模式 F11
切換主題 Ctrl + Shift + D
顯示快捷鍵 ?
增大字號 Ctrl + =
減小字號 Ctrl + -
亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

?? 58.txt

?? 快捷鍵說明