?? 6.txt
字號:
發信人: ashun (阿順), 信區: DataMining
標 題: 數據挖掘技術的由來
發信站: 南京大學小百合站 (Wed Aug 22 20:07:39 2001)
數據挖掘技術的由來
1網絡之后的下一個技術熱點
我們現在已經生活在一個網絡化的時代,通信、計算機和網絡技術正改變著整個人類和社
會。如果用芯片集成度來衡量微電子技術,用CPU處理速度來衡量計算機技術,用信道傳輸
速率來衡量通信技術,那么摩爾定律告訴我們,它們都是以每18個月翻一番的速度在增長
,這一勢頭已經維持了十多年。在美國,廣播達到5000萬戶用了38年;電視用了13年;In
ternet撥號上網達到5000萬戶僅用了4年。全球IP網發展速度達到每6個月翻一番,國內情
況亦然。1999年初,中國上網用戶為210萬,現在已經達到600萬。網絡的發展導致經濟全
球化,在1998年全球產值排序前100名中,跨國企業占了51個,國家只占49個。有人提出,
對待一個跨國企業也許比對待一個國家還要重要。在新世紀鐘聲剛剛敲響的時候,回顧往
昔,人們不僅要問:就推動人類社會進步而言,歷史上能與網絡技術相比擬的是什么技術
呢?有人甚至提出要把網絡技術與火的發明相比擬。火的發明區別了動物和人,種種科學技
術的重大發現擴展了自然人的體能、技能和智能,而網絡技術則大大提高了人的生存質量
和人的素質,使人成為社會人、全球人。
現在的問題是:網絡之后的下一個技術熱點是什么?讓我們來看一些身邊俯拾即是的現象
:《紐約時報》由60年代的10~20版擴張至現在的100~200版,最高曾達1572版;《北京
青年報》也已是16~40版;市場營銷報已達100版。然而在現實社會中,人均日閱讀時間通
常為30~45分鐘,只能瀏覽一份24版的報紙。大量信息在給人們帶來方便的同時也帶來了
一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難
以保證;第四是信息形式不一致,難以統一處理。人們開始提出一個新的口號:“要學會
拋棄信息”。人們開始考慮:“如何才能不被信息淹沒,而是從中及時發現有用的知識、
提高信息利用率?”
面對這一挑戰,數據開采和知識發現(DMKD)技術應運而生,并顯示出強大的生命力。
2 數據爆炸但知識貧乏
另一方面,隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據
越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分
析,以便更好地利用這些數據。目前的數據庫系統可以高效地實現數據的錄入、查詢、統
計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨
勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。
3 支持數據挖掘技術的基礎
數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲
在計算機的數據庫中的,然后發展到可對數據庫進行查詢和訪問,進而發展到對數據庫的
即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對過去的數據進行
查詢和遍歷,并且能夠找出過去數據之間的潛在聯系,從而促進信息的傳遞。現在數據挖
掘技術在商業應用中已經可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已
經發展成熟,他們是:
- 海量數據搜集
- 強大的多處理器計算機
- 數據挖掘算法
Friedman[1997]列舉了四個主要的技術理由激發了數據挖掘的開發、應用和研究的興趣:
- 超大規模數據庫的出現,例如商業數據倉庫和計算機自動收集的數據記錄;
- 先進的計算機技術,例如更快和更大的計算能力和并行體系結構;
- 對巨大量數據的快速訪問;
- 對這些數據應用精深的統計方法計算的能力。
商業數據庫現在正在以一個空前的速度增長,并且數據倉庫正在廣泛地應用于各種行業;
對計算機硬件性能越來越高的要求,也可以用現在已經成熟的并行多處理機的技術來滿足
;另外數據挖掘算法經過了這10多年的發展也已經成為一種成熟,穩定,且易于理解和操
作的技術。
4 從商業數據到商業信息的進化
從商業數據到商業信息的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表
。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數據
庫技術已經可以快速地回答商業上的很多問題了。
以下是數據挖掘的進化歷程,每行分別是:
進化階段 商業問題 支持技術 產品廠家 產品特點
數據搜集(60年代)
“過去五年中我的總收入是多少?”
計算機、磁帶和磁盤
IBM,CDC
提供歷史性的、靜態的數據信息
數據訪問(80年代)
“在新英格蘭的分部去年三月的銷售額是多少?”
關系數據庫(RDBMS),結構化查詢語言(SQL),ODBC
Oracle、Sybase、Informix、IBM、Microsoft
在記錄級提供歷史性的、動態數據信息
數據倉庫;決策支持(90年代)
“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”
聯機分析處理(OLAP)、多維數據庫、數據倉庫
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各種層次上提供回溯的、動態的數據信息
數據挖掘(正在流行)
“下個月波士頓的銷售會怎么樣?為什么?”
高級算法、多處理器計算機、海量數據庫
Pilot、Lockheed、IBM、SGI、其他初創公司
提供預測性的信息
數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習
。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖
掘技術在當前的數據倉庫環境中進入了實用的階段。
5 數據挖掘逐漸演變的過程
數據挖掘其實是一個逐漸演變的過程,電子數據處理的初期,人們就試圖通過某些方法來實
現自動決策支持,當時機器學習成為人們關心的焦點.機器學習的過程就是將一些已知的并
已被成功解決的問題作為范例輸入計算機,機器通過學習這些范例總結并生成相應的規則,
這些規則具有通用性,使用它們可以解決某一類的問題.隨后,隨著神經網絡技術的形成和發
展,人們的注意力轉向知識工程,知識工程不同于機器學習那樣給計算機輸入范例,讓它生
成出規則,而是直接給計算機輸入已被代碼化的規則,而計算機是通過使用這些規則來解
決某些問題。專家系統就是這種方法所得到的成果,但它有投資大、效果不甚理想等不足
。80年代人們又在新的神經網絡理論的指導下,重新回到機器學習的方法上,并將其成果
應用于處理大型商業數據庫。隨著在80年代末一個新的術語,它就是數據庫中的知識發現
,簡稱KDD(Knowledge discovery in database).它泛指所有從源數據中發掘模式或聯系的
方法,人們接受了這個術語,并用KDD來描述整個數據發掘的過程,包括最開始的制定業務
目標到最終的結果分析,而用數據挖掘(data mining)來描述使用挖掘算法進行數據挖掘
的子過程。但最近人們卻逐漸開始使用數據挖掘中有許多工作可以由統計方法來完成,并
認為最好的策略是將統計方法與數據挖掘有機的結合起來。
數據倉庫技術的發展與數據挖掘有著密切的關系。數據倉庫的發展是促進數據挖掘越來越
熱的原因之一。但是,數據倉庫并不是數據挖掘的先決條件,因為有很多數據挖掘可直接
從操作數據源中挖掘信息。
--
業精于勤荒于嬉,行成于思毀于隨。 —— 韓愈
臨淵羨魚不如退而結網。 —— 班固
勿以惡小而為之,勿以善小而不為。 —— 劉備
※ 來源:.南京大學小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
※ 修改:.ashun 於 Aug 22 20:08:29 修改本文.[FROM: 202.119.94.53]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -