?? 3.txt
字號:
發(fā)信人: GzLi (笑梨), 信區(qū): DataMining
標(biāo) 題: 漫談數(shù)據(jù)挖掘
發(fā)信站: 南京大學(xué)小百合站 (Fri Apr 19 10:45:27 2002), 站內(nèi)信件
漫談數(shù)據(jù)挖掘技術(shù)
在我們已經(jīng)生活在一個網(wǎng)絡(luò)化的時代,通信、計算機和網(wǎng)絡(luò)技術(shù)正改變著整個人類和
社會。網(wǎng)絡(luò)之后的下一個技術(shù)熱點是什么?讓我們來看一些身邊俯拾即是的現(xiàn)象:
《紐約時報》由60年代的10~20版擴張至現(xiàn)在的100~200版;《北京青年報》也已
是16~40版。現(xiàn)在人均日閱讀時間通常
為30~45分鐘,只能瀏覽一份24版的報紙。在商業(yè)上,隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展
以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,以GB計。這就是所謂
的"數(shù)據(jù)爆炸但知識貧乏"的現(xiàn)象。大量信息在給人們帶來方便的同時也帶來了一大堆
問題,人們開始考慮:"如何才能不被信息
淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?"面對這一挑戰(zhàn),數(shù)據(jù)挖掘
(Data Mining)技術(shù)應(yīng)運而生,并顯示出強大的生命力。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取
隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。企業(yè)數(shù)據(jù)量
非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有
利于商業(yè)運作、提高競爭力的
信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。這種新式的商業(yè)信息處理技
術(shù),可以按商業(yè)既定業(yè)務(wù)目標(biāo),對大量的商業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、
未知的或驗證已知的規(guī)律性,并進(jìn)一步將其模型化。
從數(shù)據(jù)到信息的進(jìn)化過程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。表中我們可以
看到,第四步進(jìn)化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術(shù)已經(jīng)
可以快速地回答商業(yè)上的很多問題了。
進(jìn)化階段 商業(yè)問題 支持技術(shù) 產(chǎn)品廠家 產(chǎn)品特點
數(shù)據(jù)搜集(60年代) "過去五年中我的總收入是多少?" 計算機、磁帶和磁盤
IBM,CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息
數(shù)據(jù)訪問(80年代) "在中國的分部去年三月的銷售額是多少?" 關(guān)系數(shù)據(jù)庫(R
DBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Mic
rosoft 在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息
數(shù)據(jù)倉庫、決策支持(90年代) "在中國的分部去年三月的銷售額是多少?據(jù)此可得
出什么結(jié)論?" 聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫 Pilot、Com
share、Arbor、Cognos、Microstrategy
在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息
數(shù)據(jù)挖掘(正在流行) "下個月上海的銷售會怎么樣?為什么?" 高級算法、多處
理器計算機、海量數(shù)據(jù)庫 Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預(yù)測性的
信息
數(shù)據(jù)挖掘過程
在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目
標(biāo)是必要的,有了好的計劃才能保證數(shù)據(jù)挖掘有條不紊的實施并取得成功。很多軟件
供應(yīng)商和數(shù)據(jù)挖掘顧問公司投提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們的用戶一步步
的進(jìn)行數(shù)據(jù)挖掘工作。比如SPSS公
司的5A和SAS公司的SEMMA。
數(shù)據(jù)挖掘過程模型步驟主要包括:1定義商業(yè)問題;2建立數(shù)據(jù)挖掘模型;3分析數(shù)據(jù);
4準(zhǔn)備數(shù)據(jù);5建立模型;6評價模型;7實施。
1定義商業(yè)問題。在開始知識發(fā)現(xiàn)之前最先的同時也是最重要的要求就是了解數(shù)據(jù)和
業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如想提高
電子信箱的利用率時,想做的可能是"提高用戶使用率",也可能是"提高一次用戶使
用的價值",要解決這兩個問題而建立
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -