?? 456.txt
字號(hào):
發(fā)信人: GzLi (笑梨), 信區(qū): DataMining
標(biāo) 題: 漫談數(shù)據(jù)挖掘
發(fā)信站: 南京大學(xué)小百合站 (Fri Apr 19 10:45:27 2002), 站內(nèi)信件
漫談數(shù)據(jù)挖掘技術(shù)
在我們已經(jīng)生活在一個(gè)網(wǎng)絡(luò)化的時(shí)代,通信、計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)正改變著整個(gè)人類(lèi)和
社會(huì)。網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)是什么?讓我們來(lái)看一些身邊俯拾即是的現(xiàn)象:
《紐約時(shí)報(bào)》由60年代的10~20版擴(kuò)張至現(xiàn)在的100~200版;《北京青年報(bào)》也已
是16~40版。現(xiàn)在人均日閱讀時(shí)間通常
為30~45分鐘,只能瀏覽一份24版的報(bào)紙。在商業(yè)上,隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展
以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多,以GB計(jì)。這就是所謂
的"數(shù)據(jù)爆炸但知識(shí)貧乏"的現(xiàn)象。大量信息在給人們帶來(lái)方便的同時(shí)也帶來(lái)了一大堆
問(wèn)題,人們開(kāi)始考慮:"如何才能不被信息
淹沒(méi),而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)、提高信息利用率?"面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘
(Data Mining)技術(shù)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取
隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。企業(yè)數(shù)據(jù)量
非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析,獲得有
利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的
信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。這種新式的商業(yè)信息處理技
術(shù),可以按商業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的商業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、
未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化。
從數(shù)據(jù)到信息的進(jìn)化過(guò)程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。表中我們可以
看到,第四步進(jìn)化是革命性的,因?yàn)閺挠脩?hù)的角度來(lái)看,這一階段的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)
可以快速地回答商業(yè)上的很多問(wèn)題了。
進(jìn)化階段 商業(yè)問(wèn)題 支持技術(shù) 產(chǎn)品廠(chǎng)家 產(chǎn)品特點(diǎn)
數(shù)據(jù)搜集(60年代) "過(guò)去五年中我的總收入是多少?" 計(jì)算機(jī)、磁帶和磁盤(pán)
IBM,CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息
數(shù)據(jù)訪(fǎng)問(wèn)(80年代) "在中國(guó)的分部去年三月的銷(xiāo)售額是多少?" 關(guān)系數(shù)據(jù)庫(kù)(R
DBMS),結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL),ODBC Oracle、Sybase、Informix、IBM、Mic
rosoft 在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息
數(shù)據(jù)倉(cāng)庫(kù)、決策支持(90年代) "在中國(guó)的分部去年三月的銷(xiāo)售額是多少?據(jù)此可得
出什么結(jié)論?" 聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù) Pilot、Com
share、Arbor、Cognos、Microstrategy
在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息
數(shù)據(jù)挖掘(正在流行) "下個(gè)月上海的銷(xiāo)售會(huì)怎么樣?為什么?" 高級(jí)算法、多處
理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù) Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預(yù)測(cè)性的
信息
數(shù)據(jù)挖掘過(guò)程
在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目
標(biāo)是必要的,有了好的計(jì)劃才能保證數(shù)據(jù)挖掘有條不紊的實(shí)施并取得成功。很多軟件
供應(yīng)商和數(shù)據(jù)挖掘顧問(wèn)公司投提供了一些數(shù)據(jù)挖掘過(guò)程模型,來(lái)指導(dǎo)他們的用戶(hù)一步步
的進(jìn)行數(shù)據(jù)挖掘工作。比如SPSS公
司的5A和SAS公司的SEMMA。
數(shù)據(jù)挖掘過(guò)程模型步驟主要包括:1定義商業(yè)問(wèn)題;2建立數(shù)據(jù)挖掘模型;3分析數(shù)據(jù);
4準(zhǔn)備數(shù)據(jù);5建立模型;6評(píng)價(jià)模型;7實(shí)施。
1定義商業(yè)問(wèn)題。在開(kāi)始知識(shí)發(fā)現(xiàn)之前最先的同時(shí)也是最重要的要求就是了解數(shù)據(jù)和
業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如想提高
電子信箱的利用率時(shí),想做的可能是"提高用戶(hù)使用率",也可能是"提高一次用戶(hù)使
用的價(jià)值",要解決這兩個(gè)問(wèn)題而建立
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -