?? 637.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: [轉載] 數據開采工具及應用(一)
發信站: 南京大學小百合站 (Fri Nov 1 22:32:33 2002), 站內信件
【 以下文字轉載自 AI 討論區 】
【 原文由 yinsoft 所發表 】
數據開采工具的任務
數據開采工具的目標是從數據庫中發現隱含的、有意義的知識,
主要有以下4類任務:
1.關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個
或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡
單關聯(例如,購買面包的顧客中有90%的人同時購買牛奶)、時序關聯
(例如,若AT&T股票連續上漲兩天且DEC股票不下跌,則第三天IBM股票
上漲的可能性為75%)、因果關聯。關聯分析的目的是找出數據庫中隱
藏的關聯網。有時并不知道數據庫中數據的關聯是否存在精確的關聯
函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
2.聚類
數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類
增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。
聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mic
halski提出了概念聚類技術。其要點是,在劃分對象時不僅考慮對象
之間的距離,還要求劃分得出的類具有某種內涵描述,從而避免了傳統
技術的某些片面性。
3.概念描述
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有
關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象
的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性
描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多
, 如決策樹方法、遺傳算法等。
4.偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很
有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規
則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏
差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
--
歡迎進入—--軍事主頁
http://202.119.36.47/~sunlight
※ 來源:.南京大學小百合站 dii.nju.edu.cn.[FROM: aiake1.nju.edu.c]
--
※ 轉載:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -