?? 638.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: [轉載] 數據開采工具及應用(二)
發信站: 南京大學小百合站 (Fri Nov 1 22:32:38 2002), 站內信件
【 以下文字轉載自 AI 討論區 】
【 原文由 yinsoft 所發表 】
數據開采工具的分類
數據開采工具根據所采用的技術,大致可分為以下6類:
1.基于規則和決策樹的工具
大部分數據開采工具采用規則發現技術或決策樹分類技術來發現
數據模式和規則,其核心是某種歸納算法,如ID3及其發展C4.5。這類
工具通常先對數據庫的數據進行開采,生成規則和決策樹,然后對新數
據進行分析和預測。這類工具的主要優點是,規則和決策樹都是可讀
的。
其典型產品有:①Angoss Software開發的KnowledgeSeeker。它
可運行于DOS和Windows 環境,廣泛應用于市場和金融分析。它采用聚
類分析和規則歸納技術,從數據集中發現多種因果關系,并以圖形形式
顯示決策樹,價格約850美元。②Attar Software開發的XpertRule Pr
ofiler。它可運行于Windows環境,采用客戶 /服務器技術,適于大數
據量開采,可分析上百萬條記錄而不必取樣或取子集。其歸納過程采
用SQL語言查詢,因此開采速度依賴于數據庫所在機器的速度。它可以
產生決策樹,支持ODBC,價格為1.5萬美元。
2.基于神經元網絡的工具
由于對非線性數據的快速建模能力,基于神經元網絡的數據開采
工具現在越來越流行。其開采過程基本上是將數據聚類,然后分類計
算權值。神經元網絡很適合非線性數據和含噪聲數據,所以在對市場
數據庫的分析和建模方面應用廣泛。
典型產品有Advanced Software Application開發的DBProfile。
它可運行于Windows環境,適于針對市場行業的數據分析和決策支持系
統。它采用的方法包括自然聚類、分段、統計模型和可視化技術。它
通過精密的數據分析,幫助市場人員了解顧客、市場前景和市場狀況,
結果以圖形或表格形式顯示,支持ODBC,價格為1萬美元。
3.數據可視化方法
數據可視化以前多用于科學和工程領域,現在也出現了針對商業
用戶需求的產品。這類工具大大擴展了傳統商業圖形的能力,支持多
維數據的可視化,從而提供了多方向同時進行數據分析的圖形方法。
有些工具甚至提供動畫能力,使用戶可以"飛越"數據,觀看不同層次的
細節。其優點是,提供了發現并翻譯數據模式及數據間關系的圖形方
式。
典型產品有Information Technology Institute開發的WinViz。
它可運行于Windows環境,是一個良好的可視化數據分析工具,其接口
允許在一幅圖中顯示多維數據集。其交互式圖形查詢使用戶可快速瀏
覽數據庫,觀察數據集中不同屬性與其它數據集的關聯關系,價格約1
50美元。
4.模糊發現方法
這類工具較少,其發現方法是應用模糊邏輯進行數據查詢、排序
等。典型產品有Inform ation Builders Inc.開發的Level5 Quest。
它可運行于Windows和Unix環境,使用模糊概念和"最近"搜索技術的數
據查詢工具。它可以讓用戶指定目標,然后對數據庫進行搜索,找出接
近目標的所有記錄,并對結果進行評估。它支持ODBC,價格為495美元
。
5.統計方法
基于傳統統計方法的工具也相當多。因為這些工具沒有使用人工
智能技術,所以更適于分析現有信息,而不是從原始數據中發現數據模
式和規則。典型產品有BBN Software開發的Cornerstone。它可運行
于Windows和Unix環境。其特點是,數據集間可動態鏈接,也可鏈接到
其它數據源,對數據集可生成多種圖形視圖、聯機超文本幫助,易于操
作,可對數據進行存取、可視化、分析和表現。它支持ODBC,價格約15
00美元。
6.綜合多方法
不少數據開采工具采用了多種開采方法。這類工具一般規模較大
,運行于Unix工作站或并行處理平臺,適于大型數據庫(包括并行數據
庫)。這類工具的開采能力很強,但價格昂貴, 并要花很長時間進行學
習。
典型產品有:①Integral Solutions Ltd.開發的Clementine。它
運行于Unix工作站,適于最終用戶和開發人員的數據開采系統及開發
工具。它采用多種開采方法,綜合了可視化、神經元網絡和規則歸納,
具有良好的最終用戶可視化編程環境,內置的專家系統為用戶提供選
擇數據開采模型和算法的建議。專業人員可開發自己的神經元網絡和
歸納模型。它支持Ora cle、Ingress、Sybase、Informix,價格為1.9
萬美元。②Thinking Machines開發的Darwin 。它可運行于Windows
環境和MPP平臺,是大規模數據開采系統和開發環境。它使用多種算法
,包括神經元網絡、規則歸納、決策樹、基于記憶的推理、遺傳算法
等,并支持關系數據庫和并行數據庫。
--
歡迎進入—--軍事主頁
http://202.119.36.47/~sunlight
※ 來源:.南京大學小百合站 dii.nju.edu.cn.[FROM: aiake1.nju.edu.c]
--
※ 轉載:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -