?? 748.txt
字號:
發信人: mining (key), 信區: DataMining
標 題: 數據挖掘語言淺析(2)
發信站: 南京大學小百合站 (Sat Dec 8 12:06:27 2001), 站內信件
2.3 通用數據挖掘語言[4]
通用數據挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語
言與數據挖掘系統通信,進行交互和特殊的挖掘。通用數據挖掘語言的標準化是解決目前
數據挖掘行業出現問題的最優的解決方案。2000年3月,微軟公司推出了一個數據挖掘語言
,稱作OLE DB for Data Mining(DM)。這是朝數據挖掘語言原語標準化方面最顯著的努
力。我們將OLE DB for DM歸類成通用數據挖掘語言。
OLE DB for DM的規范包括創建原語以及許多重要數據挖掘模型的定義和使用(包括預言模
型和聚集)。它是一個基于SQL預言的協議,為軟件商和應用開發人員提供了一個開放的接
口,該接口將數據挖掘工具和能力更有效地和商業以及電子商務應用集成。同時,OLE DB
for DM 已經與DMG發布的PMML標準結合。通過與PMML標準結合,微軟將數據挖掘分析應用
帶入了一個更加強大的開放規范。這意味著大量的組織或公司現在都可以有一種簡單的并
且易實現的方式將數據挖掘模型與他們自己構建的應用相結合,增強了應用系統的分析能
力,卻沒有增加復雜性。
OLE DB for DM擴充了SQL語言語法,使得商業分析和開發人員只是調用單一確定的API(應
用程序接口)函數即可實現數據挖掘功能,而不需要特殊的數據挖掘技能。它與關系數據
庫自然的集成能夠加快數據挖掘進入高利潤的電子商務應用領域,例如站點個性化設計和
購物籃分析。
微軟的目的是為數據挖掘提供行業標準,以至于任何數據挖掘軟件的算法,只要符合這個
標準,都能容易地嵌入應用程序中。OLE DB for DM支持多種流行的數據挖掘算法。使用O
LE DB for DM,數據挖掘應用能夠通過OLE DB生產者接進任何表格式的數據源,數據挖掘
分析現在能夠依賴一個關系數據庫直接進行。
為了更容易訪問,OLE DB for DM沒有增加任何新的OLE DB 接口;相反,這個規格定義了
一個簡單的查詢語言,它的語法非常類似于SQL語言,它專門研究了模式的行集合(rowse
t),經過OLE DB或者ADO,消費者應用程序能夠使用行集合與數據挖掘生產者進行通信。
為了填補傳統的數據挖掘技術和目前流行的關系數據庫管理系統之間的縫隙,OLE DB for
DM定義了重要的新的概念和特點,包括如下幾點:
1)數據挖掘模型(Data Mining Model,DMM)
DMM類似一個關系表,但是它包含了一些特殊的列,這些列被數據挖掘中的數據訓練和預言
制定使用。DMM 既可以用來創建預言模型,又可以產生預言。不象標準的關系表存儲原始
數據,DMM存儲被數據挖掘算法發現的模式。對于從事基于WEB數據挖掘項目的開發人員,
DMM所有的結構和內容都可以用XML字符串表示。
2)預言聯接操作(Predication Join Operation)
這是一個簡單的操作,類似于SQL語法中的聯接操作,它在一個訓練好的數據挖掘模型和設
計的輸入數據源之間映射一個聯接查詢,開發人員能夠容易地產生確切符合商業需求的度
身定制的預言結果。這個預言結果通過OLE DB的行集合或者ADO記錄集(recordset)發送
到消費者應用程序內。
3)OLE DB for DM模式行集合(Schema Rowsets)
這些特殊目的的模式行集合允許消費者應用發現臨界的信息,例如可以利用的挖掘服務,
挖掘模型,挖掘列,和模型內容。數據挖掘生產者在模型創建和訓練階段組裝模式行集合
。
目前OLE DB for DM規范最新版本是1.0。
3. 分析與評價
數據挖掘查詢語言能與數據挖掘系統通信,進行交互和特殊的挖掘。它提供了獨立于應用
的操作原語,簡明精確的問題描述方法。但是,由于各查詢語言是研究機構和公司為自己
的數據挖掘系統開發,沒有形成標準,它并沒有實質性地解決各個數據挖掘系統彼此互相
孤立,難于嵌入大型應用的問題。
PMML為處理和交換預言模型提供了一個簡單、開放的構架,使得各公司能夠更加迅速地使
用他們從在線和傳統的數據中挖掘出的信息。這種標準使得公司在IT基礎構架中更加容易
構建商業智能。PMML允許用戶在一個軟件商的應用程序內開發模型,而使用其它軟件商的
應用程序對模型可視化、分析、估值或者以別的方式使用該模型。它使得在不同應用程序
之間能夠無縫地交換模型變為可能,解決了數據挖掘系統彼此孤立,難于嵌入大型應用的
問題。
然而,PMML是預言模型標記語言,數據挖掘模型包括預言模型和描述模型,因此PMML并不
是全面的數據挖掘模型定義語言。同時,PMML1.0不是一個全面的集合,我們期望PMML最終
將發展成一個全面的、具有豐富建模能力的模型定義語言。我們預見并且盼望這個標準接
下來的版本能夠介紹優化,比如種類字段(categorical fields)的位向量擴充(bit ve
ctor expansions)或者連續字段(continuous fields)的log 變換。PMML,或者類似于
PMML的事物,隨著商業系統對統計和數據挖掘工具與技術需求的日益增加,對它的要求顯
得特別迫切。
OLE DB for DM規范的發布在預言和描述分析模型被商業應用廣泛使用的道路上是一個重大
的里程碑。它同時具備了數據挖掘查詢和建模語言的優點,它的推廣必將推動數據挖掘行
業的發展。但是,對于一些數據挖掘模型,比如:概念描述(特征和辨別規則)和關聯規
則,還有數據倉庫模型,OLAP的創建和使用,在目前的版本中仍然沒有涉及。我們期望微
軟公司將繼續動態地擴充和豐富它的內容。
4.總結
本文介紹了數據挖掘語言及其標準化方面的研究進展,分析并比較了幾種商用數據
挖掘語言的特點,我們發現標準化是數據挖掘語言發展的趨勢。開發一種全面的開放的數
據挖掘語言標準,必然將是各公司和研究機構的核心課題。但是,正如關系數據庫查詢語
言SQL由關系代數理論的支持,數據挖掘語言的標準化也需要一種理論的基礎,基于高階邏
輯和Rough Sets理論的數據挖掘問題的分類描述理論,將作為今后我們進一步深入研究的
課題
--
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 202.118.237.14]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -