亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  無監督學習:決策樹AI異常檢測

無監督學習:決策樹AI異常檢測

時間:2024-01-26

最近我去了一個關于流處理的演講,但是該演講的用例(use case)是關于異常檢測。當他們開始談論無監督決策樹時,我的天線就豎起來了。無監督決策樹是什么意思?它們會分裂出什么?

事實證明,在異常檢測領域,無監督決策樹的應用是相當普遍的。但是因為我并不從事該領域的相關工作,而且我懷疑我們中也很少有人在從事該領域的工作,所以我覺得我有必要分享下我發現的東西。

異常 VS 稀疏數據

幾周前,我們介紹了處理不平衡數據集的技術。對于數據集不平衡到什么程度應被歸為異常這個問題,人們并沒有統一的標準。就像判斷藝術的偉大與否,你看到的時候你就知道了。

這里我們作為例證的異常指的是入侵檢測中的異常。雖然這些異常一天之內會出現好多次,但是跟常規的網頁日志和系統數據包所產生的巨量數據相比,但是這些數據還是很少見的。具體到人的生活當中,異常可以是信用卡詐欺事件和正常 CT 掃描中發現癌癥。

如果你認為你的用例介于稀疏和異常之間,那么就按照我們所做的一樣,將兩種方法都試一下,看看哪個最好。

監督 VS 無監督

在異常檢測中,我們試圖識別與數據集內與預期模式不匹配且根據定義很少的項目或事件。入侵檢測系統中廣泛地采用了‘基于特征碼(signature based)’的方法來創建用于正常的監督技術中的訓練數據。當監測到攻擊時,相關的流量模式就會被記錄、標記和人為地被分類為一次入侵,然后這些數據會與正常數據結合起來,用于創建監督訓練集。

不論是受監督決策樹、無監督決策樹或者是由二者形成的隨機森林,均可用作異常檢測的工具。決策樹是非參數的,也不會對數據的分布做出假設。它們擅長將數字和分類相結合,高效地去處理缺失的數據。所有類型的異常數據往往都是高維度數據,而決策樹可以將其全部納入其中,并提供合理清晰的指導,以便在修剪(pruning)后僅留下重要信息。

完整的來說,還有一類半監督異常檢測,其訓練數據僅由正常事務組成,不包含任何異常。這也被稱為‘一類分類(One Class Classification)’,并以稍微不同的方式使用一類 SVM 或自動編碼器,在這里就不討論。

事實上,有監督方法在入侵檢測方面仍然比無監督方式更精確,但是它們完全無法確定新的或許有嚴重威脅的零時差(zero-day)攻擊。

無監督決策樹

無監督決策樹的概念其實有點誤導性,因為它其實是一個無監督的聚類算法的組合,通過創建第一個關于好壞的猜測,來決定決策樹應該在何處分裂。

步驟一:對您的數據運行一個聚類算法。我在嘗試了幾乎所有的聚類技術后,似乎舊的 k-NN 仍然是最好的。設定 K=2 似乎很誘人,但是鑒于可能存在多種不同類型的入侵,預期好的結果是不現實的。實際的指導是將 K 至少設置為 10,并且對值進行高達 50 的試驗。在此過程中,因為數據是未標記的,所以沒有能夠確定最佳聚類的目標函數。

雖然在文獻中并沒有涉及,但是我們有很好的理由去嘗試一下早期關于不平衡數據集的文章中討論過的 SMOTE (Synthetic Minority Oversampling Technique),因為該技術的主要目的是澄清聚類之間的界限。

步驟二:記錄了數據中的聚類后,以正常的方式運行決策樹。顯然的是,如果 K 很大,那么這將是一個多級問題,就需要通過解釋閾值來發現異常。

從圖中 ROC 曲線可以看出比照乳腺癌檢測基準數據,k-NN 方法得到的結果是很不錯的(請注意 AUC 軸在 0.5 時截止)。

異常檢測無監督決策樹的實際執行其實更為復雜,還會有關于不同類型異常的問題、數據規范化過程以及基準數據集本身的變化等多方面的問題。如果你想深入研究這一點,我建議你可以去閱讀下本文摘錄圖表的原文,該文比較了各種數據集中八種不同的技術。

最佳實踐

如果你想對此進行探索,那么用已存在的無監督隨機森林的 Python 腳本,會讓這個過程更容易一些。另外,我聽的演講來自于戴爾 EMC 的新興技術部(Emerging Technologies Division)的首席解決方案架構師 Boni Bruno。他描述的場景是通過監測每個單獨的地點,來實現在世界范圍內分布的遍及全球各地的數據中心進行異常監測。

該技術體系結構的核心是 Spark Streaming。流(stream)中的一個操作會包含有基于 Python 無監督隨機森林腳本的監測算法。警報通知會在監測到入侵后,不到 5 秒之內發出。

同樣有意思的是,該系統的設定是每 24 小時收集一個新的(真正的大數據)數據集,來重新訓練模型,以便實時捕獲任何新的零時差攻擊。

作者簡介:

Bill Vorhies 是一個數據科學中心的主編,自 2001 年起一直擔任數據科學家。他的聯系方式是:Bill@DataScienceCentral.com

原文鏈接:https://www.datasciencecentral.com/profiles/blogs/have-you-heard-about-unsupervised-decision-trees

來源:AI 前線

往期推薦

基于稀疏表示的半監督學習方法的創新與應用

塵埃大小的計算機現已具備深度學習能力

深度學習重塑助聽器:助聽器佩戴者終于

能在嘈雜的房間中辨別聲音了

主站蜘蛛池模板: 文成县| 行唐县| 深州市| 娄烦县| 汾阳市| 峨边| 台北县| 东乡族自治县| 秀山| 黔江区| 崇州市| 安达市| 双鸭山市| 潞城市| 云和县| 防城港市| 应用必备| 南投市| 鹤壁市| 永兴县| 巴里| 旬阳县| 富阳市| 翼城县| 龙南县| 沙坪坝区| 特克斯县| 丽水市| 沂源县| 博兴县| 神农架林区| 卫辉市| 石门县| 武平县| 保定市| 高淳县| 伊吾县| 嘉定区| 神木县| 徐汇区| 鄯善县|