序列模式分析算法GSP的實現
GSP是序列模式挖掘的一種算法。其主要描述如下:
l 根據長度為i 的種子集Li 通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數據庫,計算每個候選序列模式的支持數,產生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
l 重復第二步,直到沒有新的序列模式或新的候選序列模式產生為止。
l 掃描序列數據庫,得到長度為1的序列模式L1,作為初始的種子集
L1Þ C2 Þ L2 Þ C3 Þ L3 Þ C4 Þ L4 Þ ……
產生候選序列模式主要分兩步
l 連接階段:如果去掉序列模式s1的第一個項目與去掉序列模式s2的最后一個項目所得到的序列相同,則可以將s1于s2進行連接,即將s2的最后一個項目添加到s1中。
l 剪切階段:若某候選序列模式的某個子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。
候選序列模式的支持度計算:對于給定的候選序列模式集合C,掃描序列數據庫,對于其中的每一條序列d,找出集合C中被d所包含的所有候選序列模式,并增加其支持度計數。
標簽:
GSP
序列
模式
操作
上傳時間:
2016-07-23
上傳用戶:sammi