序列模式分析算法GSP的實(shí)現(xiàn)
GSP是序列模式挖掘的一種算法。其主要描述如下:
l 根據(jù)長(zhǎng)度為i 的種子集Li 通過(guò)連接操作和剪切操作生成長(zhǎng)度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫(kù),計(jì)算每個(gè)候選序列模式的支持?jǐn)?shù),產(chǎn)生長(zhǎng)度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
l 重復(fù)第二步,直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止。
l 掃描序列數(shù)據(jù)庫(kù),得到長(zhǎng)度為1的序列模式L1,作為初始的種子集
L1Þ C2 Þ L2 Þ C3 Þ L3 Þ C4 Þ L4 Þ ……
產(chǎn)生候選序列模式主要分兩步
l 連接階段:如果去掉序列模式s1的第一個(gè)項(xiàng)目與去掉序列模式s2的最后一個(gè)項(xiàng)目所得到的序列相同,則可以將s1于s2進(jìn)行連接,即將s2的最后一個(gè)項(xiàng)目添加到s1中。
l 剪切階段:若某候選序列模式的某個(gè)子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。
候選序列模式的支持度計(jì)算:對(duì)于給定的候選序列模式集合C,掃描序列數(shù)據(jù)庫(kù),對(duì)于其中的每一條序列d,找出集合C中被d所包含的所有候選序列模式,并增加其支持度計(jì)數(shù)。
標(biāo)簽:
GSP
序列
模式
操作
上傳時(shí)間:
2016-07-23
上傳用戶:sammi