?? 27.txt
字號:
發(fā)信人: yaomc (白頭翁&山東大漢), 信區(qū): DataMining
標 題: [合集]誰能介紹一下時間序列的數(shù)據(jù)挖掘?
發(fā)信站: 南京大學(xué)小百合站 (Sun Dec 9 21:02:07 2001), 站內(nèi)信件
imaniu (aniu) 于Mon Oct 29 18:53:58 2001提到:
跟一般的數(shù)據(jù)挖掘相比有何特點?
尤其是金融和工業(yè)領(lǐng)域的時間序列
謝謝
yaomc (白頭翁&山東大漢) 于Tue Oct 30 20:28:30 2001提到:
下面的內(nèi)容摘自www.dmgroup.org.cn.
挖掘基于時間序列的數(shù)據(jù)
張寶生 bszhang@sina.com
時間序列的數(shù)據(jù)庫內(nèi)某個字段的值是隨著時間而不斷變化的,例如股票價格每天的
漲跌,科學(xué)實驗,瀏覽網(wǎng)頁的次序等。
這兒,我們運用數(shù)據(jù)挖掘的方法來對這些數(shù)據(jù)庫進行“趨勢分析”,“相似搜索”
,“挖掘序列模式”,“時段模式”。
一, 趨勢分析:
一個變量Y,表示某一支股票每天的收盤價,可以看作是時間t的函數(shù),例如:
Y=F(t);
這樣的函數(shù)可以用一個時間序列的圖來表示。
我們怎么樣來分析這些時間序列的數(shù)據(jù)呢?這兒有四個方面值得我們注意
的:
1, 長時間的走向:表明在很長一段時間內(nèi)總的走向趨勢,這個可以用一個“
趨勢曲線”或者“趨勢直線”來顯示,具體方法將在下面講到。
2, 周期的走向與周期的變化:直線和曲線的振蕩并不是周期的,這個循環(huán)并
不遵循基于相等時間的規(guī)律。
3, 季節(jié)性的走向與變化:例如在情人節(jié)來之前,巧克力和花的銷量突然的增
大。換一個話說,就是在連續(xù)的很多年中,有一段時期總是與這年中的其他時期大
不同。
4, 不規(guī)則的隨機走向;由于一些突發(fā)的偶然事件而產(chǎn)生的。
上面這些走向我們分別可以用變量T,C,S,I來表示,時間序列分析也就可以是將
一個時間序列的數(shù)據(jù)分割成這四個基本的趨勢。這時間序列變量Y就可以模化為這
四個變量的乘積或者是總和。
“給定Y的的集合,我們怎么樣來分析出數(shù)據(jù)的走向呢?”
一個很普遍的方法就是計算平均值,這個方法就叫做“moving average of
order n”。如果采用一個有權(quán)重的方法的話,就是“weighted moving average
of order n”。
例:給定9 個數(shù)的序列,我們計算出它的moving average of order 3和
weighted moving average of order 3(用權(quán)重1,4,1)。這個可以用下表來表
示:
3,7,2,0,4,5,9,7,2
4,3,2,3,6,7,6
5.5, 2.5, 1,3.5,5.5,8,6.5
給中間一個權(quán)重大是為減少平滑的影響。
那么我們還有沒有其他的方法來估計這個趨勢呢?其中的一個方法是“freehand
method”:用一個相似的曲線來代替數(shù)據(jù),這兒最相似的曲線我們定義為di的總和
最小,di是指曲線yi與實際數(shù)據(jù)yi的差。
有沒有一些方法來調(diào)整季節(jié)性波動的數(shù)據(jù)呢?在實際的商業(yè)運用中,人們總想一般
化季節(jié)性的波動。我們可以采用seasonal index numbers的方法。
二, 挖掘序列模式。
“什么是序列模式挖掘?”序列模式挖掘是基于時間或者其他序列的經(jīng)常發(fā)生的模
式。序列模式的一個例子就是“一個9個月前買了一臺PC的顧客有可能在一個月內(nèi)
買一個新的CPU”。很多數(shù)據(jù)都是這種時間序列形式的,我們就可以用它來市場趨
勢分析,客戶保留和天氣預(yù)測等等。
序列模式挖掘的例子和參數(shù):有很多參數(shù)對于挖掘的結(jié)果影響很大:
首先是時間序列T的持續(xù)時間,也就是這個時間序列的有效時間或者是用戶選擇
的一個時間段,例如1999年。這樣序列模式挖掘就被限定為對某段特定時間內(nèi)的數(shù)
據(jù)的挖掘。
其次是時間折疊窗口w,在一段時間內(nèi)發(fā)生的幾件事件可以被看作是同時發(fā)生的
,如果w被設(shè)置為持續(xù)時間T的長度,我們就可以發(fā)現(xiàn)一些關(guān)聯(lián)模式——“在1999年
,一個買了PC機用戶又買了數(shù)字照相機”(并不考慮先后順序)。如果w被設(shè)置為
0,那么序列模式就是兩個事件發(fā)生在不同的時間里——“已經(jīng)買了Pc機和內(nèi)存的
顧客有可能在以后買一個光驅(qū)”。如果w被設(shè)置為一段時間間隔(例如一個月或者
是一天),那么在這段時間的交易在分析中可以被看作是同時發(fā)生的。
第三個參數(shù)是時間間隔,int,這個參數(shù)表示發(fā)現(xiàn)的模式的時間間隔。
Int=0:在這兒,我們要考慮參數(shù)w,例如如果這個參數(shù)設(shè)置為一個星期,那么發(fā)生了
事件A,事件B會在一星期內(nèi)發(fā)生。
Min_interval<max_interval:表示我們發(fā)現(xiàn)的事件發(fā)生的間隔小于min_interval
大于max_interval。例如:“如果一個租了影片A,那么他一定會在一個月內(nèi)租影片
B”,這兒隱含著int<30。
Int=c而c不為0,那么意味著兩件事的間隔在固定的時間內(nèi),例如:每次股票A下跌
了5%,那么兩天后會發(fā)生什么事?
kdd (kdd) 于Wed Oct 31 10:58:28 2001)
提到:
關(guān)于時間序列,在《隨即過程〉中有關(guān)于它的介紹,不過都是公式,很難理解!
要是學(xué)數(shù)學(xué)還能理解的!
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -