?? 177.txt
字號:
發信人: yaomc (白頭翁&山東大漢), 信區: DataMining
標 題: Re: 誰能介紹一下時間序列的數據挖掘?
發信站: 南京大學小百合站 (Tue Oct 30 20:28:30 2001), 站內信件
下面的內容摘自www.dmgroup.org.cn.
挖掘基于時間序列的數據
張寶生 bszhang@sina.com
時間序列的數據庫內某個字段的值是隨著時間而不斷變化的,例如股票價格每天的
漲跌,科學實驗,瀏覽網頁的次序等。
這兒,我們運用數據挖掘的方法來對這些數據庫進行“趨勢分析”,“相似搜索”
,“挖掘序列模式”,“時段模式”。
一, 趨勢分析:
一個變量Y,表示某一支股票每天的收盤價,可以看作是時間t的函數,例如:
Y=F(t);
這樣的函數可以用一個時間序列的圖來表示。
我們怎么樣來分析這些時間序列的數據呢?這兒有四個方面值得我們注意
的:
1, 長時間的走向:表明在很長一段時間內總的走向趨勢,這個可以用一個“
趨勢曲線”或者“趨勢直線”來顯示,具體方法將在下面講到。
2, 周期的走向與周期的變化:直線和曲線的振蕩并不是周期的,這個循環并
不遵循基于相等時間的規律。
3, 季節性的走向與變化:例如在情人節來之前,巧克力和花的銷量突然的增
大。換一個話說,就是在連續的很多年中,有一段時期總是與這年中的其他時期大
不同。
4, 不規則的隨機走向;由于一些突發的偶然事件而產生的。
上面這些走向我們分別可以用變量T,C,S,I來表示,時間序列分析也就可以是將
一個時間序列的數據分割成這四個基本的趨勢。這時間序列變量Y就可以模化為這
四個變量的乘積或者是總和。
“給定Y的的集合,我們怎么樣來分析出數據的走向呢?”
一個很普遍的方法就是計算平均值,這個方法就叫做“moving average of
order n”。如果采用一個有權重的方法的話,就是“weighted moving average
of order n”。
例:給定9 個數的序列,我們計算出它的moving average of order 3和
weighted moving average of order 3(用權重1,4,1)。這個可以用下表來表
示:
3,7,2,0,4,5,9,7,2
4,3,2,3,6,7,6
5.5, 2.5, 1,3.5,5.5,8,6.5
給中間一個權重大是為減少平滑的影響。
那么我們還有沒有其他的方法來估計這個趨勢呢?其中的一個方法是“freehand
method”:用一個相似的曲線來代替數據,這兒最相似的曲線我們定義為di的總和
最小,di是指曲線yi與實際數據yi的差。
有沒有一些方法來調整季節性波動的數據呢?在實際的商業運用中,人們總想一般
化季節性的波動。我們可以采用seasonal index numbers的方法。
二, 挖掘序列模式。
“什么是序列模式挖掘?”序列模式挖掘是基于時間或者其他序列的經常發生的模
式。序列模式的一個例子就是“一個9個月前買了一臺PC的顧客有可能在一個月內
買一個新的CPU”。很多數據都是這種時間序列形式的,我們就可以用它來市場趨
勢分析,客戶保留和天氣預測等等。
序列模式挖掘的例子和參數:有很多參數對于挖掘的結果影響很大:
首先是時間序列T的持續時間,也就是這個時間序列的有效時間或者是用戶選擇
的一個時間段,例如1999年。這樣序列模式挖掘就被限定為對某段特定時間內的數
據的挖掘。
其次是時間折疊窗口w,在一段時間內發生的幾件事件可以被看作是同時發生的
,如果w被設置為持續時間T的長度,我們就可以發現一些關聯模式——“在1999年
,一個買了PC機用戶又買了數字照相機”(并不考慮先后順序)。如果w被設置為
0,那么序列模式就是兩個事件發生在不同的時間里——“已經買了Pc機和內存的
顧客有可能在以后買一個光驅”。如果w被設置為一段時間間隔(例如一個月或者
是一天),那么在這段時間的交易在分析中可以被看作是同時發生的。
第三個參數是時間間隔,int,這個參數表示發現的模式的時間間隔。
Int=0:在這兒,我們要考慮參數w,例如如果這個參數設置為一個星期,那么發生了
事件A,事件B會在一星期內發生。
Min_interval<max_interval:表示我們發現的事件發生的間隔小于min_interval
大于max_interval。例如:“如果一個租了影片A,那么他一定會在一個月內租影片
B”,這兒隱含著int<30。
Int=c而c不為0,那么意味著兩件事的間隔在固定的時間內,例如:每次股票A下跌
了5%,那么兩天后會發生什么事?
【 在 imaniu (aniu) 的大作中提到: 】
: 跟一般的數據挖掘相比有何特點?
: 尤其是金融和工業領域的時間序列
: 謝謝
--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,請先鑒定一下是否為真金!!!
熱烈歡迎大家到數據挖掘版(DataMining)光臨指導。
※ 來源:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 202.204.34.97]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -