?? 偏最小二乘回歸方法及其應(yīng)用.htm
字號:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0047)http://www.sg.pku.edu.cn/yubin/sub/partial.html -->
<HTML><HEAD><TITLE>偏最小二乘回歸方法及其應(yīng)用</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb_2312-80">
<META content="MSHTML 6.00.2800.1498" name=GENERATOR></HEAD>
<BODY><FONT lang=ZH-CN face=宋體 size=5>
<P align=center>偏最小二乘回歸方法及其應(yīng)用</P></FONT><FONT lang=ZH-CN face=宋體>
<P align=center>王惠文著</P></FONT><FONT lang=ZH-CN face=宋體 size=3>
<P align=center>國防工業(yè)出版社</FONT><FONT size=3>1999</FONT><FONT lang=ZH-CN face=宋體
size=3>年版</P>
<P align=center> </P>
<P align=justify>偏最小二乘回歸≈多元線性回歸分析+典型相關(guān)分析+主成分分析</P></FONT><FONT size=3>
<P align=justify></FONT><FONT lang=ZH-CN face=宋體
size=3>與傳統(tǒng)多元線性回歸模型相比,偏最小二乘回歸的特點是:(</FONT><FONT size=3>1</FONT><FONT lang=ZH-CN
face=宋體 size=3>)能夠在自變量存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模;(</FONT><FONT size=3>2</FONT><FONT
lang=ZH-CN face=宋體 size=3>)允許在樣本點個數(shù)少于變量個數(shù)的條件下進(jìn)行回歸建模;(</FONT><FONT
size=3>3</FONT><FONT lang=ZH-CN face=宋體
size=3>)偏最小二乘回歸在最終模型中將包含原有的所有自變量;(</FONT><FONT size=3>4</FONT><FONT lang=ZH-CN
face=宋體 size=3>)偏最小二乘回歸模型更易于辨識系統(tǒng)信息與噪聲(甚至一些非隨機性的噪聲);(</FONT><FONT
size=3>5</FONT><FONT lang=ZH-CN face=宋體
size=3>)在偏最小二乘回歸模型中,每一個自變量的回歸系數(shù)將更容易解釋。</P>
<P align=justify>在計算方差和協(xié)方差時,求和號前面的系數(shù)有兩種取法:當(dāng)樣本點集合是隨機抽取得到時,應(yīng)該取</FONT><FONT
size=3>1/(n-1)</FONT><FONT lang=ZH-CN face=宋體
size=3>;如果不是隨機抽取的,這個系數(shù)可取</FONT><FONT size=3>1/n</FONT><FONT lang=ZH-CN face=宋體
size=3>。</P>
<P align=justify> </P></FONT><B><FONT lang=ZH-CN face=宋體>
<P align=justify>多重相關(guān)性的診斷</P></FONT><FONT face=Arial size=3>
<P align=justify>1 </FONT><FONT lang=ZH-CN face=黑體
size=3>經(jīng)驗式診斷方法</P></B></FONT><FONT size=3>
<P align=justify>1</FONT><FONT lang=ZH-CN face=宋體
size=3>、在自變量的簡單相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值較大。</P></FONT><FONT size=3>
<P align=justify>2</FONT><FONT lang=ZH-CN face=宋體
size=3>、回歸系數(shù)的代數(shù)符號與專業(yè)知識或一般經(jīng)驗相反;或者,它同該自變量與</FONT><FONT size=3>y</FONT><FONT
lang=ZH-CN face=宋體 size=3>的簡單相關(guān)系數(shù)符號相反。</P></FONT><FONT size=3>
<P align=justify>3</FONT><FONT lang=ZH-CN face=宋體
size=3>、對重要自變量的回歸系數(shù)進(jìn)行</FONT><FONT size=3>t</FONT><FONT lang=ZH-CN face=宋體
size=3>檢驗,其結(jié)果不顯著。</P>
<P align=justify>特別典型的是,當(dāng)</FONT><FONT size=3>F</FONT><FONT lang=ZH-CN face=宋體
size=3>檢驗?zāi)茉诟呔认峦ㄟ^,測定系數(shù)</FONT><FONT size=3>R<SUP>2</SUP></FONT><FONT lang=ZH-CN
face=宋體 size=3>的值亦很大,但自變量的</FONT><FONT size=3>t</FONT><FONT lang=ZH-CN face=宋體
size=3>檢驗卻全都不顯著,這時,多重相關(guān)性的可能性將很大。</P></FONT><FONT size=3>
<P align=justify>4</FONT><FONT lang=ZH-CN face=宋體
size=3>、如果增加(或刪除)一個變量,或者增加(或刪除)一個觀測值,回歸系數(shù)的估計值發(fā)生了很大的變化。</P></FONT><FONT size=3>
<P align=justify>5</FONT><FONT lang=ZH-CN face=宋體
size=3>、重要自變量的回歸系數(shù)置信區(qū)間明顯過大。</P></FONT><FONT size=3>
<P align=justify>6</FONT><FONT lang=ZH-CN face=宋體
size=3>、在自變量中,某一個自變量是另一部分自變量的完全或近似完全的線性組合。</P></FONT><FONT size=3>
<P align=justify>7</FONT><FONT lang=ZH-CN face=宋體
size=3>、對于一般的觀測數(shù)據(jù),如果樣本點的個數(shù)過少,樣本數(shù)據(jù)中的多重相關(guān)性是經(jīng)常存在的。</P>
<P
align=justify>但是,采用經(jīng)驗式方法診斷自變量系統(tǒng)中是否確實存在多重相關(guān)性,并不十分可靠,另一種較正規(guī)的方法是利用統(tǒng)計檢驗(</FONT><FONT
lang=ZH-CN face=宋體 color=#0000ff size=3>回歸分析</FONT><FONT lang=ZH-CN face=宋體
size=3>),檢查每一個自變量相對其它自變量是否存在線性關(guān)系。</P></FONT><B><FONT face=Arial size=3>
<P align=justify>2 </FONT><FONT lang=ZH-CN face=黑體
size=3>方差膨脹因子</P></B></FONT><FONT lang=ZH-CN face=宋體 size=3>
<P align=justify>最常用的多重相關(guān)性的正規(guī)診斷方法是使用方差膨脹因子。自變量</FONT><B><FONT
size=3>x</B><SUB>j</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>的方差膨脹因子記為(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>,它的計算方法為</P>
<P align=justify>(</FONT><FONT size=3>4-5</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> </FONT><FONT lang=ZH-CN face=宋體
size=3>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUB><FONT size=3>j</SUB> =</FONT><FONT lang=ZH-CN face=宋體
size=3>(</FONT><FONT size=3>1-R<SUB> j</SUB><SUP>2</SUP></FONT><FONT lang=ZH-CN
face=宋體 size=3>)</FONT><SUP><FONT size=3>-1</P></SUP></FONT><FONT lang=ZH-CN
face=宋體 size=3>
<P align=justify>式中,</FONT><FONT size=3>R<SUB> j</SUB><SUP>2</SUP></FONT><FONT
lang=ZH-CN face=宋體 size=3>是以</FONT><B><FONT size=3>x</B><SUB>j</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>為因變量時對其它自變量回歸的復(fù)測定系數(shù)。</P>
<P align=justify>所有</FONT><B><FONT size=3>x</B><SUB>j</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>變量中最大的(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN
face=宋體 size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>通常被用來作為測量多重相關(guān)性的指標(biāo)。一般認(rèn)為,如果最大的(</FONT><FONT size=3>VIF</FONT><FONT
lang=ZH-CN face=宋體 size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>超過</FONT><FONT size=3>10</FONT><FONT lang=ZH-CN
face=宋體 size=3>,常常表示多重相關(guān)性將嚴(yán)重影響最小二乘的估計值。</P>
<P align=justify>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>被稱為方差膨脹因子的原因,是由于它還可以度量回歸系數(shù)的估計方差與自變量線性無關(guān)時相比,增加了多少。</P>
<P align=justify>不妨假設(shè)</FONT><B><FONT
size=3>x</B><SUB>1</SUB>,<B>x</B><SUB>2</SUB>,…,<B>x</B><SUB>p</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>均是標(biāo)準(zhǔn)化變量。采用最小二乘法得到回歸系數(shù)向量</FONT><FONT
size=3>B</FONT><FONT lang=ZH-CN face=宋體 size=3>,它的精度是用它的方差來測量的。</FONT><FONT
size=3>B</FONT><FONT lang=ZH-CN face=宋體 size=3>的協(xié)方差矩陣為</P></FONT><FONT size=3>
<P align=justify>Cov(<B>B</B>)= </FONT><FONT lang=ZH-CN face=宋體
size=3>σ</FONT><SUP><FONT size=3>2</SUP> (X'X)<SUP>-1</P></SUP></FONT><FONT
lang=ZH-CN face=宋體 size=3>
<P align=justify>式中,σ</FONT><SUP><FONT size=3>2</SUP></FONT><FONT lang=ZH-CN
face=宋體 size=3>是誤差項方差。所以,對于回歸系數(shù)</FONT><FONT size=3>b<SUB> j</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>,有</P></FONT><FONT size=3>
<P align=justify>Var(b<SUB> j</SUB>)= </FONT><FONT lang=ZH-CN face=宋體
size=3>σ</FONT><SUP><FONT size=3>2</SUP>c<SUB>jj</P></SUB>
<P align=justify>c<SUB>jj</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>是</FONT><FONT size=3>(X'X)<SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋體
size=3>矩陣中第</FONT><FONT size=3>j</FONT><FONT lang=ZH-CN face=宋體
size=3>個對角元素。可以證明,</P></FONT><FONT size=3>
<P align=justify>c<SUB>jj</SUB> =</FONT><FONT lang=ZH-CN face=宋體
size=3>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUB><FONT size=3>j</P></SUB></FONT><B><FONT lang=ZH-CN face=宋體>
<P align=justify>嶺回歸分析</P></FONT><FONT face=Arial size=3>
<P align=justify>1 </FONT><FONT lang=ZH-CN face=黑體
size=3>嶺回歸估計量</P></B></FONT><FONT lang=ZH-CN face=宋體 size=3>
<P
align=justify>嶺回歸分析是一種修正的最小二乘估計法,當(dāng)自變量系統(tǒng)中存在多重相關(guān)性時,它可以提供一個比最小二乘法更為穩(wěn)定的估計,并且回歸系數(shù)的標(biāo)準(zhǔn)差也比最小二乘估計的要小。</P>
<P
align=justify>根據(jù)高斯——馬爾科夫定理,多重相關(guān)性并不影響最小二乘估計量的無偏性和最小方差性。但是,雖然最小二乘估計量在所有線性無偏估計量中是方差最小的,但是這個方差卻不一定小。于是可以找一個有偏估計量,這個估計量雖然有微小的偏差,但它的精度卻能夠大大高于無偏的估計量。</P>
<P align=justify>在應(yīng)用嶺回歸分析時,它的計算大多從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā)。對于標(biāo)準(zhǔn)化變量,最小二乘的正規(guī)方程為</P></FONT><FONT
size=3>
<P
align=justify><B>r</B><SUB>XX</SUB><B>b</B>=<B>r</B><SUB>yX</P></SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>
<P align=justify>式中,</FONT><B><FONT size=3>r</B><SUB>XX</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>是</FONT><B><FONT size=3>X</B></FONT><FONT lang=ZH-CN
face=宋體 size=3>的相關(guān)系數(shù)矩陣,</FONT><B><FONT size=3>r</B><SUB>yX</SUB></FONT><FONT
lang=ZH-CN face=宋體 size=3>是</FONT><B><FONT size=3>y</B></FONT><FONT lang=ZH-CN
face=宋體 size=3>與所有自變量的相關(guān)系數(shù)向量。</P>
<P align=justify>嶺回歸估計量是通過在正規(guī)方程中引入有偏常數(shù)</FONT><FONT size=3>c</FONT><FONT
lang=ZH-CN face=宋體 size=3>(</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
size=3>≥</FONT><FONT size=3>0</FONT><FONT lang=ZH-CN face=宋體
size=3>)而求得的。它的正規(guī)方程為</FONT><FONT size=3>+</P></FONT><FONT lang=ZH-CN face=宋體
size=3>
<P align=justify>(</FONT><FONT size=3>4-8</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> </FONT><FONT lang=ZH-CN face=宋體
size=3>(</FONT><B><FONT size=3>r</B><SUB>XX</SUB>+ c<B>I</B></FONT><FONT
lang=ZH-CN face=宋體 size=3>)</FONT><B><FONT size=3>
b</B><SUP>R</SUP>=<B>r</B><SUB>yX</P></SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>
<P align=justify>所以,在嶺回歸分析中,標(biāo)準(zhǔn)化回歸系數(shù)為</P>
<P align=justify>(</FONT><FONT size=3>4-9</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> <B>b</B><SUP>R</SUP> =</FONT><FONT lang=ZH-CN
face=宋體 size=3>(</FONT><B><FONT size=3>r</B><SUB>XX</SUB>+ c<B>I</B></FONT><FONT
lang=ZH-CN face=宋體 size=3>)</FONT><SUP><FONT size=3>-1</SUP><B>
r</B><SUB>yX</P></SUB></FONT><B><FONT face=Arial size=3>
<P align=justify>2 </FONT><FONT lang=ZH-CN face=黑體
size=3>嶺回歸估計量的性質(zhì)</P></B></FONT><FONT size=3>
<P align=justify></FONT><FONT lang=ZH-CN face=宋體 size=3>(</FONT><FONT
size=3>1</FONT><FONT lang=ZH-CN face=宋體 size=3>)嶺回歸系數(shù)是一般最小二乘準(zhǔn)則下回歸系數(shù)的線性組合,即</P>
<P align=justify>(</FONT><FONT size=3>4-10</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> <B>b</B><SUP>R</SUP> =</FONT><FONT lang=ZH-CN
face=宋體 size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUP><FONT size=3>-1</SUP><B>b</P></B></FONT><FONT lang=ZH-CN
face=宋體 size=3>
<P align=justify>(</FONT><FONT size=3>2</FONT><FONT lang=ZH-CN face=宋體
size=3>)記<B>β</B>是總體參數(shù)的理論值。當(dāng)<B>β≠</B></FONT><FONT size=3>0</FONT><FONT
lang=ZH-CN face=宋體 size=3>時,可以證明一定存在一個正數(shù)</FONT><FONT
size=3>c<SUB>0</SUB></FONT><FONT lang=ZH-CN face=宋體 size=3>,使得當(dāng)</FONT><FONT
size=3>0< c< c<SUB>0</SUB></FONT><FONT lang=ZH-CN face=宋體
size=3>時,一致地有</P>
<P align=justify>(</FONT><FONT size=3>4-11</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> E||<B> b</B><SUP>R</SUP><B> -</FONT><FONT
lang=ZH-CN face=宋體 size=3>β</B></FONT><FONT size=3>||<SUP>2</SUP></FONT><FONT
lang=ZH-CN face=宋體 size=3>≤</FONT><FONT size=3> E||<B> b -</FONT><FONT
lang=ZH-CN face=宋體 size=3>β</B></FONT><FONT size=3>||<SUP>2</P></SUP>
<P align=justify></FONT><FONT lang=ZH-CN face=宋體 size=3>(</FONT><FONT
size=3>3</FONT><FONT lang=ZH-CN face=宋體 size=3>)嶺回歸估計量的絕對值常比普通最小二乘估計量的絕對值小,即</P>
<P align=justify>(</FONT><FONT size=3>4-12</FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3> ||<B> b</B><SUP>R</SUP><B> </B>||<||<B> b
</B>||</P></FONT><FONT lang=ZH-CN face=宋體 size=3>
<P align=justify>嶺回歸估計量的質(zhì)量取決于偏倚系數(shù)</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN
face=宋體 size=3>的選取。</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
size=3>的選取不宜過大,因為</P></FONT><FONT size=3>
<P align=justify>E</FONT><FONT lang=ZH-CN face=宋體 size=3>(</FONT><B><FONT
size=3>b</B><SUP>R</SUP></FONT><FONT lang=ZH-CN face=宋體 size=3>)</FONT><FONT
size=3>=</FONT><FONT lang=ZH-CN face=宋體 size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUP><FONT size=3>-1</SUP> E<B> </B></FONT><FONT lang=ZH-CN
face=宋體 size=3>(</FONT><B><FONT size=3>b</B></FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><FONT size=3>=</FONT><FONT lang=ZH-CN face=宋體
size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋體
size=3>)</FONT><SUP><FONT size=3>-1</SUP></FONT><B><FONT lang=ZH-CN face=宋體
size=3>β</P></B>
<P align=justify>關(guān)于偏倚系數(shù)</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
size=3>的選取尚沒有正規(guī)的決策準(zhǔn)則,目前主要以嶺跡和方差膨脹因子為依據(jù)。<B>嶺跡</B>是指</FONT><FONT
size=3>p-1</FONT><FONT lang=ZH-CN face=宋體 size=3>個嶺回歸系數(shù)估計量對不同的</FONT><FONT
size=3>c</FONT><FONT lang=ZH-CN face=宋體 size=3>值所描繪的曲線(</FONT><FONT
size=3>c</FONT><FONT lang=ZH-CN face=宋體 size=3>值一般在</FONT><FONT
size=3>0~1</FONT><FONT lang=ZH-CN face=宋體
size=3>之間)。在通過檢查嶺跡和方差膨脹因子來選擇</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
size=3>值時,其判斷方法是選擇一個盡可能小的</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
size=3>值,在這個較小的</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋體
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -