石美麗
延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 陜西延安 716000
變點(diǎn)問題淵源已久,可以追溯到1954年P(guān)age關(guān)于連續(xù)抽樣檢驗(yàn)的討論。自20世紀(jì)70年代以來,對(duì)于變點(diǎn)問題的探討以及對(duì)變點(diǎn)性質(zhì)的研究一直是統(tǒng)計(jì)界的熱門話題。比如,在工業(yè)自動(dòng)控制中的質(zhì)量檢測(cè)、在經(jīng)濟(jì)與金融中的數(shù)據(jù)分析、氣象中的天氣預(yù)測(cè)、流行病學(xué)中傳染率的研究以及導(dǎo)航系統(tǒng)分析和心電圖中的韻律分析等方面有大量的應(yīng)用背景。而進(jìn)入21世紀(jì)以來,隨著科技的發(fā)展,我們所關(guān)心的問題面臨著大規(guī)模數(shù)據(jù)的挑戰(zhàn),這種數(shù)據(jù)往往以張量的形式呈現(xiàn)。因此,變點(diǎn)問題的研究又迎來了一個(gè)高峰時(shí)期,而對(duì)于變點(diǎn)的研究,我們首先關(guān)心的是存在與否的問題。所以,應(yīng)用數(shù)理統(tǒng)計(jì)方法對(duì)于變點(diǎn)進(jìn)行檢驗(yàn)是十分必要的。
Quandt(1958)最早提出來兩階段回歸模型,即至多含有一個(gè)變點(diǎn)(AMOC)模型,利用最大似然法對(duì)簡(jiǎn)單回歸模型中的參數(shù)進(jìn)行估計(jì),并在1960年利用似然比檢驗(yàn)對(duì)于變點(diǎn)的存在性進(jìn)行檢測(cè)。而Quandt有關(guān)變點(diǎn)的估計(jì)與假設(shè)檢驗(yàn)問題是基于小樣本的。Kim(1989)利用似然比檢驗(yàn)研究了AMOC的一元線性模型中的截距項(xiàng)的變點(diǎn)問題,并于1994年使用似然比檢驗(yàn)統(tǒng)計(jì)量研究了一般線性回歸模型中變點(diǎn)的檢測(cè)問題。陳希孺1991年的變點(diǎn)統(tǒng)計(jì)分析簡(jiǎn)介中,討論了包含多個(gè)變點(diǎn)的研究是在含有一個(gè)基礎(chǔ)上的“量變”。并且Bai(1998)將純參數(shù)變點(diǎn)問題推廣到局部參數(shù)變點(diǎn),對(duì)線性模型中的變點(diǎn)問題研究做了很好的補(bǔ)充。因此,對(duì)于AMOC模型的變點(diǎn)問題研究具有更廣泛的意義。
Kolda(2006),Kolda和Bader(2009),Lu(2019),Zhang(2019)等對(duì)張量分解進(jìn)行大量研究,并且在此基礎(chǔ)上運(yùn)用于我們生活當(dāng)中,如衛(wèi)星健康監(jiān)測(cè)問題[馬友等(2020)],信息工程自動(dòng)化控制[Zhang等(2016),Li等(2018),Zhang等(2019),Zhang等(2020),Wang等(2020)],醫(yī)學(xué)診斷問題[Crainiceanu等(2011);Allen等(2011);Hoff(2011);Aston和Kirch(2012);Zhou等(2013),Kilmei13等(2013),Li等(2018)]。后者Zhou等與Li等分別基于張量的CP分解和Tucker分解構(gòu)造出神經(jīng)成像與臨床結(jié)果之間的廣義線性模型,并研究了點(diǎn)估計(jì)量及其大樣本性質(zhì)。并且基于張量的CP分解以及Tucker分解,我們(2020)以及徐常青等(2021)進(jìn)一步探討了參數(shù)張量的估計(jì),給張量變點(diǎn)問題提供了大量的研究基礎(chǔ)。
本論文從變點(diǎn)理論的研究背景出發(fā),基于正態(tài)分布假設(shè),對(duì)最多含有一個(gè)參數(shù)變點(diǎn)的線性回歸模型的參數(shù)變點(diǎn)進(jìn)行統(tǒng)計(jì)推斷和預(yù)測(cè)估計(jì)。若變點(diǎn)位置已知,關(guān)于變點(diǎn)位置是否存在的檢驗(yàn)問題,在正態(tài)假設(shè)的基礎(chǔ)下,我們可以用F檢驗(yàn),因此以下的討論過程中,我們只考慮變點(diǎn)位置不知道的情形。并且由于正態(tài)假設(shè),可以證明LR方法、方法以及LM方法在檢驗(yàn)和估計(jì)問題上是等價(jià)的,所以本文中我們僅僅討論LR方法分別在一般線性回歸模型以及張量線性回歸模型中的運(yùn)用。
對(duì)于一元線性回歸模型,即=+(=1,…,),Kim和Siegmund(1989)考慮了至多一個(gè)變化點(diǎn)的似然比檢驗(yàn),并推導(dǎo)出檢驗(yàn)顯著性水平的解析近似。并且Kim(1994)進(jìn)一步將其推廣在多元的情況,研究其檢驗(yàn)和統(tǒng)計(jì)推斷問題。這里我們討論多元情況,模型如下:
(2.1)
其中表示可能的變點(diǎn)位置,=(1,,1,…,,-1)一般假設(shè)是i.i.d.的,且服從均值為(|)=0,方差為(|)=的正態(tài)分布。
變點(diǎn)是否存在等價(jià)于如下假設(shè)檢驗(yàn)問題:
:=?:≠.
當(dāng)=時(shí),令:
則模型(2.1)矩陣形式等價(jià)于:
=+.
令=(1,-1),上述假設(shè)檢驗(yàn)等價(jià)于:
:=0?:≠0
由LR檢驗(yàn)構(gòu)造似然比檢驗(yàn)統(tǒng)計(jì)量
由于是未知的,所以檢驗(yàn)統(tǒng)計(jì)量為:
其中是一個(gè)維的布朗橋,1<<<,Kim和Cai有關(guān)于,的具體討論。
考慮到張量分解結(jié)構(gòu)的復(fù)雜性,以及類比矩陣的譜分解,我們對(duì)D階張量∈×…×做如下設(shè)定,
對(duì)于一般的張量線性回歸模型:
其中是截距項(xiàng),∈是向量系數(shù),是張量系數(shù)。關(guān)于以及在AMOC模型中的討論,具體辦法(2.1)及概述中已涉及,這里不再贅述。我們這里只討論最簡(jiǎn)單的情況,即=1時(shí),模型如下,
(2.2)
由于本質(zhì)仍然是D階張量,作為變化參數(shù)相對(duì)復(fù)雜,所以這里我們將看成冗余參數(shù),只考慮半?yún)⒆兓?,即關(guān)于模型(2.2)有如下假設(shè)檢驗(yàn),
模型(2.2)的矩陣形式為:
=+,
:=0?:≠0
由正態(tài)假設(shè)下,LR檢驗(yàn)的特殊性,有:
由于是未知的,所以檢驗(yàn)統(tǒng)計(jì)量為:
當(dāng)>時(shí),我們就可以拒絕原假設(shè),接受備擇假設(shè)。
這里需要明白,關(guān)于判定是否接受原假設(shè),更好的辦法是,知道統(tǒng)計(jì)量的極限分布,然后給定置信區(qū)間。這也是我們接下來要研究的部分,以及將其推廣到廣義線性,更進(jìn)一步可以結(jié)合張量Tucker分解進(jìn)行討論。
本文總結(jié)了AMOC線性回歸模型中參數(shù)的統(tǒng)計(jì)性質(zhì),以及將變量從向量擴(kuò)展到張量的形式,給出LR檢驗(yàn)對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量,給我們進(jìn)一步的工作打下基礎(chǔ)。接下來我們可以考慮其大樣本性質(zhì),以及張量中其他參數(shù)或多個(gè)參數(shù)作為結(jié)構(gòu)變化的影響者的情形。進(jìn)一步可以結(jié)合張量的Tucker分解將其擴(kuò)展到廣義線性模型。