朱玉祥,江劍民,趙亮,劉海文,侯美亭,李宏毅,萬(wàn)文龍,趙翠光
(1 中國(guó)氣象局氣象干部培訓(xùn)學(xué)院,北京100081;2. 中國(guó)科學(xué)院大氣物理研究所LASG,北京100029;3. 中國(guó)民航大學(xué),天津300300;4. 東營(yíng)市氣象局,山東 東營(yíng)257091;5. 國(guó)家氣象中心,北京100081)
在氣象科研和業(yè)務(wù)工作中,經(jīng)常需要分析氣象變量變化的原因,這時(shí)可以把該氣象變量作為研究對(duì)象,分析該氣象變量與其它氣象變量之間的同期或前期關(guān)系。比如,在其它氣象變量中選擇一個(gè)變量,分析其對(duì)研究對(duì)象的影響,即分析一個(gè)變量與另一個(gè)變量之間的相關(guān)關(guān)系。如果二者相關(guān)關(guān)系顯著,則表明它們之間關(guān)系密切,可能存在因果關(guān)系或相互影響的物理過(guò)程,可以繼續(xù)深入分析其是否存在物理機(jī)理上的關(guān)聯(lián);如果二者相關(guān)關(guān)系不顯著,則表明它們之間不存在密切關(guān)系。本文把氣象中變量相互關(guān)系或關(guān)聯(lián)性分析的方法稱為相關(guān)分析。相關(guān)分析在天氣[1-5]、氣候[6-10]、氣候變化[11-12]、農(nóng)業(yè)氣象[13]、氣象服務(wù)[14]等領(lǐng)域廣泛應(yīng)用。
變量之間的關(guān)系從統(tǒng)計(jì)學(xué)的角度大致可以分為兩類(lèi):函數(shù)關(guān)系和相關(guān)關(guān)系。函數(shù)關(guān)系要求非常嚴(yán)格,一般的數(shù)據(jù)很難滿足函數(shù)關(guān)系。而相關(guān)關(guān)系要求相對(duì)寬松,所以被人們廣泛接受,這也是相關(guān)分析在氣象變量關(guān)系研究中廣泛應(yīng)用的原因。
雖然相關(guān)分析在氣象科研和業(yè)務(wù)中應(yīng)用廣泛,但很多人對(duì)相關(guān)分析依然存在某些困惑,甚至存在誤用現(xiàn)象。因此,本文對(duì)氣象相關(guān)分析的現(xiàn)有成果進(jìn)行梳理和總結(jié),可以為關(guān)注氣象相關(guān)分析的科研和業(yè)務(wù)工作者提供借鑒和啟示。此外,氣象數(shù)據(jù)正在進(jìn)入“大數(shù)據(jù)時(shí)代”[9,14],因此本文還簡(jiǎn)要綜述了相關(guān)分析在“氣象大數(shù)據(jù)”中的應(yīng)用價(jià)值和面臨的新挑戰(zhàn)。
氣象科研與業(yè)務(wù)中經(jīng)常使用的相關(guān)有:點(diǎn)(站點(diǎn)或變量)點(diǎn)相關(guān)、點(diǎn)場(chǎng)相關(guān)、場(chǎng)場(chǎng)相關(guān)。點(diǎn)點(diǎn)相關(guān)可以看作兩個(gè)變量之間的相關(guān),點(diǎn)場(chǎng)相關(guān)可以看作一個(gè)變量與場(chǎng)中的每一個(gè)變量分別作點(diǎn)點(diǎn)相關(guān),可以歸結(jié)為點(diǎn)點(diǎn)相關(guān),因此也屬于兩個(gè)變量之間的相關(guān)。場(chǎng)場(chǎng)相關(guān)屬于多個(gè)變量之間的相關(guān)。因此,氣象中的相關(guān)大致可以分為兩類(lèi):兩個(gè)變量之間的相關(guān)和多個(gè)變量之間的相關(guān)。下面將分別介紹兩個(gè)變量之間的相關(guān)系數(shù)和多個(gè)變量之間的相關(guān)系數(shù)。
2.1.1 兩個(gè)定距變量之間的相關(guān)系數(shù)
定距變量是指數(shù)值變量,不同的定距變量之間具有數(shù)量上的差別,可以對(duì)定距變量進(jìn)行加減乘除運(yùn)算。相關(guān)圖(或散點(diǎn)圖)和相關(guān)表可以反映兩個(gè)數(shù)值變量之間的相互關(guān)系及其相關(guān)變化的方向,但無(wú)法確切地表示它們之間相關(guān)的程度。度量定距變量相關(guān)性最常用的是皮爾遜相關(guān)系數(shù)[1-2,10,15-16]。
相關(guān)系數(shù)在科學(xué)研究中的應(yīng)用具有悠久的歷史。1886 年,英國(guó)科學(xué)家高爾頓給出了關(guān)于遺傳的相關(guān)和回歸概念,并且思考了它們?cè)谏镞z傳研究中的可用性和價(jià)值[17]。著名統(tǒng)計(jì)學(xué)家卡爾·皮爾遜對(duì)高爾頓的“相關(guān)”概念十分著迷,經(jīng)過(guò)深入研究,他在前人的研究基礎(chǔ)上,采用極大似然法,把一個(gè)二元正態(tài)分布的相關(guān)系數(shù)最佳值p用樣本積矩相關(guān)系數(shù)r表示,這被后人稱為“皮爾遜相關(guān)系數(shù)”或“皮爾遜積矩相關(guān)系數(shù)”(Pearson product-moment correlation coefficient,簡(jiǎn)寫(xiě)為PPMCC 或PCCs),文章中常用r或Pearson'sr表示。皮爾遜相關(guān)系數(shù)是最常用的普通相關(guān)系數(shù),常簡(jiǎn)稱為“相關(guān)系數(shù)”或“簡(jiǎn)單相關(guān)系數(shù)”,兩個(gè)一維隨機(jī)變量x=(x1,x2,……,xn) 和y=(y1,y2,……,yn)之間相關(guān)系數(shù)的計(jì)算公式為:
皮爾遜相關(guān)系數(shù)r可以表示兩個(gè)隨機(jī)變量之間線性關(guān)系的強(qiáng)弱,其取值范圍為-1≤r≤1。r越趨近于1,這表示這兩個(gè)變量之間正線性相關(guān)關(guān)系越強(qiáng);反之,r越趨近于-1,這時(shí)表示這兩個(gè)變量之間負(fù)線性相關(guān)關(guān)系越強(qiáng);而當(dāng)r等于0或接近于0時(shí),表示這兩個(gè)變量之間不存在線性關(guān)系或線性關(guān)系很弱。r對(duì)于不同的相關(guān)現(xiàn)象,名稱有所差異,一般將反映兩變量間直線線性相關(guān)關(guān)系的統(tǒng)計(jì)量稱為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱為判決系數(shù));將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)量稱為非線性相關(guān)系數(shù)、非線性判決系數(shù);將反映多個(gè)變量之間的多元線性相關(guān)關(guān)系的統(tǒng)計(jì)量稱為復(fù)相關(guān)系數(shù)、復(fù)判決系數(shù)。
皮爾遜相關(guān)系數(shù)是兩個(gè)變量之間關(guān)系的簡(jiǎn)單單值度量,并且其形式適合數(shù)學(xué)運(yùn)算,因此,應(yīng)用非常廣泛。但需要指出的是,不能不加辨別地機(jī)械計(jì)算相關(guān)系數(shù),因?yàn)槠栠d相關(guān)系數(shù)無(wú)法識(shí)別非線性關(guān)系,并且皮爾遜相關(guān)系數(shù)對(duì)一個(gè)或幾個(gè)離群(異常)點(diǎn)極為敏感。如圖1 中的4 個(gè)子圖,皮爾遜相關(guān)系數(shù)全都相同,但顯然這4張圖的關(guān)系存在較大差異。此外,通常需要使用t檢驗(yàn)對(duì)皮爾遜相關(guān)系數(shù)進(jìn)行檢驗(yàn),而t檢驗(yàn)是基于數(shù)據(jù)呈正態(tài)分布假設(shè)的,當(dāng)變量數(shù)據(jù)不服從正態(tài)分布時(shí),即使對(duì)大樣本,皮爾遜相關(guān)系數(shù)的顯著性檢驗(yàn)也可能存在較大偏差。
對(duì)于點(diǎn)場(chǎng)相關(guān),雖然常用皮爾遜相關(guān)系數(shù)進(jìn)行研究,但也有很多研究者采用一元線性回歸研究點(diǎn)場(chǎng)相關(guān)。比如許立言等[18]研究歐亞大陸春季融雪與東亞夏季風(fēng)之間的關(guān)系,就采用了一元線性回歸方法。他們選取春季融雪EOF 第2 模態(tài)的標(biāo)準(zhǔn)化時(shí)間序列,對(duì)850 hPa風(fēng)場(chǎng)、500 hPa高度場(chǎng)和中國(guó)夏季降水場(chǎng)分別進(jìn)行線性回歸分析。需要指出的是,如果用兩個(gè)原始變量(或距平變量)做一元線性回歸,這時(shí)由回歸系數(shù)得到的回歸場(chǎng)是帶單位的。而相關(guān)場(chǎng)是兩個(gè)標(biāo)準(zhǔn)化變量之間的相關(guān)系數(shù)得到的,是沒(méi)有單位的?;貧w場(chǎng)與相關(guān)場(chǎng)的兩個(gè)場(chǎng)分布形勢(shì)略有差別,例如高度場(chǎng)的距平場(chǎng),往往高緯地區(qū)距平變化大,標(biāo)準(zhǔn)差大,所以回歸場(chǎng)對(duì)高緯地區(qū)之間的關(guān)系反映得更大。而相關(guān)場(chǎng)則消除了高低緯之間標(biāo)準(zhǔn)差的不同,因此兩個(gè)場(chǎng)有相似的地方,也有不同的地方。對(duì)于變量x和y來(lái)說(shuō),回歸系數(shù)b與相關(guān)系數(shù)rxy之間的關(guān)系為其中sx和sy分別為x和y的標(biāo)準(zhǔn)差[15]。因此對(duì)于標(biāo)準(zhǔn)化之后的變量來(lái)說(shuō),回歸場(chǎng)與相關(guān)場(chǎng)之間并無(wú)差異。
圖1 子圖a,b,c,d的每個(gè)水平變量(x)都有相同的平均值9.0和標(biāo)準(zhǔn)差11.0,每個(gè)垂直變量(y)也都有相同的平均值7.5和標(biāo)準(zhǔn)差為4.12,對(duì)這4個(gè)子圖來(lái)說(shuō),皮爾遜(普通)相關(guān)系數(shù)是相同的,都為rxy=0.816[2]
皮爾遜相關(guān)系數(shù)在氣象科研中廣泛應(yīng)用。比如,Wallace 等[19]對(duì)500 hPa 高度場(chǎng)和海平面氣壓場(chǎng),計(jì)算了其中一個(gè)格點(diǎn)與場(chǎng)的其它格點(diǎn)之間的皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)在北半球冬季存在5個(gè)冬季遙相關(guān)型;丁一匯等[20]計(jì)算了點(diǎn)場(chǎng)之間的皮爾遜相關(guān)系數(shù),研究了亞洲-太平洋季風(fēng)區(qū)中的遙相關(guān)關(guān)系,清楚地揭示了東亞夏季風(fēng)、印度夏季風(fēng)和西北太平洋夏季風(fēng)之間的相互作用。
2.1.2 兩個(gè)定序變量之間的相關(guān)系數(shù)
定序變量也稱為等級(jí)變量,其取值具有等級(jí)或次序之分。下面介紹3 種常用的定序變量相關(guān)系數(shù)。
(1)γ系數(shù)[21]。
γ系數(shù)的公式為:
式中,ns、nd分別為同序?qū)?、異序?qū)Φ臄?shù)目。同序?qū)?、異序?qū)Φ亩x為:某對(duì)樣本(x1,y1)和(x2,y2),如果在等級(jí)或次序上x(chóng)1優(yōu)于x2,并且y1優(yōu)于y2,則稱為同序?qū)?;否則,稱為異序?qū)Α?/p>
這個(gè)公式的直觀意義是,相關(guān)系數(shù)定義為同序?qū)彤愋驅(qū)?shù)目的差與同序?qū)彤愋驅(qū)?shù)目的和之比值。比如:若ns= 0,則γ= -1,也就是說(shuō)對(duì)于這兩個(gè)變量,所有的樣本對(duì)都呈現(xiàn)出異序,這時(shí)可以認(rèn)為這兩個(gè)變量之間完全呈負(fù)相關(guān)關(guān)系;若nd= 0,則γ= 1,也就是對(duì)于這兩個(gè)變量來(lái)說(shuō),所有的樣本對(duì)都呈現(xiàn)出同序,這時(shí)可以認(rèn)為這兩個(gè)變量之間完全呈正相關(guān)關(guān)系。
(2)Spearman相關(guān)系數(shù)[22]。
針對(duì)皮爾遜相關(guān)系數(shù)無(wú)法識(shí)別非線性關(guān)系,并且對(duì)一個(gè)或幾個(gè)離群(異常)點(diǎn)極為敏感的局限性,Spearman 相關(guān)系數(shù)可以作為皮爾遜相關(guān)系數(shù)的替代方法。
Spearman相關(guān)系數(shù)有時(shí)也被稱為級(jí)別(順序)相關(guān)系數(shù)或秩相關(guān)系數(shù),該相關(guān)系數(shù)是根據(jù)兩個(gè)變量的秩(排序后的等級(jí)或順序值)進(jìn)行相關(guān)分析,Spearman 相關(guān)系數(shù)可以用來(lái)衡量這兩個(gè)變量間是否存在單調(diào)相關(guān)關(guān)系。兩個(gè)一維隨機(jī)變量x=(x1,x2,……,xn)和y=(y1,y2,……,yn)的秩之間的Pearman相關(guān)系數(shù)定義為:
其中ri和si分別為xi和yi的秩,i= 1,2,……,n。當(dāng)變量里出現(xiàn)相等值(秩結(jié))的時(shí)候,該值對(duì)應(yīng)的秩為這幾個(gè)值相對(duì)應(yīng)的秩的平均值。Spearman相關(guān)系數(shù)可以簡(jiǎn)化為式中Di為第i對(duì)數(shù)據(jù)之間秩的差值。
ρ的取值范圍為-1 ≤ρ≤1。當(dāng)一個(gè)變量隨另一個(gè)變量單調(diào)遞減時(shí),ρ= -1;反之,當(dāng)一個(gè)變量隨另一個(gè)變量單調(diào)遞增時(shí),ρ= 1。
只要兩個(gè)變量的值是成對(duì)的等級(jí)數(shù)據(jù),或者是經(jīng)由連續(xù)變量轉(zhuǎn)化得到的等級(jí)數(shù)據(jù),就可以用上述Spearman 相關(guān)系數(shù)的公式進(jìn)行計(jì)算,分析這兩個(gè)變量之間的關(guān)系。Spearman相關(guān)系數(shù)與變量的分布和樣本容量都沒(méi)有關(guān)系,并且具有魯棒性和抗干擾性,即計(jì)算結(jié)果對(duì)個(gè)別異常值不敏感。圖2 顯示了Spearman 相關(guān)系數(shù)與皮爾遜相關(guān)系數(shù)之間的關(guān)聯(lián)和差異。圖中兩個(gè)一維變量X和Y之間的皮爾遜相關(guān)系數(shù)為0.88,而它們之間的Spearman相關(guān)系數(shù)為1,表示它們之間的單調(diào)相關(guān)程度很強(qiáng),等于1。
圖2 兩個(gè)變量X和Y的散點(diǎn)圖[23]
(3)Kendall相關(guān)系數(shù)[24]。
Kendall 相關(guān)系數(shù)是衡量等級(jí)變量相關(guān)程度的一個(gè)統(tǒng)計(jì)量,其主要思想是根據(jù)兩個(gè)變量間序?qū)Φ囊恢滦詠?lái)判斷其相關(guān)性。
設(shè)x、y分別是兩個(gè)一維隨機(jī)變量,x=(x1,x2,……,xn)和y=(y1,y2,……,yn)。把(xi,yi)記為一個(gè)序?qū)?,序?qū)χg的關(guān)系為下列三種情形:(1)當(dāng)xi>xj且yi 那么,兩個(gè)一維隨機(jī)變量X和Y之間的Kendall相關(guān)系數(shù)τ定義為: 式中,S表示一致的序?qū)€(gè)數(shù)。Kendall相關(guān)系數(shù)τ的取值范圍為-1≤τ≤1。當(dāng)τ= -1 時(shí),表示這兩個(gè)隨機(jī)變量具有完全相反的等級(jí)相關(guān)性;當(dāng)τ= 1時(shí),表示這兩個(gè)隨機(jī)變量具有完全一致的等級(jí)相關(guān)性;當(dāng)τ= 0 時(shí),表示這兩個(gè)隨機(jī)變量之間相互獨(dú)立。具體的氣象計(jì)算實(shí)例可參考文獻(xiàn)[1-2]。 2.1.3 兩個(gè)定類(lèi)變量之間的相關(guān)系數(shù) 定類(lèi)變量是指變量的值是研究對(duì)象的符號(hào)或名稱,每個(gè)值代表一個(gè)類(lèi)別,這些值之間相互平等,沒(méi)有次序、大小的區(qū)別。 計(jì)算定類(lèi)變量之間的相關(guān)關(guān)系可以借助列聯(lián)表。列聯(lián)表是數(shù)據(jù)按照兩個(gè)或更多個(gè)屬性進(jìn)行分類(lèi)后所列出的頻數(shù)表。假設(shè)有兩個(gè)屬性X和Y,屬性X有k類(lèi),用Xi表示第i類(lèi),i= 1,2,……,k;屬性Y有s類(lèi),用Yj表示第j類(lèi),j= 1,2,……,s。對(duì)于n個(gè)樣本,用nij代表既屬于特征X的第i類(lèi)又屬于特征Y的第j類(lèi)的樣本頻數(shù)。這樣可以得到一個(gè)k行s列的列聯(lián)表(表1)。 表1 列聯(lián)表的一般形式 下面,我們虛構(gòu)一個(gè)簡(jiǎn)單的2×2 列聯(lián)表,用來(lái)示例說(shuō)明列聯(lián)表相關(guān)系數(shù)的計(jì)算。假設(shè)我們要研究性別(X)與天氣預(yù)報(bào)評(píng)分高低(Y)之間的關(guān)系,在調(diào)查的200 名預(yù)報(bào)員中,預(yù)報(bào)評(píng)分偏高的預(yù)報(bào)員中男性為70 名,女性為25 名,預(yù)報(bào)評(píng)分偏低的預(yù)報(bào)員中男性為30名,女性為75名(表2)。 表2 性別與預(yù)報(bào)評(píng)分高低相關(guān)分析的2×2列聯(lián)表 在定類(lèi)變量相關(guān)系數(shù)的計(jì)算方法中,Q系數(shù)是最簡(jiǎn)單的一種方法,Q系數(shù)只適用于2×2 列聯(lián)表,公式如下[25-26]: 為了理解Q系數(shù)的構(gòu)造,我們?nèi)煞N極端情況。 若n12=n21= 0,則Q系數(shù)為1;若n11=n22= 0,則Q系數(shù)為-1。顯然,這兩種情況都表明性別與預(yù)報(bào)評(píng)分高低呈現(xiàn)出完全相關(guān)特征,而正負(fù)號(hào)表示相關(guān)關(guān)系方向的不同。在這個(gè)假設(shè)的例子中,Q系數(shù)為1 代表男預(yù)報(bào)員預(yù)報(bào)評(píng)分高,女預(yù)報(bào)員評(píng)分低;而Q系數(shù)為-1 代表女預(yù)報(bào)員預(yù)報(bào)評(píng)分高,男預(yù)報(bào)員評(píng)分低。 除了Q系數(shù)之外,還有λ系數(shù)、χ2檢驗(yàn)、φ系數(shù)、C系數(shù)、V系數(shù)。由于篇幅關(guān)系,不再一一介紹,具體細(xì)節(jié)可參見(jiàn)文獻(xiàn)[25-27]。 2.2.1 偏相關(guān)系數(shù) 在二元或者多元回歸分析中,對(duì)于變量之間的相關(guān)關(guān)系,可用偏相關(guān)系數(shù)來(lái)表示。在研究多個(gè)自變量x1,x2,x3,……,xk與因變量y之間的線性相關(guān)程度時(shí),如果其它自變量保持不變,只考慮y與其中某一個(gè)xi(i= 1,2,3,……,k)之間的關(guān)系,這種相關(guān)叫做偏相關(guān)。衡量偏相關(guān)程度的指標(biāo),就是偏相關(guān)系數(shù)。例如在二元線性回歸模型中,r01,2表示x2保持不變時(shí)y與x1的偏相關(guān)系數(shù),r02,1表示x1保持不變時(shí)y與x2的偏相關(guān)系數(shù),r12,0表示y保持不變時(shí)x1與x2的偏相關(guān)系數(shù)。在偏相關(guān)系數(shù)中,還可以根據(jù)固定自變量數(shù)目的多少,區(qū)分為零階偏相關(guān)系數(shù)、一階偏相關(guān)系數(shù)、K- 1 階偏相關(guān)系數(shù)等。例如,r0i(i= 1,2,3,……,k)表示零階偏相關(guān)系數(shù)(即簡(jiǎn)單相關(guān)系數(shù)),r02,1(x1保持不變)稱為一階偏相關(guān)系數(shù),r01,23(x2和x3保持不變)稱為2 階偏相關(guān)系數(shù),r01,234(x2、x3和x4保持不變)稱為三階偏相關(guān)系數(shù),依次類(lèi)推。偏相關(guān)系數(shù)的具體計(jì)算公式和實(shí)例可以參考相關(guān)文獻(xiàn)[28-29]。 2.2.2 復(fù)相關(guān)系數(shù) 衡量一個(gè)變量(因變量y)與多個(gè)變量(自變量x1,x2,……,xp)之間線性關(guān)系的量稱為復(fù)相關(guān)系數(shù)。復(fù)相關(guān)系數(shù)的定義要涉及到多元線性回歸和剩余殘差的概念,具體計(jì)算公式和實(shí)例可以參考相關(guān)文獻(xiàn)[15]。 2.2.3 典型相關(guān)系數(shù) 典型相關(guān)系數(shù)是先對(duì)所研究的兩組變量進(jìn)行主分量分析,得到新的線性無(wú)關(guān)的綜合指標(biāo),然后再計(jì)算兩組綜合指標(biāo)之間的線性相關(guān)系數(shù),進(jìn)而研究這兩組變量之間的相關(guān)關(guān)系[1-2,10,15]。典型相關(guān)分析(CCA)可以有效地分離兩氣象場(chǎng)的最大線性相關(guān)模態(tài)。 奇異值分解(SVD)的出發(fā)點(diǎn)與典型相關(guān)相同,也可以用來(lái)分析兩個(gè)氣象場(chǎng)的相關(guān)模態(tài),但計(jì)算要簡(jiǎn)便得多[30-32]。從統(tǒng)計(jì)學(xué)角度講,CCA 推理更加嚴(yán)瑾,而SVD需要一定的使用條件[10]。 相關(guān)分析在氣象中的應(yīng)用具有悠久的歷史。早在20 世紀(jì)初,Walker 在研究世界各地海平面氣壓變化之間的關(guān)系,提出全球“三大濤動(dòng)”的概念時(shí),就采用了相關(guān)分析的研究方法。后來(lái),在大氣遙相關(guān)的研究中,也有不少文獻(xiàn)采用了相關(guān)分析方法[33-34]。下面介紹最近幾年相關(guān)分析中出現(xiàn)的一些新進(jìn)展。 當(dāng)計(jì)算兩個(gè)時(shí)間序列的相關(guān)系數(shù)時(shí),由于相關(guān)關(guān)系往往并不穩(wěn)定,所以當(dāng)子序列的長(zhǎng)度變化時(shí),相關(guān)系數(shù)經(jīng)常會(huì)發(fā)生變化,有時(shí)甚至?xí)l(fā)生很大甚至完全相反的變化。那么如何量化評(píng)估時(shí)間序列之間相關(guān)的穩(wěn)定性呢?Zhao等[35]提出的一種全窗口相關(guān)系數(shù)方法,可以有效地解決這個(gè)問(wèn)題。 下面以他們文獻(xiàn)中的計(jì)算為例介紹該方法的計(jì)算過(guò)程。 根據(jù)概率統(tǒng)計(jì)知識(shí),求相關(guān)系數(shù)的序列不能太短,因此規(guī)定滑動(dòng)窗口最小為11(當(dāng)然也可以根據(jù)所研究的具體問(wèn)題相應(yīng)調(diào)整)。 時(shí)間段為1872—2010 年,因此一共有139 年。所以滑動(dòng)窗口為:11~129 年(確保滑動(dòng)窗口有足夠的自由度和時(shí)間段)當(dāng)滑動(dòng)窗口為11(12,……,129)年時(shí),所有可能時(shí)間段的總數(shù)為129(128,……,11),開(kāi)始年從1872,1873,……,到2000(1999,……,1882)。因此,得到129(128,……,11)個(gè)相關(guān)系數(shù)。 最后,根據(jù)滑動(dòng)窗口的大小,對(duì)每個(gè)相關(guān)系數(shù)做顯著性檢驗(yàn)后,計(jì)算穩(wěn)定度百分比(PS),PS 定義為顯著相關(guān)的數(shù)目相對(duì)于總相關(guān)數(shù)目N的百分比,這可以作為度量?jī)蓚€(gè)序列之間相關(guān)穩(wěn)定程度的指數(shù)。圖3中PS為梯形區(qū)域內(nèi)彩色面積的百分比,對(duì)于圖3a 來(lái)說(shuō),PS=70.6%,意味著在不同的滑動(dòng)窗口下大部分相關(guān)系數(shù)是顯著的,因此可以認(rèn)為SCFN 和AO 之間的相關(guān)整體看是穩(wěn)定的。而圖3b中PS=47.3%,意味著多于一半的滑動(dòng)相關(guān)系數(shù)是不顯著的,因此SCFN 和SH 之間的相關(guān)整體看不是十分穩(wěn)定。而且,通過(guò)全窗口滑動(dòng)相關(guān)能夠辨識(shí)出信號(hào)穩(wěn)定的時(shí)段和相應(yīng)滑動(dòng)窗口這二維信息,SCFN 和AO 之間的相關(guān)在1930年之后更穩(wěn)定,從年際到80 a 尺度的相關(guān)都是穩(wěn)定的;而SCFN與SH在1930年之后,相關(guān)變得不穩(wěn)定。 圖3 1872—2010年期間冬季北半球雪蓋指數(shù)(SCFN)與北極濤動(dòng)指數(shù)(IAO)(a)和冬季SCFN與西伯利亞高壓指數(shù)(ISH)之間(b)的全窗口相關(guān)系數(shù) 通過(guò)0.05顯著性檢驗(yàn)的相關(guān)系數(shù)用填色等值線圖表示[35]。 小波分析可以對(duì)局部的時(shí)間或空間頻率進(jìn)行分析,該方法通過(guò)平移伸縮運(yùn)算對(duì)信號(hào)或函數(shù)進(jìn)行多尺度細(xì)化,最終達(dá)到低頻處頻率細(xì)分,高頻處時(shí)間細(xì)分,該方法可聚焦到信號(hào)的任意細(xì)節(jié),能自動(dòng)適應(yīng)時(shí)頻信號(hào)分析的精細(xì)化要求,因此小波分析被很多專家稱為“數(shù)學(xué)顯微鏡”。有學(xué)者用小波分析研究?jī)蓚€(gè)時(shí)間序列的關(guān)系,Grinsted等[36]仿照Torrence 等[37]定義了兩個(gè)時(shí)間序列的小波相關(guān)為, 式中s是尺度,M 是平滑算子,具體計(jì)算公式可參考文獻(xiàn)[36]。小波相關(guān)的這個(gè)定義類(lèi)似于傳統(tǒng)的相關(guān)系數(shù),但分子中有平方,所以不同于傳統(tǒng)的相關(guān)系數(shù)有負(fù)值,小波相關(guān)系數(shù)全都為正值。小波相關(guān)系數(shù)通過(guò)位相表示傳統(tǒng)相關(guān)系數(shù)負(fù)值的意義。 一些研究應(yīng)用這種方法檢測(cè)出了兩個(gè)因子間時(shí)間頻率的局部化信息和鏡像關(guān)系[27]。圖4是AO與BMI(波羅的海最大年海冰面積)小波相干譜。從圖4 中可以看出,1860—1900 年,2~6 年的時(shí)間尺度上存在大塊顯著相關(guān)區(qū)域,但中間的1865—1882 年,2~4 年的時(shí)間尺度上相關(guān)不顯著。在1960 年附近,2~3 年的時(shí)間尺度存在相關(guān)區(qū)域。在1900—1950 年期間,顯著相關(guān)的時(shí)間尺度從8~11 年變化為3~10 年。1915—1990 年期間,顯著相關(guān)的時(shí)間尺度從12~16 年變化為5~30 年。圖4 中所有這些顯著相關(guān)區(qū)域,平均位相角是174 °,顯示了AO 和BMI之間的反位相關(guān)系,并且AO 略領(lǐng)先于BMI。 氣象變量的相關(guān)關(guān)系存在突變現(xiàn)象,對(duì)相關(guān)關(guān)系的突變檢測(cè)具有重要的理論和實(shí)用價(jià)值。此前國(guó)內(nèi)常用的M-K 秩和檢驗(yàn)與Yamamoto 判據(jù),一次計(jì)算都只能檢測(cè)序列中某一時(shí)間尺度的某次突變,而以前的小波分析,雖然可以進(jìn)行多尺度分析,但沒(méi)有進(jìn)行相關(guān)關(guān)系突變點(diǎn)的顯著性檢驗(yàn)。 圖4 標(biāo)準(zhǔn)化的AO和BMI(波羅的海最大年海冰面積)時(shí)間序列之間的小波相關(guān) 相對(duì)于紅噪音的5%顯著性用粗等值線顯示。所有的顯著性區(qū)域顯示反位相行為。相對(duì)的位相關(guān)系用箭頭顯示(同位相指向右,反位相指向左,BMI超前AO 90 o指向正下,BMI滯后AO 90 o指向正上)[36]。 江劍民[38]提出了可以檢驗(yàn)兩個(gè)序列間多尺度平均值突變現(xiàn)象的相干性(同步或反位相變化)的算法,并將該算法用于尼羅河年最高與最低水位歷史序列,可以較為客觀、自動(dòng)地檢測(cè)出兩序列在不同時(shí)間尺度上突變的相干性。Jiang[39]融合小波分析的多尺度分辨功能和統(tǒng)計(jì)學(xué)4種參數(shù),即平均值、方差、趨勢(shì)以及分段子樣本的相關(guān)系數(shù),分別簡(jiǎn)要概述了多尺度突變點(diǎn)的掃描式檢測(cè)算法。Zhu 等[40]進(jìn)一步發(fā)展和完善了其中的相關(guān)系數(shù)和方差分析2 種算法,并且利用經(jīng)過(guò)正態(tài)化處理后的珠江流域中的西江下游馬口水文站月平均流量與西江水域月降水量資料,給出了具體的應(yīng)用實(shí)例,主要結(jié)果見(jiàn)圖5。 圖5 a. 馬口站月平均流量正態(tài)化指數(shù)NSI和西江流域月降水量正態(tài)化指數(shù)NPI之間相關(guān)系數(shù)的多尺度突變掃描式U檢驗(yàn)結(jié)果的等值線;b. NSI(粉色虛線)和NPI(綠色虛線)13點(diǎn)高斯濾波低通曲線 兩序列樣本中分段子樣本相關(guān)系數(shù)突變點(diǎn)用黑色垂直粗線表示和分時(shí)段子樣本的相關(guān)系數(shù)用黑色水平粗線表示[40]。 圖5a 中橫坐標(biāo)為月份時(shí)間(j,或稱為參考點(diǎn)),橫坐標(biāo)表示尺度(n,即子樣本容量),等值線表示Zhu 等[40]中等式(4)定義的統(tǒng)計(jì)量Ur(n,j)。式(4)中Uα(n,j)是判斷相應(yīng)尺度相關(guān)關(guān)系突變是否顯著的臨界值,α為顯著性水平,比如0.05、0.01 等。當(dāng)樣本容量n>50 時(shí),U0.05= 1.96,U0.01=2.58 ;當(dāng)樣本容量n≤50 時(shí),可采用學(xué)生氏t檢驗(yàn)。但還需要對(duì)序列的非獨(dú)立性進(jìn)行訂正[39]。理論上,Ur(n,j)< -1.0的局部最小值中心,表示相關(guān)系數(shù)顯著變小(弱);而Ur(n,j)>1.0的局部最大值中心,表示相關(guān)系數(shù)顯著變大(強(qiáng))。由于本例總體數(shù)值較低,如放寬到0.4,可從圖5a 中找出14 個(gè)突變點(diǎn)。比如,1965 年4 月與時(shí)間尺度42 個(gè)月交匯處有一正極大值中心;1968 年9 月與時(shí)間尺度32個(gè)月交匯處有負(fù)極小值中心。接下來(lái)的極值點(diǎn)還有1971 年7 月與42 個(gè)月尺度上的正極大值,1974年9 月與42 個(gè)月尺度上的負(fù)極小值,1978 年4 月與37 個(gè)月尺度上的正極大值,1986 年2 月37 個(gè)月尺度上的負(fù)極小值。1989 年和1998 年之間的三個(gè)局部正極大值表示相關(guān)關(guān)系的接連增強(qiáng)。1999—2010 年之間的3 個(gè)負(fù)極小值表示相關(guān)關(guān)系的接連下降,但期間包含有一個(gè)2001年10月于37個(gè)月時(shí)間尺度上的小正值中心。整個(gè)圖面上表現(xiàn)出最強(qiáng)的突變點(diǎn)發(fā)生在2012 年12 月37 個(gè)月的時(shí)間尺度上,超過(guò)了0.1 的顯著性檢驗(yàn)。由圖5b 可見(jiàn),兩條經(jīng)過(guò)平滑濾波后的曲線可以直觀地驗(yàn)證粗黑實(shí)線所標(biāo)示的突變點(diǎn)及其相對(duì)應(yīng)的子樣本時(shí)段的相關(guān)系數(shù)變化情況。這種算法,在數(shù)學(xué)界也獲得較好的認(rèn)可與評(píng)價(jià)。 最近幾年,學(xué)術(shù)界就大數(shù)據(jù)在體積、類(lèi)型、速度和價(jià)值這四個(gè)方面的特征基本達(dá)成了共識(shí),即大數(shù)據(jù)的4V 特征:Volume(大體積),數(shù)據(jù)量為ZB級(jí)別;Variety(多樣性),除傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外,還有大量的非結(jié)構(gòu)化數(shù)據(jù);Velocity(高速度),秒級(jí)的數(shù)據(jù)分析處理以及輸出;Value(價(jià)值稀?。?,有效信息占信息總量的比例小。氣象數(shù)據(jù)與氣象服務(wù)對(duì)象的數(shù)據(jù)也基本具備了大數(shù)據(jù)的上述特征[41-44],特別是隨著氣象及氣象服務(wù)對(duì)象數(shù)據(jù)的進(jìn)一步豐富,未來(lái)必將進(jìn)入氣象大數(shù)據(jù)時(shí)代[9,14],而基于大數(shù)據(jù)的人工智能技術(shù)也已經(jīng)在天氣預(yù)報(bào)和氣象服務(wù)中得到應(yīng)用[45]。 現(xiàn)有的知識(shí)體系是建立在數(shù)據(jù)稀缺背景下的,在大數(shù)據(jù)時(shí)代,人們的思維和工作方式必須發(fā)生變革。相關(guān)分析已經(jīng)成為大數(shù)據(jù)挖掘與分析的關(guān)鍵應(yīng)用技術(shù)和核心科學(xué)問(wèn)題[46],在大數(shù)據(jù)分析中相關(guān)關(guān)系比因果關(guān)系更重要[47],這指明了相關(guān)分析在大數(shù)據(jù)應(yīng)用和分析中的重要地位。在大數(shù)據(jù)研究和機(jī)器學(xué)習(xí)中,相關(guān)分析常被稱為關(guān)聯(lián)分析,就是在關(guān)系數(shù)據(jù)、市場(chǎng)交易數(shù)據(jù),或其它可用的信息載體中,查找可能存在的關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。關(guān)聯(lián)分析是一種簡(jiǎn)單實(shí)用的分析技術(shù),可以發(fā)現(xiàn)存在于大數(shù)據(jù)集中的相關(guān)性,從而可以描述事物中某些屬性可能出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析常用的方法有FP-G 算法、Apriori 算法、FreeSpan 算法、Prefixspan 算法等。在大數(shù)據(jù)相關(guān)分析的應(yīng)用領(lǐng)域中,引人關(guān)注的是推薦系統(tǒng),即基于相關(guān)分析度量出物品相似性、用戶相似性等特征,進(jìn)而對(duì)不同的顧客進(jìn)行精準(zhǔn)的產(chǎn)品推薦[48],從而可以避免傳統(tǒng)廣告中“普遍撒網(wǎng)”,推薦目標(biāo)不準(zhǔn)確的缺陷。對(duì)于氣象服務(wù)網(wǎng)站來(lái)說(shuō),基于相關(guān)分析的產(chǎn)品推薦也有應(yīng)用前景。在災(zāi)害應(yīng)急管理中大數(shù)據(jù)相關(guān)分析也有著廣泛應(yīng)用[49]。 Wang 等[9]指出,根據(jù)大數(shù)據(jù)的思想和分析方法,聚類(lèi)分析、相似分析、相關(guān)分析和機(jī)器學(xué)習(xí)技術(shù)在大數(shù)據(jù)時(shí)代的氣候預(yù)測(cè)中將被廣泛應(yīng)用。其實(shí),在氣象大數(shù)據(jù)時(shí)代,這些技術(shù)在天氣預(yù)報(bào)和氣象服務(wù)中也廣泛使用。需要指出的是,聚類(lèi)分析、相似分析和機(jī)器學(xué)習(xí),都離不開(kāi)相關(guān)分析,因此相關(guān)分析是氣象大數(shù)據(jù)分析中十分重要的技術(shù)方法。 對(duì)于氣象大數(shù)據(jù)來(lái)說(shuō),降低數(shù)據(jù)的維度或者簡(jiǎn)化數(shù)據(jù)是一項(xiàng)重要工作,經(jīng)驗(yàn)正交函數(shù)(EOF)分解或主分量分析(PCA)是一種重要的降維方法[50-51],EOF 及其變種方法在氣象的多個(gè)領(lǐng)域都具有重要應(yīng)用。EOF 分解得到的是空間分型模態(tài),它的某一分量的空間荷載值就是該分量的時(shí)間系數(shù)與該格點(diǎn)的時(shí)間序列樣本之間的相關(guān)系數(shù)。其實(shí)也可以看作為相關(guān)場(chǎng),與用EOF 空間模態(tài)絕對(duì)值最大的點(diǎn)為定點(diǎn)的點(diǎn)場(chǎng)相關(guān)得到的皮爾遜相關(guān)系數(shù)相關(guān)場(chǎng)類(lèi)似[52],EOF 通常也稱為分型模態(tài)。 對(duì)大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)關(guān)系往往呈現(xiàn)非線性、高維度等復(fù)雜特征,傳統(tǒng)的相關(guān)分析方法往往難以有效地探測(cè)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)與規(guī)律,迫切需要新的相關(guān)分析計(jì)算方法。下面介紹大數(shù)據(jù)研究領(lǐng)域出現(xiàn)的兩種具有代表性的新算法。 (1)距離相關(guān)。Szekely等[53]從特征函數(shù)的距離視角考察了兩個(gè)隨機(jī)向量之間的非線性相關(guān)系數(shù),為高維數(shù)據(jù)的非線性分析提供了有效的度量準(zhǔn)則。距離相關(guān)具有如下兩個(gè)優(yōu)點(diǎn):①所度量的相關(guān)也包含非線性關(guān)系,而不僅僅局限于線性相關(guān)關(guān)系;②可以度量任意兩個(gè)不同維數(shù)的隨機(jī)向量的相關(guān)性。但距離相關(guān)系數(shù)要進(jìn)行高維向量間的距離計(jì)算和矩陣乘積運(yùn)算,所以計(jì)算耗時(shí)很大,對(duì)計(jì)算能力要求較高。氣候變化研究[54]中使用了該方法。 (2)MIC 相關(guān)性。2011 年,《Science》上發(fā)表了一篇題為“Detecting novel associations in large data sets”的論文[55],該論文提出了衡量?jī)蓚€(gè)變量之間相關(guān)關(guān)系的一種新方法——最大信息系數(shù)(Maximal Information Coefficient, MIC)。MIC 具有兩個(gè)重要性質(zhì):通用性和均等性。通用性是指,傳統(tǒng)的相關(guān)系數(shù)往往只能度量某種特定類(lèi)型的函數(shù)類(lèi)型(如線性、指數(shù)、對(duì)數(shù)或周期性函數(shù))變量之間的相關(guān)程度,而MIC 可以度量任意函數(shù)形式變量之間的相關(guān)性,因此具有通用性。均等性是指,對(duì)于具有相等MIC值,但函數(shù)形式不同的數(shù)據(jù),外加同等程度的噪音,然后重新計(jì)算MIC,這時(shí)MIC的值仍能保持相等,而傳統(tǒng)的相關(guān)系數(shù)計(jì)算方法很難做到這一點(diǎn)。該方法比皮爾遜相關(guān)系數(shù)、Spearman相關(guān)系數(shù)等方法更細(xì)致地描述和刻畫(huà)了兩個(gè)變量之間的相關(guān)關(guān)系,但該方法目前在氣象領(lǐng)域的應(yīng)用還較少。 由于大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類(lèi)型復(fù)雜、價(jià)值密度低等特點(diǎn),這為相關(guān)分析帶來(lái)了很多挑戰(zhàn)和困難,表現(xiàn)最突出的就是計(jì)算效率問(wèn)題。楊靜等[56]針對(duì)傳統(tǒng)大數(shù)據(jù)典型相關(guān)分析(CCA)方法的高復(fù)雜度在面臨大數(shù)據(jù)PB 級(jí)數(shù)據(jù)規(guī)模時(shí)不再適用的現(xiàn)狀,提出了一種基于云模型的大數(shù)據(jù)CCA方法,該方法在云計(jì)算架構(gòu)的基礎(chǔ)上,通過(guò)云運(yùn)算將各端點(diǎn)云合并為中心云,并據(jù)此產(chǎn)生中心云滴,以中心云滴作為大數(shù)據(jù)的不確定性復(fù)原小樣本,在其上施以CCA 運(yùn)算,進(jìn)而提出了具有較高計(jì)算效率的大數(shù)據(jù)CCA 分析的云模型。Nguyen 等(2014)[57]提出了一種高維相關(guān)子空間的搜索方法,該方法基于相關(guān)圖的極大團(tuán)進(jìn)行挖掘分析,克服了傳統(tǒng)Apriori 算法采用的逐層搜索模式計(jì)算耗時(shí)高的弊端,為大數(shù)據(jù)中進(jìn)行多變量高維相關(guān)分析提供了一種快速便捷的計(jì)算方法。并行計(jì)算也是加快計(jì)算能力的有效手段,以MapReduce 為代表的非關(guān)系數(shù)據(jù)型庫(kù)管理技術(shù)為大數(shù)據(jù)分析與處理提供了一種并行處理架構(gòu)[46],可以為大數(shù)據(jù)相關(guān)分析的并行計(jì)算提供理論支持。云計(jì)算和并行計(jì)算領(lǐng)域?qū)ο嚓P(guān)分析的這些研究,對(duì)于開(kāi)展氣象大數(shù)據(jù)相關(guān)分析研究具有重要的借鑒意義。 氣象領(lǐng)域在應(yīng)用相關(guān)分析的時(shí)候,有幾個(gè)問(wèn)題是需要注意的。 (1)需選擇有物理意義的氣象變量做相關(guān)分析。在氣象研究中做相關(guān)分析時(shí),不能濫用。只有具有物理意義的變量之間做出的相關(guān),才能更加穩(wěn)定,在預(yù)報(bào)預(yù)測(cè)中也更有價(jià)值。 (2)當(dāng)計(jì)算相關(guān)的兩個(gè)變量都包含明顯的趨勢(shì)變化成分時(shí),原變量之間的相關(guān)特征可能被歪曲(夸大或者縮?。?。施能等[58]的數(shù)值試驗(yàn)結(jié)果表明:兩個(gè)變量帶有相同性質(zhì)的趨勢(shì)時(shí),這兩個(gè)變量之間的相關(guān)系數(shù)會(huì)增加,具體表現(xiàn)為正相關(guān)系數(shù)值被夸大,負(fù)相關(guān)系數(shù)值被減小;而當(dāng)這兩個(gè)變量帶有性質(zhì)相反的趨勢(shì)變化時(shí),則會(huì)使這兩個(gè)變量之間的相關(guān)系數(shù)減小,具體表現(xiàn)為正相關(guān)的數(shù)值被減小,而負(fù)相關(guān)的數(shù)值被夸大。 (3)需要做嚴(yán)格的顯著性檢驗(yàn)。根據(jù)概率統(tǒng)計(jì)的術(shù)語(yǔ),我們得到的氣象資料應(yīng)稱為樣本。無(wú)論氣象資料的時(shí)間有多長(zhǎng),都是有限的,而氣象變量的總體是無(wú)限的。當(dāng)根據(jù)有限的樣本推斷無(wú)限總體的性質(zhì)時(shí),必須進(jìn)行顯著性檢驗(yàn)。具體檢驗(yàn)方法可參考相關(guān)文獻(xiàn)[59-60]。相關(guān)系數(shù)的檢驗(yàn)不應(yīng)該稱為“信度檢驗(yàn)”,其檢驗(yàn)水平也不應(yīng)該稱為“95%置信度”,而應(yīng)該稱為“顯著性檢驗(yàn)”,顯著性水平為5%(10%,1%)[60]。如果把點(diǎn)場(chǎng)相關(guān)中相關(guān)系數(shù)高于或低于某一數(shù)值繪圖為陰影區(qū),那么這些區(qū)域應(yīng)該稱為“超過(guò)或高于顯著性水平5%(10%,1%)的區(qū)域”,相關(guān)系數(shù)的檢驗(yàn)過(guò)程應(yīng)該稱為“顯著性檢驗(yàn)”。顯著性水平α需要取小值,氣象中常取5%(10%,1%)?,F(xiàn)在的很多統(tǒng)計(jì)軟件(比如SAS、SPSS、Matlab、R 等)中,計(jì)算相關(guān)系數(shù)時(shí),常自動(dòng)給出P值,當(dāng)P值小于5%(10%,1%)時(shí),即可以說(shuō)這兩個(gè)序列的相關(guān)超過(guò)顯著性水平5%(10%,1%)。 當(dāng)多個(gè)統(tǒng)計(jì)檢驗(yàn)結(jié)果必須被同時(shí)評(píng)估的時(shí)候出現(xiàn)了特殊問(wèn)題,這被稱為“檢驗(yàn)的多重性問(wèn)題”[2]。比如求點(diǎn)場(chǎng)相關(guān)時(shí),在相關(guān)場(chǎng)中逐點(diǎn)進(jìn)行相關(guān)系數(shù)檢驗(yàn)完成后,如果在若干個(gè)格點(diǎn)上表現(xiàn)是顯著的,那么是否可以認(rèn)為這個(gè)相關(guān)場(chǎng)是顯著的呢?這個(gè)問(wèn)題已經(jīng)由Taleb[61]根據(jù)所謂的“無(wú)窮猴子理論”進(jìn)行了有趣的說(shuō)明。如果我們能以某種方式,把無(wú)窮數(shù)量的猴子放在鍵盤(pán)前,并且允許它們隨機(jī)的打字,事實(shí)上,肯定有一只猴子最終能打出Iliad。但是據(jù)此推斷,這只猴子與眾不同是不合理的。例如,推斷這個(gè)猴子接下來(lái)比其它的猴子有更高的概率打出Odyssey。假定無(wú)限數(shù)量的猴子打字,一只猴子復(fù)制出可辨識(shí)內(nèi)容的事實(shí),并沒(méi)有提供反對(duì)原假設(shè)的充分證據(jù),即這只是一只普通的猴子,其將來(lái)的文字輸出,與其它任何猴子沒(méi)有什么不同。Livezey 等[62]用概率論的觀點(diǎn)把含N個(gè)格點(diǎn)的相關(guān)場(chǎng)的檢驗(yàn)看成N次擲硬幣試驗(yàn),即每個(gè)格點(diǎn)只有兩種檢驗(yàn)結(jié)果:通過(guò)和不通過(guò)檢驗(yàn)的兩個(gè)互斥事件,實(shí)際上這是一個(gè)二項(xiàng)分布檢驗(yàn)問(wèn)題。設(shè)檢驗(yàn)的顯著水平為0.05,那么對(duì)某一格點(diǎn)來(lái)說(shuō),成功通過(guò)檢驗(yàn)的概率為p= 5%,不成功的概率為q= 95%。根據(jù)二項(xiàng)分布,即可以計(jì)算出N次試驗(yàn)中,M次事件成功發(fā)生(該問(wèn)題中則為總格點(diǎn)數(shù)N個(gè)中有M個(gè)格點(diǎn)通過(guò)檢驗(yàn))的概率。例如,當(dāng)場(chǎng)的總格點(diǎn)數(shù)為N=30時(shí),4個(gè)點(diǎn)通過(guò)檢驗(yàn)的概率為0.045,5 個(gè)點(diǎn)通過(guò)檢驗(yàn)的概率為0.016,……。這樣,可以計(jì)算“至少4個(gè)點(diǎn)通過(guò)檢驗(yàn)”事件的概率為0.045 + 0.016 +……≈0.062。從而可以確定出相當(dāng)于0.05 水平下的臨界點(diǎn)數(shù)。該例的計(jì)算表明,在顯著性水平0.05 下,該相關(guān)場(chǎng)至少需要超過(guò)4.24 個(gè)點(diǎn)通過(guò)檢驗(yàn)時(shí)才能認(rèn)為該相關(guān)場(chǎng)是顯著的,即其顯著區(qū)域面積為總場(chǎng)格點(diǎn)數(shù)的14.1%(4.24/30)時(shí),該場(chǎng)是顯著的。類(lèi)似可以計(jì)算,當(dāng)總格點(diǎn)數(shù)為N=80 時(shí),顯著臨界區(qū)域面積為10%,N=500時(shí),顯著臨界區(qū)域面積為7%。 兩個(gè)氣象變量的相關(guān)系數(shù)是否顯著,可以采用t檢驗(yàn),但當(dāng)氣象變量本身具有強(qiáng)的持續(xù)性或高的自相關(guān)時(shí),t檢驗(yàn)的自由度不能用n- 2,而應(yīng)該用有效自由度,有效自由度的計(jì)算方法[63-64]可以參考文獻(xiàn)[27]。當(dāng)然,這時(shí)也可以采用蒙特卡洛檢驗(yàn)[17,48]。當(dāng)對(duì)時(shí)間序列做了滑動(dòng)平均后再求相關(guān)時(shí),這時(shí)的有效自由度就發(fā)生了變化,就可以采用蒙特卡洛檢驗(yàn),具體的例子可參考宋燕等[65]的例子。 天氣預(yù)報(bào)和氣候預(yù)測(cè)正在進(jìn)入大數(shù)據(jù)和智能預(yù)報(bào)時(shí)代,這對(duì)相關(guān)分析提出了新要求。大數(shù)據(jù)的核心是預(yù)測(cè),大數(shù)據(jù)之所以能夠預(yù)測(cè)未來(lái),是基于對(duì)相關(guān)關(guān)系的準(zhǔn)確把握。傳統(tǒng)的統(tǒng)計(jì)方法對(duì)樣本數(shù)據(jù)的正態(tài)性、變量的獨(dú)立性、變量個(gè)數(shù)、假設(shè)檢驗(yàn)等都有較高要求。大數(shù)據(jù)技術(shù)是對(duì)傳統(tǒng)數(shù)量統(tǒng)計(jì)學(xué)方法的拓展和延伸,大數(shù)據(jù)分析側(cè)重于高維建模、復(fù)雜網(wǎng)絡(luò)建模、非參數(shù)模型等技術(shù)方法從種類(lèi)繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價(jià)值的信息[57,66-67]。大數(shù)據(jù)時(shí)代氣象科研和業(yè)務(wù)工作對(duì)相關(guān)分析提出了新要求,根據(jù)我們的理解,可能主要表現(xiàn)在以下方面。 (1)對(duì)于不符合正態(tài)分布的變量如何做相關(guān),并且檢驗(yàn)其相關(guān)的顯著性。 (2)如何對(duì)變量之間不同尺度的信號(hào)求相關(guān),以及把這種多尺度的相關(guān)應(yīng)用在天氣預(yù)報(bào)和氣候預(yù)測(cè)中。 (3)如何求非線性相關(guān)?可能是一個(gè)值得深入研究的問(wèn)題。因?yàn)閭鹘y(tǒng)的皮爾遜相關(guān)系數(shù)所求得的相關(guān)關(guān)系只是線性關(guān)系。而很多氣象變量之間存在復(fù)雜的非線性關(guān)系,如何客觀定量地描述這種非線性關(guān)系,需要進(jìn)一步深入研究。 (4)如何解決相關(guān)分析的高效計(jì)算問(wèn)題?未來(lái)氣象大數(shù)據(jù)也將具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類(lèi)型復(fù)雜、價(jià)值密度低等特點(diǎn),如何在平衡計(jì)算能力和業(yè)務(wù)時(shí)效之間提高計(jì)算效率,是需要深入研究的問(wèn)題。可能需要在并行計(jì)算和云計(jì)算方面對(duì)相關(guān)分析算法做深入研究和改進(jìn)。 本文系統(tǒng)綜述了不同計(jì)算形式的相關(guān)分析在氣象中的應(yīng)用,特別是最近幾年相關(guān)分析的新進(jìn)展,盡管仍然會(huì)掛一漏萬(wàn)。希望本文能夠?yàn)殛P(guān)注氣象數(shù)據(jù)分析理論與應(yīng)用的專家提供借鑒相關(guān)分析作為探尋與發(fā)現(xiàn)氣象變量?jī)?nèi)在規(guī)律的重要工具,在氣象大數(shù)據(jù)分析與挖掘中具有重要應(yīng)用,但在大數(shù)據(jù)時(shí)代面臨新的挑戰(zhàn),尚存在不少問(wèn)題值得深入研究。2.2 多個(gè)變量之間的相關(guān)系數(shù)
3 相關(guān)分析在氣象中應(yīng)用的新進(jìn)展
3.1 全窗口滑動(dòng)相關(guān)
3.2 小波相關(guān)
3.3 兩序列相關(guān)(相干)的多尺度突變檢測(cè)
4 氣象大數(shù)據(jù)中的相關(guān)分析
4.1 氣象大數(shù)據(jù)的特點(diǎn)
4.2 相關(guān)分析在大數(shù)據(jù)中的作用
4.3 氣象中的降維方法與相關(guān)分析的關(guān)系
4.4 大數(shù)據(jù)相關(guān)分析的新方法
4.5 大數(shù)據(jù)相關(guān)分析面臨的挑戰(zhàn)和困難
5 氣象相關(guān)分析應(yīng)用中存在的問(wèn)題
6 相關(guān)分析在氣象中應(yīng)用的未來(lái)發(fā)展趨勢(shì)