王 雪,謝 淼*,周玲菲,王林軍
(1.成都理工大學(xué),四川 成都;2.成都理工大學(xué)數(shù)學(xué)地質(zhì)四川省重點(diǎn)實(shí)驗(yàn)室,四川 成都)
自然界中許多數(shù)據(jù)都屬于成分?jǐn)?shù)據(jù),由于成分?jǐn)?shù)據(jù)各行的和為一個(gè)定值(通常為常數(shù)1),導(dǎo)致數(shù)據(jù)組分之間具有閉合效應(yīng)[1],存在一定的偽相關(guān)關(guān)系。同時(shí)成分?jǐn)?shù)據(jù)的取值都介于(0,1),其所屬空間屬于“單形”空間,因此常用的統(tǒng)計(jì)分析方法在單形空間上存在很大的局限性。為了解決成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析的局限性,J.艾奇遜[2]在《成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析》中提出,常見的對(duì)數(shù)比方法能夠打開成分?jǐn)?shù)據(jù)之間存在的封閉性。周蒂[1]通過對(duì)前人在處理成分?jǐn)?shù)據(jù)時(shí)相關(guān)方法的分析,提出了對(duì)數(shù)比轉(zhuǎn)換作為成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析的依據(jù)及存在的問題,并有針對(duì)性地尋找對(duì)數(shù)比轉(zhuǎn)換后保留在數(shù)據(jù)中的重要信息的方法。大多數(shù)統(tǒng)計(jì)分析方法基于完整的數(shù)據(jù)集使用,無法直接應(yīng)用于包括缺失值的數(shù)據(jù)集。目前李春軒[3], 張曉琴[4]等人對(duì)基于對(duì)數(shù)比變換后的成分?jǐn)?shù)據(jù)空間插值進(jìn)行了一系列的研究,形成了一套比較完整的成分?jǐn)?shù)據(jù)缺失值填補(bǔ)處理體系。基于對(duì)數(shù)比變換的成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析在國(guó)內(nèi)外都得到了廣泛的分析與應(yīng)用[7-10],并且都取得了不錯(cuò)的成就,如張堯庭[6]在《成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析引論》中,闡述了成分?jǐn)?shù)據(jù)與多種分布(如邏輯正態(tài)分布、狄式分布族等)有關(guān),并在此基礎(chǔ)上介紹了成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析的理論與方法等。
本文針對(duì)成分?jǐn)?shù)據(jù)在進(jìn)行主成分分析時(shí),對(duì)于處理數(shù)據(jù)方法的選擇進(jìn)行研究。分別比較三種常用的對(duì)數(shù)比轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行主成分分析后的效果,得到最優(yōu)的數(shù)據(jù)處理方法,為成分?jǐn)?shù)據(jù)的主成分分析建立一個(gè)初級(jí)的完整分析體系,文章結(jié)論可以廣泛的應(yīng)用在成分?jǐn)?shù)據(jù)分析中,如對(duì)于大氣成分?jǐn)?shù)據(jù)的檢測(cè)系統(tǒng)[11]等。
本文對(duì)“2022 年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽C 題”古代玻璃文物的66 條化學(xué)成分比例數(shù)據(jù)進(jìn)行收集、整理。對(duì)該數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)分析,不同化學(xué)元素含量值的最小值、最大值、均值、標(biāo)準(zhǔn)偏差、方差的結(jié)果如表1 所示(N 為有效個(gè)案數(shù))。
表1 描述統(tǒng)計(jì)
依據(jù)原始數(shù)據(jù)的描述統(tǒng)計(jì)分析結(jié)果可以看出玻璃的化學(xué)成分含量的差異性,玻璃文物中二氧化硅和氧化鉛的標(biāo)準(zhǔn)偏差分別為24.419 42 和19.425 37,這說明不同類型的玻璃文物中二氧化硅和氧化鉛的含量值的離散性較大。
由于玻璃的化學(xué)成分含量數(shù)據(jù)屬于典型的成分?jǐn)?shù)據(jù),因此下文將原始數(shù)據(jù)進(jìn)行一定的對(duì)數(shù)比轉(zhuǎn)換,打開玻璃成分?jǐn)?shù)據(jù)的定和限制,再使用主成分分析方法進(jìn)行分析。
對(duì)任意D 元向量X=(X1,X2,...,XD)滿足以下表達(dá)式:
式中,X 為D 元成分?jǐn)?shù)據(jù),記為X∈SD。D 為成分個(gè)數(shù),Xi為第i 個(gè)成分,Xi對(duì)應(yīng)的取值稱為分量,表示i成分所占的比例。
成分?jǐn)?shù)據(jù)因閉合效應(yīng)而產(chǎn)生偽相關(guān),從而不服從正態(tài)分布,給統(tǒng)計(jì)分析帶來了很大的困難,對(duì)數(shù)比轉(zhuǎn)換方法通過將原始數(shù)據(jù)從“單純形”轉(zhuǎn)換為“歐幾里德”空間,解決成分?jǐn)?shù)據(jù)引起的“定和效應(yīng)問題”。常見的對(duì)數(shù)比轉(zhuǎn)換方法有加性對(duì)數(shù)比轉(zhuǎn)換、中心化對(duì)數(shù)比轉(zhuǎn)換和等距對(duì)數(shù)比轉(zhuǎn)換[4]。
其中,加性對(duì)數(shù)比轉(zhuǎn)換是通過構(gòu)建標(biāo)準(zhǔn)正交基將成分?jǐn)?shù)據(jù)進(jìn)行對(duì)數(shù)比轉(zhuǎn)換,使得成分?jǐn)?shù)據(jù)從D 維的單純形數(shù)據(jù)轉(zhuǎn)換為D-1 維歐式空間,公式如下:
式中,μi=log(X i/XD),i=1,2,…,d 即選用最后一位成分作為分母進(jìn)行對(duì)數(shù)比轉(zhuǎn)換。
中心化對(duì)數(shù)比轉(zhuǎn)換方法是數(shù)據(jù)內(nèi)每個(gè)成分分量相對(duì)于全部成分分量幾何平均值的比值,轉(zhuǎn)換后的數(shù)據(jù)是等形等距的。但由于clr 相對(duì)數(shù)據(jù)中心進(jìn)行轉(zhuǎn)換,變換后不改變數(shù)據(jù)的維數(shù),但變換后的數(shù)據(jù)各分量之和為“0”,具有共線性的特點(diǎn),公式如下:
式中,vi= log(Xi/g(X)),g(X)為成分分量Xi的幾何平均值。
等距對(duì)數(shù)比轉(zhuǎn)換方法是一種正交變換,在單純形中的Aitchison 幾何與標(biāo)準(zhǔn)歐幾里德之間形成一對(duì)一關(guān)系,具有良好的幾何特性,公式如下:
式中,ei(i=1,2...,D-1)為單形空間的一組標(biāo)準(zhǔn)正交基,選用不同的標(biāo)準(zhǔn)正交基可獲得不同的變換結(jié)果。等距對(duì)數(shù)比變換滿足了全成分或子成分協(xié)方差矩陣的對(duì)稱性和滿秩要求,解決了clr 變換產(chǎn)生的數(shù)據(jù)共線性缺點(diǎn)。
主成分分析也稱主分量分析,是利用降維的思想,在損失很少信息的前提下將n 維特征映射到k 維上,這k 維是全新的正交特征也被稱為主成分。主成分是P 個(gè)隨機(jī)變量X,X,...,X的一些特殊的線性組合,其主要依賴于X,X,...,X的協(xié)方差矩陣A(或者是相關(guān)矩陣P),設(shè)隨機(jī)向量有協(xié)方差矩陣A,其特征值為 λ1≥ λ2≥...≥ λp≥0[12]
考慮線性組合
即可得到
第一主成分即為方差最大的線性組合,同理依次可以得到所有主成分的線性組合表達(dá)式。
研究數(shù)據(jù)主要包括兩類玻璃(鉛鋇玻璃、高鉀玻璃)的化學(xué)成分含量,兩種玻璃在氧化鉀、氧化鉛、氧化鋇三種化學(xué)成分的含量上存在較大的差異。利用R計(jì)算出該批玻璃中氧化鉀、氧化鉛、氧化鋇的偏度和峰度如表2 所示。
由上述結(jié)果顯示,原始數(shù)據(jù)的偏度和峰度都比較高,與正態(tài)分布相差甚遠(yuǎn),因此不能直接進(jìn)行統(tǒng)計(jì)分析。將原始數(shù)據(jù)在進(jìn)行了對(duì)數(shù)比變換后,數(shù)據(jù)的偏度和峰度明顯降低,其中等距對(duì)數(shù)比變換數(shù)據(jù)與正態(tài)分布的峰度和偏度相似度較高,效果更好。
在用統(tǒng)計(jì)分析方法研究多變量的問題時(shí),變量個(gè)數(shù)太多會(huì)增加問題的復(fù)雜性。在很多情形下,變量之間相關(guān)性會(huì)導(dǎo)致不同變量反映問題時(shí)信息重疊。主成分分析是一種廣泛使用的數(shù)據(jù)降維算法,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量。此外新變量之間不僅是相互獨(dú)立的,在反映問題的信息方面也要盡可能保持原有的信息。
本文首先對(duì)原始數(shù)據(jù)、加性對(duì)數(shù)比變換、中心對(duì)數(shù)比變換和等距對(duì)數(shù)變換后的數(shù)據(jù)進(jìn)行KMO 和Bartlett 的檢驗(yàn),判斷是否可以進(jìn)行主成分分析。
對(duì)于KMO 值:0.8 上非常合適做主成分分析,0.7~0.8 之間一般適合,0.6~0.7 之間不太適合,0.5~0.6 之間表示差,0.5 下表示極不適合,對(duì)于Bartlett 的檢驗(yàn),若P 小于0.05,拒絕原假設(shè),則說明可以做主成分分析,若不拒絕原假設(shè),則說明這些變量可能獨(dú)立提供一些信息,不適合做主成分分析。因此根據(jù)表3 的數(shù)據(jù)顯示,四組數(shù)據(jù)的Bartlett 檢驗(yàn)P 值均遠(yuǎn)小于0.05,可以拒絕原假設(shè),則說明可以做主成分分析。而四組數(shù)據(jù)只有加性對(duì)數(shù)比轉(zhuǎn)換的KMO 值0.8以上,其余幾組數(shù)據(jù)的KMO 值都比較小不太適合做主成分分析,見圖1-4。
圖1 原始數(shù)據(jù)
圖2 中心對(duì)數(shù)比變換后的數(shù)據(jù)
圖3 加性對(duì)數(shù)比變換后的數(shù)據(jù)
圖4 等距對(duì)數(shù)比變換后的數(shù)據(jù)
表3 KMO 和Bartlett 的檢驗(yàn)
由碎石圖可知,若進(jìn)行主成分分析,加性對(duì)數(shù)比變換后的數(shù)據(jù)只需要選擇4 個(gè)主成分就可以涵蓋全部變量的大部分信息,而原始數(shù)據(jù)、中心對(duì)數(shù)比變換、等距對(duì)數(shù)比變換后的數(shù)據(jù)均至少選擇7 個(gè)主成分才能達(dá)到加性對(duì)數(shù)比變換數(shù)據(jù)得到的效果。
綜上所述,基于KMO 值、Bartlett 檢驗(yàn)以及碎石圖,經(jīng)過加法對(duì)數(shù)比轉(zhuǎn)換的成分?jǐn)?shù)據(jù)更適合做主成分分析,所得效果顯著。
對(duì)主成分分析的加法對(duì)數(shù)比轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行進(jìn)一步的因子權(quán)重分析,查看各因子的貢獻(xiàn)率。其中,主成分1 的權(quán)重為68.604%、主成分2 的權(quán)重為15.124%、主成分3 的權(quán)重為8.664%、主成分4 的權(quán)重為7.608%,見表4。
表4 因子權(quán)重分析
由成分矩陣表可以分別得出主成分1、主成分2、主成分3和主成分4 的模型表達(dá)式F。根據(jù)F 表達(dá)式來計(jì)算綜合得分,并將綜合得分按照降序進(jìn)行排序,由此來得到樣本的綜合得分和排名情況。成分矩陣表如表5 所示,前五個(gè)樣本的綜合得分情況如表6 所示。
表5 成分矩陣表
表6 綜合得分
本文通過對(duì)成分?jǐn)?shù)據(jù)進(jìn)行3 種不同的對(duì)數(shù)比變換,加法對(duì)數(shù)比變換后的數(shù)據(jù)與主成分分析結(jié)合得到了顯著的效果,并有如下結(jié)論:
(1)由于定和效應(yīng)的限制,成分?jǐn)?shù)據(jù)不能滿足正態(tài)分布的基本要求,因此數(shù)據(jù)未能通過KMO 檢驗(yàn)和Bartlett 球形度檢驗(yàn),不能進(jìn)行主成分分析。
(2)成分?jǐn)?shù)據(jù)經(jīng)過對(duì)數(shù)比轉(zhuǎn)換后,等距對(duì)數(shù)比轉(zhuǎn)換相較于加性、中心化的結(jié)果,其分布情況與正態(tài)分布相似度最高,正態(tài)檢驗(yàn)效果顯著。
(3)由于加性對(duì)數(shù)比轉(zhuǎn)換過程中,數(shù)據(jù)從D 維度降至D-1 維度,即轉(zhuǎn)換后每個(gè)維度的數(shù)據(jù)都可以表示為原始數(shù)據(jù)最后一列數(shù)據(jù)的線性組合,在降維分析中具有極大的優(yōu)勢(shì)。因此對(duì)加性對(duì)數(shù)比轉(zhuǎn)換后的數(shù)據(jù)引入主成分分析,能夠更有效地獲取原始數(shù)據(jù)中所含的相關(guān)信息。