侯自盼,李生剛
(陜西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 西安 710119)
?
一種針對(duì)區(qū)間型數(shù)據(jù)的新主成分分析法
侯自盼,李生剛
(陜西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 西安 710119)
摘要:為了減少數(shù)據(jù)信息的損失,采用推遲區(qū)間型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)的方法,提出一種針對(duì)區(qū)間型數(shù)據(jù)的新的主成分分析方法.它和已有方法的區(qū)別在于協(xié)方差矩陣和相關(guān)矩陣的元素是區(qū)間數(shù)(從而相關(guān)的特征值和特征向量的元素也是區(qū)間數(shù)).最后用實(shí)例驗(yàn)證了該方法的優(yōu)越性.
關(guān)鍵詞:區(qū)間型數(shù)據(jù);主成分分析方法;相關(guān)矩陣
0引言
主成分分析(PCA, Principal Component Analysis)是一種通過(guò)降維技術(shù)將多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法.傳統(tǒng)的主成分分析方法是針對(duì)數(shù)值型數(shù)據(jù)樣本的.而在實(shí)際中,由于觀測(cè)誤差、不確定判斷和符號(hào)數(shù)據(jù)類型等原因,經(jīng)常會(huì)遇到用區(qū)間數(shù)表示的樣本觀測(cè)值.近年來(lái),許多學(xué)者對(duì)區(qū)間數(shù)據(jù)的PCA進(jìn)行了研究,主要成果是基于頂點(diǎn)的PCA方法(V-PCA)[1-2]、基于中心點(diǎn)的PCA法(C-PCA)[1-2]、基于中點(diǎn)-半徑的PCA法(MR-CPA)[3]、基于符號(hào)特征的PCA法(S-PCA)[4]和其他一些針對(duì)特殊類型的區(qū)間數(shù)的PCA法[5].這些方法的共同特點(diǎn)是盡早地將區(qū)間型數(shù)據(jù)數(shù)值化(即轉(zhuǎn)換為數(shù)值型數(shù)據(jù)),造成一定的信息丟失.本文采用推遲區(qū)間型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)的方法對(duì)此加以改進(jìn):根據(jù)區(qū)間數(shù)的加減運(yùn)算方法來(lái)定義區(qū)間矩陣的運(yùn)算,依照區(qū)間矩陣的運(yùn)算方法求區(qū)間型數(shù)據(jù)樣本的協(xié)方差矩陣和樣本相關(guān)矩陣,依據(jù)文獻(xiàn)[6]的結(jié)果(即下面的定理1)求得樣本協(xié)方差矩陣和樣本相關(guān)矩陣的特征值和特征向量.由于該特征值也是區(qū)間數(shù),因此貢獻(xiàn)率的計(jì)算也重新定義,并由此得到了一種新的主成分分析方法.從理論方面可以看出,該方法在處理信息時(shí)盡量把所有的數(shù)據(jù)都考慮進(jìn)去,避免數(shù)據(jù)信息的缺失.實(shí)例也證實(shí)了該主成分分析方法的有效性.
1基本概念與理論
1.1區(qū)間數(shù)的運(yùn)算、排序及區(qū)間矩陣
稱由實(shí)數(shù)組成的閉區(qū)間[x-,x+]為一個(gè)區(qū)間數(shù);本文將閉區(qū)間[x,x]與實(shí)數(shù)x不加區(qū)分,因此將實(shí)數(shù)也視為區(qū)間數(shù).稱分量是區(qū)間數(shù)的向量X=(X1,X2,…,Xn)T為區(qū)間向量,稱元素Aij是區(qū)間數(shù)的矩陣A=(Aij)m×n為區(qū)間矩陣.區(qū)間數(shù)的四則運(yùn)算定義為[6]
[a,b]+[c,d]=[a+c,b+d],[a,b]-[c,d]=[a-d,b-c],
[a,b]×[c,d]=[min{ac,bd,bc,ad},max{ac,bd,bc,ad}],
由此可知,當(dāng)c為實(shí)數(shù)時(shí),
給定兩個(gè)m×n區(qū)間矩陣
A=(Aij)m×n=([aij,bij])m×n,B=(Bij)m×n=([cij,dij])m×n,
其和、差運(yùn)算定義為
A+B=(Aij+Bij)m×n=([aij+cij,bij+dij])m×n,A-B=A+(-B)=([aij-dij,bij-cij])m×n;
1.2區(qū)間矩陣的特征值和特征向量
1.3多元離散型樣本協(xié)方差矩陣的性質(zhì)
設(shè)X(1),X(2),…,X(n)為取自總體x=(x1,x2,…,xp)的n個(gè)樣本,xij為第i個(gè)樣本對(duì)變量xj的觀測(cè)值(j=1,2,…,p),則樣本矩陣可以表示為
定理2樣本協(xié)方差矩陣S是半正定矩陣[7-8].
定理3R是半正定矩陣(即數(shù)據(jù)標(biāo)準(zhǔn)化不改變協(xié)方差矩陣的半正定性)[8].
證明因?yàn)関ar(Xi)>0(i=1,2,…,m;1≤m≤p),所以有
這時(shí)由定理2知R是半正定矩陣.
1.4主成分分析方法
2區(qū)間主成分分析方法
為區(qū)間樣本矩陣.
X的協(xié)方差矩陣和相關(guān)矩陣分別定義為S=(sij)p×p和R=(rij)p×p,其中
下面將給出求主成分的兩種方法,它們分別是從樣本協(xié)方差矩陣和樣本相關(guān)矩陣出發(fā)求解的.
2.1從樣本協(xié)方差矩陣S出發(fā)求主成分
目前已有的區(qū)間主成分分析的思路是通過(guò)端點(diǎn)、中點(diǎn)把每一個(gè)樣本想象成一個(gè)存在于空間中的超矩陣,把樣本區(qū)間矩陣轉(zhuǎn)化為普通的數(shù)值型數(shù)據(jù),然后按照傳統(tǒng)的主成分分析方法計(jì)算其樣本協(xié)方差矩陣的特征值和特征向量,得到主成分.本文將先通過(guò)區(qū)間矩陣的運(yùn)算求其樣本協(xié)方差矩陣,然后利用定理1得到樣本協(xié)方差矩陣的特征值和特征向量,進(jìn)而得到主成分.已有方法得到的特征值和特征向量的分量是實(shí)數(shù),而本文得到的特征值和特征向量的分量是區(qū)間數(shù).已有方法求主成分的過(guò)程是按照傳統(tǒng)的主成分分析方法計(jì)算的,所以貢獻(xiàn)率、累計(jì)貢獻(xiàn)率也是按照傳統(tǒng)的計(jì)算公式得到,而本文中特征值是區(qū)間數(shù),這里對(duì)貢獻(xiàn)率、累計(jì)貢獻(xiàn)率的計(jì)算公式是重新給出的.
2.2從相關(guān)矩陣R出發(fā)求主成分
2.3從R出發(fā)求主成分和樣本排名的算法
取定α∈(0,1),算法步驟如下:
(4) 利用定理1求出rij的特征值和特征向量.
(8) 對(duì)選擇的每一個(gè)主成分進(jìn)行解釋.
3實(shí)例分析
以文獻(xiàn)[10]中的數(shù)據(jù)為例進(jìn)行分析.區(qū)間樣本數(shù)據(jù)如表1所示.
表 1 區(qū)間樣本數(shù)據(jù)表
由于S中主對(duì)角線元素差異較大,因此從樣本的相關(guān)矩陣R出發(fā)進(jìn)行主成分分析.并由Matlab計(jì)算可以得到
由定理1可知,可以用Matlab[11-12]計(jì)算出特征值和特征向量,見(jiàn)表2.
表 2 相關(guān)矩陣R的前2個(gè)特征值和特征向量
這里從相關(guān)矩陣進(jìn)行主成分分析.從表2可以看出,前2個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)到91.619%,而文獻(xiàn)[10]中的累計(jì)貢獻(xiàn)率只達(dá)到88.52%,因此可以考慮只取前面兩個(gè)主成分,它們已能夠很好地概括這組數(shù)據(jù).
由于第一個(gè)主成分對(duì)所有變量都有近似相等的載荷,因此可認(rèn)為是對(duì)所有變量的度量.而第二主成分在變量x3和變量x4上有較高的正載荷,而在變量x1和變量x2存在很小的正載荷,可以認(rèn)為這個(gè)主成分是用于度量變量x3和變量x4在樣本變化上占的比重.
4結(jié)束語(yǔ)
本文提出了一種針對(duì)區(qū)間數(shù)據(jù)的主成分分析方法,在求解主成分的過(guò)程中一直根據(jù)區(qū)間數(shù)的運(yùn)算進(jìn)行計(jì)算.將用該方法選取的主成分和利用V-PCA方法選取的主成分進(jìn)行了比較,結(jié)合實(shí)例說(shuō)明該方法的累計(jì)貢獻(xiàn)率更高.
致謝:在本文的選題、定稿過(guò)程中,碩士研究生陳曄、鄂建偉、楊小燕以及本科生徐興全、田鵬、任珍珍、李文燦、李文達(dá)、曹富媛、艾鵬程參加了討論并且提出了有益的建議,在此一并致謝.
參考文獻(xiàn)(References):
[1]CAZESP,CHOUAKRIAA,DIDAYE,etal.Extensiondel′analyseencomposantesprincipalesdesàdonnéesdetypeintervalle[J].RevuedeStatisqueApplique,1997,45(3):5-24.
[2]LAURONC,PALUMBOF.Principalcomponentsanalysisofintervaldata:Asymbolicdataanalysisapproach[J].ComputationalStatistics,2000,15(1):73-87.
[3]PIERPAOLOD,PAOLOG.Aleastsquaresapproachtoprincipalcomponentanalysisforintervaldata[J].ChemometricsandIntelligentLaboratorySystems,2004,70(2):179-192.
[4]PALUMBOF,LAURONC.APCAforinterval-valueddatabasedonmidpointsandradii[C]//NewDevelopmentsinPsychometrics,Berlin:Springer-Verlag,2003.
[5]GIORDANIP,KIERSHAL.Three-wayprincipalcomponentanalysisofintervalvalueddata[J].JournalofChemometrics,2004(18):253-264.
[6]陳塑寰,邱志平,宋大同,等.區(qū)間矩陣標(biāo)準(zhǔn)特征值問(wèn)題的一種解法[J].吉林工業(yè)大學(xué)學(xué)報(bào),1993,23(3):1-8.
CHENSuhuan,QIUZhiping,SONGDatong,etal.Amethodtosolvestandardegienvalueproblemofintervalmatrixs[J].JournalofJilinUniversityofTechnology,1993,23(3):1-8.
[7]MOORSERE.Methodandapplicationsofintervalanalysis[M].Pliladelphia:SIAM,1979.
[8]繆建群.多元離散型樣本協(xié)方差陣的正定性[D].貴州:貴州大學(xué),2006.
MIUJianqun.Thepositivedefinitenessofcovariancematricesofmultiplediscretesamples[D].Guizhou:GuizhouUniversity,2006.
[9]王學(xué)民.應(yīng)用多元分析[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2009.
WANGXuemin.Appliedmultivariateanalysis[M].Shanghai:ShanghaiUniversityofFinanceandEconomicsPress,2009.
[10]李汶華,郭均鵬.區(qū)間主成分分析方法的比較[J].系統(tǒng)管理學(xué)報(bào),2008,17(1):94-98.
LIWenhua,GUOJunpeng.Comparisonsofintervalprincipalcomponentanalysismethods[J].JournalofSystemsManagement,2008,17(1):94-98.
[11]陳仲生.基于Matlab7.0的統(tǒng)計(jì)信息處理[M].長(zhǎng)沙:湖南科學(xué)技術(shù)出版社,2005.
CHENZhongsheng.StatisticalinformationprocessingbasedonMatlab7.0[M].Changsha:HunanScienceandTechnologyPress,2005.
[12]何正風(fēng).MATLAB概率與數(shù)理統(tǒng)計(jì)分析[M].北京:機(jī)械工業(yè)出版社,2012.
HEZhengfeng.MATLAB——Probabilityandmathematicalstatisticsanalysis[M].Beijing:MechanicalIndustryPress,2012.
編輯:武暉;校對(duì):師瑯
文章編號(hào):1006-8341(2016)02-0184-06
DOI:10.13338/j.issn.1006-8341.2016.02.009
收稿日期:2015-09-14
基金項(xiàng)目:陜西省自然科學(xué)基金資助項(xiàng)目(2010JM1005);陜西師范大學(xué)研究生教學(xué)改革與研究項(xiàng)目(GERP-14-04)
通訊作者:李生剛(1959—),男,陜西省神木縣人,陜西師范大學(xué)教授,博士生導(dǎo)師,研究方向?yàn)楦裆贤負(fù)渑c擬陣.
中圖分類號(hào):O 212.4
文獻(xiàn)標(biāo)識(shí)碼:A
A new principal component analysis method for interval data
HOUZipan,LIShenggang
(College of Mathematics and Information Science, Shaanxi Normal University,Xi′an 710119,China)
Abstract:To diminish loss of data, a new principal component analysis method for interval data is proposed by postpone the transformation from interval-type data to ordinary data. The method differs from existing methods in the location of factors (i.e. interval numbers) of the covariance matrix and the correlation matrix and thus their eigenvalues and eigenvectors. Examples are presented in the final part to illustrate the advantages of this method.
Key words:interval data;principal component analysis;correlation matrix
E-mail:shengganglinew@126.com
引文格式:侯自盼,李生剛.一種針對(duì)區(qū)間型數(shù)據(jù)的新主成分分析法[J].紡織高校基礎(chǔ)科學(xué)學(xué)報(bào),2016,29(2):184-189.
HOU Zipan,LI Shenggang.A new principal component analysis method for interval data[J].Basic Sciences Journal of Textile Universities,2016,29(2):184-189.