延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 石美麗
在信息化炙熱的時(shí)代, 對(duì)大量及大規(guī)模數(shù)據(jù)進(jìn)行壓縮往往是研究事物的第一步, 而主成分分析作為信息壓縮的重要手段之一,在模式識(shí)別、推薦系統(tǒng)、圖像及視頻處理等方面發(fā)揮著重要作用。本文在以方差代表信息量的基礎(chǔ)上,分別構(gòu)造了向量、矩陣、張量情形下的主成分,并分析了其特征向量在對(duì)應(yīng)Hilbert空間的正交展開過程。且進(jìn)一步討論了三種情形下樣本PCA的過程,探究重構(gòu)過程中矩陣SVD和張量Tucker分解與矩陣PCA和張量PCA的關(guān)系。
當(dāng)今社會(huì)是信息爆炸的時(shí)代, 我們所感興趣的東西背后常蘊(yùn)含著大量及大規(guī)模的數(shù)據(jù), 而數(shù)據(jù)壓縮往往是進(jìn)行分析的第一步,因此信息壓縮一直是研究熱點(diǎn)。主成分分析法作為一種發(fā)展成熟、運(yùn)用廣泛的數(shù)據(jù)壓縮辦法,分析其內(nèi)在本質(zhì)是非常必要的,尤其是在大規(guī)模數(shù)據(jù)(高階張量)方面的運(yùn)用。
主成分分析法(PCA)作為一種建立在統(tǒng)計(jì)最優(yōu)原則基礎(chǔ)上的分析方法,具有較長(zhǎng)的發(fā)展歷史。它最早是由Pearson[1]在1901年提出的,1933年Hotelling[2]在此基礎(chǔ)上加以發(fā)展。Hotelling運(yùn)用拉格朗日乘數(shù)法對(duì)主成分進(jìn)行標(biāo)準(zhǔn)的代數(shù)推導(dǎo),他是以相關(guān)系數(shù)矩陣為基礎(chǔ),而不是協(xié)方差矩陣,且沒有用矩陣符號(hào)表示。Pearson更注重的是計(jì)算結(jié)果,且此方法要比計(jì)算機(jī)的廣泛運(yùn)用還早50多年,盡管對(duì)于4個(gè)及4個(gè)以上的變量計(jì)算冗長(zhǎng),但依舊可行。雖然計(jì)算機(jī)發(fā)展迅速,但對(duì)大量數(shù)據(jù)的計(jì)算還是耗時(shí)耗力的。因此奇異值分解(SVD)[3]大大減小了計(jì)算量。當(dāng)然,隨著信息時(shí)代的不斷發(fā)展,需要處理的數(shù)據(jù)規(guī)模也不斷擴(kuò)大。Kirby[4]直接將人臉圖像拉伸為向量數(shù)據(jù),然后運(yùn)用傳統(tǒng)的PCA辦法進(jìn)行特征提取,這不僅破壞了矩陣結(jié)構(gòu)故有的特征信息,還容易發(fā)生“小樣本問題”。2DPCA[5-6]通過對(duì)矩陣進(jìn)行按行或按列投影,從而實(shí)現(xiàn)直接從矩陣提取特征。當(dāng)然可以同時(shí)進(jìn)行按行和按列投影,即雙向PCA[7]的方法,彌補(bǔ)了2DPCA的相對(duì)不足之處。隨著科技不斷進(jìn)步,張量主成分分析的研究越來深入[8,9],且不同條件下其應(yīng)用相當(dāng)廣泛,如推薦系統(tǒng)[10]、聚類分析[11]等。
本文一共包括三個(gè)部分。第一部分對(duì)一些重要運(yùn)算符號(hào)及概念進(jìn)行說明;第二部分解釋向量空間、矩陣空間、張量空間構(gòu)成Hilbert空間,并描述各種數(shù)據(jù)在其Hilbert空間中的主成分,以及從總體到樣本的介紹與求解過程;第三部分是對(duì)本文的總結(jié)。
2.1.1 總體版向量PCA
在統(tǒng)計(jì)學(xué)中方差表示變異性, 方差的解釋程度衡量了對(duì)信息的提取大小。PCA過程是一個(gè)線性變換的過程,這個(gè)變換將原始變量轉(zhuǎn)換到一個(gè)新的坐標(biāo)體系中,使得數(shù)據(jù)投影的第一大方差在第一主成分上,第二大方差在第二主成分上,以此類推,也就是新的坐標(biāo)基底按信息量大小來排序,因此我們按變異率最大的方向來找正交基,即
2.1.2 樣本版向量PCA
2.2.1 總體版矩陣PCA
2.2.2 樣本版矩陣PCA
2.3.1 總體版張量PCA
自從Tucker在1963年提出張量Tucker分解后,有關(guān)于張量的研究越來深入,而其中在數(shù)據(jù)壓縮方面淵源已久。由于張量Tucker分解是SVD的推廣,所以將2DPCA與GPCA可以運(yùn)用到高階張量中,即多線性主成分分析(MPCA)。
本文講述從本質(zhì)上理解PCA過程,討論特征向量在Hilbert空間的正交展開。將最大化主成分這一本質(zhì)依次推廣到2DPCA、GPCA與MPCA中,分別探討了在總體以及樣本情形下特征提取與信息壓縮問題, 以及討論了重構(gòu)過程中矩陣SVD和張量Tucker分解與矩陣主成分分析和張量主成分分析的關(guān)系。此文對(duì)PCA統(tǒng)計(jì)意義以及幾何意義展開討論,接下來要深入此方面的研究,尤其張量方面,這有助于對(duì)實(shí)際意義的理解。
引用
[1] PEARSON K.On Lines and Planes of Closest Fit to System of Points in Space[J].Philosophical Magazine,1901,2(11):559-572.
[2] HOTELLING H.Analysis of a Complex of Statistical Variables into Principal Components[J].Educational Psychology,1933,24(6): 417-441+498-520.
[3] HAO F Z,MA L B,ZHANG J M,et al.Distribution Systems Data Compression Based on SVD Method[C]//International Conference on Green Energy and Sustainable Development,2019.
[4] KIRBY M,SIROVICH L.Application of the Karhunen-Loeve Procedure for the Characterization of Human Faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,12(1):103-108.
[5] 張彬,帥小應(yīng),錢進(jìn),等.改進(jìn)的2DPCA方法在掌紋識(shí)別中應(yīng)用[J].電腦知識(shí)與技術(shù),2021,17(29):99-101.
[6] WANG M L,JIANG X W,GAO J B,et al.Minimum Unbiased Risk Estimate Based 2DPCA for Color Image Denoising[J].Neurocomputing, 2021,440(14):127-144.
[7] 何春,郭科.基于雙向2DPCA算法的高分五號(hào)衛(wèi)星圖像降維研究[J].樂山師范學(xué)院學(xué)報(bào),2020,35(12):1-7.
[8] 夏志明,徐宗本.基于PCA的信息壓縮:從一階到高階[J].中國(guó)科學(xué)(信息科學(xué)),2018,48(12):1622-1633.
[9] 夏志明,趙文芝,徐宗本.張量主成分分析與高維信息壓縮方法[J].工程數(shù)學(xué)學(xué)報(bào),2017,34(6):571-590.
[10] 廖亮,葉海昌,王新強(qiáng).張量主成份分析算法在腦醫(yī)學(xué)圖像上的應(yīng)用[J].影像研究與醫(yī)學(xué)應(yīng)用,2018,2(19):63-66.
[11] 許榮海,王昌棟,基于異構(gòu)信息網(wǎng)絡(luò)元路徑作張量分解的深度學(xué)習(xí)推薦系統(tǒng)[J].信息安全學(xué)報(bào),2021,6(5):77-87.
數(shù)字技術(shù)與應(yīng)用2022年9期