白偉華 北方民族大學電氣信息工程學院
淺談主成分分析
白偉華 北方民族大學電氣信息工程學院
在實際的課題或者事件中,為了全面分析問題,往往提出很多與此有關的因素。每個因素又都在不同程度反映了事件的某些信息。然而對每個因素逐個進行分析不僅會增加分析的復雜性,而且還可能忽略了它們的某些內在聯系。因此,在如此多的因素之中,人們希望能夠找出它們的少數“代表”來對某課題或事件進行描述,也即主成分分析。本文主要從理論的角度闡述了主成分分析在人臉識別中的重要作用。
因素 內在聯系 主成分分析
主成分分析,是將多個變量通過線性變換以選出較少個數重要變量的一種多元統(tǒng)計方法;旨在利用降維的思想把多指標轉換為少數幾個綜合指標。它是把各變量之間相互關聯的復雜關系進行簡化分析的方法,試圖在力保數據信息丟失最少的原則下對這種多變量的截面數據進行最佳綜合簡化,也就是說對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易很多。
當我們對事件進行全面分析時,會發(fā)現決定事件的變量很多,每個變量在不同程度上反映了事件的某些信息,并且這些變量彼此都有一定的相關性,那么他們所反映的信息就會有一定的重疊性。此時,我們會發(fā)現這些眾多的變量會增加我們統(tǒng)計或分析問題的復雜性。在實際課題中,在進行定量分析的過程中,我們總希望在較少變量的情況下,獲得更多的信息量。主成分分析正是解決這類事件的理想工具。
主成分分析是對數據降維的一種方法。它是將原來具有很多具有相關性的一系列指標m1、m2、m3、、、mp(p個指標)重新組合成一組較少個數的互不相關的綜合指標來代替原來的指標。
主成分表分析的第一步是將所有的指標數據進行標準化,標準化的一般方法為:(xij-xjmean)/δj,這里xij是樣品i的第j個指標,xjmean和δj是第j個指標的平均值和標準偏差,通過標準化后,每個變量的平均值變成0,標準偏差為1。標準化的好處是可以消除不同指標間的量綱差異和數量級間的差異。
第二步計算出各標準化指標間的相關系數矩陣,從而判定出相關性很大的一些指標。我們可以用另外一個變量來表示這些指標間的協(xié)方差,同時把這個變量叫作第一成分。然后把第一成分去掉,計算剩余的相關系數矩陣,通過計算剩余的相關陣,可以發(fā)現第二組相關性很高的變量,此時我們用第二成分來代替它們的協(xié)方差,第二成分和第一成分是正交的。同理去除第二成分對原始數據的貢獻后,計算第三組高度相關的變量。以此類推,直到原始數據的所有方差都被提取后結束。最后原始變量轉化成了同樣數量的新變量且這些新變量之間都是正交的。
4.1 優(yōu)點
①使得各評估指標相互獨立,互相沒有影響。因為主成分分析法是把原始變量進行一系列變換,最終形成各自相互獨立的變量,而且通過實踐可以得出變量間的相關程度越低,主成分分析效果越好。
②有利于選擇出具有決定性作用的指標,減少計算的工作量。對于其他評估方法,由于不能很好地消除相互間影響較大的一些指標,因此在進行指標選擇的過程中會比較費力。而主成分分析法正好相反,它可以很好地消除指標間的相互影響,大大減少工作量。
③主成分分析中,按照主成分的分差大小,依次對各主成分進行排列。這樣在分析問題時,我們可以保留前面方差較大的幾個主成分代表原始的變量,從而可以減少計算的復雜度。用主成分分析法作綜合評估時,由于選擇的原則是累計貢獻率≥85%,這樣不至于因為舍棄了一部分主成分節(jié)省了工作量而影響整體評估結果。
4.2 缺點
①在主成分分析中,我們應首先確保所提取的主成分能夠反映原始變量的絕大部分信息而且累計貢獻率達到一個較高水平,其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋。
②對于所提取的每個主成分的解釋其含義都有點模糊,不像原始變量的含義可以解釋的那么清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分的數量往往明顯小于原始變量的數量,否則維數降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
③當主成分的因子負荷的符號有正有負時,綜合評價函數意義就不明確。
舉個簡單的例子,在一個課題分析中,選中30個指標,這30個指標對于這項課題都有著一定的重要性。但是30個指標給分析問題帶來了很大的負擔,而且過程比較繁瑣,這時候就可以采用主成分分析方法進行降維,提取出能表達課題分析中最主要的特征信息。
主成分分析最著名的應用就是人臉識別中特征提取及數據維,假若我們輸入100*100大小的人臉圖像,單單提取它的灰度值作為原始特征,則這個原始特征將達到10000維,這給后面的分類器的處理將帶來很大的難度。
著名的人臉識別Eigenface算法就是采用主成分分析算法,用一個低維子空間描述人臉圖像,同時保存了識別所需要的信息。它的原理就是將一個高維向量x通過一個特殊的特征向量矩陣U,投影到一個低維的向量空間中,表征為一個低維向量y,并且僅僅損失了一些次要信息。也就是說,通過低維表征的向量和特征向量矩陣,可以基本重構出所對應的原始高維向量。
[1]劉蕾.多元統(tǒng)計分析及其組合預測對質量的評估[D].渤海大學,2016
[2]王鵬,況福民,鄧育武,田亞平,易鋒.基于主成分分析的衡陽市土地生態(tài)安全評價[J].經濟地理,2015,(01):168-172