賀 矗
利用足跡分析身高是足跡檢驗(yàn)工作中非常重要的一部分,長期以來有大量的學(xué)者研究足跡與身高的關(guān)系。但是已有的研究并沒有關(guān)注所測量的足跡不同部位之間是否具有相關(guān)性,當(dāng)這些測量值之間存在高度相關(guān)性時(shí),建立的回歸模型會出現(xiàn)多重共線性問題,多重共線性可能會導(dǎo)致分析結(jié)果出現(xiàn)一些不合理的情況。本文選用主成分分析法和多元回歸結(jié)合的方式通過赤足跡建立預(yù)測身高模型。
研究對象是中國刑警學(xué)院在校學(xué)生和干訓(xùn)學(xué)員,實(shí)驗(yàn)對象沒有足部疾病,在相同的實(shí)驗(yàn)環(huán)境下采用油墨捺印的方式讓實(shí)驗(yàn)對象自然行走。共采集100 人的赤足跡。
結(jié)合當(dāng)前已有的研究成果[1-4],以左足跡為例選取8 個(gè)變量進(jìn)行主成分分析。分別是跖內(nèi)緣到跟平行線(X1)、足長(X2)、跖寬(X3)、跟寬(X4)、第一趾前緣到跟(X5)、第五趾前緣到跟(X6)、第一趾前緣到跟平行線(X7)、第五趾前緣到跟平行線(X8),各變量如圖1 所示。
圖1 足跡測量示意圖
多重共線性分析。在進(jìn)行多元回歸分析時(shí)有個(gè)基本假設(shè)是各變量間相互獨(dú)立,如果兩個(gè)或多個(gè)變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性[5]。多重共線性會導(dǎo)致回歸系數(shù)符號出現(xiàn)錯誤,即積極變量被認(rèn)為是消極變量。用赤足跡的各個(gè)變量與身高建立回歸模型時(shí)不僅要考慮各變量與身高的相關(guān)性,還要考慮各變量間的相關(guān)性。本文所采用的各變量與身高的相關(guān)性如表1 所示,各變量間的相關(guān)性如表2 所示。
以0.7 為閾值,可以從表1 中看出變量X2、X5、X6、X7、X8 都與身高具有相關(guān)性,假定不考慮多重共線性,直接建立多元回歸公式如下。
但是從表2 可以看出,變量X2、X5、X6、X7、X8 之間是具備相關(guān)性(淺灰色區(qū)域)的,甚至具備極強(qiáng)的相關(guān)性(深灰色區(qū)域)。本文采用主成分分析法提取出變量間的主成分,以新的主成分作為獨(dú)立變量進(jìn)行回歸分析達(dá)到消除共線性問題。
主成分分析法(Principal Component Analysis,PCA)的核心思想是降維,將多組存在線性關(guān)系的變量通過正交變換的方法轉(zhuǎn)換為幾組線性不相關(guān)的變量,此時(shí)的變量即為主成分[5]。此方法能夠克服單一變量不能準(zhǔn)確預(yù)測身高的問題,實(shí)現(xiàn)更為科學(xué)準(zhǔn)確的預(yù)測。
表1 變量與身高的相關(guān)性
從100 人的實(shí)驗(yàn)數(shù)據(jù)中共選取了25 人的左赤足跡,并對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并得出相關(guān)系數(shù)矩陣,運(yùn)用matlab 軟件對系數(shù)矩陣進(jìn)行主成分分析,各主成分得分如表3 所示,可以看出第一主成分(F1)主要包含跖內(nèi)緣到跟平行線(X1)、第一趾前緣到跟(X5)、第一趾前緣到跟平行線(X7)。X1、X5、X7 都是足內(nèi)側(cè)的前端到后端的測量距離,可以將第一主成分解釋為足內(nèi)側(cè)前后間的距離。第二主成分(F2)主要包含第一趾前緣到跟(X5),并且占很大比重,可以將第二主成分近似解釋為第一趾前緣到跟(X5)。第三主成分主要包含跟寬(X4),可以將第三主成分近似解釋為跟寬(X4)。第四主成分主要包含跖寬(X3),可以將第四主成分近似理解為跖寬(X4)。從表2 中可以看出降維后得到的4個(gè)主成分相關(guān)性非常弱,消除了多重共線性問題,可以對4 個(gè)主成分進(jìn)行多元線性回歸。
由實(shí)驗(yàn)采集數(shù)據(jù)和主成分得分系數(shù)可以計(jì)算出主成分得分,利用matlab 對各主成分得分進(jìn)行多元回歸分析,獲得多元線性函數(shù)如下。
用公式(2)對25 組數(shù)據(jù)的身高進(jìn)行預(yù)測,各預(yù)測身高和真實(shí)身高的最小相對誤差絕對值是0.084%,最大相對誤差絕對值是10.341%,平均相對誤差絕對值是3.891%。25 組數(shù)據(jù)中有20 組數(shù)據(jù)的最小誤差絕對值是小于6%的,說明利用公式(2)預(yù)測身高的精確度較高。同時(shí)對100 人的身高進(jìn)行預(yù)測,在正負(fù)3 的誤差范圍內(nèi)比當(dāng)前已有的回歸公式預(yù)測準(zhǔn)確度高出7%至34%。
表2 各變量間的相關(guān)性
表3 主成分得分系數(shù)
本文首先從正態(tài)分布的角度考慮了實(shí)驗(yàn)數(shù)據(jù)的價(jià)值,其次探討了身高和8 個(gè)變量以及變量之間的相關(guān)性,然后運(yùn)用主成分分析法對變量參數(shù)進(jìn)行降維得到4 個(gè)主成分,最后利用主成分建立回歸模型。
1)主成分分析法可以將眾多與身高具有相關(guān)性的變量進(jìn)行降維,消除多重共線性對回歸模型的影響。
2)經(jīng)過主成分分析后提取的4 個(gè)主成分包含了原始樣本數(shù)據(jù)95%以上的信息,能夠充分保障回歸模型的準(zhǔn)確性。
3)主成分回歸模型平均相對誤差絕對值是3.891%,表明主成分分析后再進(jìn)行多元回歸獲得的模型精度較高,在正負(fù)3 的誤差范圍內(nèi)比當(dāng)前已有的回歸公式預(yù)測準(zhǔn)確度高出7%至34%。