石曉峰,王 飛,趙 陽
?
SOM和PCA對體質(zhì)健康數(shù)據(jù)的模式識別及可視化分析
——以學(xué)生體質(zhì)地域特征為視角
石曉峰1,王飛2,趙陽2
摘要隨著國家學(xué)生體質(zhì)健康數(shù)據(jù)量的劇增,體質(zhì)健康的大數(shù)據(jù)分析及可視化成為體質(zhì)研究的重要內(nèi)容。自組織特征映射網(wǎng)絡(luò)(Se1f-Organizing Map,SOM)方法和主成分分析(Principa1 Component Ana1ysis,PCA)法對處理高維海量數(shù)據(jù)具有獨特優(yōu)勢及可視化特點,從而成為大數(shù)據(jù)模式識別和可視化分析的重要工具。以山西某高校6 531名學(xué)生體質(zhì)健康數(shù)據(jù)為例,以學(xué)生體質(zhì)地域差異為視角,用SOM方法定性識別了學(xué)生體質(zhì)健康的地域特征,用可視化PCA方法分析學(xué)生體質(zhì)健康的影響因子及解釋因子的地域特征。結(jié)論:SOM和PCA方法可用于體質(zhì)健康數(shù)據(jù)模式識別和可視化分析。SOM和PCA的實例分析揭示了學(xué)生體質(zhì)的地域特征,分析顯示,體重和BMI指標(biāo)具有地域一致性,是影響學(xué)生體質(zhì)健康的最重要因素,也是學(xué)生體質(zhì)健康現(xiàn)狀的主要解釋變量;女生體質(zhì)健康的地域差異相對較大,男生體質(zhì)健康的地域差異較?。豢梢暬疨CA結(jié)果還揭示了,學(xué)生體質(zhì)健康指標(biāo)的聚類特征也具有地域一致性。文章從實證角度論證了SOM和PCA方法在體質(zhì)健康數(shù)據(jù)模式識別和可視化分析中的應(yīng)用,也為體質(zhì)類大數(shù)據(jù)分析提供了初步思路。
關(guān)鍵詞自組織特征映射網(wǎng)絡(luò);主成分分析;模式識別;數(shù)據(jù)可視化;體質(zhì)健康;地域特征
適度的體育鍛煉和充沛的身體機能是身心健康的重要保障,有規(guī)律的體育活動有助于使青少年成長過程中避免諸如肥胖、糖尿病及高血壓等頑疾的困擾[1-2],某種程度上還有利于提升并改善學(xué)習(xí)效能[3-4]。因此,各個國家均設(shè)立相應(yīng)的大學(xué)機構(gòu),通過對健康促進的研究全面提升青少年群體身心健康水準(zhǔn)[5-8]。隨著城市化進程的不斷推進,各地域間經(jīng)濟水平、城市化復(fù)雜程度、社會文化的差異性,以及由此引發(fā)的一系列社會環(huán)境、生態(tài)環(huán)境的差異,使得與青少年健康成長密切相關(guān)的生產(chǎn)、生活環(huán)境發(fā)生了根本性改變[5],表現(xiàn)出一定的醫(yī)學(xué)地理特征[9-10],加之體質(zhì)健康數(shù)據(jù)量的劇增使得基于大數(shù)據(jù)模式識別及數(shù)據(jù)可視化的研究方法逐漸成為體質(zhì)健康研究的重要內(nèi)容。長期以來,對學(xué)生體質(zhì)健康的研究多集中于身體形態(tài)、身體機能和身體健康等指標(biāo)參數(shù)的描述性統(tǒng)計與分析[11-14],未能充分考慮地域特征的影響,對體質(zhì)健康大數(shù)據(jù)反映的體質(zhì)健康變化模式和規(guī)律還缺乏深入、系統(tǒng)的研究?;谧越M織映射網(wǎng)絡(luò)(Self-Organizing Map,SOM)可視化識別體質(zhì)健康大數(shù)據(jù)模式特征的定性研究手段,以及探討主成分分析(Principle Components Analysis,PCA)降維方法對體質(zhì)大數(shù)據(jù)影響要素及特征的實證研究尚不多見。因此,本研究以山西某高校學(xué)生體質(zhì)健康數(shù)據(jù)集為例,以學(xué)生體質(zhì)地域特征為視角,探討SOM方法對學(xué)生體質(zhì)健康地域特征的定性識別,探討可視化PCA方法識別學(xué)生體質(zhì)健康的主要影響因子及解釋因子的地域性特征。同時,在大數(shù)據(jù)背景下,SOM和PCA方法將有助于推動體質(zhì)健康數(shù)據(jù)模式化識別和可視化相關(guān)研究,對學(xué)生體質(zhì)健康地域特征研究具有一定的科學(xué)意義和實踐價值。
1.1研究對象
以山西某高校2012級6 351名學(xué)生體測數(shù)據(jù)集為例,并按照山西省的行政區(qū)劃分11個地區(qū)進行地域特征的統(tǒng)計劃分,各地域男女生樣本數(shù)量的分布見圖1。
圖1 研究對象的地域劃分及樣本數(shù)分布
1.2體質(zhì)健康指標(biāo)
依照《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》的相關(guān)要求,學(xué)生體質(zhì)測試的參數(shù)指標(biāo)包括基礎(chǔ)6項:身高(height)、體重(weight)、BMI (body mess index)、心肺呼吸量(lung)、50 m跑(50 m)和立定跳遠(yuǎn)(jump)。由于坐位體前屈(bend)指標(biāo)有正負(fù)值共存,難以滿足PCA中數(shù)據(jù)標(biāo)準(zhǔn)化和排序的相關(guān)條件,因此,本文PCA分析中不考慮該指標(biāo)。男生專項指標(biāo)包括1 000 m和引體向上(pullup),女生專項指標(biāo)包括800 m和1 min仰臥起坐(1min_sit)。各體質(zhì)測試指標(biāo)嚴(yán)格按照《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》的規(guī)范方法測定。
1.3研究方法
1.3.1SOM模式識別與可視化方法SOM是一種具有自學(xué)習(xí)功能的人工神經(jīng)網(wǎng)絡(luò),采用競爭性非監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu),典型的SOM網(wǎng)絡(luò)包含輸入層和輸出層2層。SOM網(wǎng)絡(luò)神經(jīng)的元結(jié)構(gòu)網(wǎng)絡(luò)由輸入的樣本數(shù)確定,本研究中神經(jīng)元類型為六邊形神經(jīng)元,每個神經(jīng)元均有6個相鄰的神經(jīng)元,神經(jīng)網(wǎng)絡(luò)為11×9的矩形網(wǎng)絡(luò)結(jié)構(gòu)(樣本劃分為11個地區(qū)9個身體素質(zhì)指標(biāo))。確定好神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和大小后,每個節(jié)點的神經(jīng)元被分配1個初始權(quán)重。SOM初始化一般有2種方式,即隨機初始化和線性初始化。隨機初始化,是隨機給每個神經(jīng)元的向量賦一個較小權(quán)重;線性初始化,則是對各神經(jīng)元向量沿輸入數(shù)據(jù)主特征向量的線性子空間有序賦值[2]。本研究采用的是線性初始化。隨后,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,各神經(jīng)元初始權(quán)重通過網(wǎng)絡(luò)競爭性算法不斷被修正,直到該神經(jīng)元向量的權(quán)重和其初始權(quán)重間的歐氏距離最小而獲勝,該神經(jīng)元權(quán)重向量的變化過程反應(yīng)了它與周圍神經(jīng)元的拓?fù)潢P(guān)系,經(jīng)過數(shù)百次迭代(本研究設(shè)定200次迭代),直到整個神經(jīng)網(wǎng)絡(luò)趨于穩(wěn)定為止。需要注意的是,為消除樣本量大小對SOM網(wǎng)絡(luò)訓(xùn)練的影響,輸入層樣本數(shù)據(jù)需要進行標(biāo)注化(各值介于0~1)[15]。
本研究中,SOM對體質(zhì)健康數(shù)據(jù)的分類是依據(jù)數(shù)據(jù)自身信息的映射結(jié)構(gòu)進行聚類和圖像可視化表達(dá),即使用K-means和U-matrix方法對數(shù)據(jù)特征進行歐式距離計算并分類,其主要步驟為:(1)體質(zhì)健康矩陣數(shù)據(jù)經(jīng)SOM訓(xùn)練劃分為二維的圖像單位;(2)U-matrix方法對劃分的二維圖像單位進行聚類,K-means方法計算體質(zhì)數(shù)據(jù)可視化的歐式距離;(3)U-matrix圖示化相鄰數(shù)據(jù)的相對歐式距離(用灰度陰影圖示,灰度較小表示歐式距離較小,黑色表示最大歐式距離即聚類的邊界);(4)基于K-means算法,按照U-matrix結(jié)構(gòu)進行數(shù)據(jù)的空間分割,并獲得可視化SOM聚類圖。
本文對學(xué)生體質(zhì)地域特征的模式識別及可視化的定性研究采用的SOM分析由Matlab2012b軟件編程完成。
1.3.2PCA主成分識別與可視化方法PCA分析是一種普遍使用的數(shù)據(jù)降維方法,其具體步驟為:(1)數(shù)據(jù)標(biāo)準(zhǔn)化,最常用的標(biāo)準(zhǔn)化是中心化和離差標(biāo)準(zhǔn)化,中心化可以用數(shù)據(jù)矩陣行中心化,也可以用數(shù)據(jù)矩陣列中心化,或者同時用兩者中心化;(2)計算屬性間內(nèi)積矩陣;(3)求內(nèi)積矩陣S的特征根并排序λ1≥λ2≥…≥λn;(4)求特征根所對應(yīng)的特征向量;(5)求排序坐標(biāo)矩陣,并計算各個主分量所含信息(各特征根所占特征根之和的百分?jǐn)?shù));(6)求得各屬性的相應(yīng)負(fù)荷量。
本文探討學(xué)生體質(zhì)健康的主要影響因子及解釋因子的地域性差異,采用的可視化PCA分析由R語言“Vegan”包完成,其中(1)和(2)由“Vegan”包中功能函數(shù)rda()完成,(3)~(6)由gts.pca被功能函數(shù)rda()賦值完成,可視化PCA排序圖由功能函數(shù)biplot()函數(shù)完成。最終,體質(zhì)健康數(shù)據(jù)投影在PC1和PC2空間內(nèi),實現(xiàn)可視化PCA排序圖(平面內(nèi)黑點代表了所有樣本),PCA排序圖的解讀規(guī)則是:變量的箭頭越長,表明該變量對體質(zhì)健康影響越大(影響變量);變量與PC1和PC2軸的夾角越小,表明該變量對體質(zhì)健康相關(guān)性越強,對體質(zhì)健康的解釋越多(解釋變量)。
2.1SOM對學(xué)生體質(zhì)地域特征的模式識別及可視化
SOM是一種具有自學(xué)習(xí)功能的人工神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)在接受外界多變量輸入時,將會分成不同的區(qū)域,而不同的區(qū)域?qū)Σ煌兞康哪J骄哂胁煌捻憫?yīng)特征,最終形成一種拓?fù)湟饬x上的可視化的有序圖。SOM可以將任意維度的輸入信號以拓?fù)湟饬x的模式,映射在一個二維分散圖上,這種分析方法通常用來分類或識別各輸入變量間的關(guān)系和模式[2]。由于SOM能夠?qū)斎肽J竭M行自組織訓(xùn)練和判斷,實現(xiàn)功能相同的神經(jīng)元在空間分布上的聚集,因其具有直觀、形象和可視化的表現(xiàn)特征,而常用于信息學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的聚類分析和定性研究[15]。在SOM數(shù)據(jù)模式識別及可視化研究中,通常有2種方法用來對數(shù)據(jù)進行分類分析:(1)先聚類分析,然后進行可視化的圖像標(biāo)定和投影,投影后相同類別的數(shù)據(jù)進行新的圖像可視化表達(dá);(2)依據(jù)數(shù)據(jù)自身信息的映射結(jié)構(gòu)進行聚類和圖像可視化表達(dá)[15]。對于體質(zhì)健康數(shù)據(jù),因其變量的離散性而多采用第2種方法。采用SOM對樣本地區(qū)不同地域男女生體質(zhì)特征的模式識別及可視化研究表明:男女生體測參數(shù)的地域特征存在差異性,呂梁和長治地區(qū)的男生身高和肺活量相對最大,晉中地區(qū)男生50 m跑和1 000 m跑成績相對較差,男生BMI和體重指數(shù)變化規(guī)律類似,說明相對于身高而言,男生BMI變化主要受體重的影響;男生50 m跑和立定跳遠(yuǎn)變化規(guī)律具有一致性,這可能與其項目要求的短時高爆發(fā)力特征相關(guān);陽泉、晉中和忻州地區(qū)的女生身高和肺活量指標(biāo)值相對較大,50 m跑和800 m跑成績相對較差,女生BMI亦和體重變化規(guī)律類似,女生BMI指數(shù)變化亦主要受體重影響;50 m跑和立定跳遠(yuǎn)變化規(guī)律的一致性在女生亦有相似體現(xiàn)(見圖2、圖3)。
SOM對于處理多維度的大數(shù)據(jù)有著明顯的優(yōu)勢,其方法獨具可視化能力,能直觀反映各參數(shù)的變化格局,通過生成各參數(shù)的自組織圖,可直觀地定性化表達(dá)特定區(qū)間內(nèi)各參數(shù)的分布特征[2,15]。本研究SOM分析中,基于U-matrix和K-means手段進行體質(zhì)數(shù)據(jù)特征的歐式距離計算、分類和可視化表達(dá),僅在省內(nèi)各地區(qū)11個維度的聚類和定性分析,藉此反映了學(xué)生體質(zhì)健康地域差異的一般規(guī)律。本質(zhì)上講,SOM分析計算中,其權(quán)重的表達(dá)需要使用全部樣本數(shù)據(jù),所含信息量大,SOM還能將輸入空間樣本模式有序地映射到輸出層上,能將高維數(shù)據(jù)映射到低維空間清晰地表達(dá),易于發(fā)現(xiàn)規(guī)律[16]。需要說明的是,選取的變量個數(shù)、樣本數(shù)量和聚類個數(shù)會影響SOM的識別效果,但對于給定樣本量的數(shù)據(jù)集而言,基于數(shù)據(jù)自身信息的映射結(jié)構(gòu)可以有效區(qū)分不同類別間的整體變化情況[8]。國際上,基于SOM對體質(zhì)健康數(shù)據(jù)的模式識別及可視化分析還處于起步階段,如K.LAGUS等[17]基于SOM對371名研究者身體素質(zhì)6項指標(biāo)和3項病征指標(biāo)進行了模式識別和可視化,并探討了身體素質(zhì)和病征之間的聯(lián)系;PELLICER-CHENOLL等[2]采用SOM,對西班牙巴塞羅那中學(xué)4個學(xué)年的學(xué)生體能、體質(zhì)、體成分和學(xué)習(xí)成績進行了模式識別,并探討不同時間段模式的變化特征,證實了較好的身體素質(zhì)和較好的成績具有相似的模式特征。
圖2 基于SOM的男生體質(zhì)健康指標(biāo)的聚類圖
圖3 基于SOM的女生體質(zhì)健康指標(biāo)的聚類圖
2.2學(xué)生體質(zhì)健康的主要影響因子及解釋因子的地域性差異
PCA是一種通用的降維方法,能將高維的數(shù)據(jù)通過線性變換,找出最能代表原始數(shù)據(jù)的投影方法,并將其投影到低維空間上的一種多元統(tǒng)計分析方法。在不同研究領(lǐng)域,PCA的表現(xiàn)方式也各不相同。體質(zhì)健康數(shù)據(jù)正是由諸多個體組成的多變量數(shù)據(jù)體系,一般PCA方法只能進行主成分的識別和劃分,難以對全部個體進行可視化的PCA分析。因此,研究中引入生態(tài)學(xué)領(lǐng)域的排序概念進行體質(zhì)健康數(shù)據(jù)處理,以實現(xiàn)可視化的排序圖,其本質(zhì)過程是將各個個體盡可能排列在可視化的低維空間,也就是讓最前面的幾個排序軸盡可能包含大量的體質(zhì)健康數(shù)據(jù)的原始信息。本文中,對體質(zhì)健康數(shù)據(jù)可視化PCA的分析正是間接排序方法中基于線性模型分析的一種表現(xiàn)模式。以山西某高校數(shù)據(jù)集為例的PCA分析之前,需要先進行消除趨勢的對應(yīng)分析,對應(yīng)分析結(jié)果顯示,排序前4個軸中最大值均小于2個單位。表明,對樣本區(qū)域各地區(qū)學(xué)生(總體,男生和女生)體質(zhì)健康的主要影響要素分析滿足PCA分析的前提條件。
2.2.1學(xué)生總體體質(zhì)健康地域特征的PCA分析樣本地區(qū)學(xué)生體質(zhì)健康地域特征PCA前四軸統(tǒng)計特征排序結(jié)果表明:前四軸累計方差百分比均遠(yuǎn)大于70%;其中,臨汾地區(qū)前2個軸累計捕捉方差最大,其特征值λ1和λ2分別為3.696和1.372,共捕捉了84.5%的累計方差;太原地區(qū)前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為3.321和1.508,共捕捉了80.5%的累計方差(見表1)。
表1 各區(qū)域?qū)W生總體體質(zhì)健康指標(biāo)主成分分析(PCA)前四軸統(tǒng)計特征
應(yīng)用PCA對樣本地區(qū)學(xué)生體質(zhì)健康地域特征的可視化分析,揭示了影響不同地域?qū)W生體質(zhì)健康的主要基本指標(biāo)既有共性也存在差異性,全省及各個地區(qū)肺活量、身高和立定跳遠(yuǎn)3個指標(biāo)箭頭長度最短,表明,省內(nèi)及各地區(qū)學(xué)生身體健康受肺活量、身高和立定跳遠(yuǎn)的影響最小。50 m跑、體重和BMI存在明顯的地域差異性。太原、大同、陽泉、晉城、忻州和呂梁的50 m跑均與PC1軸具有很強的正相關(guān)性,表明50 m跑是這6個區(qū)域?qū)W生體質(zhì)健康的主要基本解釋變量;而在其他地區(qū),50 m跑則表現(xiàn)為負(fù)相關(guān)。此外,體重和BMI與PC1軸還表現(xiàn)出相對較強的相關(guān)性,尤其是體重與50 m跑成為長治、朔州、呂梁、晉中和臨汾地區(qū)學(xué)生體質(zhì)健康的主要基本解釋變量。此外,可視化PCA分析還具有聚類功能,學(xué)生體質(zhì)健康指標(biāo)中肺活量、身高和立定跳遠(yuǎn)歸為一類,BMI和體重歸為一類,50 m跑為一類(見圖4)。
2.2.2男生體質(zhì)健康地域特征的PCA分析樣本地區(qū)男生體質(zhì)健康地域特征PCA前四軸統(tǒng)計特征的排序結(jié)果表明:前四軸累計方差百分比均遠(yuǎn)大于70%;其中,太原地區(qū)前2個軸累計捕捉方差最大,累計捕捉了60.0%的總體方差,其特征值λ1和λ2分別為3.042和1.760;長治地區(qū)前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為2.406和1.708,共捕捉了51.4%的累計方差(見表2)。
圖4 各區(qū)域?qū)W生總體體質(zhì)參數(shù)的PCA分析
表2 各區(qū)域男生體質(zhì)健康指標(biāo)的主成分分析(PCA)前四軸統(tǒng)計特征
應(yīng)用PCA對樣本地區(qū)男生體質(zhì)健康地域特征的可視化分析結(jié)果表明,影響男生體質(zhì)健康的主要基本指標(biāo)存在地域的差異性。其中,體重指標(biāo)箭頭在各地區(qū)均相對較長,是全省及各地區(qū)影響男生身體健康的首要因子;除陽泉、朔州和晉城,立定跳遠(yuǎn)亦是其他地區(qū)共有的影響因子,陽泉地區(qū),身高是男生體質(zhì)健康的重要影響因子,肺活量是影響朔州地區(qū)男子體質(zhì)健康的重要因子,50 m跑是影響晉城地區(qū)男子身體健康的重要因子。BMI和引體向上與PC1軸夾角相對較小,BMI在長治、晉城、呂梁和運城地區(qū)呈負(fù)相關(guān),而在其他地區(qū)呈正相關(guān);引體向上在大同、陽泉、朔州、忻州和臨汾與PC1軸呈負(fù)相關(guān),在其他地區(qū)呈正相關(guān)。因此,BM I和引體向上是省內(nèi)各區(qū)域男生體質(zhì)健康的主要解釋變量。除了大同和臨汾,身高和肺活量與PC2軸夾角相對較小,也是這些地區(qū)男生體質(zhì)健康的重要解釋變量,而1 000 m跑是大同地區(qū)男子體質(zhì)健康的重要解釋因子,50 m跑是臨汾地區(qū)男子體質(zhì)健康的重要解釋因子。此外,可視化PCA分析還具有聚類功能,除了個別地區(qū)外,男生體質(zhì)健康指標(biāo)中身高和肺活量聚為一類,BMI和體重屬于一類,50 m和1 000 m跑為一類,立定跳遠(yuǎn)和引體向上為一類(見圖5)。
圖5 各區(qū)域男生體質(zhì)參數(shù)的PCA分析
2.2.3女生體質(zhì)健康地域特征的PCA分析樣本地區(qū)女生體質(zhì)健康地域特征PCA前四軸統(tǒng)計特征的排序結(jié)果表明:前四軸累計方差百分比均遠(yuǎn)大于70%;其中,長治地區(qū)前2個軸累計捕捉方差最大,累計捕捉了51.8%的總體方差,其特征值λ1和λ2分別為2.133和2.014;運城地區(qū)前2個軸累計捕捉方差相對最小,其特征值λ1和λ2分別為2.040和1.908,共捕捉了49.4%的累計方差(見表3)。
應(yīng)用PCA對樣本地區(qū)女生體質(zhì)健康地域特征的可視化分析結(jié)果表明,影響各區(qū)域及總體女生體質(zhì)健康的主要基本指標(biāo)既有共性也存在差異。其中,體重指標(biāo)的箭頭在各地區(qū)均相對較長,是全省及各地區(qū)影響女生體質(zhì)健康的首要因子;除陽泉、大同和長治外,BMI亦是其他地區(qū)共有的影響因子;50 m跑是這3個地區(qū)女生體質(zhì)健康的重要影響因子,立定跳遠(yuǎn)對大同地區(qū)女生體質(zhì)健康影響較大,肺活量對陽泉地區(qū)女生體質(zhì)健康影響較大。除了晉城和臨汾地區(qū)外,其他各地區(qū)BMI指標(biāo)與PC1軸夾角相對較小,構(gòu)成了這些地區(qū)女生體質(zhì)健康的共同解釋因子;體重是除了太原、忻州和晉中地區(qū)外,其他地區(qū)女生體質(zhì)健康的重要解釋因子。其他解釋因子的地區(qū)差異性較為明顯,如身高是太原、陽泉、忻州和晉中地區(qū)女生體質(zhì)健康的重要解釋因子,而1 min仰臥起坐則是大同、晉城、朔州、呂梁和臨汾的重要解釋因子。不容忽視的是,這些影響因子與PC1軸和PC2軸的相關(guān)性(夾角大小)還存在正負(fù)差異性,如長治地區(qū)50 m跑與PC2軸正相關(guān)性較強,而在臨汾地區(qū)則表現(xiàn)出較強的負(fù)相關(guān)。此外,可視化PCA分析還具有聚類功能,女生體質(zhì)健康指標(biāo)中,身高和肺活量聚為一類,BM I和體重為一類,50 m和800 m跑為一類,立定跳遠(yuǎn)和1 min仰臥起坐為一類(見圖6)。
本研究引入生態(tài)學(xué)領(lǐng)域的排序概念,對體質(zhì)健康數(shù)據(jù)進行PCA分析,圖4~圖6的可視化結(jié)果較好地展示了不同地域特征下,學(xué)生體質(zhì)健康的影響因子及解釋因子。本研究中,PCA方法將數(shù)據(jù)集中,所有數(shù)據(jù)通過線性變換,找出最能代表原始數(shù)據(jù)的投影方法,并將其投影到PC1和PC2所在空間上,并在圖中以各黑點代表各單個樣本,實現(xiàn)了PCA在體質(zhì)健康研究領(lǐng)域的可視化表達(dá)。目前,PCA在體質(zhì)健康方面的研究主要集中于主因子識別和提取、數(shù)學(xué)建模的數(shù)據(jù)預(yù)處理及與其他模型的耦合。如A.R.CALAVALLE等[18]通過臺階試驗,對不同心率儲備階段消防員體質(zhì)健康指標(biāo)進行了主成分識別和提??;J.ZHOU等[19]對COSMED心肺功能儀器22項指標(biāo)進行PCA分析,并耦合ANN,進行數(shù)據(jù)建模。
表3 各區(qū)域女生體測參數(shù)的主成分分析(PCA)前四軸統(tǒng)計特征
圖6 各區(qū)域女生體質(zhì)參數(shù)的PCA分析
綜上,本文以山西某高校數(shù)據(jù)集為例,充分探討了SOM和PCA方法在體質(zhì)健康大數(shù)據(jù)中的模式識別和可視化研究。以體質(zhì)健康地域特征為視角的實證分析中,SOM結(jié)果揭示了男女生體重問題成為決定BM I變化的主要因子,PCA結(jié)果揭示了大部分地區(qū)亦表現(xiàn)出類似的特征。前人研究表明,體質(zhì)活動與其所居住的環(huán)境有著密切的關(guān)聯(lián),表現(xiàn)出一定的空間差性[20-22]。本研究實證分析結(jié)果顯示,男生受立定跳遠(yuǎn)指標(biāo)(除陽泉、晉城和朔州地區(qū))的影響,女生受BMI影響較大(除大同、陽泉和長治地區(qū))。表明,山西省內(nèi)各地區(qū)男女生存在營養(yǎng)過?,F(xiàn)象,超體重或肥胖問題成為當(dāng)前影響學(xué)生體質(zhì)健康的主要因素,這與前人研究結(jié)果相一致[12,23-25]。此外,BMI更是這些地區(qū)學(xué)生體質(zhì)健康的重要解釋因子之一(男生除了陽泉地區(qū),女生除了晉城地區(qū))。男女生體質(zhì)健康的差異還在于,絕大多數(shù)地區(qū)女生需要控制體重,而男生需要提升引體向上和肺活量的成績。雖然PCA結(jié)果提示,男生身高也是大多數(shù)區(qū)域?qū)W生體質(zhì)健康的重要解釋因子,但在這一年齡段身高已基本定型,通過體育活動提升肺活量是有效改善男生體質(zhì)健康切實可行的途徑。相對于男生體質(zhì)健康的地域差異而言,女生體質(zhì)健康的地域差異特征更為明顯。太原、陽泉、忻州和晉中地區(qū)女生,通過提升肺活量有助于改善和提升體質(zhì)健康;大同、晉城、朔州和臨汾地區(qū)則通過提高1 m in仰臥起坐成績提升女生的體質(zhì)健康;長治、呂梁、臨汾和運城地區(qū)女生體質(zhì)健康的提升,則需要提高50 m跑的成績。此外,立定跳遠(yuǎn)成績的提升有助于大同、長治、朔州和運城地區(qū)女生體質(zhì)健康的提升,而800 m跑成績的提升僅對晉城地區(qū)女生體質(zhì)健康提升有效。值得注意的是,學(xué)生體質(zhì)健康的提升是身體綜合素質(zhì)共同作用的整體,本研究結(jié)果提示,通過針對區(qū)域某一具體指標(biāo)的體育活動有助于該區(qū)域體質(zhì)健康的提升,但以不能忽略和降低其他指標(biāo)的體育鍛煉為前提。
SOM和PCA是體質(zhì)健康數(shù)據(jù)模式識別和可視化的重要方法,以山西某高校學(xué)生體質(zhì)健康數(shù)據(jù)為例,SOM和PCA分析結(jié)果揭示學(xué)生體質(zhì)健康具有如下地域特征。(1)學(xué)生體質(zhì)健康的體重和BMI指標(biāo)具有地域一致性,是影響學(xué)生體質(zhì)健康最重要的因素,也是絕大部分地區(qū)學(xué)生體質(zhì)健康現(xiàn)狀的主要解釋變量。(2)女生體質(zhì)健康的地域差異相對較大,其中,50 m跑、1 m in仰臥起坐和肺活量構(gòu)成部分地域女生體質(zhì)健康現(xiàn)狀的解釋變量;男生體質(zhì)健康的地域差異較小,除BM I指標(biāo)之外,男生體質(zhì)健康受引體向上和肺活量的影響較大,個別地區(qū)還與50 m跑和1 000 m跑有關(guān)。(3)可視化PCA結(jié)果還揭示了學(xué)生體質(zhì)健康指標(biāo)的聚類特征具有地域一致性,即身高和肺活量屬于同一類群,BM I和體重屬于同一類群,50 m跑和800 m跑(女生)/1 000 m跑(男生)屬于同一類群,立定跳遠(yuǎn)和1 m in仰臥起坐(女生)/引體向上(男生)屬于同一類群。
參考文獻(xiàn):
[1]TSIROS M D,OLDS T,BUCKLEY J D,etal.Health-rela tedqual ityo f lifein obese child renandado l escen ts[J].Intern ationalJournal o fObesi ty, 2009,33(4):387-400.
[2]PELLICER-CHENOLL M,GARCIA-MASS X,MORALES J,et al. Physica l act ivity,physic al fitnessandaca dem icachi eve m entin ado l escen t s:a self-o rga n izingm apsap p ro ach[J].Heal th Educa tio n Resear ch,2015,30(3):1-13.
[3]ERWIN H,F(xiàn)EDEWA A,BEIGHLE A,et al.A quant itative revi ew o f physic alact ivity,heal th,andlearn ing ou tc om es associ ate d w it h classroombased physic al act ivity in te rven t ion s[J].Jou rn al o f App li ed Schoo l Psycho l ogy,2012,28(1):14-36.
[4]KANTOMAAM,TAMMELINT,DEMAKAKOSP,etal.Physica l act ivity,em oti onalandbeha vio u ralp rob l em s,m ate rnaleduca tio nandself-repo rt ed educa tio nalperfo rm ance o fado l escen ts[J].Health Educa tio n Resear ch,2009:cyp 048.
[5]汪曉贊,郭強,金燕,等.中國青少年體育健康促進的理論溯源與框架構(gòu)建[J].體育科學(xué),2014,34(3):3-14.
[6]COE D P,PIVARNIK J M,WOMACK C J,et al.Effect o f physic al edu cat ion and act ivity levels on aca dem icachi eve m entin child ren[J]. M ed i cineandSciencein Sp ort s andExercise,2006,38(8):1515.
[7]DONNELLY J E,GREENE J L,GIBSON C A,etal.Physica l Activity AcrosstheCurricu lum(PAAC):a rando m izedcont ro lled tria l top rom ot e physic al act ivity and d im in i sh ove rw ei gh tand obesi ty in elem en ta ry schoo l child ren[J].Preven tiveMedi cine,2009,49(4):336-341.
[8]ARDOY D,F(xiàn)ERN NDEZ-RODR GUEZ J,JIM NEZ-PAV N D,etal.A Physica l Educa tio n tria l im p rov es ado l escen ts'cog n itive perfo rm ance andaca dem icachi eve m ent:theEDUFIT study[J].Scand inav ian Journal o fMedi cine&Sciencein Sport s,2014,24(1):52-61.
[9]王茜.中國女大學(xué)生體質(zhì)狀況的空間變異特征研究[J].科技通報,2012,27(6):853-858.
[10]張瑩,劉東寧.步行適宜性人居環(huán)境與體質(zhì)健康關(guān)系的研究[J].環(huán)境與健康雜志,2013,30(5):449-452.
[11]張宗國.影響《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》測試結(jié)果的主客觀因素分析[J].體育科學(xué),2009(9):86-91.
[12]吳新宇,付曉春.大學(xué)生體重指數(shù)與體質(zhì)健康指標(biāo)關(guān)系的研究[J].北京體育大學(xué)學(xué)報,2006,29(8):1087-1088.
[13]陳培友,鄒玉玲.青少年體質(zhì)健康標(biāo)準(zhǔn)構(gòu)建方法研究[J].體育科學(xué),2013,33(11):84-88.
[14]楊漾,陳佩杰,洪茯園,等.上海市2000-2010年學(xué)生體質(zhì)健康狀況變化趨勢分析[J].中國學(xué)校衛(wèi)生,2012,33(10):1201-1204.
[15]WANG F,WANG X,ZHAO Y,et al.Long-term Water Quali ty Variatio nsandCh lo rophy ll a Sim u la tio nw it h an Em phasis onDifferen t Hyd ro l og i cal Period s in Lake Baiyang d ian,No rth ern Ch ina[J].Jou rn al o fEnvironm ent al In form a tics,2012,20(2):90-102.
[16]DELMELLE E,THILL J C,F(xiàn)URUSETH O,et al.raje cto ries o f m u lti d im ensio nal neig hbou rho od qual ity o f life chang e[J].Urban Stud ies,2013,50(5):923-941.
[17]LAGUS K,VATANEN T,KETTUNEN O,etal.Pathso fwel lbei ngon self-organi zingm aps[M].Berlin:Sp ring er,2013:345-352.
[18]CALAVALLE A R,SISTI D,MENNELLI G,etal.A sim p lem etho d to anal yzeove rall indi vidu al physic al fitnessin firefig hters[J].The Journal o fStren gth&Condi tio ningResea rch,2013,27(3):769-775.
[19]ZHOUJ,GUOA,CELLER B,etal.Fau ltdete ctionandiden tificatio n spanning m u lti p lep roce ssesbyinte grat ing PCA w it h neura l netw ork[J]. App li ed So ftCom pu t ing,2014,14,PartA:4-11.
[20]ZIMRING C,JOSEPH A,NICOLL G L,etal.In fluence s ofbuilding de sign and site desig n on physic al act ivity:researc h and inte rvent ion op p ortu n ities[J].Am e rican Jou rnal o fPreven tive Med i cine,2005,28(2):186-193.
[21]REMMERS T,VAN KANN D,GUBBELS J,et al.Mode rato rs o f the
long itud inal rela tio nship betw een theperce ived physic al envi ronm ent andou tsi d ep layin ch ild ren:theKOALA b irthcoho rtstudy[J].In te rnatio nalJournalo f Beha vio ral Nutri tio n and Physica l Activity,2014,11(150):0150-8.
[22]DREWNOWSKI A,AGGARWAL A,REHM C D,etal.Environm ent s perce ived as obeso geni c have low er reside ntia l p rope rty values[J]. Am eric an Jou rnal o fPreven tiveM ed i cine,2014,47(3):260-274.
[23]洪海瀟,蘇連勇.天津市大學(xué)生BM I指數(shù)的15年動態(tài)分析[J].首都體育學(xué)院學(xué)報,2014,26(3):279-283.
[24]蔡忠建,袁建國.大學(xué)生體質(zhì)健康指標(biāo)的權(quán)系數(shù)及關(guān)聯(lián)分析[J].上海體育學(xué)院學(xué)報,2009(2):74-78.
[25]王國軍,王輝,席翼.基于模糊評價的體質(zhì)健康評價隸屬函數(shù)的建立——兼與2篇論文的商榷[J].天津體育學(xué)院學(xué)報,2012(6):519-523.
中圖分類號:G 80-3
文獻(xiàn)標(biāo)志碼:A
文章編號:1005-0000(2015)04-282-06
DOI:10.13297/j.cnki.issn1005-0000.2015.04.002
收稿日期:2015-05-22;修回日期:2015-06-28;錄用日期:2005-06-29
基金項目:國家自然科學(xué)基金項目(項目編號:41401020);山西省軟科學(xué)研究計劃項目(項目編號:2015041026-4);山西省高等學(xué)校創(chuàng)新人才支持計劃資助
作者簡介:石曉峰(1979-),男,山西太原人,博士,副教授,研究方向為體育教育訓(xùn)練學(xué)。
作者單位:1.山西大學(xué)體育學(xué)院,山西太原030006;2.山西大學(xué)體育科學(xué)研究所,山西太原030006。
Pattern Recognition and Visualization of Physical Fitness Data using SOM and PCA:Based on Geographical Features Perspective of Student Fitness
SHI Xiaofeng1,WANG Fei2,ZHAO Yang2
(1.Schoo1ofPE,ShanxiUniversity,Taiyuan030006,China;2.SportsScienceResearch Institute,ShanxiUniversity,Taiyuan030006,China)
AbstractWith the data exp1osion on physica1 fitness,big data ana1ysis and data visua1ization have become one of important contents on ado1escent physica1 hea1th research.Data hand1ing techniques of se1f-organizing map ana1ysis(SOM)and princip1e component ana1ysis(PCA)are important methods in pattern recognition and data visua1ization due to their unique features.W ith the scope of geographica1 features perspective based on 6 531 co11ege samp1es,geographica1 patternofphysica1fitnesswasqua1itative1y identified and visua1ized by themeansofSOM.Meanwhi1e,thekey inf1uencing factorsand re1evantexp1ainingvariab1es of physica1 fitness were visua1ized and extracted to demonstrate the geographica1 differences by PCA.Resu1ts showed that SOM and PCA are powerfu1 too1s for pattern recognition and data visua1ization on physica1 fitness research.The ana1ysis of the examp1e indicated the geographica1 consistency of body weight and BMI, whichwerethemostinf1uencing factorsonphysica1fitness,aswe11astheexp1anatory variab1esofphysica1fitnessstatus.The re1ative1argegeographica1differences of physica1 fitness were observed in fema1e ado1escents,but with 1ess geographica1 differences in ma1e ado1escents.The visua1ized PCA resu1ts a1so revea1ed the geographica1 consistency of c1ustering characteristics on physica1 fitness variab1es.The research demonstrated the powerfu1 too1s of SOM and PCA on the physica1 fitnessresearch,andwhicha1soprovidedanew perspective tostudy thephysica1hea1th.
Key wordsSOM;PCA;pattern recognition;data visua1ization;physica1 hea1th;geographica1 feature