彭春蘭,龍佩林
(1.南華大學 體育學院,湖南 衡陽421001;2.吉首大學 體育科學學院,湖南 吉首416000)
學生體質(zhì)健康促進一直是學校密切關(guān)注和致力發(fā)展的方面,近些年來,學生體質(zhì)健康測試工作各學校嚴格按《國家學生體質(zhì)健康標準》執(zhí)行。 然而,絕大部分高校的體質(zhì)健康測試的海量數(shù)據(jù)僅以數(shù)據(jù)庫的方式“儲存”起來,對“儲存”的數(shù)據(jù)庫進行挖掘和充分利用的極少。 據(jù)調(diào)研發(fā)現(xiàn),大多數(shù)高校在對學生體質(zhì)健康數(shù)據(jù)進行處理時, 大都是進行簡單的統(tǒng)計分析和報告,從而形成了數(shù)據(jù)挖掘上的不足、數(shù)據(jù)分析深度受限、相關(guān)研究無法為健康促進所用的“非良性循環(huán)圈”。
為了解決上述問題, 近年來相當一部分學者對學生體質(zhì)健康測試數(shù)據(jù)的評價體系進行了研究,如,巴特爾等對大學生體質(zhì)健康評價體系與運動處方的研究開發(fā)[1],王明俊等基于回歸和相關(guān)分析[2]、體質(zhì)健康評價指標權(quán)值與貢獻率關(guān)系[3]的思考。 這類研究較深入地對學生體質(zhì)健康結(jié)果評價方法和相關(guān)分析模型進行了關(guān)注, 但仍存在數(shù)據(jù)庫中蘊含的大量信息被埋沒,能夠解決的實際問題相當有限等局限。 有鑒于此,學者們開始考慮用多元的統(tǒng)計方法對體質(zhì)健康大數(shù)據(jù)進行分析處理, 張曉丹用聚類分析的方法建立了學生體質(zhì)健康評價分級模型[4],李昌鋒則基于Foxtable 構(gòu)建了大學生體質(zhì)健康評價系統(tǒng)[5],也有基于灰關(guān)聯(lián)層次分析法[6]、VLOOKUP 函數(shù)的相關(guān)研究[7],此類研究大大增加了數(shù)據(jù)庫的挖掘和利用率,特別對數(shù)據(jù)進行科學評價與分析的研究有實足的進展,但是數(shù)據(jù)挖掘、實際應用仍留有很大空間。
隨著大數(shù)據(jù)時代的到來, 大數(shù)據(jù)所具有的海量數(shù)據(jù)和強大的分析能力, 將為學生體質(zhì)健康促進在理念上提供更多有價值的可能,為如何從實際應用數(shù)據(jù)庫的海量模糊的、有噪音的歷史數(shù)據(jù)中揭示出隱含的、 先前未知的并有潛在的實際價值的信息[8],為如何利用先進技術(shù)對學生體質(zhì)健康數(shù)據(jù)進行全面的分析, 發(fā)掘出不同等級體質(zhì)健康水平的學生各身體素質(zhì)項目的特征,為如何運用大數(shù)據(jù)的關(guān)聯(lián)性、深度性和高瞻性思維方式, 為學生體質(zhì)健康促進需求提供更加精準的科學數(shù)據(jù)的支持, 為高校學生體育鍛煉的服務(wù)政策落位和實施提供參考依據(jù)。 基于這些思考,本研究將選取某大學學生體質(zhì)健康測試數(shù)據(jù)庫中2017~2019 年的65 535 條數(shù)據(jù)記錄,運用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)樣本進行K-means 算法的聚類分析。 通過對原始數(shù)據(jù)的預處理,在SPSS Modeler 中建立模型,將學生群體的體質(zhì)健康數(shù)據(jù)進行聚類處理,對聚類結(jié)果進行分析,并根據(jù)聚類結(jié)果的特征提出體質(zhì)改善的相關(guān)建議。
所謂聚類,就是按照事物的某些屬性聚集成類,使得類間的相似性盡可能的小,類內(nèi)的相似性盡可能的大[9]。 聚類分析是合理地劃分數(shù)據(jù),根據(jù)一定的原則建立分類,通過分析歷史記錄數(shù)據(jù)庫中的原始數(shù)據(jù)的每個記錄來確定數(shù)據(jù)類別存在。假如被研究的數(shù)據(jù)樣本集為M,定義C 為樣本集M 的非空子集:C?M,且C≠Φ。 聚類就是在類C1,C2,C3,…Ck的集合下滿足條件:
由第一個條件可以得到,在樣本集M 中的每一個樣本都有一個類與它對應,而第二個條件則表明,M 中的每個樣本在歸屬上最多屬于一個類。
聚類分析運用的方法不同,所得到的結(jié)果也不同。 不同研究人員對同一組數(shù)據(jù)進行聚類分析得到的結(jié)果在很大程度上不一定一致。 典型的聚類分析過程主要包括樣本準備、特征選擇、特征提取、接近度計算、分組、對聚類結(jié)果進行有效性評估等步驟[10]。
K-means 算法是很典型的基于距離的聚類算法, 采用的是距離作為相似性的評價標準, 即認為兩個對象之間的距離越近,其相似度就越大[11]。 它將n 個觀察數(shù)據(jù)分為k 個聚類,使每個觀察數(shù)據(jù)距離其所在聚類中心比另外聚類中心的距離更小。 K-means 算法是一個最優(yōu)化求解問題,在目標函數(shù)許多局部極小點中找出一個全局最小點, 它能很好地解決數(shù)值型屬性數(shù)據(jù)對象的聚類問題。 算法過程如下[12]:
1)從n 個記錄中隨機選取k 個記錄作為質(zhì)心;
2)對剩余的每個記錄進行測量,得出其到每個質(zhì)心的距離,并把它歸到最近的那個質(zhì)心的類;
3)重新計算已經(jīng)得到的各個類的質(zhì)心;
4)迭代2~3 步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,則算法結(jié)束。
K-means 算法計算速度快、計算量不大,在處理大樣本數(shù)據(jù)時占用的內(nèi)存空間小,耗費的時間也比較短。 同時K-means算法思想比較簡單,比較易于理解,容易使用,在所有的聚類算法中是被大眾使用最廣泛的一種算法[11]。
本研究所用數(shù)據(jù)來源于某大學健康數(shù)據(jù)庫中2017~2019年所有大學生3 年體質(zhì)健康測試數(shù)據(jù), 原始數(shù)據(jù)共有65 535條記錄(男35 503 條,女30 032 條),每條記錄有40 個屬性。使用SPSS Modeler 軟件對記錄中各字段的數(shù)據(jù)做審計, 如圖1 所示。
圖1 數(shù)據(jù)審計圖
利用直方圖和分布圖顯示總分的整體分布情況, 如圖2、圖3 所示。 近3 年學生的體質(zhì)健康測試總分等級“及格”和“良好”頻率最高,分別占總?cè)舜蔚?1.47%和36.7%。
圖2 總分直方圖
圖3 總分等級分布圖
通過統(tǒng)計量節(jié)點對部分項目評分情況進行統(tǒng)計, 結(jié)果如表1、表2 所示。
一般來講, 原始數(shù)據(jù)包含太多的噪聲數(shù)據(jù)與不完整的數(shù)據(jù),需要經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)篩選、數(shù)據(jù)加工等過程。 數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗的過程, 目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性,如某記錄中肺活量為“9999”,明顯不合常規(guī),對此類數(shù)據(jù)可設(shè)置篩選條件進行刪除。 數(shù)據(jù)過濾是根據(jù)實際需要,刪除不需要的字段。 本研究需要的是體質(zhì)健康測試總分與各測試項目之間的影響程度的關(guān)系,就把冗余的字段如年份、年級編號、班級編號、班級名稱、民族代碼、出生日期等字段過濾,只留下有用的字段即可。 數(shù)據(jù)加工是根據(jù)具體數(shù)據(jù)挖掘模型的要求, 將數(shù)據(jù)處理成符合模型要求的形式。
表1 部分項目評分統(tǒng)計量(男)
表2 部分項目評分統(tǒng)計量(女)
運用SPSS Modeler 軟件根據(jù)K-means 算法的要求,分別對男生和女生記錄設(shè)計聚類模型如圖4 所示:
圖4 K-means 聚類模型圖
針對男生群體,選擇肺活量評分、50m 評分、1 000m 評分、立定跳遠評分、坐位體前屈評分、引體向上評分、總分評分7個字段作為輸入字段; 針對女生群體, 選擇肺活量評分、50m評分、800m 評分、立定跳遠評分、坐位體前屈評分、一分鐘仰臥起坐評分、總分評分7 個字段作為輸入字段。 將聚類后結(jié)果分為1~5 類, 此5 類數(shù)據(jù)中評分平均值越大說明在此指標中該類同學運動表現(xiàn)越好, 并利用此值對5 類數(shù)據(jù)相同項目進行比較并分析運行模型,得到聚類結(jié)果。
經(jīng)過匯總聚類后男生組、 女生組5 類學生各單項身體素質(zhì)的評分平均值情況,可以看出每一聚類都有其特點。 聚類的結(jié)果及針對各聚類的具體分析如下。
男生的聚類結(jié)果如表3 及圖5 所示。 聚類1 男生各項目評分的總分平均值最高, 聚類3 男生各項目評分的總分平均值最低。在50m、1 000m、立定跳遠、坐位體前屈以及引體向上項目中,均是聚類1 學生評分最高,相反地聚類3 學生除引體向上之外各項目評分最低;肺活量項目聚類5 學生評分最高,聚類3 學生也是評分最低; 聚類1 和聚類4 男生引體向上的評分相差不大,聚類2、3、5 男生評分極差,特別是聚類2 男生引體上向上評分的平均值在個位數(shù),總體而言,引體向上在5類學生的各項目評分值中是最低的, 這也反映了男生的上肢力量的嚴重不足;聚類4 男生的50m、1 000m、坐位體前屈、引體向上在5 類學生中有著較優(yōu)秀的表現(xiàn), 這4 項評分平均值位居第二。 從圖5 男生聚類后各項評分平均值變化趨勢圖看,各聚類的變化趨勢大體相近,有跡可循。
圖5 男生聚類后各項評分平均值變化趨勢圖
男生的聚類結(jié)果如表4 及圖6 所示。 與男生聚類結(jié)果相比較之下, 女生各聚類中不同項目評分平均值的變化更加復雜。 聚類1、3、4 女生各項目評分變化趨勢相當,聚類2 和聚類5 則各項目之間的反差相當大。聚類1 在所列的7 項評分平均值遠超其它各聚類均為最高,而且所占記錄數(shù)17 408 條也是最高的;聚類3 女生肺活量評分平均值僅為10.111,聚類5 女生坐位體前屈評分平均值18.616, 形成了兩個異常突出的谷底;從表4 可以看出正是這兩個差異巨大的項目評分,造成了聚類3 和聚類5 女生的總分平均值位列倒數(shù)第一和第二;在50m、800m、立定跳遠、仰臥起坐項目中聚類2 女生的評分最低,但是與其它4 個聚類的差別不太大,從而在總分平均值的比較中位居中間; 聚類4 女生各項評分變化趨勢緩和并保持較高的水平,800m、仰臥起坐兩項除外其它各項評分平均值均位居第二。
表3 男生的聚類結(jié)果
表4 女生的聚類結(jié)果
圖6 女生聚類后各項評分平均值變化趨勢圖
聚類的結(jié)果表明,從大體趨勢上可以看出,男、女生分別在上、下肢力量水平上的明顯不足,但是其它項目的性別表現(xiàn)差異并不顯著, 但不同聚類之間各項指標具有顯著差異。 因此,在體質(zhì)健康促進時,在注意不同性別在不同項目上的表現(xiàn)和差距的同時, 要根據(jù)聚類結(jié)果發(fā)掘?qū)W生身體素質(zhì)與指標之間的內(nèi)在聯(lián)系, 進而針對不同聚類的大學生給予制定不同的體育鍛煉計劃,以及及調(diào)整和變換訓練方法和手段,以期全面提升學生的體質(zhì)健康水平。
男生各身體素質(zhì)項目評分的變化趨勢大體相近, 特別是聚類1 和聚類4 各項目間的變化相當緩和。 但是男生在反映上肢力量的引體向上5 個聚類都表現(xiàn)較差,特別是聚類2、3、5該項評分都在個位數(shù)附近,針對此現(xiàn)象,男生的上肢力量的提高刻不容緩, 體育課堂教學和學生課余體育鍛煉中都應加強上肢力量的練習,力求在身體素質(zhì)項目的短板處下足功夫。 針對男生各個聚類具體的體育鍛煉的建議如下:
聚類1:該學生群體有6 項測試指標在5 個聚類中評分平均值最高,說明該群體學生各項身體素質(zhì)較好,反映出良好的身體素質(zhì)水平和身體形態(tài)。 建議該類學生繼續(xù)保持健康的生活方式和堅持鍛煉的習慣,以保持良好的健康水平。
聚類2:該類學生1 000m 和立定跳遠評分平均值均在及格以下,特別是引體向上評分平均值為個位數(shù)8.135。 可以從一定程度上反映出該聚類的男生有氧耐力、上下肢力量很差,特別是上肢力量嚴重不足。 建議該群體學生每周增加有氧鍛煉的次數(shù),并酌情制定上下肢力量練習的運動計劃,以提高整體的體質(zhì)健康水平。
聚類3:該聚類學生的體質(zhì)健康測試總體評分值和除了引體向上之外的其它各項測試數(shù)據(jù)的評分平均值均為最低。 這可以很客觀地看出該聚類學生各項身體素質(zhì)極差, 體質(zhì)健康水平不容樂觀。 針對這一類學生,學校可以考慮在體育課中加強身體素質(zhì)的專門練習,督促學生按質(zhì)按量完成上課內(nèi)容;同時, 對學生的課外鍛煉提供指導性建議或者幫助學生制定學期運動處方,從短期實踐到長期執(zhí)行中切實增強體質(zhì)。
聚類4:該類學生記錄最少僅為3 138 條。相比較而言,該聚類學生各項目評分處于中上水平。 此聚類學生應在堅持鍛煉的同時,考慮針對弱勢的項目增加運動量和強度,在原有基礎(chǔ)上能有質(zhì)的提升。
聚類5:該聚類男生肺活量評分平均值最高。 這反映出該群體學生良好的心肺機能,在增強體質(zhì)方面有先天優(yōu)勢。 這類學生應該考慮在增強上肢力量上下功夫,充分利用優(yōu)勢,全面提升身體健康水平。
女生各身體素質(zhì)項目評分的變化較復雜,其中肺活量、坐位體前屈成為兩個聚類總分評分值較低的關(guān)鍵影響因素,此兩項評分均在20 以下。 總體而言,女生的立定跳遠和仰臥起坐兩項評分均較低, 體現(xiàn)出下肢爆發(fā)力、 腰腹肌力量水平欠佳。 此基礎(chǔ)上,女生應注重下肢力量為起點,再輔以腰腹肌力量的日常練習,以達到身體素質(zhì)水平的相對平衡。 針對女生各個聚類具體的體育鍛煉的建議如下:
聚類1:該聚類女生在全部的6 項測試指標評分平均值最高,記錄數(shù)也為最高。 與男生聚類1 相似,建議該類學生堅持良好的鍛煉習慣和健康的生活方式,維持良好的健康水平。
聚類2:此聚類女生在50m、800m、立定跳遠、仰臥起坐項目中的評分最低,很大程度上體現(xiàn)了該類學生在有氧、無氧耐力、下肢爆發(fā)力和腰腹肌力量等水平上存在較大地差距。 該聚類學生可以考慮增強日常的跑步、跳繩以及腰腹肌力量練習,依各自身體素質(zhì)、鍛煉需求制定相應的鍛煉計劃。
聚類3:相比較而言,除了肺活量之外其它項目與另外4個聚類的學生差別不太大, 該聚類學生應該大大加強有氧耐力的鍛煉,切實提高肺活量水平。
聚類4:該聚類的學生保持了較高的體質(zhì)健康水平,建議該類學生在有針對性地加強有氧耐力和腰腹肌力量的同時,通過合理飲食和堅持運動促進體質(zhì)健康。
聚類5:該聚類女生除坐位體前屈外其它各項指標在5 個聚類中沒有明顯的差別, 而坐位體前屈恰恰反映出該類女生柔韌性較差。 應多加強運動前的熱身和拉伸,以及運動后的放松和韌帶拉伸等,以期提高身體的柔韌性。
不良的飲食結(jié)構(gòu)和方式, 不規(guī)律的作息習慣是影響體質(zhì)健康的重要原因。 學校應該對學生的生活方式進行正確的引導,使學生認識體育鍛煉對體質(zhì)改善的價值,建立充分的健康意識,進而增強參與身體鍛煉的欲望。 從飲食結(jié)構(gòu)調(diào)整、規(guī)律作息和有效誘導學生進行身體鍛煉出發(fā), 培養(yǎng)健康的生活方式,在身體鍛煉中享受運動與人際交往的樂趣,促進積極的健身行為養(yǎng)成,最終達到堅持鍛煉的生活習慣,從整體上改善體質(zhì)健康水平。
高校各年級各學生在不同的時期都有不同的學習任務(wù),除了體育課以及學校集體體育活動之外, 更多的是學生個體自主的時間。 因此,各類學生應該根據(jù)自身體質(zhì)差別進行體育鍛煉,而非上完體育課就不再有任何體育活動的鍛煉,使“每天鍛煉一小時”僅成為一句空話。 學生應合理安排學習時間,調(diào)整每周鍛煉的次數(shù), 保持一定的周鍛煉頻次以及每次鍛煉的時間。 也就是說,只有在“量變達到一定基礎(chǔ)上,才可能達成質(zhì)變”,首先要保證量的積累,再考慮從量的積累上,提升鍛煉的效果。
體育課堂上教師因材施教,學生體質(zhì)水平層次不齊,對不同體質(zhì)水平類的學生在教學指導和安排練習上要有差異,使每個學生在原有基礎(chǔ)上力求進步。 課堂之外,學生依據(jù)自己的身體條件選擇適應的運動項目,能掌握科學的鍛煉方法。 保持運動興趣,同時進一步掌握所選擇的運動項目規(guī)律,適當安排每次運動負荷,能有效達到鍛煉體質(zhì)的目的,強化體質(zhì)健康水平。
學生體質(zhì)健康測試不僅僅是學校的工作, 也是學生認識自身體質(zhì)狀況的一個良好時機。 學生對自身體質(zhì)信息應該有很清晰和全面的了解,發(fā)現(xiàn)自身體質(zhì)劣勢的問題所在,根據(jù)問題查找原因。 如女生普遍存在的下肢力量嚴重缺乏、有氧運動能力較差,男生上肢力量薄弱等問題,各類學生在運動項目選擇上應考慮加強信息顯示偏弱或嚴重缺乏的該項身體素質(zhì)。不求突出,但求補齊某項身體素質(zhì)的短板,促使學生的身體素質(zhì)往全面協(xié)調(diào)與均衡方向發(fā)展。
學校體質(zhì)健康測試工作每年每校都在有序進行, 體測數(shù)據(jù)不僅是體質(zhì)狀態(tài)的一種直觀反映,更是多因素綜合的結(jié)果。應該將體測數(shù)據(jù)的各項體質(zhì)信息進行深入的分析, 不僅從橫向進行分析數(shù)據(jù),更可將多年體質(zhì)信息進行縱向比較,探索其呈現(xiàn)的規(guī)律, 進而對呈劣勢發(fā)展趨勢的體質(zhì)素質(zhì)進行有效干預。 同時,加強干預效果反饋信息的收集和整理,為進一步調(diào)整干預手段提供依據(jù)。 從科學的角度而言,只做到體質(zhì)健康的現(xiàn)狀調(diào)查是遠遠不夠的, 應深入剖析體質(zhì)信息的實然狀態(tài)出現(xiàn)的原因,并針對實然狀態(tài)所反映的問題,向應然的狀態(tài)做出有效干預并實時收集反饋信息,適時調(diào)整和改善干預措施,從根本上解決實際問題。