李橋興 杜 可 吳俊芳
(1.貴州大學(xué)管理學(xué)院,2.貴州大學(xué)體育學(xué)院,貴州 貴陽 550025;3.桂林電子科技大學(xué) 廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
關(guān)鍵字:體質(zhì)健康;大數(shù)據(jù)分析;平臺框架;大學(xué)生
隨著我國經(jīng)濟(jì)水平的提高,國家開始從重點(diǎn)關(guān)注經(jīng)濟(jì)問題逐漸轉(zhuǎn)變?yōu)楦嗟年P(guān)注民生問題特別是人民健康問題。自從我國實(shí)施《“健康中國2030”規(guī)劃綱要》以來,國家及地方政府積極推進(jìn)健康中國建設(shè)和促進(jìn)人民健康水平提升。緊接著,十九大報(bào)告再次提出實(shí)施健康中國戰(zhàn)略,為人民群眾提供全面健康服務(wù)。同時,人們對自身體質(zhì)健康狀況也越來越關(guān)注,更多人愿意為提升自身的體質(zhì)健康而努力?;谳^全面的角度來評判個人或群體的身體健康狀況是民眾體質(zhì)健康的基本要求,其基本指標(biāo)包含了身體形態(tài)、發(fā)育水平、生理生化功能、身體素質(zhì)、運(yùn)動能力、心理狀態(tài)和適應(yīng)能力等方面。以往受限于監(jiān)測水平和處理手段,人們對體質(zhì)健康的認(rèn)識單一并且評價(jià)多具有偏頗性,往往不能夠全面地評價(jià)個人或群體的體質(zhì)健康狀況。隨著互聯(lián)網(wǎng)普及、物聯(lián)網(wǎng)興起以及大數(shù)據(jù)技術(shù)的不斷成熟,人們可以通過更多的儀器設(shè)備獲得各項(xiàng)數(shù)據(jù),能夠及時處理和分析海量數(shù)據(jù),進(jìn)而更加準(zhǔn)確地掌握自身的體質(zhì)健康情況并相應(yīng)做出有效的提升措施。
近年來,大數(shù)據(jù)平臺逐步從理論走向?qū)嵺`,越來越多的學(xué)者從關(guān)注大數(shù)據(jù)平臺的理論價(jià)值到關(guān)注大數(shù)據(jù)平臺的實(shí)踐應(yīng)用。宮夏屹等提出了大數(shù)據(jù)平臺的體系架構(gòu)并對相關(guān)的技術(shù)和應(yīng)用做了研究綜述[1]。此后,大數(shù)據(jù)平臺的實(shí)踐應(yīng)用得到了廣泛的討論,包括大數(shù)據(jù)平臺的分析決策技術(shù)[2]、大數(shù)據(jù)分析的方向、方法和工具[3]以及在大數(shù)據(jù)平臺應(yīng)用過程中的模型建構(gòu)[4]等。也有學(xué)者針對社會公共治理[5]、物流與供應(yīng)鏈管理[6]、醫(yī)療健康[7]、智慧教育應(yīng)用[8]等具體領(lǐng)域?qū)Υ髷?shù)據(jù)平臺的應(yīng)用進(jìn)行了探究。
本文在借鑒其他領(lǐng)域大數(shù)據(jù)平臺基礎(chǔ)上,構(gòu)造了我國大學(xué)生的體質(zhì)健康大數(shù)據(jù)分析平臺(Big Data Platform of Physical Health for College Students,簡稱BDPPH-CS)并探討該平臺的數(shù)據(jù)來源與處理模式以及流程與應(yīng)用等。
文獻(xiàn)調(diào)查和數(shù)據(jù)分析顯示,我國大學(xué)生的體質(zhì)健康有逐年下降趨勢并引起了社會各界的廣泛關(guān)注。我國政府高度重視大學(xué)生的體質(zhì)健康情況,并從2014 年開始要求高校每年需組織對大學(xué)生的體質(zhì)普測。大學(xué)生體質(zhì)測試數(shù)據(jù)能夠較真實(shí)地反映大學(xué)生的體質(zhì)健康情況,但是具有一定的時延性,不能及時對學(xué)校和教師提出指導(dǎo)。鑒于此,本文希望以體測數(shù)據(jù)為基礎(chǔ),對學(xué)校、企業(yè)和政府各方提供的數(shù)據(jù)進(jìn)行匯總并加以分析處理,以大數(shù)據(jù)分析的思維模式來處理這些海量、跨域、異構(gòu)的數(shù)據(jù),構(gòu)建我國大學(xué)生的大數(shù)據(jù)應(yīng)用平臺,并根據(jù)平臺分析結(jié)果,讓教師能夠?qū)W(xué)生進(jìn)行實(shí)時性指導(dǎo)、個性化輔導(dǎo)、針對性教學(xué)和科學(xué)化建議,切實(shí)有效地提升大學(xué)生的體質(zhì)健康。
BDPPH-CS 作為大數(shù)據(jù)平臺的一種,需要遵循一般大數(shù)據(jù)平臺構(gòu)建的基本原則,包括:
1.1.1 安全性原則
大學(xué)生體質(zhì)健康狀況能夠直接或間接地影響國家的政治、經(jīng)濟(jì)以及安全問題,BDPPH-CS 應(yīng)當(dāng)設(shè)置區(qū)別于學(xué)校一般的資源訪問機(jī)制,提高安全性認(rèn)定訪問。另外也需要重視平臺建設(shè)過程的硬件設(shè)施、軟件系統(tǒng)以及人員操作等方面的安全性。
1.1.2 適配性原則
由于體質(zhì)健康數(shù)據(jù)的來源多樣且應(yīng)用范圍廣泛,因此平臺在開發(fā)、設(shè)計(jì)以及應(yīng)用過程中要考慮到日后與其他平臺、系統(tǒng)或應(yīng)用的整合對接,以方便數(shù)據(jù)互聯(lián)互通,從而可以進(jìn)一步開發(fā)或擴(kuò)展平臺。
1.1.3 可延展性原則
BDPPH-CS 的應(yīng)用是一項(xiàng)長期工程。隨著時間的推移,其關(guān)注的目標(biāo)也會進(jìn)一步變化,對包括數(shù)據(jù)規(guī)范、數(shù)據(jù)來源、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用也會有進(jìn)一步的要求。因此要求平臺的設(shè)計(jì)建設(shè)需具備較好的可擴(kuò)展性才能夠滿足日后變化的要求。
數(shù)據(jù)是大數(shù)據(jù)平臺的基礎(chǔ)要素,其重要不言而喻。而數(shù)據(jù)的來源將直接影響后續(xù)大數(shù)據(jù)平臺應(yīng)用的真實(shí)性、可靠性和有用性。經(jīng)過對若干高校訪談、部分學(xué)生日常行為調(diào)研以及綜合部分文獻(xiàn)如[9]的分析結(jié)果,本文構(gòu)建了大學(xué)生體質(zhì)健康大數(shù)據(jù)的分析平臺(BDPPH-CS)如圖1。而科學(xué)有效的平臺的數(shù)據(jù)源需要來自至少三方面的數(shù)據(jù):
1.2.1 直接數(shù)據(jù)源
體測數(shù)據(jù)。體測數(shù)據(jù)包含了兩個主要方面:一方面,體側(cè)數(shù)據(jù)是指高校開展普測而獲取的數(shù)據(jù),如身高、體重、肺活量、短跑50 米、長跑800 米或1000 米、立定跳遠(yuǎn)、坐位體前屈、引體向上或1 分鐘仰臥起坐等。其實(shí),我國高校的體測工作已經(jīng)開展多年,并形成一套較完善的體質(zhì)測試的指標(biāo)體系。這些指標(biāo)主要針對學(xué)生在體態(tài)、柔韌、速度素質(zhì)、下肢力量、上肢力量、爆發(fā)力、腰腹力量、耐力素質(zhì)和最大攝氧量等方面。體質(zhì)測試盡管還有若干不足,但還是能夠在一定程度上反映學(xué)生的體質(zhì)健康情況,相應(yīng)數(shù)據(jù)所對應(yīng)的體質(zhì)指標(biāo)在一定程度上能夠相對全面地反映大學(xué)生的體質(zhì)健康狀況。盡管這方面的普測數(shù)據(jù)收集需要耗費(fèi)大量的人力物力,但其數(shù)據(jù)的準(zhǔn)確性高、針對性強(qiáng),并且均為易處理的結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建大學(xué)生體質(zhì)健康大數(shù)據(jù)平臺的重要數(shù)據(jù)來源。另一方面,體測數(shù)據(jù)還包括了高校在各級各類體育比賽的數(shù)據(jù)。目前,多數(shù)高校在運(yùn)動會、運(yùn)動節(jié)等比賽中的競技性項(xiàng)目減少,而體測達(dá)標(biāo)項(xiàng)目增多,因此學(xué)生的參與度也逐漸增多。此類數(shù)據(jù)能夠彌補(bǔ)普測數(shù)據(jù)的數(shù)據(jù)量單一和偶然性的問題,形成更完善、更標(biāo)準(zhǔn)的體測數(shù)據(jù)體系。就數(shù)據(jù)類型而言,此類數(shù)據(jù)的來源范圍廣、結(jié)構(gòu)多樣。通過專家測評,可將每種項(xiàng)目所能體現(xiàn)的學(xué)生體質(zhì)狀況的數(shù)據(jù)匯總并導(dǎo)入大數(shù)據(jù)平臺,完善大數(shù)據(jù)平臺的數(shù)據(jù)來源。
體育教學(xué)數(shù)據(jù)。體育教學(xué)數(shù)據(jù)是指老師在體育課對學(xué)生進(jìn)行體育指導(dǎo)的記錄,包括上課時間、上課內(nèi)容、對學(xué)生課堂表現(xiàn)的評價(jià)以及學(xué)生的自評等。由于大學(xué)生體育課基本為小班教學(xué),因此老師在每節(jié)課的教學(xué)活動中能夠較好地顧及到大多數(shù)學(xué)生。課堂教學(xué)不僅對每個學(xué)生的評價(jià)具有針對性,而且對學(xué)生群體的評價(jià)也具有較好的作用。體育教學(xué)的多樣性也包括對學(xué)生上課的內(nèi)容和指導(dǎo)均有不同,由此產(chǎn)生的教學(xué)數(shù)據(jù)也各有不同。教師需要對教學(xué)數(shù)據(jù)進(jìn)行分類整合和無量綱化處理,進(jìn)而完善對學(xué)生的評價(jià)體系[10]。
學(xué)生學(xué)習(xí)數(shù)據(jù)。學(xué)生學(xué)習(xí)數(shù)據(jù)是指學(xué)生在學(xué)習(xí)行為和學(xué)習(xí)結(jié)果等方面的數(shù)據(jù)。學(xué)習(xí)數(shù)據(jù)的來源廣泛,包括從各個系統(tǒng)匯集的多種數(shù)據(jù),如學(xué)生的課程、考試、測驗(yàn)、學(xué)習(xí)、作業(yè)等多方面情況;其數(shù)據(jù)類型多樣,既包括如學(xué)習(xí)的時間和成績等結(jié)構(gòu)化數(shù)據(jù),也包括如學(xué)評教、社會實(shí)踐等難以量化的非結(jié)構(gòu)化數(shù)據(jù)。將數(shù)據(jù)越細(xì)分到各個行為部分,越能得出學(xué)生學(xué)習(xí)行為的特點(diǎn),也越客觀地反映學(xué)生的學(xué)習(xí)行為狀況,進(jìn)而反映出學(xué)生的學(xué)習(xí)行為與體質(zhì)健康的關(guān)系。
相關(guān)設(shè)施使用數(shù)據(jù)。其他設(shè)施使用數(shù)據(jù)的類型不一、來源不定,但可包括圖書館、體育館等設(shè)施以及網(wǎng)絡(luò)、能源(如水、電、熱)等資源的使用數(shù)據(jù)。例如圖書館每時間段的在館人數(shù)和開放時長等的數(shù)據(jù);體育館每時間段的在館人數(shù)和設(shè)施使用率等的數(shù)據(jù);教室和網(wǎng)絡(luò)等使用狀況與能源消耗情況等的數(shù)據(jù),以及其他相關(guān)設(shè)施的學(xué)生行為數(shù)據(jù)等,均可以反映學(xué)生的生活習(xí)慣、體育偏好等信息并得出其體質(zhì)健康狀況。
1.2.2 間接數(shù)據(jù)源
校園運(yùn)動類APP 提供的數(shù)據(jù)。近年來,越來越多的企業(yè)和高校合作,將運(yùn)動類APP 推入大學(xué)校園,記錄大學(xué)生的運(yùn)動鍛煉狀況,并作為大學(xué)生體育成績的重要一部分。校園運(yùn)動類APP 在高校中的普及為大數(shù)據(jù)平臺的搭建提供了契機(jī)?,F(xiàn)有的校園運(yùn)動類APP 大都與跑步、走路等簡單的運(yùn)動有關(guān),既可直接地反映大學(xué)生的運(yùn)動健身習(xí)慣,又能夠提供大學(xué)生包括運(yùn)動類型、運(yùn)動強(qiáng)度和活動時間等方面的數(shù)據(jù)。這些數(shù)據(jù)可針對大學(xué)生提供部分的運(yùn)動訓(xùn)練建議,更加契合大數(shù)據(jù)平臺建設(shè)。校園運(yùn)動類APP 大多為高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù),能夠更好地助力大數(shù)據(jù)應(yīng)用平臺的構(gòu)建。
學(xué)生食堂數(shù)據(jù)。本文提出的食堂數(shù)據(jù)具體指大學(xué)生在POSS 機(jī)上刷卡所獲得的數(shù)據(jù)。此類數(shù)據(jù)的結(jié)構(gòu)簡單且為結(jié)構(gòu)化數(shù)據(jù),但因?qū)W生數(shù)量而導(dǎo)致數(shù)據(jù)量十分龐大。就數(shù)據(jù)關(guān)系而言,通過校園卡的綁定,可以獲得大學(xué)生的飲食規(guī)律等方面數(shù)據(jù)進(jìn)而獲取其消費(fèi)行為分析的相關(guān)數(shù)據(jù),既包括就餐時間分布、就餐的數(shù)量和質(zhì)量、飲食消費(fèi)與口味偏好等個人的微觀消費(fèi)行為數(shù)據(jù),也包括用餐人數(shù)分布、刷卡次數(shù)、學(xué)生忠誠度等宏觀的學(xué)生群體消費(fèi)行為數(shù)據(jù)。
1.2.3 第三方數(shù)據(jù)源
醫(yī)療數(shù)據(jù)集。校醫(yī)院的數(shù)據(jù)能夠直觀地反映某學(xué)校大學(xué)生的身體健康狀況。但是校醫(yī)院提供的相關(guān)醫(yī)療數(shù)據(jù)往往受限于醫(yī)院本身的規(guī)模、層次以及學(xué)生的個人狀況。而政府能夠收集到的醫(yī)療數(shù)據(jù)集與之不同。某地區(qū)的醫(yī)療數(shù)據(jù)集能夠更加全面地反映某年齡層次的群體健康狀況。醫(yī)療數(shù)據(jù)包括病人的姓名、性別等自然數(shù)據(jù),也包括病人入院、接受治療、接受檢查和護(hù)理以及出院等相關(guān)檢查治療記錄。醫(yī)療數(shù)據(jù)的數(shù)據(jù)量豐富,既有結(jié)構(gòu)化數(shù)據(jù),也包括圖形圖像信息等非結(jié)構(gòu)化數(shù)據(jù)[11]。通過整合校醫(yī)院和所在地區(qū)醫(yī)院的醫(yī)療數(shù)據(jù),能夠擁有針對大學(xué)生年齡段群體的健康狀況數(shù)據(jù)。
電商相關(guān)數(shù)據(jù)。通過電商相關(guān)數(shù)據(jù),了解某地區(qū)的大學(xué)生的購物喜好。電商數(shù)據(jù)類型多元。就數(shù)據(jù)來源而言,包括購物、娛樂、飲食、社交等方面,也包括對運(yùn)動、健康方面的投入,以及網(wǎng)上訂餐的相關(guān)數(shù)據(jù)。不同的數(shù)據(jù)來源不僅能夠提供的數(shù)據(jù)體量大,數(shù)據(jù)類型也十分豐富。以網(wǎng)購為例,通過獲取大學(xué)生的消費(fèi)頻次、消費(fèi)時間、消費(fèi)偏好、消費(fèi)單價(jià)等數(shù)據(jù),可進(jìn)一步分析大學(xué)生的個人和群體消費(fèi)特征,進(jìn)而探索網(wǎng)購對大學(xué)生體質(zhì)健康的影響。
運(yùn)動健康類APP 數(shù)據(jù)。與校園所推行的運(yùn)動健康類APP不同,面向市場的運(yùn)動健康類APP 具有更強(qiáng)大的功能。包括與智能手環(huán)、智能手表等相結(jié)合的APP 能夠采集到更多的健康數(shù)據(jù)。以華為健康為例,其APP 能夠提供包括心率、睡眠質(zhì)量、壓力、血壓等多種健康數(shù)據(jù)。此類數(shù)據(jù)往往因?yàn)閬碓从诓煌珹PP,其數(shù)據(jù)類型更復(fù)雜,數(shù)據(jù)形式更多樣。但是這些數(shù)據(jù)如果能夠整合到大數(shù)據(jù)平臺,則可提出更具針對性的健康建議,并能夠發(fā)揮出更大的應(yīng)用價(jià)值。
豐富的數(shù)據(jù)量是大數(shù)據(jù)分析的基礎(chǔ),而數(shù)據(jù)的管理、分析與應(yīng)用是大數(shù)據(jù)分析的出發(fā)點(diǎn)和落腳點(diǎn)。目前的大數(shù)據(jù)分析技術(shù)還是基于以往的數(shù)據(jù)挖掘和統(tǒng)計(jì)技術(shù),包括分類、聚類、關(guān)聯(lián)和時序分析等。因此有必要進(jìn)一步展開大數(shù)據(jù)的分析和應(yīng)用。
1.3.1 體質(zhì)健康大數(shù)據(jù)的分類研究
分類技術(shù)是數(shù)據(jù)挖掘的重要內(nèi)容之一,其目的是采用各種算法模型來預(yù)測數(shù)據(jù)對象所屬的類別。當(dāng)前分類算法的研究較為成熟,其算法主要有K-最鄰近、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。如決策樹算法具有易于理解和解釋、容易提取規(guī)則、運(yùn)行速度較快等特點(diǎn),被廣泛應(yīng)用于各種分類分析中。歸納學(xué)習(xí)算法以實(shí)例為基礎(chǔ)并應(yīng)用于可分類的離散數(shù)據(jù)。在大學(xué)生體質(zhì)健康大數(shù)據(jù)平臺的數(shù)據(jù)分析中,分類技術(shù)可應(yīng)用于各項(xiàng)體質(zhì)健康素質(zhì)的類別整合,得出不同地區(qū)學(xué)生的不同指標(biāo)的健康類別,可在提高學(xué)生體質(zhì)、改進(jìn)教學(xué)方式方法、提高體育鍛煉效率等方面提出針對性建議。
1.3.2 體質(zhì)健康大數(shù)據(jù)的聚類研究
聚類有別于分類但容易混淆。分類模型基于已知的數(shù)據(jù)對象的類別,而聚類用于處理未知的數(shù)據(jù)對象的類型。聚類需要通過觀察學(xué)習(xí),將體質(zhì)健康數(shù)據(jù)的對象集合分成相似的若干對象類。大學(xué)生體質(zhì)健康大數(shù)據(jù)的不同聚類算法也分別對應(yīng)不同的劃分、層次、密度、網(wǎng)格、模型等標(biāo)準(zhǔn)。這些算法適用于了解大學(xué)生的學(xué)習(xí)習(xí)慣、生活習(xí)慣以及鍛煉習(xí)慣等對體質(zhì)健康的影響。這種劃分比基于傳統(tǒng)認(rèn)知的分類觀測更具科學(xué)性,也更能找到各類數(shù)據(jù)間以往不能發(fā)現(xiàn)的關(guān)聯(lián),有利于對學(xué)生的生活、學(xué)習(xí)、鍛煉提出科學(xué)的建議,也有利于家長、教師對不同群組實(shí)現(xiàn)個性化指導(dǎo)。
1.3.3 體質(zhì)健康大數(shù)據(jù)的關(guān)聯(lián)分析
關(guān)聯(lián)分析旨在發(fā)現(xiàn)數(shù)據(jù)庫中不同項(xiàng)之間的聯(lián)系,通過聯(lián)系規(guī)則幫助決策者分析個人或群體的行為特征。在關(guān)聯(lián)分析的Apriori、FP-growth、多層關(guān)聯(lián)規(guī)則挖掘等算法中,F(xiàn)P-growth 較Apriori 而言,其算法的執(zhí)行效率較高而被更廣泛應(yīng)用。在構(gòu)建大學(xué)生體質(zhì)健康大數(shù)據(jù)平臺時,關(guān)聯(lián)規(guī)則可應(yīng)用于分析大學(xué)生的日常生活和體質(zhì)健康之間的內(nèi)在聯(lián)系。例如學(xué)生飲食習(xí)慣的飲食時間和食物種類等與學(xué)生體質(zhì)健康的肺活量及身高體重等之間的內(nèi)在聯(lián)系;再如在體育教學(xué)中,關(guān)聯(lián)分析可以判定教學(xué)流程是否更有利于提升學(xué)生的體質(zhì),特別是耐力類訓(xùn)練和爆發(fā)類訓(xùn)練等的合理調(diào)配安排。
1.3.4 體質(zhì)健康大數(shù)據(jù)的時序分析。
時序分析是通過分析數(shù)據(jù)的時間特性來研究事物的變化規(guī)律并完成預(yù)測等工作。在BDPPH-CS 應(yīng)用中,時序數(shù)據(jù)挖掘通過提取與時間屬性相關(guān)的潛在有用的信息知識,實(shí)現(xiàn)對大學(xué)生體質(zhì)健康進(jìn)行短中長期預(yù)測,可指導(dǎo)大學(xué)生的日常行為。時序建模方法包括基于時間分類的一元時序、多元時序、離散時序以及連續(xù)時序等。通過時序分析可以比較大學(xué)生在不同季節(jié)、不同年級等階段的學(xué)生體質(zhì)的影響因素,并通過大數(shù)據(jù)平臺獲得提升大學(xué)生體質(zhì)健康狀況的建議。
以上舉例說明了大學(xué)生體質(zhì)健康大數(shù)據(jù)分析的一般思路。通常來說,展開大數(shù)據(jù)分析需要選擇合適的算法模型。模型構(gòu)建者或者算法選擇者不僅僅需要對數(shù)據(jù)分析的方法或算法有大體的了解,掌握每一種算法模型所要表達(dá)的思想,也要求相關(guān)人員能夠根據(jù)業(yè)務(wù)要求選擇合適的方法解決業(yè)務(wù)需求,以便針對性地選擇或重構(gòu)模型。因此,相關(guān)人員應(yīng)當(dāng)了解大數(shù)據(jù)分析的常用算法以及算法解決問題的優(yōu)劣性等。沒有最好的算法,只有更適合的算法。算法的選擇要從不同的角度全面考量算法的適用性。其選擇原則一般包括成本導(dǎo)向、技術(shù)導(dǎo)向和實(shí)用導(dǎo)向等。
一個算法得到的結(jié)果往往不具有全面性。在條件滿足的情況下,應(yīng)當(dāng)考慮構(gòu)建基于組合算法群原理的模型體系。通過多方法建模得到的分析結(jié)果,其結(jié)論也一般會更加科學(xué)、公正。在考慮某個實(shí)際問題時,通過不同類型的算法對同一組數(shù)據(jù)進(jìn)行不同角度的處理,往往得到的對比結(jié)果更具有啟發(fā)意義。另外,選擇算法并不是大數(shù)據(jù)分析的關(guān)鍵,其關(guān)鍵是算法重構(gòu)與優(yōu)化。只有通過不斷實(shí)踐,才能構(gòu)建出針對該問題的更合適算法,也逐步使得模型更加有針對性。
同傳統(tǒng)的數(shù)據(jù)分析思路相通,BDPPH-CS 包括數(shù)據(jù)收集、數(shù)據(jù)ETL(即轉(zhuǎn)載、清洗與加工)、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等四個主要的過程(如圖2)。而這四個過程都是基于大數(shù)據(jù)計(jì)算框架實(shí)現(xiàn)的。大數(shù)據(jù)計(jì)算框架可分為批處理和流處理。當(dāng)前主流的大數(shù)據(jù)計(jì)算平臺如Hadoop 和Spark 等都是基于批處理模式。相比于Hadoop 和Spark 等而言,體質(zhì)健康大數(shù)據(jù)平臺是一種輕量級的大數(shù)據(jù)框架,側(cè)重于優(yōu)化完善內(nèi)存的計(jì)算與處理,加快負(fù)載的批處理運(yùn)行速度。顯然,具有多樣性、兼容性和高效迭代等特征的批處理模式更適合于數(shù)據(jù)挖掘算法的并行運(yùn)行。由于BDPPH-CS 數(shù)據(jù)的來源廣、體量大、類別多,所以建議大學(xué)生體質(zhì)健康大數(shù)據(jù)平臺宜采用Spark 的大數(shù)據(jù)計(jì)算框架,并且其架構(gòu)從下向上包含數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)展示等三層。
數(shù)據(jù)存儲層即為從各個角度所收集到的各種來源的數(shù)據(jù),并且進(jìn)行數(shù)據(jù)的轉(zhuǎn)載、清洗加工,主要考慮不同類型數(shù)據(jù)的儲存和接入。從學(xué)校獲得的數(shù)據(jù)、與學(xué)校有合作的企業(yè)數(shù)據(jù)以及政府或第三方企業(yè)擁有的數(shù)據(jù)等各方面數(shù)據(jù)經(jīng)過轉(zhuǎn)載、清洗和加工后,可分類為日常數(shù)據(jù)、體測數(shù)據(jù)和教學(xué)數(shù)據(jù)。構(gòu)建BDPPH-CS 一般以日常數(shù)據(jù)為基礎(chǔ),以體測數(shù)據(jù)為導(dǎo)向,并配合教學(xué)數(shù)據(jù)。
數(shù)據(jù)分析層處于中間層次,是通過Spark 框架以各種算法對相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,具體可采用分類算法、聚類算法、關(guān)聯(lián)規(guī)則以及機(jī)器學(xué)習(xí)等實(shí)現(xiàn),滿足體質(zhì)健康大數(shù)據(jù)挖掘的需求。
數(shù)據(jù)展示層在把數(shù)據(jù)分析過程簡化的基礎(chǔ)上,將數(shù)據(jù)信息通過圖形、圖表等傳統(tǒng)的展示方式,以及基于手機(jī)、智能穿戴設(shè)備等新型的展示方式,直接為政府、高校以及家長學(xué)生提供直觀的展示和科學(xué)的建議。數(shù)據(jù)展示層通過直觀、易懂、便捷地將數(shù)據(jù)分析層所挖掘分析獲得的信息以可視化的形式展示出來。可視化實(shí)現(xiàn)既包括圖像處理、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、計(jì)算機(jī)輔助設(shè)計(jì)等,也包括AR、VR 等技術(shù),并且后者能與更多的可穿戴智能設(shè)備相結(jié)合。通過這些工具將隱藏在數(shù)據(jù)中的關(guān)系、趨勢、信息和規(guī)律等以可視化方式呈現(xiàn)。
搭建實(shí)現(xiàn)BDPPH-CS 框架的構(gòu)建者應(yīng)該具備以下能力:一是計(jì)算機(jī)、統(tǒng)計(jì)、管理等方面的基本原理和知識。實(shí)現(xiàn)BDPPH-CS 框架需要搭建者既有包括數(shù)據(jù)挖掘、系統(tǒng)構(gòu)建、數(shù)據(jù)庫、數(shù)據(jù)分析等相關(guān)的計(jì)算機(jī)處理技術(shù),也要有針對系統(tǒng)工程、頂層設(shè)計(jì)、項(xiàng)目管理、統(tǒng)籌管理等相關(guān)的管理學(xué)知識。二是對業(yè)務(wù)有足夠充分的了解,既包括對BDPPH-CS 流程的全方位了解,也重點(diǎn)包括對數(shù)據(jù)源的對接以及對體質(zhì)健康相關(guān)知識的了解等。
在數(shù)據(jù)展示層展示出的可視化結(jié)果,通過結(jié)構(gòu)化的組織、流程化的處理以及系統(tǒng)化的展示將信息準(zhǔn)確把握,便于有效反饋學(xué)生個體、學(xué)生群體的體質(zhì)健康狀況。學(xué)生端可呈現(xiàn)BDPPH-CS 的個性化分析報(bào)告,便于學(xué)生查看個人的體質(zhì)健康評價(jià)和分析報(bào)告。同時,BDPPH-CS 也可以為教師呈現(xiàn)學(xué)生群體和個體的分析報(bào)告,幫助教師根據(jù)不同時段的報(bào)告來調(diào)節(jié)教學(xué)方式,有助于促進(jìn)體質(zhì)、教育、評價(jià)的有機(jī)結(jié)合[12]。
體質(zhì)健康大數(shù)據(jù)分析的評價(jià)和反饋要遵循以下原則:1.以結(jié)果為導(dǎo)向。分析結(jié)果要以不同形式呈現(xiàn)給包括學(xué)生、家長、教師、高校、政府等不同類型的群體,要能根據(jù)不同群體的不同需求以不同結(jié)果呈現(xiàn)。2.報(bào)告簡明易懂。分析結(jié)果要通俗易懂,力求簡單實(shí)用。3.動態(tài)變化。分析和評價(jià)要根據(jù)具體情況不斷調(diào)整大數(shù)據(jù)的分析思路,形成新的視角對問題進(jìn)行分析。同時,分析和評價(jià)要根據(jù)算法模型的變化而不斷變化,以應(yīng)對新的需求。
在實(shí)踐應(yīng)用中,BDPPH-CS 需要結(jié)合具體應(yīng)用場景和應(yīng)用需求,收集相對應(yīng)的數(shù)據(jù)、設(shè)計(jì)相應(yīng)的算法及可視化路徑,形成具體的應(yīng)用模式。針對目前的現(xiàn)狀,其應(yīng)用主要涉及3個方面,包括針對性引導(dǎo)、個性化教學(xué)和智能評價(jià)。
針對性引導(dǎo)是BDPPH-CS 應(yīng)用的核心。一方面,該平臺以個體學(xué)生的數(shù)據(jù)情況具體分析某個體學(xué)生的體質(zhì)健康狀況。該學(xué)生的分析結(jié)果再綜合其運(yùn)動、飲食、生活、學(xué)習(xí)等多方面數(shù)據(jù)進(jìn)行體質(zhì)評價(jià)和提出優(yōu)化方案,從而引導(dǎo)該學(xué)生更加健康的生活方式,以便于提高其體質(zhì)健康。另一方面,該平臺針對群體學(xué)生的數(shù)據(jù)情況,分析某類別群體學(xué)生的體質(zhì)健康狀況,如按照年級、學(xué)院、專業(yè)等劃分的類別群體。通過該類學(xué)生群體的行為習(xí)慣,在校方、院方以及教師等配合下,針對該類學(xué)生群體的體質(zhì)健康狀況的整體提升,提出更加有針對性的解決方法。
個性化教學(xué)是BDPPH-CS 應(yīng)用的延伸。針對高校體育課和體育鍛煉不被學(xué)生重視的現(xiàn)象,BDPPH-CS 可以提供整體、部分或個體學(xué)生的體質(zhì)健康數(shù)據(jù),讓高校從群體的各個層面來把控學(xué)生的體質(zhì)健康狀況,有針對性地提高部分或個體學(xué)生的身體素質(zhì)[13]。例如,通過分類規(guī)則可以把身體素質(zhì)分別在耐力、爆發(fā)力、柔韌性等不同方面有不同提高要求的學(xué)生進(jìn)行分類并有針對性地集中訓(xùn)練,并提供使學(xué)生更加感興趣的體育教學(xué)活動。
設(shè)施的布局和優(yōu)化也是BDPPH-CS 應(yīng)用的拓展。通過BDPPH-CS 的構(gòu)建,政府和高校能夠真實(shí)地了解到學(xué)生的日常生活習(xí)慣,并通過設(shè)施的布局和優(yōu)化在恰當(dāng)?shù)臅r間引導(dǎo)學(xué)生開展更加健康的生活。例如高校通過BDPPH-CS 發(fā)現(xiàn)學(xué)生大都在下午五點(diǎn)到八點(diǎn)這個時間段內(nèi)參加運(yùn)動鍛煉,而晚上七點(diǎn)到十點(diǎn)是學(xué)習(xí)的高峰時間,則高校應(yīng)該在食堂的開放時間和食物的種類搭配等方面進(jìn)行科學(xué)安排,以便于學(xué)生在鍛煉后的營養(yǎng)補(bǔ)給和在學(xué)習(xí)上的能量補(bǔ)充,也可以在學(xué)習(xí)高峰時間段注意開放更多的教室和座位,還可以在學(xué)校附近引導(dǎo)開設(shè)更多的有利于學(xué)生健康生活的設(shè)施,如健身房、書店等,同時限制網(wǎng)吧、游戲廳、酒吧等娛樂場所的營業(yè)數(shù)量和營業(yè)時間等。
搭建BDPPH-CS 的最大問題是信息孤島。信息孤島是指不同部門、不同系統(tǒng)的數(shù)據(jù)集之間無法建立有效的連接,導(dǎo)致數(shù)據(jù)群處于一種高度的分散狀態(tài),難以全面實(shí)現(xiàn)信息共享。現(xiàn)如今我國大多數(shù)大數(shù)據(jù)平臺都是根據(jù)自身的工作特點(diǎn)建立起的不同網(wǎng)絡(luò)服務(wù)平臺,但是大部分的獨(dú)立平臺基本沒有與其它平臺建立一個有效的數(shù)據(jù)連接機(jī)制,使得信息共享水平越來越低,加上網(wǎng)絡(luò)平臺背后的支撐數(shù)據(jù)庫在管理上始終難以形成一種統(tǒng)一規(guī)范的標(biāo)準(zhǔn),因此產(chǎn)生出來的信息就屬于信息孤島。其根源是在搭建大數(shù)據(jù)平臺之初沒有考慮到日后系統(tǒng)間、部門間的數(shù)據(jù)交換和數(shù)據(jù)共享等一系列問題,缺乏頂層設(shè)計(jì)的思想。
廣泛的數(shù)據(jù)源是搭建BDPPH-CS 的基礎(chǔ)。然而,僅僅依靠高校提供的數(shù)據(jù)是有限的。需要結(jié)合企業(yè)提供的數(shù)據(jù)搭建相對完整的數(shù)據(jù)閉環(huán),通過全方位的數(shù)據(jù)對學(xué)生日常生活方式提出全面的評價(jià)。但是與企業(yè)合作的問題不僅僅包括因?yàn)閿?shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)格式導(dǎo)致的數(shù)據(jù)溝通障礙,還包括對數(shù)據(jù)安全管理方面可能出現(xiàn)的漏洞。BDPPH-CS 的數(shù)據(jù)直接與我國大學(xué)生的體質(zhì)健康和生活習(xí)慣等情況掛鉤。在高校與企業(yè)進(jìn)行數(shù)據(jù)交互的同時,很容易造成數(shù)據(jù)泄露。校企在合作的同時必須重視數(shù)據(jù)安全,建立完善的信息安全措施、運(yùn)維保護(hù)措施以及應(yīng)急保障措施,通過技術(shù)和管理雙渠道把風(fēng)險(xiǎn)降到最低。另外,數(shù)據(jù)安全還具體包括:通過嚴(yán)格而規(guī)范的技術(shù)手段如基礎(chǔ)設(shè)施的及時更新和物理層面的安全保護(hù)等,以規(guī)避數(shù)據(jù)的存儲與使用等風(fēng)險(xiǎn);定期對相關(guān)系統(tǒng)開展安全升級與運(yùn)維管理;提高工作人員的安全意識、自覺意識以及法律意識等。
搭建BDPPH-CS 的關(guān)鍵是數(shù)據(jù)處理模型的選擇、應(yīng)用以及有針對性地修正。數(shù)據(jù)處理模型包括數(shù)據(jù)ETL、算法選擇以及可視化展示等過程,并且每個過程都直接或間接地影響數(shù)據(jù)的準(zhǔn)確性。以算法為例,在各種算法都存在可選時,應(yīng)該選擇不利影響相對較小的算法來處理數(shù)據(jù)。如在BDPPH-CS 中,考慮學(xué)習(xí)相關(guān)的數(shù)據(jù)對學(xué)生體質(zhì)健康的影響時,就應(yīng)該選擇決策樹算法而避免選擇最近鄰算法。這是因?yàn)闆Q策樹算法具備易于理解和能夠處理不相關(guān)關(guān)系等特征,同時最近鄰算法需要耗費(fèi)大量內(nèi)存,在處理器相對一般的情況下容易造成系統(tǒng)崩潰。因此,選擇數(shù)據(jù)處理模型時應(yīng)當(dāng)咨詢專家,從成本和技術(shù)等角度綜合考慮來選擇算法方案。
事物的發(fā)展都是一個歷史過程而需要不斷發(fā)展,搭建BDPPH-CS 也是如此。隨著需求的不斷變化和技術(shù)的不斷更新,BDPPH-CS 也存在一個演化的過程,其發(fā)展方向包括但不限于以下方向:
搭建BDPPH-CS 的目的是通過相對全面的數(shù)據(jù)來源,以科學(xué)的方法來評判大學(xué)生的體質(zhì)健康,并且能夠針對性提出學(xué)生體質(zhì)的提升措施。本文以大學(xué)生為研究對象進(jìn)行探討,不僅是因?yàn)榇髮W(xué)生的體質(zhì)測試相對完善和準(zhǔn)確,更是因?yàn)榇髮W(xué)生的數(shù)據(jù)較容易獲取。當(dāng)BDPPH-CS 逐漸成熟后,可以逐步拓展到中小學(xué)生,形成針對全體學(xué)生體質(zhì)健康的大數(shù)據(jù)分析平臺(Big Data Platform of Physical Health for All Students,簡稱BDPPH-AS)。將BDPPH-CS 發(fā)展為BDPPH-AS的原因有兩方面:一方面,學(xué)生健康一直是社會大眾持續(xù)關(guān)注的焦點(diǎn),搭建BDPPH -AS 的確能夠在一定程度上為提升學(xué)生體質(zhì)健康提供行之有效的解決措施;另一方面,盡管中小學(xué)生相對大學(xué)生而言其數(shù)據(jù)獲取不夠全面,但是隨著相關(guān)技術(shù)的普及,通過家校聯(lián)合等多種方式,也能夠提供全體學(xué)生的相對全面的數(shù)據(jù),從而有效解決數(shù)據(jù)來源的問題。
當(dāng)BDPPH-CS 拓展為BDPPH-AS 并發(fā)展成熟后,通過進(jìn)一步擴(kuò)大數(shù)據(jù)來源并改進(jìn)和豐富算法,可以將服務(wù)對象拓展為針對全社會所有人,即將BDPPH-AS 擴(kuò)展為體質(zhì)健康大數(shù)據(jù)分析平臺(Big Data Platform of Physical Health,以下簡稱BDPPH)。此時,全體公民的體質(zhì)監(jiān)測、體育鍛煉、身體保健和健康醫(yī)療等數(shù)據(jù)均融合進(jìn)BDPPH,促進(jìn)我國全民體質(zhì)健康的提升。
本文構(gòu)建大學(xué)生體質(zhì)健康大數(shù)據(jù)的分析平臺并探討了相關(guān)問題。不同于傳統(tǒng)的體質(zhì)健康提升方式,基于BDPPH-CS的體質(zhì)健康分析與提升建議,綜合了宏觀層面的定性分析和微觀角度的定量計(jì)算,使大學(xué)生體質(zhì)健康的指導(dǎo)工作更加科學(xué),也更加有針對性和可操作性,將在協(xié)調(diào)政府、學(xué)校和家庭三方的共同努力以提升大學(xué)生體質(zhì)健康發(fā)揮積極的作用。