郭 虹,徐懿琳,鄒姍辰,張宏鑫*,王 健
(1.浙江大學 公共體育與藝術部,浙江 杭州 310058;2.浙江大學 公共管理學院,浙江 杭州 310058;3.浙江大學CAD&CG國家重點實驗室,浙江 杭州 310058;4.浙江大學 心理科學研究中心,浙江 杭州 310028;5.浙江大學 運動科學與健康工程研究所,浙江 杭州 310028)
近年來,數(shù)字時代的發(fā)展帶來了教育技術“線上化”的變革與挑戰(zhàn)。2020年初突發(fā)的新冠肺炎疫情使得線下教學與訓練受制,應急啟動的網(wǎng)絡授課帶來了線上教學的大范圍鋪開,使得呼吁已久的“用教育技術倒逼教學改革”思路得以推進。后疫情時代,“應急式”的線上教學逐漸轉化為“常態(tài)化”的教學方式。相比于其他學科較側重于理論知識的教學評估,體育教學與訓練受反饋機制與教學方式等因素的限制,在“線上化”變革中面臨著更大的挑戰(zhàn),面向在線數(shù)據(jù)、引入客觀高效的量化評估方法勢在必行。此外,線上教育所依附的數(shù)字化技術也為教學方式的改進提供了新的分析手段。
當下,操舞類運動表現(xiàn)的評估機制尚存不足。其一,缺乏嚴謹精確的評價標尺,使得個體間的差距無法客觀量化且可重復性較弱。目前我國操舞類運動的競賽機制多以“模糊”競賽規(guī)則下的裁判員打分為主,裁判員對競賽規(guī)則的理解存在一定偏差,執(zhí)裁自由度較大(張欣等,2014)。而對操舞類運動執(zhí)教者而言,其通常也是結合自己的教學經(jīng)驗來對學生操舞運動表現(xiàn)進行整體評估,缺乏統(tǒng)一客觀的標準。其二,“一對多”的教學模式使得執(zhí)教者工作量居高不下,無法快速、高質(zhì)量地處理教學中產(chǎn)生的大量反饋。其三,在前兩者的基礎上,泛化的評價體系缺乏個體針對性,使執(zhí)教者無法做到因材施教,總體教學效果受到影響。綜上,現(xiàn)有教學模式存在分析速度慢、精度低、顆粒度粗糙,以及訓練提升路徑模糊的問題。
部分研究提出,應通過建立模型對體育項目的訓練與競賽進行科學精準評價。例如,湯仁圣等(2019)基于體操跳馬的二維視頻分析運動學變量和已知動作難度參數(shù),建立了無技術評價的跳馬預判評分模型;吳國棟等(2019)通過確定拳擊專項力量素質(zhì)評價指標,構建了拳擊專項力量素質(zhì)評價模型,設立了專項力量評價參考值。然而,關于建立操舞類運動評價模型的研究較少。與其他體育競技類項目不同的是,操舞類運動具有美學性,除動作完成度之外,情感表達也是重要的評估要素之一,這使其評價模型的建立更為復雜。
本研究以高校形體類運動教學中的普通學生為研究對象,針對操舞類運動表現(xiàn)評估中存在的不足,運用系統(tǒng)觀察法,圍繞肢體表現(xiàn)與表情表達兩大部分制定系統(tǒng)觀察工具,建立操舞類運動表現(xiàn)的評價模型,并在非專家和專家群體中進行試測和比較;利用機器學習方法,對受試者進行降維聚類分析,以幫助教師發(fā)現(xiàn)教學中的關鍵問題,實現(xiàn)因材施教。
選取2020年春夏學期選修啦啦操課程的大學生212名,經(jīng)篩選,76位受試者納入樣本,其中男生3人,女生73人;身高(163.2±5.6)cm;體質(zhì)量(53.5±6.2)kg;年齡(19.6±0.5)歲。問卷調(diào)查結果顯示,19.72%的受試者完全沒有接觸過舞蹈,52.11%的受試者此前有過初步接觸,26.29%的受試者對舞蹈接觸較多,僅有1.88%的受試者表示自己舞蹈功底較深厚。樣本基本滿足正態(tài)分布,具有一定的隨機性。在實驗前向所有受試者說明具體實驗過程,每一名受試者均簽署了知情同意書。
首先,運用系統(tǒng)觀察法構建操舞評價模型,量化學生的操舞運動表現(xiàn);其次,運用數(shù)理統(tǒng)計方法分析操舞評價模型評分與專家評分結果的差異;最后,運用非線性降維聚類(non-linear dimensional reduction and clustering,NDRC)方法分析群組特點。
1.2.1 數(shù)據(jù)采集方法
受試者需按要求拍攝個人練習視頻,并填寫自評問卷。提供2段舞蹈片段供受試者學習,其中一段為節(jié)奏較快、律動感較強、共4個八拍的花球啦啦操舞蹈片段,另一段為節(jié)奏較慢、律動感較弱、共4個八拍的自由舞蹈片段。自評問卷用于量化受試者關于心理緊張程度的自我評估。
初始階段共收集212名學生的視頻數(shù)據(jù)848份。專家按照以下標準進行篩選:1)該班級學生綜合運動表現(xiàn)分布較為均勻,既有高水平能力者,也有基礎較差者;2)剔除不符合視頻拍攝要求的視頻數(shù)據(jù)。最終獲得76名受試者的視頻304份(圖1)。
圖1 數(shù)據(jù)清洗后的部分實例Figure 1.Examples after Data Cleaning
通過專家打分、非專家小組評估與受試者自評3個途徑,獲得肢體表現(xiàn)與表情表達量化數(shù)據(jù):1)專家打分部分,由3名專家對受試者的視頻片段進行綜合打分。2)非專家小組評估部分,由3名非專家成員組成評估小組,以運動協(xié)調(diào)量化方法為基礎,從4個維度對學生肢體表現(xiàn)進行外部評估;以情緒識別理論為基礎,從4個維度對學生表情表達進行外部評估。3)每名受試者通過自評量表對自身表情表達進行主觀評估。
1.2.2 操舞評價的系統(tǒng)觀察方法
操舞線上教學工作量大的原因之一是操舞教師需要面對大量視頻并依次進行評價。為降低人工評價的工作負擔,本研究基于系統(tǒng)觀察法,建立一套科學的系統(tǒng)觀察工具,在細粒度上量化評價標準,從而提高操舞評價的結構化程度,降低評分者準入門檻。
考慮到操舞同時具有肢體協(xié)調(diào)性和藝術美學性,使用肢體表現(xiàn)及表情表達能力兩部分決策規(guī)則對啦啦操運動進行綜合評價。3位專家在操舞類運動已有的競賽標準的基礎上,結合自身的執(zhí)教經(jīng)驗,按照“觀察—修訂—再觀察—確定”的流程,最終確定8條決策規(guī)則,由非專家組成員按照決策規(guī)則進行打分。
1)肢體表現(xiàn)測量。將肢體表現(xiàn)分為韻律配合程度()、動作力度()、動作標準度()、動作完整度()4個維度(表1)。非專家組成員對受試者表現(xiàn)的4個維度進行打分,分數(shù)越高,說明受試者的肢體表現(xiàn)越好。最終將4個維度相加得到肢體表現(xiàn)分。同時,為還原真實教學評價,由專家根據(jù)整體表現(xiàn)與舞蹈呈現(xiàn)效果進行綜合打分,得到綜合運動表現(xiàn)專家評分,兩分數(shù)滿分均為100分。
表1 肢體表現(xiàn)決策規(guī)則Table 1 Physical Performance Decision Rules
2)表情表達測量。表情對于提升舞蹈的藝術感染力具有重要作用(李勃,2021)。通過問卷調(diào)查,由學生自評其課中及課后視頻拍攝時的心理緊張程度,獲得主觀評估分。為排除自我認知誤差,引入外部評價方法。根據(jù)Ekman(1969,2003)的情緒識別理論,本研究選取眼睛(),唇部(),手部(),腿部()4個部分作為心理緊張程度外部判定要素,由非專家組成員按照表2的規(guī)則對受試者進行評價。將4個維度得分相加,得到外部表情評估分,主觀評估分和外部表情評估分數(shù)的分值均為{0,25,50,75,100}5檔,數(shù)值越大,表情表達緊張程度越高。最后,將主觀評估分與外部表情評估分均值記為表情表達分。
表2 表情表達決策規(guī)則Table 2 Expression Performance Decision Rules
3)評分者信度。由3位主試(非專家組成員)完成所有的觀察和記錄。為檢驗主試內(nèi)部一致性信度,3位主試分別對所有受試者的課中視頻材料進行8個維度的打分,由于為定量數(shù)據(jù),而為分類數(shù)據(jù),采用組內(nèi)相關系數(shù)(intraclass correlation coefficient,ICC)分析評分數(shù)據(jù)一致性水平,各維度內(nèi)部一致性均達到顯著性水平,評分者信度良好(表3)。
表3 ICC檢驗結果Table 3 ICC Test Results
4)內(nèi)容效度。本研究的3位專家由2名國際級裁判與1名國家級裁判組成,均具有10年以上的執(zhí)教與競賽經(jīng)驗,8項決策規(guī)則由3位專家共同討論制定,具有較高的內(nèi)容效度。
1.2.3 統(tǒng)計分析
使用SPSS 25.0對數(shù)據(jù)進行統(tǒng)計學分析。其一,為觀察本研究所設計的評估系統(tǒng)中非專家評分對專家評分的可替代性,對綜合運動表現(xiàn)專家評分和肢體表現(xiàn)分進行標準化處理,然后進行皮爾遜相關性分析和檢驗,并通過變異系數(shù)比較二者的離散程度。其二,為使操舞評價系統(tǒng)產(chǎn)生的評分結果進一步接近專家評分結果,對表情表達分進行正向化處理后,與肢體表現(xiàn)分進行加權平均得出視覺量化分,對視覺量化分進行標準化處理后計算其與綜合運動表現(xiàn)專家評分的皮爾遜相關系數(shù),并進行檢驗,通過變異系數(shù)比較視覺量化分與綜合運動表現(xiàn)專家評分的離散程度。
1.2.4 NDRC法
通過10個維度的高維數(shù)據(jù)描述樣本的運動表現(xiàn),其中,8個評價指標和綜合運動表現(xiàn)專家評分用來反映受試者的局部特征,視覺量化分用來反映受試者的全局特征。高維數(shù)據(jù)既能涵蓋細節(jié)特征,又能反映整體評價,但由于高維數(shù)據(jù)中各維度之間并不獨立,使用傳統(tǒng)統(tǒng)計方式分析較為復雜,因此,本研究采用了NDRC法。首先通過降維方法提取數(shù)據(jù)的主要特征,再通過聚類方法根據(jù)主要特征對樣本進行分類,并對每一類別樣本的視覺量化分平均值從高到低排序,依次使用0~5進行類別編號。NDRC法的步驟如下:
1)使用t-SNE方法(Hinton et al.,2002;van der Matten et al.,2008)對整個數(shù)據(jù)集進行降維。t-SNE降維方法的主要優(yōu)勢在于保持局部結構,即高維數(shù)據(jù)空間中距離相近的點在低維空間中依然相近。該方法中控制擬合的主要參數(shù)為困惑度(perplexity),其表示有效鄰居數(shù)量的平滑度量,取值范圍為5~50。困惑度越低,則意味著在匹配原始分布的擬合過程中,每個數(shù)據(jù)點周圍的候選最近鄰點越少。由于樣本量較小,選用較小的困惑度以達到更好的降維結果。考慮到數(shù)據(jù)可視化需求,為便于實際觀察,將上述十維數(shù)據(jù)降為二維的特征向量集合。具體來說,計算的困惑度為10,迭代次數(shù)為1 000次。
2)采用k-means聚類方法對第一步獲得的二維特征向量集合進行計算,獲得人群聚類結果。其中要生成的類別簇數(shù)量可以取任意值,在反復試驗后,將其設置為6,以取得人群分類的最佳效果;迭代次數(shù)設置為300。
需要說明的是,與線性的主成分分析(principal components analysis,PCA)降維方法相比,t-SNE算法能有效減少因降維投射造成的映射誤差。為進一步驗證NDRC方法的合理性,對相同數(shù)據(jù)采用以下2種組合方法:一是使用PCA降維并聚類(PCA and clustering,PCAC),二是在原始維度直接聚類后再進行t-SNE降維(clustering and nonlinear dimensional reduction,CNDR)。
1)受試者閱讀并填寫《知情同意書》。
2)提供一段節(jié)奏較快、律動感較強、共4個八拍的花球啦啦操舞蹈片段,供被試進行對照學習;視頻包括無音樂喊節(jié)拍鏡面示范、無音樂喊節(jié)拍背面示范、有音樂鏡面示范,有音樂鏡面示范的速度為無音樂喊節(jié)拍鏡面示范與背面示范的1.5倍;在課堂上,要求受試者學習該片段,并于1 h內(nèi)錄制并上傳訓練結果視頻;要求全身入鏡,需能清楚看到面部表情與肢體動作,合音樂常速錄制;完成后,填寫心理緊張程度自評問卷。
3)要求受試者在課后反復練習,熟練掌握該片段,于72 h內(nèi)錄制并上傳視頻;完成后,再次填寫心理緊張程度自評問卷。
4)在上述實驗結束后,為研究該評估系統(tǒng)對于不同操舞類型的適用性,提供了一段節(jié)奏較慢、律動感較弱、共4個八拍的自由舞蹈片段供被試學習。重復上述實驗步驟。
相關性分析結果顯示,無論是花球啦啦操(=0.930,<0.01)還是自由舞蹈(=0.937,<0.01),標準化處理后的肢體表現(xiàn)分與綜合運動表現(xiàn)專家評分都具有強相關關系。此外,綜合運動表現(xiàn)專家評分的變異系數(shù)(=0.10,=0.07)小于肢體表現(xiàn)分的變異系數(shù)(=0.20,=0.11)。
綜合運動表現(xiàn)專家評分大多是教師根據(jù)主觀經(jīng)驗給出的評價,且操舞運動的固有特性使得學生的表情表達必然被包含在教師的評價中,而肢體表現(xiàn)分僅以客觀肢體表現(xiàn)為依據(jù)。因此,通過對肢體表現(xiàn)分與表情表達分加權平均計算得出視覺量化分。相關性分析結果顯示,無論是花球啦啦操(=0.931,<0.01)還是自由舞蹈(=0.942,<0.01),標準化處理后的視覺量化分與綜合運動表現(xiàn)專家評分都具有強相關,且與肢體表現(xiàn)分相比相關系數(shù)有所提高,說明將表情表達納入操舞評價系統(tǒng)具有合理性。
對花球啦啦操、自由舞蹈標準化后的綜合運動表現(xiàn)專家評分與肢體表現(xiàn)分、視覺量化分進行配對樣本檢驗。由表4可知,不同操舞類型的綜合運動表現(xiàn)專家評分與肢體表現(xiàn)分均存在顯著差異,而與視覺量化分均不存在顯著差異,說明視覺量化分對綜合運動表現(xiàn)專家評分具有可替代性。此外,視覺量化分的差異系數(shù)(=0.20,=0.12)大于綜合運動表現(xiàn)專家評分,說明其區(qū)分度更好。
表4 不同操舞類型下不同得分的配對樣本t檢驗結果Table 4 Paired Sample T-test Results of Different Scores among Different Dance Types
PCAC和CNDR方法的可視化結果表明(圖2),2種方法均未有效區(qū)分具有不同運動表現(xiàn)特征的樣本。
圖2 PCAC(a)和CNDR(b)方法對花球啦啦操數(shù)據(jù)的分析結果Figure 2.Analysis Results of Pom Data by Using PCAC(a)and CNDR(b)
NDRC分析法可取得更好的分類效果。花球啦啦操以及自由舞蹈課中數(shù)據(jù)的分析結果如圖3所示,受試者被明顯地分為6類肢體表現(xiàn)與表情表達存在差異的群體。進一步剖析降維聚類結果發(fā)現(xiàn),90%以上的第0類樣本群體為啦啦操校隊高水平運動員;而根據(jù)教師實際反饋,第5類人群相對基礎較差。對圖3中的分類結果進行數(shù)據(jù)分析發(fā)現(xiàn),2種操舞類型的人群分布均基本符合圖4所示的整體趨勢。6類人群可被分為3個層級,其中,第0類群體肢體表達分和表情表達分最高,第1、2類其次,第3、4、5類最低。
圖3 NDRC方法對花球啦啦操(a)和自由舞蹈(b)的分析結果Figure 3.Analysis Results of Pom(a)and Free Dance(b)Data by Using NDRC
圖4 不同人群運動表現(xiàn)得分的整體趨勢Figure 4.Overall Trends of Exercise Performance Scores among Different Groups
總的來說,表情表達越放松,視覺量化分越高。以第0類和第1類的比較為例,第1類人群的肢體表現(xiàn)分與第0類相近,但在表情表達上普遍緊張,這說明表情表達會影響綜合得分。然而,第3類人群表情表達比第4類更緊張,但其視覺量化分和肢體表現(xiàn)分均較高;具體分析這2類人群的表情表達構成發(fā)現(xiàn),第3類人群的主觀評價分大于外部評價分,而第4類則相反。
對于不同操舞類型,各群體訓練72 h后視覺量化分平均提升分數(shù)和方差如圖5所示。所有人群的平均提升分數(shù)都為正值,說明經(jīng)過相同的訓練時間,不同人群的運動表現(xiàn)都有不同程度的提升,但提升模式不同;在單一操舞類型中,同一類人群的提升模式相似。整體的提升模式是,初始平均得分越低的人群提升越明顯,但群體中個體的提升差異也越大;而第1、3、4類人群的平均提升分數(shù)相對較小。
圖5 不同人群運動表現(xiàn)得分隨訓練時間延長的提升結果Figure 5.The Improvement Results of Different Groups’Exercise Performance Scores with the Extension of Training Time
操舞運動是舞蹈藝術的體育表現(xiàn)形式,研究運動員的協(xié)調(diào)能力始終是該領域的焦點。然而,對運動員協(xié)調(diào)能力的測量與評定方式在學術界仍未達成基本共識。波嘉也夫等(2012)認為,現(xiàn)有的評定方法并不總能客觀地評定運動員的協(xié)調(diào)能力,必須探索具有科學依據(jù)的評定方法,使其具有心理-生理學測試的含義。本研究顯示,僅以動作技術標準為依據(jù)對受試者進行評估,與專家評估結果存在一定誤差;而在動作標準的基礎上加入藝術表現(xiàn)成分,則能在很大程度上替代專家評估結果,且對受試者的區(qū)分度更好。其原因有如下兩方面:1)表情表達是受試者固有協(xié)調(diào)能力的外在表現(xiàn)之一。受試者各肢體表現(xiàn)的加總并不能完整體現(xiàn)受試者的操舞運動表現(xiàn)能力,從某種意義上來說,將表情表達納入評估系統(tǒng)彌補了那些易被忽視、無法細致分解的評價維度,減小了系統(tǒng)誤差。Weiss(2011)認為,微表情是識別心理的有效線索,可以被廣泛地應用于眾多領域。本研究通過觀察受試者的微表情與微動作評估其表情表達。自身缺乏舞蹈基礎、此前從未接觸過舞蹈的人群會因為不自信等因素產(chǎn)生緊張情緒,進而影響表情表達。2)表情表達直接影響了表演者的藝術表現(xiàn)力。姜桂萍等(2008)指出,在藝術體操、健美操等項目的比賽中,當運動員技術難度相當時,藝術表現(xiàn)力的發(fā)揮對裁判評價、觀眾態(tài)度和比賽結果有決定性影響。因此,受試者的表情表達越放松,其表現(xiàn)力與感染力可能越強,運動表現(xiàn)越好。操舞評價系統(tǒng)的構成部分也反映了操舞運動同時具有體育和藝術雙重特性的本質(zhì),肢體表現(xiàn)作為一種呈現(xiàn)效果的度量,雖然屬于體育訓練范疇,但與以藝術表現(xiàn)為主的表情表達密切相關。在具體評估學生的操舞呈現(xiàn)效果時需將兩者綜合納入考量范圍,做到協(xié)同發(fā)展。
研究結果顯示,相比于PCAC模型和CNDR模型,NDRC模型能夠獲得更好的分類效果,更準確地獲得群體模型及其對應特征,甚至發(fā)掘出人工分類時不易覺察的群體特性。利用NDRC模型首先可獲得一個總體特征(即表情表達會影響視覺量化分);其次可快速發(fā)現(xiàn)特殊情況(即第3類和第4類人群數(shù)據(jù)特征的異常);最后針對特殊人群對應的數(shù)據(jù),發(fā)現(xiàn)2類人群都存在自我認知錯位的特點。緊張可以分為認知性緊張、軀體性緊張和自信心3個方面(Martens,1975),其性質(zhì)差異可能會對運動表現(xiàn)產(chǎn)生不同的影響;緊張往往與運動成績呈現(xiàn)負相關(Kleine,1990),但在某些時候對運動成績具有一定的促進作用(Parfitt et al.,1993)。具體而言,第3類人群操舞基礎較好,但自信心弱,致使主觀心態(tài)緊張,影響表情表達得分;第4類人群操舞基礎弱,但并未客觀認知自身的技術缺陷,因此心態(tài)更放松,表情表達得分更高。在以往教學過程中,群體特性往往是碎片化的,需要執(zhí)教師逐個發(fā)掘、提煉,而NDRC模型的使用有利于減輕教師及專家的工作負擔。
深刻把握人群特性后,教師可根據(jù)人群對應特征制定針對性訓練計劃。以存在較大提升空間的第2、3層級人群為例:1)第2層級(第1、2類)為運動表現(xiàn)中游人群。該層級中,第1類人群表情表達分較低,教師需幫助其提升藝術感染力,增加作品表現(xiàn)力;第2類人群肢體表現(xiàn)分較低,教師需幫助其提升肌肉控制能力,提高動作完成度。2)第3層級(第3、4、5類)為運動表現(xiàn)下游人群。根據(jù)心理技能訓練相關研究(趙祁偉 等,2020;Landers,1983),教師應同時增加基礎性動作訓練和心理技能訓練,對自信心較弱的第3類人群采用鼓勵式教學模式;對第4類人群應嚴格要求,避免其盲目自信;第5類人群運動表現(xiàn)不良根源于自身基礎條件的不足,教師應以訓練為主、鼓勵為輔,加強其身體控制能力,提高操舞運動表現(xiàn)。
另外,各類人群相同訓練時間下提升程度不一,主要原因在于初始表現(xiàn)越差的群體提升空間越大,使得平均提升分數(shù)越高;同時,初始表現(xiàn)越差的受試者對待后續(xù)訓練的努力程度不一,導致訓練后受試者之間的差距非常明顯。第1、3、4類人群整體提升較小的原因在于藝術表現(xiàn)力的提升比僅提高肢體表現(xiàn)力更為困難,且心理技能訓練結果反饋時間較長。
本研究基于系統(tǒng)觀察法設計了操舞運動評價系統(tǒng),包括肢體表現(xiàn)與表情表達兩大組成部分。其中,將表情表達納入評價系統(tǒng)與操舞類運動固有的藝術性以及“心理-運動表現(xiàn)”的雙向影響機制有關。非專家成員使用該系統(tǒng)對受試者進行評估能夠在很大程度上替代專家評估,且更具有區(qū)分度,更能反映受試者的真實表現(xiàn)。基于該系統(tǒng)的評估數(shù)據(jù),對受試者進行NDRC分析,將樣本分成3個層級、6個類別,為教師教學提供了針對性提升路徑??傮w而言,本研究所設計的操舞評價系統(tǒng)有利于提高操舞類運動項目教學考核的速度、精度和顆粒度,能夠為針對性教學提供參考。
本研究對受試者肢體表現(xiàn)與表情表達的評估主要依靠人工打分與主觀問卷調(diào)查,數(shù)據(jù)獲取和處理成本仍然較高。未來可通過引入計算機視覺領域的識別技術,結合圖像識別領域的最新進展,自動化地檢測識別受試者的肢體表現(xiàn)與表情表達,這有助于開發(fā)人機協(xié)同的數(shù)字化、自動化評估系統(tǒng),進一步提高線上操舞訓練與教學效率和效果。