張樹滑
關(guān)鍵詞: 數(shù)據(jù)挖掘; ID3決策樹; 體育成績(jī); SQL Server; B/S模式; 體能分析
中圖分類號(hào): TN02?34 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2019)05?0104?03
Design of sports achievement data mining and physical fitness analysis
system based on ID3 algorithm
ZHANG Shuhua
(Guangxi University of Foreign Languages, Nanning 530222, China)
Abstract: The ID3 decision tree algorithm is applied to the sports performance data mining to effectively analyze the students′ physical fitness, and improve the management level and quality of physical teaching. The shortcomings of the existing performance analysis system are analyzed, and the overall system architecture and data mining implementation process are introduced. The principle of ID3 decision tree algorithm and its software implementation flow are designed. The Analysis Services development environment in the multidimensional mode of Microsoft SQL Server 2012 tool is used to realize the software module of decision tree algorithm. The system operation results show that the proposed system can provide the valuable scientific basis for student achievement management and analysis based on data mining.
Keywords: data mining; ID3 decision tree; sports achievement; SQL Server; B/S mode; physical fitness analysis
在學(xué)校教育工作中,每一門課程的教學(xué)活動(dòng)均需要給學(xué)生評(píng)出相應(yīng)的成績(jī),以便對(duì)學(xué)生掌握該門課程相關(guān)知識(shí)的情況進(jìn)行考核。課程的成績(jī)?cè)谝欢ǔ潭壬险鎸?shí)反映應(yīng)了學(xué)生在某專業(yè)方面的能力和素質(zhì),例如音樂、數(shù)學(xué)、美術(shù)、體育等[1]。這些課程的教學(xué)管理工作產(chǎn)生了數(shù)量巨大的學(xué)生成績(jī)數(shù)據(jù),如何處理和分析這些數(shù)據(jù)以便挖掘出更有價(jià)值的隱藏信息得到了眾多教育工作者的關(guān)注[2?3]。
數(shù)據(jù)挖掘是20世紀(jì)90年代出現(xiàn)的一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、知識(shí)工程、概率與統(tǒng)計(jì)、模式識(shí)別、神經(jīng)元網(wǎng)絡(luò)、可視化技術(shù)等各領(lǐng)域的研究成果[4]。數(shù)據(jù)挖掘的本質(zhì)是從大量有噪聲、不完全、模糊、隨機(jī)的數(shù)據(jù)中抽取出隱藏的并具一定可利用價(jià)值的信息和關(guān)系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析和孤立點(diǎn)分析。其中,針對(duì)分類和預(yù)測(cè)問題典型的算法是決策樹。常用的算法包括ID3,C4.5,AC2,CN2等。因ID3具有結(jié)構(gòu)簡(jiǎn)單、分類速度快且使用范圍廣等優(yōu)點(diǎn),本文選擇ID3決策樹算法實(shí)現(xiàn)體育成績(jī)的數(shù)據(jù)挖掘。通過數(shù)據(jù)特征和關(guān)系對(duì)學(xué)生體能進(jìn)行有效分析,從而為體育課程教師的因材施教提供了有價(jià)值的數(shù)據(jù)支持。首先對(duì)現(xiàn)有成績(jī)分析的不足進(jìn)行分析,并介紹了系統(tǒng)總體架構(gòu)和數(shù)據(jù)挖掘?qū)嵤┝鞒獭H缓髮?duì)ID3決策樹算法的原理和軟件實(shí)現(xiàn)流程進(jìn)行設(shè)計(jì)。最后使用Microsoft SQL Server 2012工具多維模式中的Analysis Services開發(fā)環(huán)境實(shí)現(xiàn)了決策樹算法的軟件模塊。
1.1 ?現(xiàn)有成績(jī)分析的不足
對(duì)學(xué)生掌握所學(xué)課程相關(guān)知識(shí)的情況進(jìn)行考核,是廣大教師開展教學(xué)活動(dòng)的關(guān)鍵內(nèi)容。傳統(tǒng)學(xué)生成績(jī)分析工作通常采用Excel辦公軟件或者綜合辦公系統(tǒng)實(shí)現(xiàn),其突出表現(xiàn)為工作強(qiáng)度大、表格分散和操作效率低,教師需要人工完成查詢、分類和匯總工作。成績(jī)數(shù)據(jù)的分析結(jié)果延遲性較高,無法及時(shí)為教師實(shí)施的教學(xué)活動(dòng)提供實(shí)時(shí)、有價(jià)值的信息。
此外,現(xiàn)有的多數(shù)成績(jī)統(tǒng)計(jì)系統(tǒng)仍然采用簡(jiǎn)單的均值、方差、區(qū)別顯著性檢驗(yàn)或者信度計(jì)算方法,來實(shí)現(xiàn)成績(jī)數(shù)據(jù)分析,因此根本無法發(fā)現(xiàn)學(xué)生成績(jī)數(shù)據(jù)中隱含的信息或者關(guān)系。成績(jī)考核評(píng)分很容易,但是如何對(duì)學(xué)生成績(jī)進(jìn)行分析并提取出所需要的隱藏信息也很重要。因此,本文針對(duì)以上問題,應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)體育成績(jī)數(shù)據(jù)進(jìn)行分析,以便形成有價(jià)值的學(xué)生體能特征信息,為制定個(gè)性化的相應(yīng)教學(xué)措施提供可參考的科學(xué)依據(jù),供教學(xué)管理人員做出相應(yīng)的決策。
1.2 ?系統(tǒng)總體架構(gòu)設(shè)計(jì)
體育成績(jī)數(shù)據(jù)挖掘與體能分析系統(tǒng)的三層總體架構(gòu)如圖1所示。可以看出,用戶分為體育教師、學(xué)生和系統(tǒng)管理員三種類型。首先是面向人機(jī)交互的系統(tǒng)表示層,包括測(cè)試項(xiàng)目管理、成績(jī)管理、成績(jī)統(tǒng)計(jì)分析和擴(kuò)展項(xiàng)目。其次,作為系統(tǒng)核心部件的業(yè)務(wù)邏輯層包含表示層中所有項(xiàng)目的相關(guān)業(yè)務(wù)邏輯,完成邏輯判斷和處理。最后是與數(shù)據(jù)庫和文檔相連的數(shù)據(jù)訪問層。
1.3 ?數(shù)據(jù)挖掘?qū)嵤┝鞒?/p>
數(shù)據(jù)挖掘系統(tǒng)中標(biāo)準(zhǔn)的流程為:首先需要確定挖掘?qū)ο蠹捌淠繕?biāo),選取合適的模型并進(jìn)行數(shù)據(jù)采集。然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以便實(shí)施選擇的數(shù)據(jù)挖掘算法。最后對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行分析。標(biāo)準(zhǔn)的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)[6?7]如圖2所示。按照?qǐng)D2的流程設(shè)計(jì)了所需系統(tǒng)的挖掘功能,如圖3所示。
現(xiàn)階段,數(shù)據(jù)挖掘在課程教學(xué)活動(dòng)中的研究較少,大多數(shù)處于理論研究階段。文獻(xiàn)[8]將決策樹算法應(yīng)用于提高實(shí)踐課程教學(xué)效果的探索中,用C4.5算法和ID3算法對(duì)訓(xùn)練樣本建立模型并進(jìn)行分類預(yù)測(cè),準(zhǔn)確率分別為80%和71%。文獻(xiàn)[9]提出一種結(jié)合概率推理與決策理論來構(gòu)建C++智能教學(xué)系統(tǒng)(Intelligent Tutoring System,ITS)中學(xué)生學(xué)習(xí)模型的方法,以幫助ITS達(dá)到自適應(yīng)教學(xué)的目的。通過分析可以發(fā)現(xiàn),ID3決策樹算法在教學(xué)數(shù)據(jù)挖掘中具有較好的應(yīng)用效果,因此本文選擇ID3決策樹算法實(shí)現(xiàn)體育成績(jī)的數(shù)據(jù)挖掘。
2.1 ?ID3決策樹算法的設(shè)計(jì)
ID3決策樹算法的關(guān)鍵是按照遞歸思想進(jìn)行信息增益和熵的計(jì)算。計(jì)算初始熵的方法[10]如下:
[S(I)=i=1cNiNlog2NiN] (1)
式中:[Ni]為類別[Ci]中的樣本個(gè)數(shù);[N]為樣本的數(shù)量;[c]為類別的數(shù)量。
對(duì)決策樹的根節(jié)點(diǎn)進(jìn)行屬性選擇的過程中,分支的新熵計(jì)算方法如下:
[S(I,Ak,J)=i=1cnkj(i)nkjlog2nkj(i)nkj] (2)
式中:[Ak]表示屬性;[nkj]為每個(gè)分支的樣本個(gè)數(shù);[nkj(i)]為每個(gè)分支的[nkj]個(gè)樣本中屬于類別[Ci]的樣本數(shù)。
計(jì)算信息增益的方法如下:
[ΔS(K)=S(I)-S(I,Ak)] (3)
挑選具有最大信息增益的屬性[Ak0]作為決策樹的根,[Ak0]的判斷條件為:
[Δ熵(k0)>Δ熵(k), ? ?k=1,2,…,K且k≠k0] (4)
2.2 ?軟件整體設(shè)計(jì)思路
決策樹算法軟件總體設(shè)計(jì)流程如圖4所示。
3.1 ?數(shù)據(jù)挖掘軟件模塊實(shí)現(xiàn)
系統(tǒng)應(yīng)用平臺(tái)為Window 7操作系統(tǒng)。數(shù)據(jù)庫軟件采用Microsoft SQL Server 2012。采用三層B/S架構(gòu)完成數(shù)據(jù)挖掘算法軟件的開發(fā)。軟件開發(fā)環(huán)境使用Microsoft SQL Server 2012工具多維模式中的Analysis Services。利用Analysis Services項(xiàng)目模板創(chuàng)建名為“體育成績(jī)分析”的數(shù)據(jù)挖掘項(xiàng)目,如圖5所示。
以某學(xué)校12個(gè)班級(jí)學(xué)生的體育課程成績(jī)?yōu)槔M(jìn)行數(shù)據(jù)挖掘分析,并將ID3算法在體育課程分析系統(tǒng)中進(jìn)行具體應(yīng)用。
3.2 ?系統(tǒng)測(cè)試結(jié)果
對(duì)設(shè)計(jì)的體育成績(jī)數(shù)據(jù)挖掘與體能分析系統(tǒng)進(jìn)行測(cè)試。測(cè)試結(jié)果顯示系統(tǒng)運(yùn)行狀態(tài)良好,操作流暢,人機(jī)交互效果良好。其次,在學(xué)生體能分析中,基于ID3決策樹算法的挖掘分類結(jié)果如圖6所示。從圖6所示挖掘結(jié)果可以看出各個(gè)體育項(xiàng)目的測(cè)試成績(jī)與學(xué)生個(gè)人體能之間的關(guān)系,例如,學(xué)生在籃球項(xiàng)目測(cè)試方面取得了較好的成績(jī),這說明該學(xué)生在體能鍛煉上更傾向于籃球項(xiàng)目。
本文提出ID3決策樹算法在體育成績(jī)數(shù)據(jù)挖掘與體能分析中的應(yīng)用系統(tǒng)。首先對(duì)現(xiàn)有成績(jī)分析的不足進(jìn)行分析,并介紹了系統(tǒng)總體架構(gòu)和數(shù)據(jù)挖掘?qū)嵤┝鞒?然后對(duì)ID3決策樹算法的原理及其軟件實(shí)現(xiàn)流程進(jìn)行設(shè)計(jì);最后使用Microsoft SQL Server 2012工具多維模式中的Analysis Services開發(fā)環(huán)境實(shí)現(xiàn)了決策樹算法軟件模塊。運(yùn)行結(jié)果顯示,提出的系統(tǒng)能夠?yàn)榛跀?shù)據(jù)挖掘的學(xué)生成績(jī)管理與分析提供有價(jià)值的科學(xué)依據(jù)。
參考文獻(xiàn)
[1] 賀超波,陳啟買,石玉強(qiáng),等.實(shí)驗(yàn)教學(xué)數(shù)據(jù)管理與分析系統(tǒng)的研究與實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2012,29(1):110?113.
HE Chaobo, CHEN Qimai, SHI Yuqiang, et al. Research and practice of experimental teaching data management and analysis system [J]. Journal of experimental technology and management, 2012, 29(1): 110?113.
[2] 王彩虹,高旭陽.基于英語閱讀教學(xué)數(shù)據(jù)庫的云服務(wù)模式研究[J].圖書館學(xué)研究,2011(19):49?52.
WANG Caihong, GAO Xuyang. Research on cloud service model based on English reading teaching database [J]. Library science research, 2011(19): 49?52.
[3] 弓靜,王莉,郝強(qiáng),等.基于PACS系統(tǒng)醫(yī)學(xué)影像學(xué)教學(xué)數(shù)據(jù)庫的開發(fā)及應(yīng)用[J].基礎(chǔ)醫(yī)學(xué)教育,2017,19(1):66?68.
GONG Jing, WANG Li, HAO Qiang, et al. Development and application of medical imaging teaching database based on PACS system [J]. Basic medical education, 2017, 19(1): 66?68.
[4] JOSEPH S R, HLOMANI H, LETSHOLO K. Data view [J]. Neuroscience, 2016, 12(3): 719?743.
[5] LU H, SETIONO R, LIU H. Effective data mining using neural networks [J]. IEEE transactions on knowledge & data engineering, 2016, 8(6): 957?961.
[6] BUCZAK A L, GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection [J]. IEEE communications surveys & tutorials, 2017, 18(2): 1153?1176.
[7] ADENIYI D A, WEI Z, YAN Y Q. Automated Web usage data mining and recommendation system using K?Nearest Neighbor (KNN) classification method [J]. Applied computing & informatics, 2016, 12(1): 90?108.
[8] 陰亞芳,孫朝陽.決策樹算法在實(shí)踐教學(xué)中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2018,46(6):1078?1082.
YIN Yafang, SUN Chaoyang. Application research of decision tree algorithm in practice teaching [J]. Computer and digital engineering, 2018, 46(6): 1078?1082.
[9] 楊誠(chéng)一,朱巧明.基于概率推理和決策樹的教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009(12):170?173.
YANG Chengyi, ZHU Qiaoming. Design and implementation of teaching system based on probabilistic reasoning and decision tree [J]. Computer applications and software, 2009(12): 170?173.
[10] PHU V N, TRAN V T N, CHAU V T N, et al. A decision tree using ID3 algorithm for English semantic analysis [J]. International journal of speech technology, 2017, 20(4): 1?21.