宋兆銘,葉 菁,董如軍
數(shù)據(jù)挖掘:C5.0決策樹(shù)算法在警察院校學(xué)生體質(zhì)分析中的應(yīng)用
宋兆銘1,葉 菁2,董如軍3
1.四川警察學(xué)院,四川 瀘州,646000;2.四川化工職業(yè)技術(shù)學(xué)院,四川 瀘州,646000; 3.廣東警官學(xué)院,廣東 廣州,510230。
C5.0決策樹(shù)算法適用于大數(shù)據(jù)集處理,特別是它的Boosting集成機(jī)器學(xué)習(xí)算法可以有效地將精度較低的“弱學(xué)習(xí)算法”提升為精度較高的“強(qiáng)學(xué)習(xí)算法”,從而達(dá)到模型修剪與優(yōu)化的目的。研究結(jié)果表明:C5.0決策樹(shù)算法生成的模型可以精確地評(píng)價(jià)學(xué)生的體質(zhì)健康狀況(97.8%)且模型預(yù)測(cè)的泛化能力較強(qiáng)(98.1%)。因此,C5.0決策樹(shù)算法可以用來(lái)判斷影響警察院校學(xué)生體質(zhì)測(cè)試成績(jī)的關(guān)鍵因素,為深層挖掘相關(guān)警務(wù)數(shù)據(jù)內(nèi)涵與監(jiān)測(cè)提供了實(shí)證依據(jù)。
C5.0決策樹(shù);警察院校;學(xué)生體質(zhì)
我國(guó)警察院校的學(xué)生體質(zhì)監(jiān)測(cè)工作自1985年始已經(jīng)進(jìn)行了30多年,建立了體量巨大的體質(zhì)信息數(shù)據(jù)庫(kù)。面對(duì)海量的數(shù)據(jù),如何探尋簡(jiǎn)便有效的分析方法對(duì)體質(zhì)狀況精確、快速、直觀地給出反饋,一直是對(duì)警務(wù)培訓(xùn)研究者的重大考驗(yàn)。當(dāng)前對(duì)警察院校學(xué)生體質(zhì)數(shù)據(jù)的分析,主要還是使用一般性的現(xiàn)狀描述和傳統(tǒng)的相關(guān)性檢驗(yàn)的統(tǒng)計(jì)分析方法,缺乏深層次的數(shù)據(jù)挖掘研究和決策分析,更無(wú)法發(fā)現(xiàn)測(cè)試數(shù)據(jù)中隱含著的重要結(jié)論[1]。因此,利用好耗費(fèi)大量人力、財(cái)力采集的學(xué)生體質(zhì)測(cè)試數(shù)據(jù),深層挖掘數(shù)據(jù)的內(nèi)涵,得出更多更精確的結(jié)論來(lái)為監(jiān)測(cè)工作服務(wù),是每一位警務(wù)培訓(xùn)研究者的重要任務(wù)。同時(shí),如何根據(jù)簡(jiǎn)單測(cè)量指標(biāo)判斷體質(zhì)狀況也是目前警務(wù)培訓(xùn)數(shù)據(jù)分析中的一個(gè)重要課題。值得慶幸得是,決策分析技術(shù)的出現(xiàn)使得這一課題有了重大的突破,基于決策分析的方法,可以根據(jù)身高、體重等一些簡(jiǎn)單的體質(zhì)指標(biāo)快速判斷學(xué)生體質(zhì)的關(guān)鍵影響因素。
丁亞芝等[1]以新疆師范大學(xué)學(xué)生體質(zhì)測(cè)試數(shù)據(jù)為例,引入趨勢(shì)選擇的概念,將TESTSPRINT算法應(yīng)用于體質(zhì)測(cè)試數(shù)據(jù)分析中,該研究結(jié)合了先進(jìn)的數(shù)據(jù)挖掘算法,提高了精確性,在一定程度上達(dá)到了監(jiān)測(cè)學(xué)生體質(zhì)的目的。但同時(shí),TESTSPRINT算法也存在以下一些缺點(diǎn),導(dǎo)致該方法在大量數(shù)據(jù)分析和數(shù)值型數(shù)據(jù)分析中的效果還有待提高:(1)使用屬性列表,使存儲(chǔ)代價(jià)是原來(lái)的三倍;(2)節(jié)點(diǎn)分割要?jiǎng)?chuàng)建哈希表,加大系統(tǒng)負(fù)擔(dān);(3)節(jié)點(diǎn)分割處理相對(duì)復(fù)雜。于岱峰等[2]以人體握力肌肉力量測(cè)試數(shù)據(jù)研究為例,將ID3算法應(yīng)用于人體肌肉力量數(shù)據(jù)分析中,為選擇人體握力Gain(K3)指標(biāo)作為評(píng)價(jià)人體握力肌肉力量指標(biāo),提供了科學(xué)依據(jù)。但同時(shí),雖然ID3算法具有理論清晰,方法簡(jiǎn)單,學(xué)習(xí)能力較強(qiáng)等優(yōu)點(diǎn),但它只對(duì)比較小的數(shù)據(jù)集有效,且對(duì)噪聲比較敏感,當(dāng)訓(xùn)練數(shù)據(jù)集加大時(shí),決策樹(shù)可能會(huì)隨之改變。李偉平[3]等采用K-Means快速聚類法、序列關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、QUEST決策樹(shù)、C&R決策樹(shù)、CHAD決策樹(shù)、支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù),對(duì)西安市城鎮(zhèn)居民體育消費(fèi)入戶調(diào)查數(shù)據(jù)進(jìn)行了實(shí)證分析。同時(shí),通過(guò)對(duì)這幾個(gè)模型評(píng)估效果的比對(duì),李偉平等認(rèn)為C5.0模型的解釋性、正確率為最高。
因此,本研究在總結(jié)前人算法引進(jìn)不足之處的基礎(chǔ)上,提出引入在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)的C5.0算法,并以S警察學(xué)院學(xué)生體質(zhì)監(jiān)測(cè)數(shù)據(jù)為分析對(duì)象,定量分析我國(guó)警察院校學(xué)生體質(zhì)健康水平的關(guān)鍵影響因素。旨在引起上級(jí)主管部門對(duì)學(xué)生體質(zhì)健康水平的重視,為以學(xué)校為基礎(chǔ)的干預(yù)措施提供科學(xué)依據(jù),為我國(guó)警察院校體育課程的改革提供實(shí)證參考。
C5.0是決策樹(shù)模型中的經(jīng)典算法[5]。決策樹(shù)模型是一個(gè)預(yù)測(cè)模型,它表示對(duì)象屬性和對(duì)象值之間的一種映射,樹(shù)中的每一個(gè)節(jié)點(diǎn)表示對(duì)象屬性的判斷條件,其分支表示符合節(jié)點(diǎn)條件的對(duì)象,樹(shù)的葉子節(jié)點(diǎn)表示對(duì)象所屬的預(yù)測(cè)結(jié)果。決策樹(shù)模型的建立通常包括特征選擇、決策樹(shù)的生成和修剪3個(gè)步驟[4-8]。
J R Quinlan于1979年提出了ID3算法,主要針對(duì)離散型屬性數(shù)據(jù),其后又不斷的改進(jìn)形成C4.5,它在ID3基礎(chǔ)上增加了對(duì)連續(xù)屬性的離散化[7-8]。為了適應(yīng)處理大規(guī)模數(shù)據(jù)集的需要,后來(lái)又提出了若干改進(jìn)的算法,其中SLIQ(super-vised learning in quest)[3]和SPRINT (Scalable Parallelizable Induction of Decision Trees)[1,9]是比較有代表性的兩個(gè)算法。C5.0算法則是C4.5算法的修訂版,適用于處理大數(shù)據(jù)集,同時(shí)它增加了強(qiáng)大的Boosting算法提高了分類精度[10]。Boosting算法依次建立一系列決策樹(shù),后建立的決策樹(shù)重點(diǎn)考慮以前被錯(cuò)分、漏分的數(shù)據(jù),最后生成更準(zhǔn)確的決策樹(shù)且計(jì)算速度比較快,占用的內(nèi)存資源較少。Boosting算法作為一種新的集成機(jī)器學(xué)習(xí)方法,以學(xué)習(xí)理論為依據(jù),可以有效地將精度較低的“弱學(xué)習(xí)算法”提升為精度較高的“強(qiáng)學(xué)習(xí)算法”,從而達(dá)到模型修剪與優(yōu)化的目的[11-12]。
C5.0決策樹(shù)的生長(zhǎng)過(guò)程采用的是最大信息增益率的原則進(jìn)行節(jié)點(diǎn)選擇和分裂點(diǎn)的選擇,具體涉及的基本概念有:
信息熵:信息雜亂程度,信息越雜亂(越不純),則信息熵越大;反之,信息熵越小[4-5]。其公式為:
其中-log2(pj)反應(yīng)的是信息量,即某隨機(jī)事件發(fā)生的概率越小,則信息量越大;反之概率越大,則信息量越小。所以信息熵就是指事件發(fā)生的概率(pj)乘以其對(duì)應(yīng)的信息量(-log2(pj)),然后再加總。
信息增益(Info Gain):分裂前的節(jié)點(diǎn)熵減去分裂后子節(jié)點(diǎn)熵的加權(quán)和,即不純度的減少量,也就是純度的增加量。其中,參數(shù)選擇的規(guī)則是選擇使信息增益最大的參數(shù)分割該節(jié)點(diǎn)[4-5]。其公式為:
其中,Info為Y變量的信息熵,InfoA為自變量A對(duì)Y變量分割的信息熵。其公式為:
由于信息增益選擇偏向于取值多的屬性(參數(shù)的取值越多,其分割后的子節(jié)點(diǎn)純度可能越高)。C5.0采用了信息增益率的方法,對(duì)那些水平比較少的離散變量進(jìn)行平衡處理[4-5]。其公式為:
其中,為分割信息(自變量的信息熵);信息增益率就是在信息增值的基礎(chǔ)上除以自變量的信息熵。
C5.0決策樹(shù)模型第一次拆分確定的樣本子集隨后再次拆分,通常是根據(jù)另一個(gè)字段進(jìn)行拆分,這一過(guò)程重復(fù)進(jìn)行直到樣本子集不能在被拆分為止。最后,關(guān)注最低層次的拆分,那些對(duì)模型值沒(méi)有顯著貢獻(xiàn)的樣本子集被提出或者修剪。主要分為以下四個(gè)步驟[4-5]:
第1步,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將連續(xù)型的屬性變量進(jìn)行離散化處理形成決策樹(shù)的訓(xùn)練集(分類屬性忽略)。
第2步,計(jì)算每個(gè)屬性的信息增益和信息增益率。
第3步,根節(jié)點(diǎn)屬性每一個(gè)可能的取值對(duì)應(yīng)一個(gè)子集,對(duì)樣本子集遞歸地執(zhí)行第二步過(guò)程,直到劃分的每個(gè)子集中的觀測(cè)數(shù)據(jù)在分類屬性上取值都相同,生成決策樹(shù)。
第4步,根據(jù)構(gòu)造的決策樹(shù)提取分類規(guī)則,對(duì)新的數(shù)據(jù)集進(jìn)行分類。
具體計(jì)算過(guò)程如下:
(4)類別的信息熵:
(5)類別的條件熵:
(6)信息增益(Gain):
(7)屬性V的信息熵:
(8)信息增益率:
gain_ratio=I(c,v)/H(V)=gain(V)/split_info(V)
最后,通過(guò)比較各個(gè)屬性的信息增益率即可確定決策樹(shù)的節(jié)點(diǎn),重復(fù)以上過(guò)程,最終得出屬性分類的決策樹(shù)。
按照《國(guó)家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》[13]的規(guī)定,對(duì)四川警察學(xué)院所有在校大學(xué)生進(jìn)行了體質(zhì)監(jiān)測(cè)測(cè)試,測(cè)試過(guò)程嚴(yán)格按照測(cè)試的操作方法要求完成。測(cè)試以年級(jí)為單位分別安排在2018年12月每周日(4、11、18、25)上午8:30-11:30、下午14: 30-17:30 兩個(gè)時(shí)間段。測(cè)試人員均為經(jīng)培訓(xùn)后的四川警察學(xué)院警體教師,現(xiàn)場(chǎng)測(cè)試技術(shù)規(guī)范并有巡視組監(jiān)督檢查,測(cè)試質(zhì)量符合規(guī)定要求。數(shù)據(jù)匯總后按性別分為兩類樣本,有效樣本量見(jiàn)表1。
表1 研究對(duì)象基本信息一覽表
按照《國(guó)家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》[11]的規(guī)定測(cè)試的指標(biāo),本研究分析變量主要分為身體形態(tài)、機(jī)能、素質(zhì)指標(biāo),BMI指數(shù),具體賦值與說(shuō)明見(jiàn)表2。
表2 變量選擇與賦值
注:由于男女生測(cè)試項(xiàng)目不同,所以分別建模分析。
采用Excel2010進(jìn)行數(shù)據(jù)的錄入與整理。數(shù)據(jù)分析采用R3.4.2完成,決策樹(shù)建立應(yīng)用“C50”軟件包及相關(guān)函數(shù)完成。
(1)導(dǎo)入數(shù)據(jù)集,連續(xù)變量離散化代碼命令和運(yùn)行結(jié)果如圖1:
圖1 數(shù)據(jù)導(dǎo)入、變量離散化代碼運(yùn)行結(jié)果圖
(2)隨機(jī)抽樣,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。運(yùn)行結(jié)果如圖2:
圖2 數(shù)據(jù)拆分代碼運(yùn)行結(jié)果圖
(3)運(yùn)行C50算法建模代碼,查看預(yù)測(cè)的結(jié)果,構(gòu)建混淆矩陣,計(jì)算模型的在訓(xùn)練集預(yù)測(cè)準(zhǔn)確率。運(yùn)行結(jié)果如圖3:
圖3 C50算法建模代碼運(yùn)行結(jié)果圖
圖3表明通過(guò)訓(xùn)練數(shù)據(jù)測(cè)試,模型的預(yù)測(cè)準(zhǔn)確性為97.8%,模型在測(cè)試集上有較好的預(yù)測(cè)效果。
(4)計(jì)算模型在測(cè)試集預(yù)測(cè)準(zhǔn)確率。運(yùn)行結(jié)果如圖4:
圖4 測(cè)試集預(yù)測(cè)準(zhǔn)確率代碼運(yùn)行結(jié)果圖
圖4表明通過(guò)測(cè)試集數(shù)據(jù)測(cè)試,模型的預(yù)測(cè)準(zhǔn)確性為98.1%,模型有較好的泛化效果。
(5)圖形展示:plot(model)。
圖5 男生決策樹(shù)圖形代碼運(yùn)行結(jié)果圖
從圖5可以出,學(xué)生的體質(zhì)測(cè)試成績(jī)是否合格的關(guān)鍵因素有:“短跑50m”“肺活量體重指數(shù)”“立定跳遠(yuǎn)”和“長(zhǎng)跑1000m”。(1)首先,“短跑50m”這一指標(biāo)處于樹(shù)的根部,即:學(xué)生體測(cè)成績(jī)合格還是不合格,最關(guān)鍵的影響因素是學(xué)生短跑能力的強(qiáng)弱(節(jié)點(diǎn)1);(2)依據(jù)學(xué)生短跑能力的強(qiáng)弱(9.3s),第二層節(jié)點(diǎn)分別是“肺活量體重指數(shù)(節(jié)點(diǎn)2)”和“立定跳遠(yuǎn)(節(jié)點(diǎn)7)”。其中,反映學(xué)生呼吸系統(tǒng)機(jī)能狀況的肺活量體重指數(shù)如果大于67.76 ml/kg,則學(xué)生的體測(cè)成績(jī)合格率較高,反之則合格率較低;反映學(xué)生下肢力量與爆發(fā)力的發(fā)展水平的立定跳遠(yuǎn)成績(jī)?nèi)绻笥?.05m,那么學(xué)生的體測(cè)成績(jī)合格率較高,反之則應(yīng)進(jìn)一步考查長(zhǎng)跑1000m的測(cè)試成績(jī)來(lái)判定總評(píng)成績(jī)是否合格;(3)長(zhǎng)跑1000m是反映學(xué)生堅(jiān)持長(zhǎng)時(shí)間運(yùn)動(dòng)的能力,如果長(zhǎng)跑1000m成績(jī)小于4.27min,則學(xué)生的體測(cè)成績(jī)合格率較高,反之則合格率較低。
綜上所述,如果學(xué)生的短距離快速運(yùn)動(dòng)的能力強(qiáng),下肢力量與爆發(fā)力的發(fā)展水平高,則其體測(cè)合格的可能性最高。如果學(xué)生的短距離快速運(yùn)動(dòng)和堅(jiān)持長(zhǎng)時(shí)間快速運(yùn)動(dòng)的能力強(qiáng),則其體測(cè)合格的可能性最高為其次。如果學(xué)生短距離快速運(yùn)動(dòng)的能力較弱,但其呼吸系統(tǒng)機(jī)能能力較好,則其體測(cè)合格的可能性也相對(duì)較高。但如果學(xué)生的短距離快速運(yùn)動(dòng)的能力較弱、下肢力量與爆發(fā)力的發(fā)展水平較低、堅(jiān)持長(zhǎng)時(shí)間快速運(yùn)動(dòng)的能力也較差,則其體測(cè)合格的可能性較低;特別是呼吸系統(tǒng)機(jī)能能力差的學(xué)生其體測(cè)合格的可能性為最低。因此,我們應(yīng)積極進(jìn)行警察體能課程教學(xué)改革,在課程開(kāi)始前應(yīng)對(duì)學(xué)生體質(zhì)健康水平進(jìn)行評(píng)估,并依據(jù)評(píng)估結(jié)果,在尊重學(xué)生個(gè)體差異的原則下開(kāi)展分層教學(xué),使不同層次學(xué)生得到有針對(duì)性的教法指導(dǎo),從而有效提升學(xué)生的體質(zhì)健康水平。
本文利用C5.0算法對(duì)S警察學(xué)院學(xué)生體質(zhì)測(cè)試成績(jī)的影響因素開(kāi)展了有數(shù)據(jù)支撐的定量研究,判斷了影響學(xué)生體質(zhì)測(cè)試成績(jī)的關(guān)鍵因素,為深層挖掘?qū)W生體質(zhì)測(cè)試數(shù)據(jù)內(nèi)涵、監(jiān)測(cè)學(xué)生體質(zhì)提供了實(shí)證依據(jù)。主要結(jié)論有:(1)C5.0算法生成的決策樹(shù)模型可以運(yùn)用簡(jiǎn)單的體質(zhì)監(jiān)測(cè)的指標(biāo)精確地評(píng)價(jià)學(xué)生的體質(zhì)健康狀況(98.4%)且模型預(yù)測(cè)的泛化能較強(qiáng)(98.2%)。(2)學(xué)生的體質(zhì)測(cè)試成績(jī)是否合格的關(guān)鍵影響因素有:“短跑50m”“肺活量體重指數(shù)”“立定跳遠(yuǎn)”和“長(zhǎng)跑1000m”。(3)在警察體能課程教學(xué)中,我們要注重發(fā)展學(xué)生的下肢力量與爆發(fā)力、短距離快速運(yùn)動(dòng)的能力和長(zhǎng)時(shí)間快速運(yùn)動(dòng)的能力;同時(shí),要特別注重學(xué)生呼吸系統(tǒng)機(jī)能能力的提高,從而精確有效地提高學(xué)生體測(cè)的合格率。
我國(guó)國(guó)民體質(zhì)監(jiān)測(cè)數(shù)據(jù)已呈現(xiàn)出不同地理位置上的數(shù)據(jù)共享,數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)量的增加將導(dǎo)致未來(lái)國(guó)民體質(zhì)數(shù)據(jù)分析必須采用分布式海量數(shù)據(jù)計(jì)算方法。因此,如何借助數(shù)據(jù)挖掘技術(shù)從龐大的數(shù)據(jù)中識(shí)別數(shù)據(jù)內(nèi)部的聯(lián)系,去偽存真,從中提取有用的信息,為體質(zhì)監(jiān)測(cè)和相關(guān)警務(wù)培訓(xùn)決策提供支持是極具意義的研究課題。同時(shí),由于各種數(shù)據(jù)挖掘方法各有利弊,其理論和算法本身也正在不斷的擴(kuò)展和提升之中。所以,要得出更多更精確的結(jié)論還需要更多地致力于數(shù)據(jù)挖掘算法及其在體質(zhì)數(shù)據(jù)分析中的應(yīng)用研究。
[1] 丁亞芝,鄭志高,馬 嶸.改進(jìn)的SPRINT算法及其在體質(zhì)數(shù)據(jù)分析中的應(yīng)用[J].體育科學(xué),2014,34(06):90~96.
[2] 于岱峰,鐘亞平,于亞光.基于數(shù)據(jù)挖掘技術(shù)在人體肌肉力量數(shù)據(jù)分析中的應(yīng)用——以人體握力肌肉力量測(cè)試數(shù)據(jù)研究為例[J].體育科學(xué),2010,30(02):70~74+82.
[3] 李偉平,權(quán)德慶,蔡 軍,魏 華,雷 文. 西安市城鎮(zhèn)居民體育消費(fèi)結(jié)構(gòu)及其特征研究——基于數(shù)據(jù)挖掘的視角[J]. 體育科學(xué),2013,33(09):22~28.
[4] JiaweiHan, MichelineKamber, JianPei,等. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 機(jī)械工業(yè)出版社,2012.:162~171.
[5] PANG-NINGTAN, MICHAELSTEINBACH, VIPINKUMAR. 數(shù)據(jù)挖掘?qū)д摚和暾鎇M].人民郵電出版社,2011:89~122.
[6] http://127.0.0.1:23641/library/C50/doc/C5.0.html.
[7] Quinlan J R. C4.5: programs for machine learning[M]. Morgan Kaufmann Publishers Inc. 1993.
[8] Max Kuhn, Steve Weston. C50: C5.0 Decision Trees and Rule-Based Models[J]. 2012.
[9] 王云飛. SPRINT分類算法的改進(jìn)[J]. 科學(xué)技術(shù)與工程,2008,8(23):6248~6252.
[10] 劉迷迷,劉永佳,溫 麗,蔡 巧,李麗婷,蔡永銘.C 5.0決策樹(shù)對(duì)早期胃癌風(fēng)險(xiǎn)篩查研究[J].中華腫瘤防治雜志,2018,25(16):1131~1135.
[11] 張 宇,張之明. 一種基于C5.0決策樹(shù)的客戶流失預(yù)測(cè)模型研究[J]. 統(tǒng)計(jì)與信息論壇,2015,30(01):89~94.
[12] 楊劍鋒,喬佩蕊,李永梅,王 寧.機(jī)器學(xué)習(xí)分類問(wèn)題及算法研究綜述[J].統(tǒng)計(jì)與決策,2019,35(06):36~40.
[13] http://www.csh.edu.cn/wtzx/bz/20141226/2c909e854a84301a014a8433fc500003.html
Research of Data-mining in Police Training: The Application of C5.0 Decision Tree to Students ' Constitution in Police Colleges
SONG Zhaoming1, YE Jing2, DONG Rujun3
1.Sichuan Police College, Luzhou Sichuan, 646000, China; 2.Sichuan Vocational College of Chemical Technology, Luzhou Sichuan, 646000, China; 3.Guangdong Police College, Guangzhou Guangdong, 510230, China.
The C5.0 Decision Tree can be used for large data sets. Due to the addition of Boosting, The C5.0 Decision Tree can get better models. Booting optimizes the model by effectively improving the less accurate “weak learning algorithm” to a more accurate “strong learning algorithm.”Result: The decision tree model generated by C5.0 algorithm can accurately evaluate students' physical health status (98.4%) with simple physical monitoring indicators and the generalization of model prediction can be strong (98.2%). Conclusion: The C5 .0 algorithm can be used to determine the key factors physical test results, to deeply dig Students ' Constitution data and monitor its changes in Police Colleges.
C5.0 Decision Tree; Students ' Constitution; Police Colleges
G804.49
A
1007―6891(2020)01―0052―04
10.13932/j.cnki.sctykx.2020.01.11
2019-06-17
2019-07-29