付榮華
摘要:通過數(shù)據(jù)挖掘技術(shù)分析各個(gè)領(lǐng)域大量數(shù)據(jù)之間的關(guān)系,可以發(fā)現(xiàn)這些記錄中隱藏的學(xué)生學(xué)習(xí)和生活狀態(tài)。該研究開發(fā)了一個(gè)綜合分析系統(tǒng),其系統(tǒng)引入了數(shù)據(jù)挖掘技術(shù),包括決策樹算法和關(guān)聯(lián)規(guī)則挖掘算法。通過分析來自農(nóng)村的大學(xué)生圖書館記錄和消費(fèi)記錄以及農(nóng)村學(xué)生完成的課程成績(jī)和心理測(cè)試數(shù)據(jù)可以看出,該系統(tǒng)可以挖掘農(nóng)村學(xué)生的生活和學(xué)習(xí)狀態(tài)及其關(guān)聯(lián)性,并將結(jié)果展示出來,可以讓學(xué)?;蚶蠋熂皶r(shí)清晰地了解其狀態(tài),有助于更好的教學(xué)。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;關(guān)聯(lián)規(guī)則挖掘算法;數(shù)據(jù)庫(kù)應(yīng)用
中圖分類號(hào):TP311.13 ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2020)10-0150-004
DOI:10.14088/j.cnki.issn0439-8114.2020.10.035 ? ? ? ? ? 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Absrtact: By using data mining technology to analyze the relationship between these data, The hidden students' learning and living conditions in these records were founded. A comprehensive analysis system was developed, which introduces data mining technology, including decision tree algorithm and association rule mining algorithm. By analyzing the records of college students' libraries and consumption from the countryside, as well as the data of curriculum achievements and psychological tests completed by rural students, the system can excavate the life and learning status of rural students and their correlation, and display the results, so that schools or teachers can understand their status in time and clearly, which is help fulfor better teaching.
Key words: data mining; decision tree algorithm; association rule mining algorithm; database application
數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中最重要的領(lǐng)域之一,可以從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并且有價(jià)值的信息,從而為使用者提供決策幫助[1]。高等教育狀況在很大程度上代表著國(guó)家教育的發(fā)展,合理、有效地幫助大學(xué)生完成學(xué)業(yè),對(duì)高校教育有著至關(guān)重要的意義。目前,大學(xué)校園都采用校園卡系統(tǒng)進(jìn)行電子化管理,產(chǎn)生大量學(xué)生相關(guān)的學(xué)習(xí)、生活等數(shù)據(jù)[2]。因此,運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)大學(xué)生的學(xué)習(xí)、生活等數(shù)據(jù)記錄進(jìn)行分析和挖掘,為學(xué)校管理提供決策輔助,進(jìn)而有效管理大學(xué)生,是當(dāng)前高校教育的一個(gè)重要研究方向[3]。
部分研究人員已經(jīng)研究了學(xué)生數(shù)據(jù)之間的部分關(guān)系[4,5],但未從農(nóng)村大學(xué)生這一特殊群體的不同方面進(jìn)行分析,其研究功能模塊是分散的,沒有挖掘?qū)W生的相關(guān)數(shù)據(jù)中存在的關(guān)系,無(wú)法發(fā)現(xiàn)學(xué)生(以下學(xué)生特指農(nóng)村大學(xué)生)的學(xué)習(xí)、生活等行為狀態(tài)之間的潛在關(guān)聯(lián)。高校管理系統(tǒng)數(shù)據(jù)庫(kù)中的學(xué)生數(shù)據(jù)是全面的,但在研究過程中,研究人員并沒有注意它們之間的關(guān)系。因此,當(dāng)選擇優(yōu)秀的學(xué)生、優(yōu)秀的班長(zhǎng)、研究生推薦或貧困學(xué)生時(shí),學(xué)校通常習(xí)慣于手工分析。此外,由于學(xué)業(yè)壓力等問題,部分大學(xué)生容易出現(xiàn)心理問題,學(xué)校老師往往不能及時(shí)發(fā)現(xiàn),直到這些學(xué)生發(fā)生嚴(yán)重事件時(shí)才能發(fā)覺,從而造成嚴(yán)重的后果。
根據(jù)目前存在的這些缺陷,本研究設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)綜合分析系統(tǒng),該系統(tǒng)記錄了學(xué)生的活動(dòng),包括校園購(gòu)物、餐廳用餐、課程學(xué)習(xí)、圖書館記錄等數(shù)據(jù)。同時(shí),該系統(tǒng)使用決策樹算法和關(guān)聯(lián)規(guī)則挖掘算法來分析系統(tǒng)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù),挖掘不同數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)其中隱含的有價(jià)值信息,為高校管理提供決策支持,從而使得學(xué)??梢愿臃奖?、及時(shí)、合理地管理學(xué)生,幫助學(xué)生順利完成學(xué)業(yè)。
1 ?方法論
1.1 ?決策樹算法
決策樹算法是一種近似離散函數(shù)值的方法,基于樹結(jié)構(gòu)來進(jìn)行決策,常用于分類問題[6]。C4.5算法[7]是機(jī)器學(xué)習(xí)中一種重要的分類決策樹算法,是對(duì)ID3算法的一種改進(jìn),能夠處理連續(xù)型和離散型數(shù)據(jù)[8-13]。因此,在該系統(tǒng)中,使用C4.5算法分析大學(xué)生的成績(jī)得分、心理狀態(tài)和消費(fèi)情況,構(gòu)建了學(xué)生綜合評(píng)價(jià)的決策樹。
該算法分類標(biāo)準(zhǔn)基于成績(jī)平均分,分為>90分、80~90分、70~80分、60~70分和<60分5個(gè)等級(jí)。首先,計(jì)算學(xué)生成績(jī)樣本的信息熵[14],信息熵用于計(jì)算信息的期望,如式(1)所示。
式中,Ci代表來自X的信號(hào)源,Tj代表來自Y的信號(hào)源,P(Ci|Tj)表示Y為Tj且X為Ci時(shí)的概率。
H(X)和H(X|Y)的關(guān)系可由式(3)的信息增益給出[15]。
Gain(X|Y)=H(X)-H(X|Y) ?(3)
1.2 ?關(guān)聯(lián)規(guī)則挖掘算法
在該系統(tǒng)中,使用Apriori關(guān)聯(lián)規(guī)則挖掘算法,挖掘數(shù)據(jù)之間的隱含關(guān)聯(lián)[10-12]。該算法引入兩個(gè)重要度量,分別為支持度和置信度,支持度表示項(xiàng)目集在數(shù)據(jù)庫(kù)中的出現(xiàn)頻率,置信度用來衡量規(guī)則的可信程度。該綜合評(píng)價(jià)系統(tǒng)的評(píng)價(jià)結(jié)果根據(jù)這兩個(gè)標(biāo)準(zhǔn)給出,由式(4)計(jì)算支持度,P(X)表示X出現(xiàn)在D中的概率。
支持度(X)=發(fā)生(X)/計(jì)數(shù)(D)=P(X) (4)
然后根據(jù)式(5)計(jì)算置信度,P(X|Y)反映了X和Y之間的相關(guān)關(guān)系。
置信度(X→Y)=支持度(X∪Y)/支持度(X)=P(X|Y) ? (5)
2 ?實(shí)例應(yīng)用
該系統(tǒng)包括4個(gè)功能模塊,分別為得分分析模型、消費(fèi)分析模型、心理狀態(tài)測(cè)試模型、綜合分析模型。得分分析模型用于分析學(xué)生不同學(xué)年的課程得分,消費(fèi)分析系統(tǒng)記錄學(xué)生的消費(fèi)情況,心理狀態(tài)測(cè)試模型用于分析學(xué)生的心理狀態(tài)變化,綜合分析模型挖掘?qū)W生所有數(shù)據(jù)(課程成績(jī)、消費(fèi)記錄、心理測(cè)試)之間的關(guān)聯(lián),發(fā)掘有價(jià)值的信息。整體分析系統(tǒng)框架如圖1所示。
運(yùn)用決策樹算法對(duì)學(xué)生的得分、消費(fèi)屬性和心理狀態(tài)進(jìn)行不同程度的分類;運(yùn)用關(guān)聯(lián)規(guī)則挖掘算法,發(fā)現(xiàn)數(shù)據(jù)中隱含的信息。通過調(diào)整算法輸入數(shù)據(jù)的屬性、規(guī)模等,兩種算法結(jié)合使用,進(jìn)行多次訓(xùn)練來規(guī)范評(píng)估結(jié)果。
2.1 ?決策樹算法在系統(tǒng)中的應(yīng)用
第一個(gè)功能模型是得分分析,如圖2所示,它對(duì)每個(gè)學(xué)生的所有課程分?jǐn)?shù)進(jìn)行分析,使用決策樹算法構(gòu)建分類模型,并在一個(gè)學(xué)生的不同課程中獲得規(guī)律性。例如,如果一個(gè)學(xué)生擅長(zhǎng)操作系統(tǒng),那么他有很大可能也擅長(zhǎng)數(shù)據(jù)庫(kù)理論;如果一個(gè)學(xué)生在第一年、第二年和第三年表現(xiàn)良好,那么其畢業(yè)設(shè)計(jì)也會(huì)表現(xiàn)良好。從數(shù)據(jù)庫(kù)中根據(jù)需求抽取數(shù)據(jù)集合,計(jì)算每個(gè)學(xué)生X的信息熵H(X),其度量X的不確定性;然后計(jì)算條件熵H(X|Y),其度量Y在以后X剩下的不確定性;最后根據(jù)信息熵和條件熵計(jì)算信息增益,其度量X在Y以后不確定性的減少程度。根據(jù)信息增益來判斷當(dāng)前節(jié)點(diǎn)應(yīng)該選取什么特征來構(gòu)建決策樹,信息增益越大,越適合用于分類。
決策樹以表示樣本的單個(gè)節(jié)點(diǎn)開始,構(gòu)建決策樹的算法過程如下:
①如果樣本已存在于同一類別中,則此節(jié)點(diǎn)是標(biāo)記為此類別的葉節(jié)點(diǎn)。
②否則,它將自動(dòng)生成節(jié)點(diǎn),該節(jié)點(diǎn)選擇占據(jù)大部分屬性的節(jié)點(diǎn)。
③經(jīng)過分析和總結(jié),樣本信息分為多個(gè)組。每個(gè)分支節(jié)點(diǎn)都可以獲取其子集的值,每個(gè)子集對(duì)應(yīng)一個(gè)分支。對(duì)于最后一步的每個(gè)子集,重復(fù)該過程;然后,它將為每個(gè)樣本生成一個(gè)決策樹。
④一旦某種屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)中,就不需要考慮它的后代。
當(dāng)滿足以下條件時(shí),該算法將停止:
①節(jié)點(diǎn)的所有樣本屬于同一類別。
②沒有用于劃分的左側(cè)屬性。在這種情況下,樹的節(jié)點(diǎn)將在分析和結(jié)束后更新,并且它可以自動(dòng)生成標(biāo)記有具有最多元素的類別的葉節(jié)點(diǎn)。
③如果一個(gè)分支沒有滿足這個(gè)現(xiàn)有類別的樣本,它將構(gòu)建一個(gè)葉子節(jié)點(diǎn),其中樣本具有多數(shù)類。
2.2 ?關(guān)聯(lián)規(guī)則算法在系統(tǒng)中的應(yīng)用
使用關(guān)聯(lián)規(guī)則算法,首先找出所有頻繁項(xiàng)集,采用支持度作為衡量標(biāo)準(zhǔn);然后由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,采用置信度作為衡量標(biāo)準(zhǔn);最后,根據(jù)關(guān)聯(lián)規(guī)則來支持系統(tǒng)在選擇優(yōu)秀學(xué)生、優(yōu)秀班長(zhǎng)、研究生推薦和貧困學(xué)生時(shí)的決策?;贏priori[13]算法,實(shí)現(xiàn)方法如下:
①在數(shù)據(jù)庫(kù)中構(gòu)建學(xué)生分?jǐn)?shù)、消費(fèi)情況、心理測(cè)試狀態(tài)和圖書館記錄的初始化集合。
②計(jì)算不同數(shù)據(jù)集合下的置信度,并給出在規(guī)則庫(kù)中構(gòu)建的關(guān)聯(lián)規(guī)則。
③如果學(xué)生的置信度滿足設(shè)置的閾值,那么該學(xué)生將成為候選人。
整體實(shí)現(xiàn)思路如圖3所示。
2.3 ?兩種算法的融合
這兩種算法都有解決特定問題的優(yōu)點(diǎn),將它們引入本系統(tǒng)中,利用各自的優(yōu)勢(shì)。分析學(xué)生得分時(shí),使用決策樹算法構(gòu)建分類模型;然后,結(jié)合關(guān)聯(lián)規(guī)則算法分析學(xué)生的消費(fèi)情況和心理狀態(tài),發(fā)現(xiàn)關(guān)聯(lián)信息,分析過程如圖4所示。
式中,i.score(X)表示學(xué)生X的課程i的得分,
H(X)反映學(xué)生X得分的穩(wěn)定性,M(X)表示平均表型值。如果該學(xué)生只是一個(gè)新生,則將平均表型值M(X)根據(jù)式(6)計(jì)算;如果該學(xué)生是二年級(jí)學(xué)生,則按照式(7)計(jì)算;以類似的方式,如果該學(xué)生是三年級(jí)學(xué)生,將使用式(8)計(jì)算;只有當(dāng)該學(xué)生是畢業(yè)年級(jí)學(xué)生時(shí)才會(huì)采用式(9)。
因此,根據(jù)學(xué)生X的H(X)可以掌握學(xué)生X的學(xué)習(xí)狀態(tài)。如果H(X)變低,則可以使用第二個(gè)核心模型——心理狀態(tài)測(cè)試模型,通過心理測(cè)試分析,可以得知學(xué)生得分不佳的原因。
2.3.2 ?心理狀態(tài)測(cè)試模型分析 ? 該模型包括8個(gè)部分,每個(gè)部分都有許多測(cè)試主題,這些主題由系統(tǒng)從問題數(shù)據(jù)庫(kù)自動(dòng)生成(圖5)。這個(gè)問題數(shù)據(jù)庫(kù)由權(quán)威健康心理問題構(gòu)成,并能夠及時(shí)更新[14]。選擇Highcharts[9,15]技術(shù)顯示來自學(xué)生測(cè)試的結(jié)果,包括直線圖、柱狀圖、餅狀圖等圖表類型,可以根據(jù)需要選擇合適的圖表,來清晰、準(zhǔn)確地展示測(cè)試分析結(jié)果。根據(jù)式(10)計(jì)算分析結(jié)果總值。
Zx=w1Z1+w2Z2+w3Z3+…+w8Z8 ?(10)
式中,wi表示分別來自8個(gè)部分的受試者的數(shù)量,Zi表示受試者所占的比例。通過測(cè)試分析,可以掌握學(xué)生的動(dòng)態(tài)心理。如果學(xué)生出現(xiàn)一些嚴(yán)重的心理疾病,如抑郁癥,根據(jù)分析結(jié)果,學(xué)?;蚶蠋熆梢约皶r(shí)發(fā)現(xiàn),并給予幫助。如果學(xué)生的心理狀態(tài)是正確的,還可以檢查他進(jìn)出圖書館的記錄。如有必要,也可以檢查其消費(fèi)記錄。
2.3.3 ?優(yōu)秀學(xué)生選拔算法 ?該模型包括選拔優(yōu)秀學(xué)生、優(yōu)秀班長(zhǎng)、研究生推薦和貧困學(xué)生。首先,建立模型需要的標(biāo)準(zhǔn)值,并從分?jǐn)?shù)數(shù)據(jù)庫(kù)中獲得平均表型值、消費(fèi)價(jià)值和心理健康價(jià)值數(shù)據(jù)。然后,將數(shù)據(jù)源構(gòu)建為(Y)數(shù)據(jù)集合(表1)。在綜合分析系統(tǒng)中,該部分的每個(gè)功能模型都有各自的規(guī)則。因此,做不同選擇時(shí)應(yīng)該使用不同的規(guī)則算法。
選擇優(yōu)秀學(xué)生時(shí),應(yīng)考慮兩個(gè)因素,包括一個(gè)學(xué)生的平均表型值和得分信息熵;選擇優(yōu)秀班長(zhǎng)及他或她是否是班長(zhǎng)時(shí),將需要考慮額外的因素;選擇貧困學(xué)生,授予貧困學(xué)生獎(jiǎng)學(xué)金時(shí),同時(shí)需要參考消費(fèi)價(jià)值、心理健康價(jià)值和圖書館地位信心價(jià)值數(shù)據(jù),進(jìn)行綜合分析;同時(shí),該算法也適用于研究生推薦的選擇。算法過程如下。
1)優(yōu)秀學(xué)生選拔算法。輸入:每個(gè)學(xué)生的(X)和Hi(X),i取值1到n;輸出:學(xué)生設(shè)置Z1。
①過濾數(shù)據(jù), 篩選同一班級(jí)中每個(gè)學(xué)生的Hi(X)和Mi(X);
②將所有學(xué)生的M(X)組從大到小排序;
③如果不止一個(gè)學(xué)生的相同值等于Mi(X),則這些具有相同價(jià)值的學(xué)生Mi(X)屬于一組S(X);
④將S(X)中所有學(xué)生的Hi(X)從小到大排序; 隊(duì)列的頂部屬于Z1。
2) 貧困學(xué)生的選擇算法。輸入:Hi(X)、Mi(X)、PS(X)、C(X)和S(X);輸出:學(xué)生設(shè)置Z3。
①為Mi(X)設(shè)置閾值T,如75,根據(jù)T過濾學(xué)生;
②通過基于Hi(X)和Mi(X)的上述算法,得到隊(duì)列 Z1′;
③對(duì)Z1′中所有學(xué)生的數(shù)據(jù)C(X)進(jìn)行排序,然后按照從小到大的順序存儲(chǔ)在隊(duì)列R1中;
④為C(X)設(shè)置閾值C,根據(jù)Z1′過濾學(xué)生,小于C的學(xué)生分類為Z2′;
⑤對(duì)Z2′中所有學(xué)生的數(shù)據(jù)PS(X)進(jìn)行排序,然后按順序從大到小存儲(chǔ)在隊(duì)列R2中;
⑥對(duì)Z2′中所有學(xué)生的數(shù)據(jù)S(X)進(jìn)行排序,然后按照從大到小的順序存儲(chǔ)在隊(duì)列R3中;
⑦對(duì)Z2′中所有學(xué)生的數(shù)據(jù)H((PS(X),S(X))|(C(X),M(X),H(X))進(jìn)行排序,然后按從小到大順序存儲(chǔ)在Z3中。
3 ?小結(jié)
本研究提出了一種高等教育學(xué)校選擇特殊學(xué)生,輔助教育管理的特征選擇方法,并實(shí)現(xiàn)了一個(gè)綜合分析系統(tǒng)。首先,將數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)需求將數(shù)據(jù)抽取為指定格式。然后,通過決策樹算法和關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘分析,發(fā)現(xiàn)數(shù)據(jù)中潛在關(guān)聯(lián)和有價(jià)值信息,并將分析結(jié)果通過圖表展示出來,清晰地提供給學(xué)校或老師。系統(tǒng)實(shí)施后表明,該系統(tǒng)對(duì)大學(xué)生管理和學(xué)習(xí)生活的重大改進(jìn)提供了極大幫助。學(xué)?;蚶蠋熆梢哉莆彰總€(gè)學(xué)生的學(xué)習(xí)狀態(tài)、心理活動(dòng)等信息。如,如果某個(gè)學(xué)生的研究被拒絕,可以得到該學(xué)生的圖書館記錄和信息熵,以了解他是否變得懶散;或者該學(xué)生是否存在過多娛樂性的消費(fèi)記錄;通過心理健康測(cè)試分析,了解該學(xué)生是否出現(xiàn)心理方面的消極變化。綜上可知,該系統(tǒng)可以發(fā)掘?qū)W生學(xué)習(xí)、生活、活動(dòng)的潛在關(guān)聯(lián),輔助學(xué)校或老師的管理決策,從而更加有效、合理地管理學(xué)生的學(xué)習(xí)和生活。
參考文獻(xiàn):
[1] 楊茂青,謝健民,秦 ?琴,等.基于RF算法的突發(fā)事件網(wǎng)絡(luò)輿情演化預(yù)測(cè)分析[J].情報(bào)科學(xué),2019,37(7):95-100.
[2] 吳 ?蓓.基于決策樹算法的成績(jī)預(yù)測(cè)模型研究及應(yīng)用[D].西安:西安理工大學(xué),2019.
[3] 尹 ?儒,門昌騫,王文劍.一種模型決策森林算法[J].計(jì)算機(jī)科學(xué)與探索,2020,14(1):108-116.
[4] 胡明明.決策樹算法在學(xué)生課程成績(jī)分析中的應(yīng)用研究[D].哈爾濱:哈爾濱師范大學(xué),2019.
[5] 謝霖銓,徐 ?浩,陳希邦,等.基于PCA的決策樹優(yōu)化算法[J].軟件導(dǎo)刊,2019(9):75-77,82.
[6] 張小奇.基于決策樹算法的教學(xué)管理數(shù)據(jù)分析[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,32(2):86-94.
[7] 劉 ?亮.基于數(shù)據(jù)挖掘的銀行客戶評(píng)級(jí)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].石家莊:河北科技大學(xué),2019.
[8] 南小琴,張 ?澤,印彩霞,等.基于決策樹算法的棉花產(chǎn)量預(yù)測(cè)研究[J].農(nóng)村科技,2019(1):29-35.
[9] 李 ?云.大數(shù)據(jù)分析技術(shù)及其在貧困生幫扶工作中的應(yīng)用研究[D].貴陽(yáng):貴州大學(xué),2018.
[10] 武善鋒,陸 ?霞.基于決策樹算法的體育課程分析與管理系統(tǒng) ? ? 設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,42(3):131-133,138.
[11] 潘 ?燕.決策樹算法在高職院校課程關(guān)聯(lián)分析中的應(yīng)用研究[J].現(xiàn)代信息科技,2019,3(2):151-153.
[12] 卜 ?陽(yáng).數(shù)據(jù)挖掘決策樹技術(shù)在高職教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用[J].湖北開放職業(yè)學(xué)院學(xué)報(bào),2018,31(21):32-34.
[13] 尹 ?儒,門昌騫,王文劍,等.模型決策樹:一種決策樹加速算法[J].模式識(shí)別與人工智能,2018,31(7):643-652.
[14] 陰亞芳,孫朝陽(yáng).決策樹算法在實(shí)踐教學(xué)中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2018,46(6):1078-1082,1088.
[15] 朱瑞瑞.基于改進(jìn)決策樹算法的績(jī)效測(cè)評(píng)應(yīng)用研究[D].合肥:安徽大學(xué),2018.