遼寧石化職業(yè)技術學院 楊 迪
基于距離的孤立點挖掘改進算法在教務管理中的應用
遼寧石化職業(yè)技術學院 楊 迪
目前,國內高校的在校生人數都已達到上萬的規(guī)模,并且運行著成績管理等各種各樣的軟件系統(tǒng),這些系統(tǒng)中的數據庫積累了大量的數據。利用這些數據理性地分析學校各方面工作的成效特別是在學生培養(yǎng)過程中的得失變得十分重要。本文通過對經典的基于距離的孤立點挖掘算法的分析與研究,提出了一種改進的孤立點挖掘算法,并將該挖掘模型應用到教務管理系統(tǒng)學生成績歷史數據的挖掘中。
數據挖掘;孤立點;教務管理;學生成績
(1)數據預處理
本文選取數據對象為遼寧石化職業(yè)技術學院石油化工生產技術專業(yè)2013級學生。選取該專業(yè)167名學生入學后三個學期考試成績作為實驗的數據集,在數據預處理過程中,將考試成績不及格的學生成績統(tǒng)一記為50分,以便能夠參照學生平均績點公式計算。
(2)平均績點計算公式其中,Si為第i門課程的分數,Ci為第i門課程的學分,n為課程門數。(3)孤立點定義
文中以學生平均績點分析為例,選取數據對象同上,將三個學期的學分績點看做檢測屬性,該問題歸屬于多變量的孤立點檢測問題。經過數據分析,通過孤立點挖掘算法檢測學習成績,其中上升、下降幅度變化較大的即為孤立點。
(1)系統(tǒng)結構
經過改良的挖掘算法與傳統(tǒng)的基于距離的孤立點檢測算法相比,首先能夠查找出相似的孤立點,并明確了孤立點的程度,去掉了設置參數p和d;其次,引入關鍵屬性后,數據集中非關鍵屬性的數據可以在數據預處理階段中刪除掉,以便提高效率;再次,通過距離度量的改進,可降低錯誤的概率。本文將遼寧石化職業(yè)技術學院教務管理系統(tǒng)中的數據用改進后的算法計算,對學生的平均績點進行孤立點挖掘,嘗試挖掘出“其他的”但是有用的信息,以便管理者和教育決策者做決策。程序框圖如圖1所示:
圖1 程序框圖
(2)關鍵屬性的確定
針對學生的平均績點,可求出相應的屬性隸屬度,分別為λ1=0.137932,λ2=0.279831,λ3=0.036037,可以看出λ2>λ1>λ3,λ2即為關鍵屬性。因此在數據預處理階段,可刪除屬性1和屬性3的數據,使孤立點挖掘的效率提高。
(3)改進距離度量
本文采用了基于改進距離度量的方法,降低數據分布不均勻給孤立點挖掘結果帶來的影響。
(4)孤立點挖掘程序代碼
通過結果數據比較得出,在遼寧石化職業(yè)技術學院石油化工生產技術專業(yè)2013級157名學生數據中挖掘出11個孤立點,大部分是成績不穩(wěn)定的同學,比如吳皓、張強、劉晶晶等,成績上升的有張華軍,成績下降的學生有劉瑤、田梓萌等。結果數據可以作為教育管理者制定人才培養(yǎng)方案和教學計劃時的參考依據,可以為教育者提供專業(yè)的“特殊”學生,尤其是成績下降幅度大的學生,班主任以及任課教師可以有針對性的進行輔導和幫助,從而能夠在短時間內將學生的成績提高上去。
此外,在改進算法中引進關鍵屬性概念,使非關鍵屬性的數據不參加計算,以提高了算法效率。通過結果數據對比,孤立點的挖掘結果基本一致,只在順序上略有不同,可忽略不計。與傳統(tǒng)的孤立點挖掘方法相比,上文采用的算法取消設置參數p和d,使用者只需指定需要挖掘出的孤立點個數,即j值,就可以檢測出j個孤立點。在時間復雜度上,本文采用的算法也優(yōu)于其他算法。
[1]張京民等.數據倉庫與數據挖掘技術[M].北京:電子工業(yè)出版社,2002.
[2]孟浩.孤立點挖掘技術在入侵檢測中的應用研究[D].大連海事大學碩士學位論文,2007.
[3]黃浩,王建軍.WEB使用挖掘研究[J].計算機系統(tǒng)應用,2008(1):125-128.
[4]曾春,邢春曉,周立柱.個性化服務技術綜述[J].軟件學報,2002, 13(10):1952-1961.
楊迪(1980—),男,滿族,遼寧錦州人,碩士,講師,主要從事應用數學及圖論的研究。