徐雪珂 林童 王健
(江西財經(jīng)大學(xué)軟件與物聯(lián)網(wǎng)工程學(xué)院,江西 南昌 330000)
[關(guān)鍵字] 異常點檢測;算法應(yīng)用;教育信息化;數(shù)據(jù)挖掘
隨著人類科技的日新月異,越來越多的數(shù)據(jù)通過傳感器被記錄到各種電子設(shè)備中。但是如此規(guī)模浩瀚的數(shù)據(jù)使得人們無法通過有限的人力篩選出實際需要的有效數(shù)據(jù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。于是各種數(shù)據(jù)挖掘算法應(yīng)運而生,從海量的數(shù)據(jù)中去蕪存菁,從而篩選出最優(yōu)質(zhì)的信息。這些信息大部分是符合某種規(guī)律的,但是也有少量信息,因為傳感器識別問題或記錄錯誤等種種原因與同類數(shù)據(jù)所符合的規(guī)律背道而馳,這些信息我們稱之為信息庫中的異常點。
異常點檢測算法是數(shù)據(jù)挖掘中一種基本的算法,主要用于在整體數(shù)據(jù)中搜索不符合同類規(guī)律的數(shù)據(jù)樣本,這些數(shù)據(jù)樣本有可能是整體數(shù)據(jù)中的“臟數(shù)據(jù)”,也有可能是一些小概率事件被傳感器真實記錄了下來。在現(xiàn)實生活中,這些樣本往往被人所忽視,但能給我們提供重要信息,成為我們在分析問題時的重要依據(jù)。
異常點檢測的研究早在20世紀(jì)80年代便始于統(tǒng)計學(xué)領(lǐng)域,異常點分析算法在金融、商業(yè)、醫(yī)療等很多行業(yè)都發(fā)揮了重要的作用。同樣的,在教育領(lǐng)域中,不同的感知器會在學(xué)習(xí)者學(xué)習(xí)的各個階段中獲取海量數(shù)據(jù),此時從中挖掘出的異常數(shù)據(jù)能夠在教學(xué)的各個階段發(fā)揮出很好的作用。本文是將異常點分析算法在其他領(lǐng)域展現(xiàn)出的作用遷移至教育行業(yè),針對目前教育領(lǐng)域的問題和發(fā)展,就異常點檢測算法的應(yīng)用情況進(jìn)行分析和探討。
當(dāng)前學(xué)術(shù)界對異常點尚無統(tǒng)一定義,但最具代表性的是V.Barnette在統(tǒng)計學(xué)領(lǐng)域中給出的定義:一個異常點是這樣的數(shù)據(jù)點,基于某種度量而言,該數(shù)據(jù)點與數(shù)據(jù)集中的其他數(shù)據(jù)有著顯著的不同[2]。我們可以這樣理解,當(dāng)一個數(shù)據(jù)集中的同類數(shù)據(jù)都符合某種或多種數(shù)據(jù)分布時,而某一個數(shù)據(jù)樣本并不符合此分布,我們就可以稱,這個數(shù)據(jù)樣本是整個數(shù)據(jù)集中的一個異常點。
異常點分類角度眾多,一般情況,可將其歸結(jié)為以下幾類:
2.2.1 應(yīng)剔除的異常點
此類型異常點是由于用于記錄數(shù)據(jù)的傳感器或者信息錄入人員出錯所得到的異常情況。
例如,在所有學(xué)生的成績數(shù)據(jù)中出現(xiàn)了負(fù)值,這一異??赡苁窃撏瑢W(xué)的成績錄入出現(xiàn)錯誤而導(dǎo)致的,或者某一天某一同學(xué)出入圖書館上百次,可能是由于圖書館的信號檢測器出現(xiàn)了某種未知故障。此類數(shù)據(jù)應(yīng)及時從數(shù)據(jù)庫中清除,以免造成更大面積的數(shù)據(jù)污染。
2.2.2 應(yīng)特別處理的異常點
此類型的異常數(shù)據(jù)并不是任何執(zhí)行錯誤所致,而是用于記錄數(shù)據(jù)的傳感器出現(xiàn)問題,抑或是固有的數(shù)據(jù)本身存在變化的結(jié)果。
例如,某班同學(xué)出勤數(shù)據(jù)出現(xiàn)集體異常,本應(yīng)正常記錄的考勤數(shù)據(jù)出現(xiàn)集體曠課的記錄,可能是考勤記錄的儀器出現(xiàn)了物理性損壞,或者出入校園的信息出現(xiàn)大幅度變化。當(dāng)然,也有可能不是信息采集設(shè)備出現(xiàn)問題,而是當(dāng)前時間有重要會議或者重大活動。我們不能把這一類問題直接刪除,否則將會破壞數(shù)據(jù)的整體性和全局性,同樣也要有別于正常符合分布的數(shù)據(jù),因為應(yīng)特別處理的異常數(shù)據(jù)并未占據(jù)整體數(shù)據(jù)的主體地位,所以就此我們應(yīng)當(dāng)使用加一個低權(quán)重的方式使得這些異常對全局?jǐn)?shù)據(jù)的影響降到最低。
2.2.3 應(yīng)重視的異常點
此類型異常數(shù)據(jù)是需要決策者高度重視的數(shù)據(jù)。
例如,在某一個時間段,某學(xué)生的成績急劇降低,這種情況可能并非是錄入成績的同學(xué)出現(xiàn)紕漏,而是學(xué)生最近的心理狀態(tài)或生活狀態(tài)出現(xiàn)極大危機,此時就需要指派輔導(dǎo)員或者班主任就該生進(jìn)行生活上的幫助或者心理疏導(dǎo),以避免事態(tài)進(jìn)一步惡化。此類數(shù)據(jù)也是我們在整體分析中最寶貴的數(shù)據(jù)資源。
此外,根據(jù)不同分類角度,異常點還可以分為其它多種類別,例如按照數(shù)據(jù)范圍分類,可以分為全局異常點和局部異常點;按照變量數(shù)量分類,可以將異常點分為單變量異常點和多變量異常點;盡管該分類不是很完備,但側(cè)面反映了數(shù)據(jù)集中異常點類型的多樣性。因此,有效地發(fā)現(xiàn)數(shù)據(jù)集中的異常點并不是一件容易的工作,需要采用有效的策略和算法[3]。
異常點檢測算法在教育中的應(yīng)用首當(dāng)其沖的就是貫穿于學(xué)生學(xué)習(xí)過程的診斷性評價、形成性評價和終結(jié)性評價,也就是常說的各項測試。
傳統(tǒng)的測試是一系列復(fù)雜的過程,即使在學(xué)校配備了專業(yè)的電子錄入設(shè)備和成績核算系統(tǒng),考試成績的整理和核算對于老師也是相當(dāng)繁重的工作。老師需要花費大量的時間去比對每一次考試中每一位同學(xué)的成績走向和趨勢,同時在耗費了大量人力的同時仍無法了解所有學(xué)生成績的走向趨勢,也難免出現(xiàn)紕漏。而將異常點檢測算法運用于考試測評中,完全可以使用計算機進(jìn)行這一部分的重復(fù)工作。
當(dāng)獲取到每一位同學(xué)每一次考試成績后,即可對整個成績體系進(jìn)行建模,找到擬合學(xué)生成績的函數(shù),此時便可使用異常點檢測算法檢測出與整體成績趨勢不符的學(xué)生,當(dāng)連續(xù)幾次同整體成績趨勢偏差較大時(一般為成績持續(xù)明顯下降),即可對相關(guān)責(zé)任教師提出學(xué)業(yè)預(yù)警。這樣一來,教師只需要關(guān)注系統(tǒng)中有學(xué)業(yè)預(yù)警的學(xué)生,從生活和學(xué)習(xí)等方面尋找原因,有針對性地提升學(xué)生的學(xué)習(xí)水平,最終達(dá)到提升整體成績的目的。
目前在中小學(xué)中基本沒有相關(guān)的考試測評和打分系統(tǒng),對于考試成績的整理和分析仍然停留在Excel人工操作的層面。在教育信息化高速普及的今天,軟硬件資源的嚴(yán)重不協(xié)調(diào),教師普遍的信息技術(shù)素養(yǎng)的缺失,是教育部門進(jìn)一步開展教育信息化工作的重點。
隨著眼動和面部捕捉等系統(tǒng)的不斷發(fā)展,越來越多的人體生物信息捕捉設(shè)備和捕捉系統(tǒng)如雨后春筍般出現(xiàn)在人們的視野中,能捕捉到的人體生物信息也就越來越多。于是大量科研項目開始展開對學(xué)習(xí)者生物信息(例如上課是否打瞌睡或者走神等)對教學(xué)效果影響的研究。
傳統(tǒng)的課堂上,教學(xué)管理這一部分的職責(zé)是由教師完成的。這也就意味著,教師除了本身教學(xué)的職能之外,又肩負(fù)了課堂秩序維持者和管理者的職能,這對于教師來說,需要耗費更多的注意力在課堂秩序上,也就無形中降低了課程的教學(xué)質(zhì)量。在美國作家霍恩、斯泰克合著的《混合式學(xué)習(xí)》中,大量國外案例表明,將教學(xué)者和課堂秩序管理者和監(jiān)督者的身份區(qū)分開將會有效地提升學(xué)習(xí)者的學(xué)習(xí)質(zhì)量和學(xué)習(xí)效率,但是同樣的,也需要花費更多的人力物力,這對于當(dāng)前的中國來說是非常不現(xiàn)實的。但是當(dāng)前信息捕捉設(shè)備和機器學(xué)習(xí)算法的高速發(fā)展為當(dāng)前國內(nèi)教育開辟了一條新路,異常點檢測算法也會在其中發(fā)揮重要的作用。
從海量數(shù)據(jù)中搜索相關(guān)信息最簡單的方法就是通過對生物信息的預(yù)處理,從而得到學(xué)習(xí)者的一系列標(biāo)簽,再使用異常點檢測算法對這些標(biāo)簽進(jìn)行檢測,分別檢測不同時間段內(nèi)學(xué)習(xí)者的異常情況,將這些異常情況對應(yīng)形成性評價的成績,結(jié)合整體成績趨勢和個人成績趨勢,使用相應(yīng)數(shù)據(jù)挖掘算法得到每種不同的生物信息異常對成績影響的權(quán)重。
形成模型后,即可通過模型檢測學(xué)習(xí)者整體異常情況在教學(xué)過程中每個環(huán)節(jié)教學(xué)效果的反映,對教學(xué)者的整個教學(xué)過程進(jìn)行評價,給出對教學(xué)活動的進(jìn)一步改進(jìn)意見。另一方面,模型同樣可以對學(xué)習(xí)者經(jīng)常出現(xiàn)的負(fù)面生物信息進(jìn)行捕捉,反饋給相關(guān)管理者,對學(xué)習(xí)者進(jìn)行校正來達(dá)到優(yōu)化學(xué)習(xí)過程的目的。這樣一來,沒有增加人力資源的同時給教學(xué)者提供了更多信息用來決策和參考,從某種意義上來說彌補了課堂秩序管理者的功能。
當(dāng)前國內(nèi)學(xué)校的信息化水平正在由低層次融合階段向中等層次融合階段過渡,學(xué)校之中雖然購置了大量設(shè)備,但是能獲取到的數(shù)據(jù)有限,能夠獲取到最多的信息就是日常生活中學(xué)生校園卡的使用情況。通過異常點檢測對此類數(shù)據(jù)進(jìn)行分析再加以應(yīng)用,最廣泛的就是在考勤和消費數(shù)據(jù)方面的應(yīng)用。
目前國內(nèi)眾多高校都擁有自己的智能教務(wù)管理系統(tǒng)和學(xué)生管理系統(tǒng),看起來林林總總,但是仍然存在數(shù)據(jù)無法互通、功能單一化和數(shù)據(jù)利用不完全的問題。當(dāng)前學(xué)校無法通過表面的信息和現(xiàn)有人力資源去排查每一位同學(xué)的心理動向,對于學(xué)校的很多安全隱患無法在第一時間有效察覺,目前有很多學(xué)者開始就學(xué)校現(xiàn)有數(shù)據(jù)挖掘出隱藏的信息方面做出研究。
在國內(nèi)相關(guān)研究《基于智慧校園的智慧一卡通學(xué)生管理系統(tǒng)設(shè)計與構(gòu)建》中提到,“學(xué)習(xí)者違紀(jì)情況的離群點檢測,旨在將學(xué)生近期違紀(jì)情況同歷史情況和班級總體情況進(jìn)行綜合對比,當(dāng)其違紀(jì)情況波動超出正常范圍時,系統(tǒng)就會在相關(guān)模塊給對應(yīng)級別的管理員一個提示,將數(shù)據(jù)反饋給學(xué)院,使管理者可以在第一時間了解學(xué)生的思想動態(tài),在一定程度上防止校園事故的發(fā)生[5]”,這是異常點檢測算法在學(xué)生安全穩(wěn)定方面的重要應(yīng)用。
在相關(guān)研究《基于校園一卡通數(shù)據(jù)的貧困學(xué)生消費異常數(shù)據(jù)檢測分析》中提到“針對候選貧困生樣本采用基于正態(tài)分布的一元離群點檢測算法進(jìn)行異常點檢測,檢測所得異常結(jié)果用于學(xué)校學(xué)生工作人員在對貧困生最終認(rèn)定時做輔助參考[6]”,這是異常點檢測算法在學(xué)生事務(wù)評定方面的重要應(yīng)用。
“三通兩平臺”在全國各地如火如荼地開展,不同地區(qū)、不同學(xué)校所能夠共享的教學(xué)服務(wù)和教學(xué)管理資源也會越來越多。但正因為有如此大量的信息,采用哪一種方法最能符合學(xué)校的現(xiàn)實狀況,能夠為學(xué)校帶來最大的效益便成為了眾多學(xué)校決策者亟待解決的問題。
如果無法選擇一個最符合的方案,在別的地區(qū)實行得很好的教學(xué)策略和管理措施,在自己學(xué)校將會變成失敗的改革舉措。教育之下無小事,這樣的情況不僅會引來眾人詬病,同樣會將信任自己的學(xué)生和家長帶向未知的境地。在這種情況下,對教學(xué)資源的挖掘便成為了教育決策者最需要的服務(wù)。
此時,可以對平臺中所有資源使用相應(yīng)算法進(jìn)行量化處理,將處理的數(shù)據(jù)同當(dāng)前學(xué)校情況的量化數(shù)據(jù)引入異常點檢測算法進(jìn)行檢測,此時算法所充當(dāng)?shù)木褪且环N數(shù)據(jù)篩選和數(shù)據(jù)過濾的角色。采用算法的相關(guān)系統(tǒng)就能夠給教育決策者提供有科學(xué)和現(xiàn)實依據(jù)的參考意見,大大減輕了決策的困難度和復(fù)雜度。
當(dāng)前階段,機器學(xué)習(xí)大熱,究其原因在于其算法可廣泛應(yīng)用于工業(yè)和金融等諸多領(lǐng)域,通過更加精準(zhǔn)的關(guān)聯(lián)度和準(zhǔn)確度分析,為相關(guān)公司帶來巨額收益。這些算法同樣可以適用于教育領(lǐng)域。
當(dāng)前在機器學(xué)習(xí)領(lǐng)域的主要研究方向有計算機視覺、自然語言處理、數(shù)據(jù)挖掘等,能夠涉及的門類更是紛繁復(fù)雜,例如語音識別、文本翻譯、視頻分析、圖像處理等??上攵@些新技術(shù)結(jié)合教育的每一個環(huán)節(jié)都能夠發(fā)揮出巨大的效用,筆者認(rèn)為這將是教育技術(shù)在接下來的這些年中最重要也是最熱門的研究方向。而在這些算法中,異常點檢測算法都有著不可忽視的重要作用。例如,在數(shù)據(jù)預(yù)處理階段,異常點檢測算法是清洗垃圾數(shù)據(jù)和保證數(shù)據(jù)完整性最重要的防線。
以上研究表明,異常點檢測算法不只是可以在傳統(tǒng)領(lǐng)域發(fā)揮作用、展現(xiàn)價值,同樣可以在教育領(lǐng)域的方方面面發(fā)揮作用、提升效率。隨著教育信息化的不斷發(fā)展,“三通兩平臺”等項目的不斷推進(jìn),教育領(lǐng)域能夠使用的信息技術(shù)數(shù)據(jù)也越來越豐富,這也為異常點檢測算法在教育領(lǐng)域中的應(yīng)用提供了有力的保障。因此,緊隨“互聯(lián)網(wǎng)+”的時代熱潮,我們應(yīng)當(dāng)在實際教育的過程中拓寬視野,更多地以算法的思想來解決教育中的實際問題,將信息技術(shù)與教育進(jìn)行更深層次的融合。