羅曉媛,趙麗艷,劉 君,鄒 棟
(1. 黑河學(xué)院理學(xué)院,黑龍江 黑河 164300;2. 哈爾濱理工大學(xué),黑龍江 哈爾濱 150000)
在實(shí)際的學(xué)習(xí)過(guò)程中,不同的學(xué)習(xí)者在學(xué)習(xí)水平和學(xué)習(xí)效果上存在著差異。一部分學(xué)習(xí)者對(duì)網(wǎng)絡(luò)學(xué)習(xí)表現(xiàn)出較高的熱情和參與度,能夠取得較好的學(xué)習(xí)效果;另一部分學(xué)習(xí)者缺乏參與深度學(xué)習(xí)的積極性,甚至偏離了學(xué)習(xí)的目標(biāo)。這一分化現(xiàn)象十分突出,在一定程度上影響了網(wǎng)絡(luò)教學(xué)的整體質(zhì)量和效果。近幾年來(lái),在線教育數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng),數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用越來(lái)越受到重視,數(shù)據(jù)采集器能為學(xué)生提供建議,為教師提供反饋,預(yù)測(cè)學(xué)生的表現(xiàn),發(fā)現(xiàn)不良行為,將學(xué)生分組,編制課程,計(jì)劃和進(jìn)度,數(shù)據(jù)分析和可視化等。
當(dāng)前已有較多學(xué)者開展了關(guān)于時(shí)序數(shù)據(jù)挖掘的研究,趙曉永, 王寧寧, 王磊研究了基于主動(dòng)學(xué)習(xí)的離群點(diǎn)集成挖掘方法[1],該方法主要根據(jù)各種基學(xué)習(xí)器的對(duì)比分析, 從標(biāo)注的數(shù)據(jù)集和各基學(xué)習(xí)器投票產(chǎn)生的數(shù)據(jù)集中抽樣, 得出最終的挖掘結(jié)果;張琳, 李小平, 來(lái)林靜,等人研究了基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法[2],該方法提出了游戲教學(xué)的數(shù)據(jù)框架, 構(gòu)建了分層數(shù)據(jù)挖掘模型,以對(duì)數(shù)據(jù)進(jìn)行了挖掘。但是存在的離群點(diǎn)挖掘準(zhǔn)確度低的問(wèn)題。
人工神經(jīng)網(wǎng)絡(luò)是基于一組被稱為人工神經(jīng)元的連接單元或節(jié)點(diǎn),不同的細(xì)胞層可對(duì)其輸入進(jìn)行不同類型的轉(zhuǎn)換,已廣泛應(yīng)用于計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、社交網(wǎng)絡(luò)過(guò)濾領(lǐng)域中。為此設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘方法。
此次研究的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘方法在教育應(yīng)用中的流程如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘流程
如上圖所示為此次研究方法的離群點(diǎn)數(shù)據(jù)挖掘流程,首先確定分析對(duì)象[3],然后明確分析目的,主要對(duì)翻轉(zhuǎn)課堂教學(xué)活動(dòng)進(jìn)行評(píng)價(jià)?,F(xiàn)實(shí)教育教學(xué)環(huán)境中,涉及的教育教學(xué)數(shù)據(jù)量大、種類復(fù)雜,并隨時(shí)間推移不斷地動(dòng)態(tài)生成。在以教育因素為研究對(duì)象的異常檢測(cè)中,需要考慮異常的范圍和數(shù)量等重要因素,以下為具體處理過(guò)程。
在檢測(cè)對(duì)象確定之后,將被檢測(cè)對(duì)象的數(shù)據(jù)聚類,以去除相對(duì)相似的數(shù)據(jù)。對(duì)象屬于聚類的程度, 可以通過(guò)對(duì)象與聚類中心之間的相似度進(jìn)行測(cè)量,與平均相似度進(jìn)行比較,若較小,則表示數(shù)據(jù)點(diǎn)屬于離群狀態(tài),收集該部分離群點(diǎn),統(tǒng)一構(gòu)成異常點(diǎn)集合,基于聚類算法的流程圖如圖2所示。
圖2 聚類流程
假設(shè)Aj是教學(xué)評(píng)價(jià)數(shù)據(jù)中的一個(gè)屬性[4],x、y分別是Aj的兩個(gè)取值,Ai代表數(shù)據(jù)集中的另一個(gè)屬性,m代表Ai范圍中的一個(gè)子集?!玾是w的補(bǔ)集,Pi(w∣x)代表屬性Aj取值為x時(shí),Ai取值屬于w集合的條件概率。將Aj屬性下兩個(gè)取值x、y相對(duì)于屬性Ai的距離表示為
δij(x,y)=Pi(w∣x)+Pi(~w∣y)
(1)
在此基礎(chǔ)上,對(duì)兩個(gè)屬性值的距離進(jìn)行度量,通過(guò)其度量能夠?yàn)榕袛鄶?shù)據(jù)對(duì)象之間相似度提供基礎(chǔ)依據(jù)。假設(shè)數(shù)據(jù)集的屬性個(gè)數(shù)為m,對(duì)于數(shù)據(jù)集中任意 屬性的兩個(gè)取值x、y之間的距離[5]表示為
(2)
在計(jì)算過(guò)程中,每個(gè)屬性在計(jì)算兩個(gè)對(duì)象之間的距離時(shí),權(quán)重都是相等的。
基于上述計(jì)算獲得數(shù)據(jù)可達(dá)距離,在此基礎(chǔ)上對(duì)局部可達(dá)密度進(jìn)行計(jì)算,計(jì)算公式如下所示
(3)
式(3)中,Nk(q)代表距離數(shù)據(jù)點(diǎn)q最近的數(shù)據(jù)點(diǎn)的集合,q代表離群點(diǎn),lrd代表局部可達(dá)密度[6]。
通過(guò)上述計(jì)算能夠?qū)⒃u(píng)價(jià)數(shù)據(jù)區(qū)別與同一屬性下不同屬性的差異。依據(jù)上述聚類處理[7]過(guò)程,能夠確定比較對(duì)象,針對(duì)教育平臺(tái)數(shù)據(jù)集中所有對(duì)象進(jìn)行比較,可以將不同的數(shù)據(jù)對(duì)象劃分到相應(yīng)的子類中,從而確定檢測(cè)對(duì)象的鄰域,將鄰域范圍內(nèi)的對(duì)象作為比較的對(duì)象,為時(shí)序數(shù)據(jù)離群點(diǎn)挖掘提供基礎(chǔ)。
在上述檢測(cè)對(duì)象鄰域確定完成的基礎(chǔ)上,對(duì)離群點(diǎn)挖掘,由于它的規(guī)模很小,范圍很廣,在分析時(shí)非常容易將異常值視為錯(cuò)誤或無(wú)效數(shù)據(jù),也會(huì)影響研究對(duì)象的總體準(zhǔn)確度,引起誤解,增加分析難度。為此采用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)時(shí)序數(shù)據(jù)離群點(diǎn)挖掘[8]。神經(jīng)元模型如圖3所示。
圖3 神經(jīng)元模型
神經(jīng)元模型如圖3所示[9],通過(guò)上圖可以發(fā)現(xiàn)神經(jīng)元模型的組成主要包括輸入以及輸出值、權(quán)值以及輸出函數(shù),不同組成部分之間的基本關(guān)系如下式所示
y=f(wx+θ)
(4)
式(4)中,y代表輸出值,f代表傳輸函數(shù),θ代表偏置,w代表權(quán)值,x代表輸入值。
基于神經(jīng)網(wǎng)絡(luò)的離群點(diǎn)挖掘流程如下所示:
第一步:初始化BP神經(jīng)網(wǎng)絡(luò),對(duì)各層的權(quán)值和偏差進(jìn)行隨機(jī)初始化,輸入層的神經(jīng)元個(gè)數(shù)由數(shù)據(jù)集中數(shù)據(jù)屬性個(gè)數(shù)決定。通過(guò)上述過(guò)程已經(jīng)獲得檢測(cè)對(duì)象的鄰域范圍,假設(shè)鄰域范圍內(nèi)數(shù)據(jù)集中有m個(gè)屬性,則將輸入層的神經(jīng)元個(gè)數(shù)設(shè)置為m;
第二步,通過(guò)給定訓(xùn)練集,獲取輸入以及輸出向量,分別設(shè)定為向量x和向量y;
第三步,明確節(jié)點(diǎn)數(shù)量[10],對(duì)節(jié)點(diǎn)數(shù)量進(jìn)行隱藏以及輸出處理;
第四步,依據(jù)給定數(shù)據(jù)轉(zhuǎn)發(fā)輸出數(shù)據(jù),獲取神經(jīng)網(wǎng)絡(luò)實(shí)際輸出值。
第五步,對(duì)輸出值進(jìn)行處理,該值可以對(duì)數(shù)據(jù)集中分布情況進(jìn)行充分反映,根據(jù)神經(jīng)網(wǎng)絡(luò)輸出值,異常數(shù)據(jù)可以通過(guò)熵值結(jié)果加以判定,熵值表示樣本在某種范疇內(nèi)的不確定性。熵[11]越大,樣本的不確定度也就越高,樣本更可能出現(xiàn)異常。提出當(dāng)熵值超過(guò)某一閾值時(shí),樣本即為異常點(diǎn)。當(dāng)閾值較小時(shí),設(shè)置一個(gè)閾值為E,其范圍為0-1之間。
由此,給出評(píng)價(jià)函數(shù)E,其與得到的兩種類別樣例個(gè)數(shù)相關(guān),即:
E=E(aPr,bPw)
(5)
式(5)中,a、b分別代表權(quán)值,P代表分類為正確的樣例,Pw代表分類為錯(cuò)誤的樣例,E表示用某一閾值來(lái)做異常點(diǎn)判斷的有效性。
E值的大小與異常點(diǎn)碗蕨的效果好壞優(yōu)密切關(guān)聯(lián),該值越大,挖掘效果越好,反之,挖掘效果越差。
E值的大小與分類正確的樣例個(gè)數(shù)成反比,即分類錯(cuò)誤的樣例個(gè)數(shù)與E值成正比。所以給出的評(píng)價(jià)函數(shù)E的公式如下:
E=-aPr+bPw
(6)
為提高挖掘準(zhǔn)確性,采用下述公式減小E誤差,其表達(dá)式為:
(7)
式(7)中,η代表系數(shù),該系數(shù)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中學(xué)習(xí)的速度,即學(xué)習(xí)率。
并假設(shè)fr(φ)代表數(shù)據(jù)集中分類正確的樣例的密度函數(shù),fw(φ)為數(shù)據(jù)集中分類錯(cuò)誤的樣例的密度函數(shù),如圖4所示。
圖4 分類正確與分類錯(cuò)誤數(shù)據(jù)的分布函數(shù)
這樣就有如下表示
(8)
(9)
從而得到
P(E)=-aPr+bPw
(10)
綜上所述,通過(guò)P(E)對(duì)異常點(diǎn)挖掘的效率進(jìn)行判斷,該值的大小與挖掘效率呈現(xiàn)正比,該值越大,證明挖掘效率越高,反之,挖掘效果越差[12]。所以P(E)取極大值時(shí),熵的取值最佳。
第六步,根據(jù)神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出與期望輸出,對(duì)網(wǎng)絡(luò)的輸出誤差進(jìn)行計(jì)算,判斷網(wǎng)絡(luò)的停止條件。若符合,則停止訓(xùn)練并退出神經(jīng)網(wǎng)絡(luò)對(duì)離群點(diǎn)評(píng)價(jià),若不符合,則返回步驟二。
第七步,離群點(diǎn)評(píng)價(jià),對(duì)檢測(cè)出得離群點(diǎn)進(jìn)行評(píng)價(jià),弄清數(shù)據(jù)離群的原因。
異常值經(jīng)過(guò)識(shí)別和驗(yàn)證后,需要對(duì)異常值進(jìn)行后處理,才能準(zhǔn)確為教育決策服務(wù)。第一,從技術(shù)角度分析了離群值的成因;若因技術(shù)原因或人為輸入錯(cuò)誤,則需剔除這類異常數(shù)據(jù),以減少后期處理難度,提高數(shù)據(jù)的準(zhǔn)確性。第二,主觀臆斷的影響消除技術(shù)誤差因素,采用適當(dāng)?shù)闹悄芡诰蛩惴▽?duì)異常點(diǎn)進(jìn)行挖掘,建立分析模型,確定適當(dāng)?shù)漠惓7秶?,以減少異常點(diǎn)的主觀性,降低異常點(diǎn)相關(guān)性帶來(lái)的誤差影響。第三,將異?,F(xiàn)象的分析結(jié)果以直觀的形式呈現(xiàn)出來(lái),以便能夠結(jié)合具體的教育教學(xué)情況,詳細(xì)分析異?,F(xiàn)象產(chǎn)生的原因,有針對(duì)性地提出相應(yīng)的措施和方案,使離群點(diǎn)檢測(cè)算法發(fā)揮更大的實(shí)用價(jià)值。
不斷迭代上述基于神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程,直至所有的離群點(diǎn)挖掘完畢,才停止此次設(shè)計(jì)的算法,以此通過(guò)上述過(guò)程完成基于神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘。
此次實(shí)驗(yàn)的硬件環(huán)境如下:Intel 處理器 2.40GHz,6GB 內(nèi)存。所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自于翻轉(zhuǎn)課堂教學(xué)數(shù)據(jù)庫(kù)。由于原始數(shù)據(jù)量較多,為節(jié)省實(shí)驗(yàn)時(shí)間,隨機(jī)抽取一定的實(shí)驗(yàn)數(shù)據(jù),抽取規(guī)則如下所示:對(duì)樣本數(shù)量較少的類別,抽取全部樣本;對(duì)樣本數(shù)量大的類別,隨機(jī)抽取10%樣本;對(duì)樣本數(shù)量大的類別,抽取1%樣本。根據(jù)上述抽取規(guī)則,得到樣本數(shù)據(jù)集總數(shù)為7000條,共有7項(xiàng)數(shù)據(jù)。
表1 實(shí)驗(yàn)環(huán)境
在上述實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備完成的基礎(chǔ)上,從準(zhǔn)確性和效率兩個(gè)方面,分析此次設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘方法的性能,并為了保證實(shí)驗(yàn)嚴(yán)謹(jǐn)性,將文獻(xiàn)[1]中基于主動(dòng)學(xué)習(xí)的離群點(diǎn)集成挖掘方法與文獻(xiàn)[2]中基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法與此次研究的方法對(duì)比。
采用此次研究的挖掘方法與傳統(tǒng)兩種挖掘方法對(duì)實(shí)驗(yàn)數(shù)據(jù)的離散群點(diǎn)數(shù)據(jù)發(fā)掘,對(duì)比兩種挖掘方法的挖掘準(zhǔn)確性,對(duì)比結(jié)果如圖5所示。
圖5 挖掘準(zhǔn)確性對(duì)比
由上述對(duì)比結(jié)果能夠看出,由此次提出的挖掘算法能夠準(zhǔn)確檢測(cè)出離群點(diǎn),較傳統(tǒng)兩種檢測(cè)算法檢測(cè)準(zhǔn)確性高。
傳統(tǒng)的基于主動(dòng)學(xué)習(xí)的離群點(diǎn)集成挖掘方法、基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法與此次研究方法的挖掘效率對(duì)比結(jié)果如圖6所示。
圖6 挖掘效率對(duì)比
通過(guò)上圖能夠看出,三個(gè)方法中,執(zhí)行時(shí)間最短的是此次研究的算法,基于主動(dòng)學(xué)習(xí)的離群點(diǎn)集成挖掘方法執(zhí)行時(shí)間最長(zhǎng),由此能夠證明此次研究的方法的有效性。
綜上所述,此次研究的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時(shí)序數(shù)據(jù)離群點(diǎn)挖掘方法較傳統(tǒng)方法的挖掘準(zhǔn)確性高,挖掘效率高。原因是,此次研究的挖掘方法能夠預(yù)先對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行聚類,有利用了神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)候選離群項(xiàng)集進(jìn)行了檢測(cè),得到最后的離群點(diǎn),從而提高了離群點(diǎn)挖掘算法的有效性。
針對(duì)高校教學(xué)平臺(tái)的需求,設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)技術(shù)的離群點(diǎn)挖掘算法,對(duì)多尺度時(shí)間序列數(shù)據(jù)進(jìn)行離群點(diǎn)挖掘,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。利用該方法,可以對(duì)教學(xué)評(píng)價(jià)數(shù)據(jù)進(jìn)行基于現(xiàn)實(shí)的挖掘,將已有的管理數(shù)據(jù)轉(zhuǎn)化為可利用的知識(shí),從而使教師更好地開展教學(xué)活動(dòng)。
接下來(lái),將所提出的算法應(yīng)用到某教學(xué)平臺(tái)的所有教學(xué)評(píng)估數(shù)據(jù)中,探討教學(xué)評(píng)估數(shù)據(jù)中的全局異常值、情景異常值和集體異常值,并結(jié)合其它數(shù)據(jù)對(duì)異常值進(jìn)行解釋,從而為學(xué)校的教學(xué)工作提供參考。