馮佳音 宋金玲 王東
[摘要]大數(shù)據(jù)時(shí)代,科技的發(fā)展為教育帶來了巨大變革,教育更關(guān)注學(xué)習(xí)者的需求,更關(guān)注學(xué)習(xí)者能力提升及綜合素質(zhì)的發(fā)展,數(shù)據(jù)挖掘支持的高校教學(xué)變革勢(shì)在必行。提出一種挖掘高校教學(xué)網(wǎng)站頻繁訪問節(jié)點(diǎn)數(shù)據(jù)的新方法MFITTSSW,使該方法可以單遍掃描數(shù)據(jù)集以獲得推薦模式。通過網(wǎng)站應(yīng)用實(shí)踐,發(fā)現(xiàn)該方法可以有效關(guān)注學(xué)習(xí)者個(gè)體發(fā)展需求,對(duì)大數(shù)據(jù)時(shí)代進(jìn)行高校教學(xué)變革具有重要意義。
[關(guān)鍵詞] 大數(shù)據(jù);數(shù)據(jù)挖掘;高校教學(xué)
[中圖分類號(hào)]? G642?????? ?? ??????? [文獻(xiàn)標(biāo)志碼]? A???????? ????????????? [文章編號(hào)]? 2096-0603(2018)34-0048-02
隨著現(xiàn)代信息技術(shù)的發(fā)展,“教育信息化”與人們?nèi)粘I畹穆?lián)系越來越緊密。教育信息化的改革與發(fā)展,使其成為教育發(fā)展的重點(diǎn)。如,電子白板、在線課程、各種多媒體應(yīng)用軟件、Web考試系統(tǒng)以及高校教學(xué)網(wǎng)站技術(shù)相當(dāng)成熟。但在考試難度控制、題庫選擇等方面還存在一定的問題,主要是題庫選題方法是隨機(jī)的,考試的一些重要參數(shù)無法統(tǒng)計(jì),很難實(shí)現(xiàn)對(duì)考試的客觀評(píng)價(jià),另外,高校學(xué)生尤其是新生在選課以及對(duì)自己的專業(yè)考慮不足,很難正確選擇自己需要的課程,很難選擇自己喜歡的教學(xué)內(nèi)容。歸根到底,這些信息化技術(shù)最大的不足之處就是缺乏對(duì)數(shù)據(jù)信息的分析,發(fā)掘數(shù)據(jù)是否有關(guān)系,然后透過數(shù)據(jù)之間的關(guān)系來進(jìn)行相關(guān)內(nèi)容的推薦。而在如今的大數(shù)據(jù)時(shí)代,數(shù)字?jǐn)?shù)據(jù)以驚人的速度增長,人們的生活方式和生產(chǎn)方式也發(fā)生著前所未有的變化,這些新特點(diǎn)也是當(dāng)前的教學(xué)改革、課程教學(xué)方向的熱點(diǎn)。大數(shù)據(jù)具有三個(gè)特征:數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生得快、數(shù)據(jù)具有多樣性。首先,由于高校課程選擇數(shù)據(jù)、課程考核數(shù)據(jù)、評(píng)估數(shù)據(jù)和學(xué)習(xí)者數(shù)據(jù)等規(guī)模都非常大,因此用來分析的數(shù)據(jù)量非常龐大,并且在分析這些數(shù)據(jù)的過程中會(huì)產(chǎn)生新的數(shù)據(jù),這些數(shù)據(jù)通常在運(yùn)行過程中是指數(shù)倍增長,往往超出一般數(shù)據(jù)庫軟件所能捕捉、存儲(chǔ)和分析的數(shù)據(jù)量。其次,大數(shù)據(jù)往往是在課程選擇、課程考核和分析等過程中新產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)是實(shí)時(shí)、在某一時(shí)間段數(shù)據(jù)量龐大,而不是事件發(fā)生后去采集的。再次,大數(shù)據(jù)擁有非常多的數(shù)據(jù)類型,選課、考試以及觀看教學(xué)視頻中的每個(gè)步驟都可以跟蹤采集相關(guān)學(xué)習(xí)行為的數(shù)據(jù),如選課的路徑模式、觀看教學(xué)視頻時(shí)間長度、測(cè)試數(shù)據(jù)的分?jǐn)?shù)、通過率、課程討論論壇數(shù)據(jù)等數(shù)據(jù)采集、轉(zhuǎn)換很困難,需要高質(zhì)量的軟硬件環(huán)境。從以上三點(diǎn)我們可以發(fā)現(xiàn),大數(shù)據(jù)背景下,課程的選課模式、學(xué)習(xí)模式、教學(xué)考核模式等是通過挖掘大量相關(guān)數(shù)據(jù)從而科學(xué)地進(jìn)行課程建設(shè)和改革的,從而提高教師教學(xué)和學(xué)生自主學(xué)習(xí)效率。而選課教學(xué)網(wǎng)站的數(shù)據(jù)挖掘不可能對(duì)所有數(shù)據(jù)進(jìn)行挖掘,只能通過挖掘近期數(shù)據(jù)的關(guān)鍵信息,從頻繁被訪問的節(jié)點(diǎn)信息,找出數(shù)據(jù)摘要。從而推薦相應(yīng)選課內(nèi)容以及學(xué)習(xí)內(nèi)容。國內(nèi)外的一些專家學(xué)者在網(wǎng)站頻繁訪問節(jié)點(diǎn)挖掘方面提出的算法有FTP-DS、DSM-MFI等,彌補(bǔ)了傳統(tǒng)頻繁項(xiàng)集挖掘中多遍速掃描數(shù)據(jù)集和基于磁盤存儲(chǔ)不足的缺陷。雖然這些算法都可以滿足數(shù)據(jù)流挖掘中單遍掃描數(shù)據(jù)和基于內(nèi)存存儲(chǔ)的特點(diǎn),但是這些應(yīng)用滑動(dòng)窗模型挖掘數(shù)據(jù)流頻繁訪問節(jié)點(diǎn)算法同樣存在著挖掘效率不高和內(nèi)存存儲(chǔ)數(shù)據(jù)量過大的問題。
本文針對(duì)滑動(dòng)窗挖掘模型中存在的不足,提出基于時(shí)間和事務(wù)雙敏感的滑動(dòng)窗TTS作為概要結(jié)構(gòu),從而有效綜合滑動(dòng)窗模型的優(yōu)點(diǎn)。并構(gòu)建后綴樹作為基于內(nèi)存的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)到來的訪問節(jié)點(diǎn),通過壓縮后綴樹(CST)方法減少內(nèi)存中樹型結(jié)構(gòu)所占用的空間,使算法MFITTSSW可以在單遍掃描數(shù)據(jù)集的基礎(chǔ)上挖掘滑動(dòng)窗中的頻繁訪問節(jié)點(diǎn)。文中主要討論如何確立數(shù)據(jù)的高效存儲(chǔ)、如何確保數(shù)據(jù)的高質(zhì)量性以及如何對(duì)數(shù)據(jù)進(jìn)行挖掘以保障課程選課和學(xué)生學(xué)習(xí)質(zhì)量。
一、問題定義
設(shè)Ψ={i1,i2,…,im}為項(xiàng)的集合。項(xiàng)集X是Ψ的非空子集,k-項(xiàng)集是包含k個(gè)項(xiàng)的子集,可以用(x1,x2,…,xk)表示。帶有唯一標(biāo)識(shí)(tid)的事務(wù)T和項(xiàng)的集合由〈tid,(x1,x2,…,xq)〉表示,其中xi∈Ψ,■i=1,2,3,…,q。將數(shù)據(jù)流分為固定事務(wù)數(shù)量的窗口,稱為基本窗,記為Bi。一個(gè)基本窗Bi是由k個(gè)事務(wù)組成,基本窗由窗的標(biāo)識(shí)Bid唯一確定。
二、時(shí)間和事務(wù)雙敏感的滑動(dòng)窗模型
時(shí)間敏感的滑動(dòng)窗模型是以時(shí)間為基本單位,如一分鐘或一小時(shí)。然而,由于數(shù)據(jù)流的概念漂移性,在應(yīng)用時(shí)間敏感滑動(dòng)窗模型時(shí),在某一個(gè)或者某幾個(gè)時(shí)間單位中存在沒有事務(wù)或者只存在一個(gè)事務(wù)的情況。但是以時(shí)間敏感的滑動(dòng)窗為概要設(shè)計(jì)的算法不得不處理每一個(gè)時(shí)間單元的事務(wù),這樣就極大地浪費(fèi)了CPU處理時(shí)間。
事務(wù)敏感的滑動(dòng)窗模型相對(duì)于時(shí)間敏感的滑動(dòng)窗有一定的優(yōu)勢(shì),然而事務(wù)敏感的滑動(dòng)窗模型存在無法適當(dāng)?shù)亩x事務(wù)塊大小的問題。用戶定義過大的事務(wù)單元塊時(shí),會(huì)對(duì)內(nèi)存造成極大的壓力,不利于處理;當(dāng)用戶定義較小的事務(wù)單元塊時(shí),處理又過于頻繁,造成CPU資源的浪費(fèi)。
時(shí)間和事務(wù)雙敏感的滑動(dòng)窗模型TTS(Time and Transaction Sensitive sliding window)是同時(shí)限制時(shí)間和事務(wù)數(shù)量的滑動(dòng)窗,它包括最小限定事務(wù)數(shù)y、限定的時(shí)間單位Tp和擴(kuò)充時(shí)間單位Te。
當(dāng)給定一個(gè)時(shí)間t和時(shí)間周期Tp時(shí),在[t-Tp+1,t]時(shí)間到來的所有事務(wù)集形成一個(gè)基本窗,叫做一塊。如果在這一時(shí)間塊內(nèi)的事務(wù)數(shù)小于某一用戶定義數(shù)量值y,這時(shí)將記錄一個(gè)擴(kuò)充的時(shí)間Te,Te的大小為記錄的時(shí)間點(diǎn)開始直到整個(gè)中的事務(wù)數(shù)等于y為止。即在一個(gè)時(shí)間塊中的事務(wù)數(shù)必須大于等于y。數(shù)據(jù)流可以分成這些數(shù)據(jù)塊的和?;瑒?dòng)窗的大小可以由|W|表示,且|W|≥y。這種約束時(shí)間和事務(wù)的滑動(dòng)窗稱為時(shí)間和事務(wù)雙敏感的滑動(dòng)窗(TTS)模型。
三、基于雙敏感滑動(dòng)窗的頻繁項(xiàng)集挖掘算法的設(shè)計(jì)
該方法首先給出構(gòu)建壓縮后綴樹CST(Compressed Suffix Tree)。然后,給出挖掘雙敏感滑動(dòng)窗下的頻繁訪問節(jié)點(diǎn)MFITTSSW(Mining Frequent Itemsets in Time and Transaction Sensitive Sliding Window)。
(一)基于內(nèi)存的存儲(chǔ)結(jié)構(gòu)CST
當(dāng)記錄一個(gè)滑動(dòng)窗中的事務(wù)時(shí),首先,根據(jù)最小事務(wù)數(shù)值y確定是否需要擴(kuò)充時(shí)間存儲(chǔ)到來的項(xiàng)集,如果不需要?jiǎng)t把各個(gè)事務(wù)映射為后綴集的形式,分別把計(jì)數(shù)和結(jié)點(diǎn)插入到頭表HT和后綴樹中。之后,遍歷后綴樹的每個(gè)分支以查看樹中是否有兩個(gè)或者兩個(gè)以上的結(jié)點(diǎn)需要被壓縮。最終,在內(nèi)存中保存壓縮后的后綴樹CST。
(二)基于雙敏感滑動(dòng)窗的頻繁項(xiàng)集挖掘方法MFITTSSW設(shè)計(jì)
當(dāng)用戶提出需要挖掘頻繁項(xiàng)集時(shí),首先,從頭表中A開始獲取樹中的根結(jié)點(diǎn)R之下的各個(gè)分支結(jié)點(diǎn)。然后,采用遞歸自頂向下的方法遍歷CST中每個(gè)分支。最后,通過事先定義好的支持度閾值判斷是否為頻繁項(xiàng)集。MFITTSSW算法根據(jù)不同窗中的不同支持度閾值判斷項(xiàng)集是否為頻繁項(xiàng)集。由于不同的窗中事務(wù)數(shù)量不同,所以最早到來的窗中判斷閾值要高于近期的事務(wù)。充分體現(xiàn)了滑動(dòng)窗模型的只關(guān)注近期事務(wù)的特點(diǎn)。同時(shí),由于最早到來的窗中支持度比較高,就會(huì)刪除一部分原來是頻繁的,但有新到來的窗后變?yōu)椴活l繁的項(xiàng)集,節(jié)約了內(nèi)存空間。
四、高校教學(xué)選課網(wǎng)站的構(gòu)建
根據(jù)上述算法,設(shè)計(jì)高校選課教學(xué)網(wǎng)站。高校教學(xué)根據(jù)其培養(yǎng)方案有其標(biāo)準(zhǔn)應(yīng)用模式,所以要求在進(jìn)行大數(shù)據(jù)背景下高校推薦教學(xué)的設(shè)計(jì)過程中,必須考慮高校職能部門的依存性與模塊化的概念,要在現(xiàn)有基礎(chǔ)上構(gòu)建出模塊化的結(jié)構(gòu)。而個(gè)性推薦教學(xué)必須充分考慮信息技術(shù)在教育改革中的作用,以此來開展推薦教學(xué)。
(一)構(gòu)建學(xué)習(xí)者模塊
高校推薦教學(xué)是學(xué)習(xí)者自己根據(jù)自己的學(xué)習(xí)傾向、興趣愛好、知識(shí)結(jié)構(gòu)等構(gòu)建的教學(xué)方式,但如果學(xué)習(xí)者對(duì)自己沒有清晰明確的了解,就不可能做出有利于自身發(fā)展的選擇。所以,根據(jù)學(xué)習(xí)者選擇的個(gè)體特性來得到學(xué)習(xí)者個(gè)體特征,具體過程如圖1所示。
(二)構(gòu)建課程推薦選擇模塊
根據(jù)構(gòu)建的學(xué)習(xí)者個(gè)體特性、高校專業(yè)設(shè)置特點(diǎn)和科學(xué)的學(xué)習(xí)原理,根據(jù)算法的特點(diǎn)推薦出大部分學(xué)習(xí)者在該專業(yè)應(yīng)該掌握的知識(shí)以及梳理出以后的專業(yè)發(fā)展方向,建立學(xué)習(xí)者專業(yè)培養(yǎng)和課程設(shè)置推薦內(nèi)容,具體過程如圖2所示。
(三)構(gòu)建教學(xué)模塊
教師查看每個(gè)學(xué)習(xí)者的個(gè)體特性,分析學(xué)生的學(xué)習(xí)興趣和自身希望的發(fā)展方向。根據(jù)學(xué)生選課情況推薦出課程的學(xué)習(xí)材料(可能是視頻、文檔和音頻等),并在以后的教學(xué)活動(dòng)中能對(duì)每個(gè)學(xué)習(xí)者的情況了如指掌,充分發(fā)揮教師教學(xué)對(duì)學(xué)習(xí)者的作用,具體如圖3所示。
五、結(jié)論
本文針對(duì)目前高校教育教學(xué)選課中的問題,設(shè)計(jì)了MFITTSSW算法來挖掘數(shù)據(jù)流滑動(dòng)窗中的頻繁訪問節(jié)點(diǎn)。在MFITTSSW算法中,首先,提出了新的基于時(shí)間和事務(wù)雙敏感的滑動(dòng)窗模型來解決應(yīng)用滑動(dòng)窗中存在的問題。之后,提出了有效的CST數(shù)據(jù)結(jié)構(gòu)來記錄滑動(dòng)窗中到來的訪問節(jié)點(diǎn)。通過實(shí)際網(wǎng)站的試用,應(yīng)用該挖掘算法對(duì)推薦學(xué)生選課和教學(xué)網(wǎng)站的設(shè)計(jì)與應(yīng)用有極大的好處。
參考文獻(xiàn):
[1]張燕南,胡繼岳.關(guān)于大數(shù)據(jù)應(yīng)用與教育的思考[J].中國電力教育,2013,3(32):5-7.
[2]王傳根,吳昊,劉路路.大數(shù)據(jù)背景下學(xué)習(xí)評(píng)估方法分析[J].教育教學(xué)論壇,2017,10(42):213-215.
◎編輯 武生智