王乙先++楊絮++張海
互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展,使基于互聯(lián)網(wǎng)的遠(yuǎn)程教育與數(shù)字學(xué)習(xí)得到了迅速發(fā)展。而學(xué)習(xí)者在數(shù)字學(xué)習(xí)過程中會(huì)產(chǎn)生大量的數(shù)據(jù)資源,分析這些數(shù)據(jù)資源能夠幫助教育工作者更好地了解學(xué)習(xí)者及其需求,進(jìn)而改進(jìn)數(shù)字學(xué)習(xí)系統(tǒng)。
時(shí)至今日,在數(shù)字學(xué)習(xí)系統(tǒng)中整合數(shù)據(jù)挖掘的探索仍處于初級階段,但在過去的幾年中,這方面的學(xué)術(shù)研究已有了很大進(jìn)展,其中大部分涉及聚類方法的設(shè)計(jì)和應(yīng)用。因此,筆者在本文回顧了最近應(yīng)用于數(shù)字學(xué)習(xí)的聚類研究海外案例,期望能夠通過對其基本算法和案例的介紹,為數(shù)字學(xué)習(xí)研究者和從業(yè)者提供借鑒。
● 教育數(shù)據(jù)挖掘中的基本聚類算法
數(shù)據(jù)挖掘是一種從數(shù)據(jù)收集、預(yù)處理和建模到過程評估與實(shí)施的數(shù)據(jù)分析的過程,為生物醫(yī)學(xué)、工程學(xué)、經(jīng)濟(jì)學(xué)等多樣化領(lǐng)域中的問題提供分析解決方案。教育數(shù)據(jù)挖掘可以通過分析用戶生成的數(shù)據(jù)形式的可用信息,從數(shù)字學(xué)習(xí)系統(tǒng)中提取有用的知識。數(shù)據(jù)聚類分析是研究數(shù)字學(xué)習(xí)中最常使用的分析方法,以最簡單的方式說,數(shù)據(jù)聚類是將N個(gè)數(shù)據(jù)項(xiàng)中的每一個(gè)數(shù)據(jù)分配給K個(gè)可能的集群中的一個(gè)。接下來,筆者將進(jìn)一步詳細(xì)地描述一些常用的聚類技術(shù)。
1.k-均值聚類算法
k-均值算法是最著名的并且使用最廣泛的聚類算法之一,其主要特征是易于實(shí)施、簡潔、高效。k-均值算法旨在將一個(gè)數(shù)據(jù)集D= {x1,…, xn}分為k個(gè)不相交的群集,C={C1,…,CK},其中每個(gè)數(shù)據(jù)xi都被分配給一個(gè)唯一的集群Ck。該算法嘗試找到用戶指定數(shù)量的k個(gè)聚類。k-均值算法迭代地移動(dòng)每一個(gè)集群的聚類中心,直到實(shí)現(xiàn)中心位置的收斂。
k-均值算法可以總結(jié)如下:
①隨機(jī)選出k個(gè)元素作為聚類中心;
②根據(jù)相似性進(jìn)行度量,將所有觀察的樣本分配給它們最接近的聚類中心;
③重新計(jì)算新的聚類中心;
④重復(fù)②③步驟,直到群組成員變得穩(wěn)定。
k-均值算法的缺點(diǎn)是k值的不確定性,初始參數(shù)的聚類的數(shù)量k值的選取非常關(guān)鍵,不同的初始化會(huì)導(dǎo)致不同的聚類解決方案。為了改進(jìn)k-均值算法初始值的缺點(diǎn),研究者已經(jīng)開發(fā)出了許多變體和擴(kuò)展,其中兩個(gè)著名的變體是ISODATA和FORGY。
2.模糊c-均值聚類(FCM)
傳統(tǒng)的分層聚類的方法會(huì)生成分區(qū),在分區(qū)內(nèi),每個(gè)數(shù)據(jù)樣本都屬于且僅屬于一個(gè)集群,因此,在硬聚類方法中的集群是不相交的。模糊聚類算法擴(kuò)展了這一概念,利用隸屬函數(shù)將每個(gè)模式與每個(gè)聚類相關(guān)聯(lián)。FCM就是一種模糊聚類方法,它允許一個(gè)數(shù)據(jù)樣本屬于具有隸屬條件的兩個(gè)或多個(gè)群集,是k-均值算法的一個(gè)模糊化版本。
在模糊聚類中,每一個(gè)群集都對應(yīng)整個(gè)數(shù)據(jù)樣本中的一個(gè)模糊集合。上頁圖1就解釋了這一觀點(diǎn),它包含了數(shù)據(jù)集合的兩個(gè)硬性分配群集的矩形:H1 = {1, 2, 3, 4, 5}和H2 = {6, 7, 8, 9},F(xiàn)CM可以產(chǎn)生兩個(gè)模糊群集,即F1和F2,由橢圓表示。每一個(gè)數(shù)據(jù)樣本都會(huì)有每個(gè)模糊群集的0到1之間的隸屬值,較大的隸屬值表示在群集的觀察分配中具有較高信度。
模糊c-均值算法可以總結(jié)為以下幾個(gè)步驟:
①通過選擇N×K個(gè)隸屬矩陣U,選擇N個(gè)對象的初始模糊分區(qū)成為K個(gè)群集,該矩陣的元素uij代表了群集Cj中對象xi的隸屬度,其中uij的值介于0到1之間。
②將數(shù)據(jù)樣本重新分配到群集以減少標(biāo)準(zhǔn)函數(shù)值,并且重新計(jì)算U值,在執(zhí)行過程中,使用U值找出與相關(guān)分區(qū)相關(guān)聯(lián)的模糊標(biāo)準(zhǔn)函數(shù)的值,如加權(quán)平方誤差準(zhǔn)則函數(shù)。
③重復(fù)步驟②,直到U中的元素具有穩(wěn)定值。
3.自組織映射(SOM)
SOM是一種無監(jiān)督學(xué)習(xí)模型,其以拓?fù)溆行虻姆绞綄維的輸入數(shù)據(jù)點(diǎn)投影到q維離散圖中。每一個(gè)格子單元都由具有相關(guān)聯(lián)的p維權(quán)重向量的神經(jīng)元代表,每個(gè)輸入模式與每個(gè)神經(jīng)元的權(quán)重向量進(jìn)行比較,并且最接近的神經(jīng)元獲得激活。一個(gè)神經(jīng)元被激活后,近鄰區(qū)神經(jīng)元也逐漸被激活,并且它們的權(quán)重向量被調(diào)整的更加類似于輸入模式。最初,鄰域的大小很大,但是在迭代期間,鄰域大小逐漸減小。圖2為基本SOM模型的架構(gòu)。
SOM算法集中于保留數(shù)據(jù)中的鄰域關(guān)系,而不是試圖保留數(shù)據(jù)項(xiàng)之間的距離。SOM算法有兩個(gè)基本版本,即序列處理和批量處理。
4.生成式拓?fù)溆成洌℅TM)
GTM最初是作為一個(gè)替代SOM的概率聚類模型,并被作為一個(gè)高斯分布的約束混合而被創(chuàng)制出來的。正是這些約束創(chuàng)建了用于集群可視化的投影集合,克服了通用有限混合模型的限制。模型解釋通常需要大大降低數(shù)據(jù)的維度,潛在變量模型可以通過可視化提供這樣的解釋,因?yàn)樗鼈兠枋隽吮菊鞯牡途S潛在空間中的數(shù)據(jù)。在潛在可視化空間中的每個(gè)潛在點(diǎn)uk都會(huì)被映射,yk點(diǎn)通常稱為參考矢量或原型。每個(gè)參考向量元素對應(yīng)輸入到變量中相應(yīng)的一個(gè),并且它在潛在可視化空間上的值可以顏色編碼,進(jìn)而產(chǎn)生參考圖,并提供關(guān)于每個(gè)變量的行為的信息及其對聚類結(jié)果的影響。每個(gè)潛在空間點(diǎn)本身可以被認(rèn)為是一個(gè)聚類代表。
● 數(shù)字學(xué)習(xí)中的數(shù)據(jù)聚類分析海外案例
在學(xué)習(xí)中,學(xué)生經(jīng)常通過團(tuán)隊(duì)協(xié)作來理解概念、分享觀點(diǎn),并且最終以一個(gè)整體完成學(xué)習(xí)的整個(gè)過程。教師可以對這些學(xué)生的能力進(jìn)行評估,進(jìn)而識別和分組,并對學(xué)生進(jìn)行分組的過程實(shí)施數(shù)據(jù)聚類分析,其目的是發(fā)現(xiàn)數(shù)據(jù)的自然分組結(jié)構(gòu)。
大多數(shù)處理數(shù)字學(xué)習(xí)環(huán)境中聚類問題的研究可分為三大類:一是,基于數(shù)字學(xué)習(xí)材料進(jìn)行分組的研究;二是,基于學(xué)生的學(xué)習(xí)行為進(jìn)行分組的研究;三是,提出聚類分析作為數(shù)字學(xué)習(xí)策略的一部分,但不提出任何實(shí)際應(yīng)用結(jié)果的研究。
1.基于數(shù)字學(xué)習(xí)材料的數(shù)據(jù)聚類分析
基于數(shù)字學(xué)習(xí)材料的數(shù)據(jù)聚類分析的最終目標(biāo)是改進(jìn)學(xué)習(xí)材料的使用。
在海外,一些研究會(huì)在Web語義框架內(nèi)實(shí)現(xiàn)一個(gè)基于本體的工具,目的是幫助數(shù)字學(xué)習(xí)用戶發(fā)現(xiàn)和組織分布式的課件資源;另一些研究則實(shí)施了一個(gè)基于網(wǎng)絡(luò)的測試和診斷系統(tǒng),采用模糊邏輯理論,根據(jù)每個(gè)學(xué)生的學(xué)習(xí)狀態(tài)和個(gè)人特征,確定測試項(xiàng)目的難度水平,然后應(yīng)用模糊自適應(yīng)共振理論(Fuzzy ART)進(jìn)行分組。例如,Pirrone等人介紹了一個(gè)在數(shù)字學(xué)習(xí)應(yīng)用中信息表示的方案和集成架構(gòu),目標(biāo)是使用它們包含的術(shù)語之間的相似性來度量聚類課程材料;Zhuhadar等人提出了一種在數(shù)字學(xué)習(xí)平臺(tái)中進(jìn)行個(gè)性化搜索的方法,使用導(dǎo)航日志的記錄表示數(shù)字學(xué)習(xí)內(nèi)容和學(xué)生的個(gè)人資料,然后應(yīng)用聚類技術(shù)對文檔進(jìn)行分組。另外,為了改進(jìn)虛擬課程資源,研究者可以使用與學(xué)習(xí)材料的評價(jià)相關(guān)的聚類方法。如果我們可以從其系統(tǒng)可用性行為來評估學(xué)生,其結(jié)果也可以間接用于改善課程資源。
2.基于數(shù)字學(xué)習(xí)行為的數(shù)據(jù)聚類分析
基于學(xué)生學(xué)習(xí)行為的數(shù)據(jù)聚類分析的研究結(jié)果可以幫助教師為每個(gè)聚類的學(xué)生提供個(gè)性化的指導(dǎo),增強(qiáng)學(xué)生的數(shù)字學(xué)習(xí)體驗(yàn),進(jìn)而提升學(xué)生的學(xué)習(xí)成績。
海外的研究者基于學(xué)生的學(xué)習(xí)行為進(jìn)行了不同類別的具體研究。例如,Tang和McCalla進(jìn)行了關(guān)于如何將數(shù)據(jù)挖掘技術(shù)成功地納入數(shù)字學(xué)習(xí)環(huán)境及如何改善學(xué)習(xí)過程的調(diào)查;Castro和Vellido將GTM模型的不同變體用于關(guān)于虛擬課程中學(xué)生行為數(shù)據(jù)的聚類和可視化,而且這些知識可以反饋到數(shù)字學(xué)習(xí)系統(tǒng),以便教師根據(jù)學(xué)生們的不同需求,提供個(gè)性化的指導(dǎo);還有一些研究者運(yùn)用EM算法根據(jù)學(xué)生的行為將數(shù)據(jù)分成群集,教師再向每個(gè)群集的學(xué)生提供專門的建議;Christodoulopoulos和Papanikolaou設(shè)計(jì)了一個(gè)基于網(wǎng)絡(luò)的學(xué)生分組的工具,該工具使用低復(fù)雜度算法對學(xué)生進(jìn)行分組,幫助每個(gè)學(xué)生適應(yīng)不同的組,同時(shí),該聚類信息也給教師提供了參考依據(jù),便于教師在組之間調(diào)換學(xué)生,F(xiàn)CM就是根據(jù)學(xué)生的個(gè)性和學(xué)習(xí)策略來將其聚類;另外,一些研究者提出了一個(gè)基于模糊集群算法的數(shù)字學(xué)習(xí)系統(tǒng),該系統(tǒng)能將類似的學(xué)生分類到同類課程并向?qū)W生提供個(gè)性化學(xué)習(xí)指導(dǎo);Mylonas和Tzouveli提出了一種通過網(wǎng)絡(luò)接口收集和評估學(xué)生在教育領(lǐng)域的信息和通信技術(shù)水平的新方法。
3.聚類分析作為改善數(shù)字學(xué)習(xí)環(huán)境的工具
研究者認(rèn)為互動(dòng)是團(tuán)隊(duì)成功的一個(gè)重要因素,然而,普通課程往往缺乏影響信息交流和知識共享的團(tuán)體協(xié)作。通常在線課程的班級規(guī)模要大于傳統(tǒng)班級,由于互聯(lián)網(wǎng)上交流互動(dòng)的限制,大多數(shù)學(xué)生難以形成具有高互動(dòng)級別的群體。因而,有研究者提出應(yīng)用聚類分析技術(shù)來改進(jìn)數(shù)字學(xué)習(xí)環(huán)境,整合了子空間聚類和概念聚類技術(shù),并定義一種稱為概念子空間聚類(CSC)的算法,該算法在密集子空間中提取概念集群,并通過重疊概念來描述集群。
在數(shù)字學(xué)習(xí)過程中,學(xué)生可以從數(shù)字學(xué)習(xí)課程中的電子郵件或論壇中搜集有價(jià)值的信息,然而現(xiàn)在仍然缺乏相關(guān)的自動(dòng)化工具。而自然語言處理(NLP)方法在解決數(shù)字學(xué)習(xí)中的這些問題上具有潛在優(yōu)勢,因?yàn)樗軌蜃詣?dòng)提取通過其他技術(shù)難以或幾乎不可能獲得的有用信息,遺憾的是NLP技術(shù)尚未廣泛應(yīng)用于數(shù)字學(xué)習(xí)。
● 結(jié)語
互聯(lián)網(wǎng)的普及已經(jīng)使在線遠(yuǎn)程教育變得更加主流,數(shù)字學(xué)習(xí)課程也已十分豐富,許多新的數(shù)字學(xué)習(xí)平臺(tái)和系統(tǒng)已經(jīng)開發(fā)和實(shí)施,并取得了不同程度的成功。同時(shí),教育數(shù)據(jù)挖掘和數(shù)據(jù)聚類方法能夠幫助提取這些知識,并促進(jìn)其轉(zhuǎn)化成應(yīng)用,大幅改善學(xué)習(xí)者的學(xué)習(xí)體驗(yàn)和學(xué)習(xí)成績。相信,在未來的教育實(shí)踐中,教育數(shù)據(jù)挖掘和數(shù)據(jù)聚類分析有著極其寬廣的應(yīng)用前景和發(fā)展空間。
基金項(xiàng)目:本論文獲得吉林省教育廳“十三五”社會(huì)科學(xué)研究規(guī)劃項(xiàng)目重點(diǎn)課題“基于數(shù)據(jù)挖掘的卓越教師能力結(jié)構(gòu)與培訓(xùn)研究”、東北師范大學(xué)本科教改研究課題“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評價(jià)研究”、吉林省高等教育教學(xué)改革課題重點(diǎn)項(xiàng)目“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評價(jià)研究”資助。