摘要:遠(yuǎn)程教學(xué)系統(tǒng)是從事遠(yuǎn)程教學(xué)的重要環(huán)境。本文分析了傳統(tǒng)遠(yuǎn)程教學(xué)系統(tǒng)的不足,給出了一種基于Web挖掘技術(shù)的遠(yuǎn)程教學(xué)系統(tǒng)模型,并對(duì)組成該系統(tǒng)的關(guān)健模塊進(jìn)行了介紹。利用Web挖掘技術(shù),提高了系統(tǒng)的整體性能,滿足了遠(yuǎn)程教學(xué)的個(gè)性化需求。
關(guān)鍵詞:Web挖掘技術(shù);數(shù)據(jù)挖掘;遠(yuǎn)程教學(xué)系統(tǒng)
中圖分類號(hào):G43 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)05-1222-02
Application of Web Mining Technology in Long-distance Teaching System
HOU Xue-ya
(School of Computer Science and Engineering, Jiangsu Teachers University of Technology, Changzhou 213001,China)
Abstract: Long-distance teaching system is an important environment for the distance education. This pape analysis of the deficiency of traditional long-distance teaching system, and gives a based-on web mining technology long-distance teaching system model , and introduce the eessential module of this system. With web mining technology ,the system' s overall performance is improved and the system could meet the needs of personalization.
Key words: Web mining technology;data mining; long-distance teaching system
1 遠(yuǎn)程教學(xué)系統(tǒng)的現(xiàn)狀
現(xiàn)代教育理念認(rèn)為,最好的學(xué)習(xí)是自主的、個(gè)性化的學(xué)習(xí),最好的教學(xué)方法應(yīng)實(shí)施對(duì)話交流的模式。隨著計(jì)算機(jī)的普及和Internet的推廣,網(wǎng)絡(luò)技術(shù)、多媒體及虛擬現(xiàn)實(shí)等技術(shù)相結(jié)合產(chǎn)生了一種新型的教學(xué)方式——遠(yuǎn)程教學(xué)。
但是,目前的網(wǎng)絡(luò)教學(xué)系統(tǒng)或教學(xué)平臺(tái)主要是在己開發(fā)好的課件、素材、網(wǎng)絡(luò)課程、教案等教學(xué)資源的基礎(chǔ)上,提供瀏覽、下載、上傳等機(jī)械化功能。主要是以“資料”為中心,沒(méi)有體現(xiàn)以“學(xué)習(xí)者”為中心的思想。每一個(gè)學(xué)習(xí)者在學(xué)習(xí)過(guò)程中看到的都是基本不變的內(nèi)容,教學(xué)平臺(tái)不具備個(gè)性化和智能化的特性。
實(shí)現(xiàn)個(gè)性化網(wǎng)絡(luò)教學(xué)的關(guān)鍵是要從海量的教學(xué)資源中,獲得關(guān)于學(xué)習(xí)者對(duì)網(wǎng)絡(luò)教學(xué)資源使用模式的知識(shí),并且要進(jìn)一步利用這些知識(shí)結(jié)合學(xué)習(xí)者個(gè)人的興趣特征向?qū)W習(xí)者提供感興趣的相關(guān)資源。Web數(shù)據(jù)挖掘的研究與發(fā)展為提高遠(yuǎn)程教學(xué)的智能化與個(gè)性化水平帶來(lái)了契機(jī)。
2 Web挖掘技術(shù)研究
2.1 Web挖掘技術(shù)概述
Web挖掘起源于數(shù)據(jù)挖掘,是對(duì)數(shù)據(jù)挖掘的一種新的發(fā)展和應(yīng)用,但又不同于傳統(tǒng)的數(shù)據(jù)挖掘。Web挖掘是運(yùn)用數(shù)據(jù)挖掘技術(shù),從大量的Web文檔和Web活動(dòng)中發(fā)現(xiàn)、抽取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。它以數(shù)據(jù)挖掘、文本挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)、人工智能、信息檢索、信息提取、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、概率理論、計(jì)算機(jī)語(yǔ)言學(xué)、自然語(yǔ)言理解等多個(gè)領(lǐng)域的技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)。
2.2 基于Web的挖掘技術(shù)
一般地,Web挖掘可以分為三類:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用日志挖掘(Web Usage Mining)。
2.2.1 基于Web內(nèi)容的挖掘
Web內(nèi)容挖掘是從大量的Web頁(yè)面描述數(shù)據(jù)中發(fā)現(xiàn)信息,進(jìn)而抽取知識(shí)的過(guò)程。Web文檔文本內(nèi)容的挖掘,基于概念索引的資源發(fā)現(xiàn),以及基于代理的技術(shù)都屬于這一類。
2.2.2 基于Web結(jié)構(gòu)的挖掘
Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對(duì)頁(yè)面進(jìn)行排序,發(fā)現(xiàn)重要的頁(yè)面。
2.2.3 基于Web日志的挖掘
Web日志挖掘的主要目標(biāo)則是從Web的訪問(wèn)記錄中抽取感興趣的模式。WWW中的每個(gè)服務(wù)器都保留了訪問(wèn)日志(Web Access Log),記錄了關(guān)于用戶訪問(wèn)和交互的信息。分析這些數(shù)據(jù)有助于理解用戶的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。
3 個(gè)性化遠(yuǎn)程教學(xué)系統(tǒng)設(shè)計(jì)
3.1 個(gè)性化遠(yuǎn)程教學(xué)系統(tǒng)模型
本文給出一個(gè)個(gè)性化學(xué)習(xí)系統(tǒng)的模型。如圖1所示。
在該模型中學(xué)生登錄系統(tǒng)后看到的界面不再是千篇一律的,而是與其個(gè)人密切相關(guān)的個(gè)性化的學(xué)習(xí)環(huán)境。某個(gè)學(xué)生從登錄到退出系統(tǒng)的整個(gè)學(xué)習(xí)過(guò)程中,所有的動(dòng)作及產(chǎn)生的結(jié)果都經(jīng)Web挖掘個(gè)性化服務(wù)中心處理后產(chǎn)生用戶興趣模型,及時(shí)記錄到本人用戶數(shù)據(jù)庫(kù)中。同時(shí),系統(tǒng)會(huì)根據(jù)用戶的動(dòng)作分析其興趣特點(diǎn),作出相應(yīng)的興趣導(dǎo)航。
3.2 系統(tǒng)特點(diǎn)
該模型的用戶庫(kù)與資源庫(kù)分開。把所有與用戶“有關(guān)”的信息,即與個(gè)性化有關(guān)的內(nèi)容,單獨(dú)提取出來(lái)放入用戶庫(kù)中,每個(gè)學(xué)生的個(gè)人數(shù)據(jù)集就組成了整個(gè)用戶庫(kù)。而與用戶“無(wú)關(guān)”的信息,即所有學(xué)生共用的內(nèi)容,存放到相應(yīng)的信息庫(kù)中,互相獨(dú)立。并且,該模型具有強(qiáng)大的個(gè)性化處理引擎。
4 系統(tǒng)組成的關(guān)鍵模塊
4.1 個(gè)性化處理引擎結(jié)構(gòu)描述
本系統(tǒng)采用綜合分析用戶的數(shù)據(jù)和訪問(wèn)日志來(lái)獲得用戶的個(gè)性化信息,結(jié)合內(nèi)容挖掘來(lái)實(shí)現(xiàn)系統(tǒng)的智能個(gè)性化服務(wù)。
個(gè)性化處理引擎主要由三個(gè)部分組成:用戶信息收集模塊,Web挖掘個(gè)性化服務(wù)中心模塊,信息調(diào)度模塊。如圖2所示。
用戶信息采集部分收集學(xué)生學(xué)習(xí)的動(dòng)作,再?gòu)挠脩魩?kù)里提出該學(xué)生的相關(guān)信息,遞交到個(gè)性化服務(wù)中心;服務(wù)中心取得采集后的數(shù)據(jù)進(jìn)行個(gè)性化分析,然后向信息調(diào)度模塊發(fā)出命令;信息調(diào)度模塊再根據(jù)發(fā)來(lái)的命令調(diào)度學(xué)習(xí)工具訪問(wèn)教學(xué)資源庫(kù),返回相應(yīng)的信息到用戶界面,同時(shí)返回個(gè)性化服務(wù)中心,服務(wù)中心根據(jù)采集到的信息及調(diào)度結(jié)果進(jìn)行個(gè)性化分析,將分析后的結(jié)果寫入用戶庫(kù)。學(xué)生在瀏覽操作相應(yīng)的頁(yè)面后,對(duì)于系統(tǒng)服務(wù),部分學(xué)生會(huì)給出一個(gè)相應(yīng)的評(píng)價(jià),系統(tǒng)會(huì)把這些反饋信息傳遞到個(gè)性化處理引擎,Web挖掘個(gè)性化服務(wù)中心模塊會(huì)綜合這些反饋信息重新修正用戶興趣模型寫入用戶庫(kù)。這樣學(xué)生發(fā)出的請(qǐng)求得到的是與其有關(guān)的個(gè)性化內(nèi)容,同時(shí)隨著學(xué)習(xí)過(guò)程的變化,用戶庫(kù)也在不斷更新,及時(shí)保存和反映學(xué)生當(dāng)前的個(gè)性信息。
Web挖掘個(gè)性化處理中心模塊有兩個(gè)子模塊:模式庫(kù)創(chuàng)建/更新模塊,智能推薦模塊。模式庫(kù)創(chuàng)建/更新子模塊利用Web日志挖掘算法及Web內(nèi)容分析方法從預(yù)處理后的數(shù)據(jù)及對(duì)應(yīng)頁(yè)面中發(fā)現(xiàn)用戶的瀏覽模式,分析用戶行為得到用戶個(gè)性化信息,并根據(jù)用戶反饋信息對(duì)用戶行為模式庫(kù)進(jìn)行更新和維護(hù)。智能推薦子模塊則是根據(jù)當(dāng)前用戶的瀏覽行為以及模式庫(kù)中保存的用戶興趣模式為用戶推薦可能感興趣的內(nèi)容以及下一步要學(xué)習(xí)的內(nèi)容。
4.2 智能推薦子模塊接口
智能推薦子模塊的任務(wù)是:觀察用戶的訪問(wèn)請(qǐng)求,識(shí)別當(dāng)前每個(gè)在線用戶的用戶會(huì)話集,根據(jù)模式庫(kù)創(chuàng)建/更新子模塊中建立的用戶行為模式庫(kù),為每個(gè)用戶分別自動(dòng)推薦其可能感興趣的頁(yè)面。
智能推薦子模塊根據(jù)當(dāng)前用戶的瀏覽行為與模式庫(kù)中已有的模式進(jìn)行匹配,根據(jù)匹配的結(jié)果為用戶產(chǎn)生推薦集合。智能推薦子模塊接口示意圖如圖3。
4.2.1 當(dāng)前用戶識(shí)別
因?yàn)槲覀冄芯康氖沁h(yuǎn)程教學(xué)網(wǎng)站,所以我們研究的對(duì)象是以固定標(biāo)識(shí)登錄的學(xué)生及教師群體,所以我們利用登錄標(biāo)識(shí)符識(shí)別用戶。
4.2.2 當(dāng)前會(huì)話識(shí)別
通過(guò)設(shè)定超時(shí)閾值來(lái)識(shí)別當(dāng)前的用戶會(huì)話,為了更有效地與模式庫(kù)中的模式匹配,這里的超時(shí)閾值與模式庫(kù)創(chuàng)建/更新模塊中使用的超時(shí)閾值相同。
4.2.3 模式匹配
模式匹配是為當(dāng)前用戶會(huì)話從模式庫(kù)中搜索最相似的模式,對(duì)于不同的模式有不同的匹配算法。
4.2.4 推薦集合的生成
根據(jù)當(dāng)前用戶會(huì)話與模式庫(kù)中模式匹配的結(jié)果,從中挑選為用戶推薦的頁(yè)面。同時(shí)綜合與協(xié)調(diào)多種模式生成的不同推薦結(jié)果集合,并最終生成返回給用戶的推薦結(jié)果集合。
5 總結(jié)與展望
本文的研究成果除了可以應(yīng)用到教學(xué)網(wǎng)站的建設(shè)與維護(hù)外,也可以為電子商務(wù)網(wǎng)站等諸多網(wǎng)站提供個(gè)性化服務(wù),改進(jìn)站點(diǎn)設(shè)計(jì),提高系統(tǒng)性能。
本文將繼續(xù)在以下方面進(jìn)行研究:
1) 從長(zhǎng)時(shí)期看,用戶興趣是在不斷變化著的。因此,如何能夠檢測(cè)出用戶興趣的變化,以及當(dāng)用戶的興趣發(fā)生變化以后,用戶以往的瀏覽數(shù)據(jù)是否還有挖掘的意義,將是我們研究的重點(diǎn)。
2) 將Web挖掘的成果繼續(xù)運(yùn)用于遠(yuǎn)程教學(xué)系統(tǒng)的建設(shè)實(shí)踐將是我們今后要完成與完善的具體工作。