摘要:在現(xiàn)代遠(yuǎn)程教育中,受教育對(duì)象個(gè)性特征的差異與傳統(tǒng)遠(yuǎn)程教育資源模式的單一性產(chǎn)生巨大矛盾,本文提出了個(gè)性化遠(yuǎn)程學(xué)習(xí)模型的概念,在傳統(tǒng)網(wǎng)絡(luò)教學(xué)系統(tǒng)中引入個(gè)性化技術(shù)、數(shù)據(jù)挖掘技術(shù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;個(gè)性化學(xué)習(xí)系統(tǒng)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 15-0000-02
1 緒論
2010年5月6日,我國(guó)國(guó)務(wù)院常務(wù)會(huì)議審議并通過了《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》(以下簡(jiǎn)稱《教育規(guī)劃綱要》),標(biāo)志著中國(guó)新的教育改革的開始。
《教育規(guī)劃綱要》提出“大力發(fā)展現(xiàn)代遠(yuǎn)程教育,建設(shè)以衛(wèi)星、電視和互聯(lián)網(wǎng)等為載體的遠(yuǎn)程開放繼續(xù)教育及公共服務(wù)平臺(tái),為學(xué)習(xí)者提供方便、靈活、個(gè)性化的學(xué)習(xí)條件”。
基于這一思想,我們申報(bào)了“基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教學(xué)決策支持系統(tǒng)研究”項(xiàng)目研究課題,探索并構(gòu)建了基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)教學(xué)模式,并在現(xiàn)代遠(yuǎn)程開放教育實(shí)踐中進(jìn)行了應(yīng)用嘗試。
今天,數(shù)據(jù)挖掘技術(shù)在國(guó)外的大型商業(yè)、金融業(yè)、保險(xiǎn)業(yè)、民航等大型企業(yè)得到了廣泛應(yīng)用,其中,Web挖掘在電子商務(wù)上的應(yīng)用是目前最成功的,我們常常訪問的京東、當(dāng)當(dāng)?shù)却笮蜕虅?wù)網(wǎng)站均能看到數(shù)據(jù)挖掘的影子。Web挖掘?yàn)檎_的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
目前國(guó)內(nèi)外遠(yuǎn)程教學(xué)平臺(tái)在利用數(shù)據(jù)挖掘技術(shù)分析學(xué)生訪問記錄,優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu),從而給學(xué)生提供動(dòng)態(tài)的個(gè)性化的高效率學(xué)習(xí)支持服務(wù)方面做得比較少,大多數(shù)網(wǎng)絡(luò)教學(xué)平臺(tái)只是簡(jiǎn)單利用了一些數(shù)據(jù)統(tǒng)計(jì)功能等,對(duì)數(shù)據(jù)的分析不夠深入,不能提供完善的個(gè)性化支持服務(wù)。這是因?yàn)閿?shù)據(jù)挖掘作為一個(gè)新興領(lǐng)域,在實(shí)際應(yīng)用當(dāng)中仍存在許多尚未解決的問題,有很多問題需要深入研究,我國(guó)在這一領(lǐng)域已有專家在從事研究工作,但應(yīng)用和產(chǎn)品相對(duì)滯后。
2 Web數(shù)據(jù)挖掘
首先看看什么是數(shù)據(jù)挖掘,通俗地說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)掘信息或知識(shí),有人稱為知識(shí)發(fā)現(xiàn)(KDD),也有人稱為數(shù)據(jù)考古學(xué)、數(shù)據(jù)模式分析或功能相依分析。
數(shù)據(jù)挖掘應(yīng)用于Internet,于是就有了Web數(shù)據(jù)挖掘的產(chǎn)生。Web挖掘是利用數(shù)據(jù)挖掘技術(shù)從大量的Web數(shù)據(jù)中發(fā)現(xiàn)有用模式和信息的過程。
Internet包含了豐富和動(dòng)態(tài)的鏈接信息,以及Web頁面的訪問和使用信息,為數(shù)據(jù)挖掘提供了豐富的資源,與傳統(tǒng)數(shù)據(jù)比較,Internet上的數(shù)據(jù)有其獨(dú)有的特點(diǎn)。如:Web數(shù)據(jù)龐大、Web頁面復(fù)雜性大、Web信息是動(dòng)態(tài)的等。
Web數(shù)據(jù)挖掘的技術(shù)主要有頻繁模式挖掘、序列模式挖掘、聚類分析、路徑分析等。
3 需求分析與系統(tǒng)搭建
網(wǎng)絡(luò)教學(xué)系統(tǒng)是現(xiàn)代遠(yuǎn)程教育的方向,教學(xué)決策支持系統(tǒng)在其中扮演著重要角色。我們的基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)決策支持系統(tǒng),主要包括以下功能:
3.1 學(xué)生學(xué)習(xí)功能
基于Web的在線學(xué)習(xí)、在線自測(cè)、在線作業(yè)等功能。
3.2 課程管理功能
提供給課程教師進(jìn)行課程管理所需各種功能。如資料管理、作業(yè)布置評(píng)改、學(xué)習(xí)評(píng)測(cè)、學(xué)生評(píng)價(jià)等。
3.3 統(tǒng)計(jì)挖掘功能
統(tǒng)計(jì)查詢功能主要對(duì)學(xué)生的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢,建立起完整的學(xué)生學(xué)習(xí)個(gè)性模型,進(jìn)行個(gè)性化界面定制,可為用戶提供智能化、個(gè)性化服務(wù)。
3.4 其他
權(quán)限管理功能、BBS論壇、質(zhì)量評(píng)價(jià)等。
在我們的平臺(tái)設(shè)計(jì)中,系統(tǒng)開發(fā)環(huán)境的選擇要求是目前流行的開發(fā)技術(shù)手段同時(shí)又要求經(jīng)濟(jì)可行。所以免費(fèi)開源成了我們的首選。我們系統(tǒng)軟件環(huán)境搭建為Apache服務(wù)器+PHP+Winxp+Mysql數(shù)據(jù)庫。
PHP是:Hypertext Preprocessor(超文本預(yù)處理器)的縮寫,它是一種服務(wù)器端的HTML腳本/編程語言,支持幾乎所有流行的數(shù)據(jù)庫以及操作系統(tǒng)。
MySQL是最受歡迎的開源SQL數(shù)據(jù)庫管理系統(tǒng)。是一個(gè)快速、多線程、多用戶的SQL數(shù)據(jù)庫服務(wù)器,PHP的首選數(shù)據(jù)庫。MySQL可運(yùn)行在不同的操作系統(tǒng)下。
Apache是世界排名第一的Web服務(wù)器,它為我們的網(wǎng)絡(luò)管理員提供了豐富多彩的功能,如果您在Windows系統(tǒng)上成功安裝配置了Apache之后,您的計(jì)算機(jī)也將隨著Apache的生效而搖身一變,成為一臺(tái)名副其實(shí)的Web Server。
4 數(shù)據(jù)挖掘處理模塊的實(shí)現(xiàn)
Web挖掘的主要由以下幾個(gè)基本步驟完成:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式識(shí)別、模式分析。
數(shù)據(jù)的收集是根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取數(shù)據(jù),Web服務(wù)器的日志文件詳細(xì)地記錄了用戶的瀏覽行為。
數(shù)據(jù)的預(yù)處理是保證數(shù)據(jù)挖掘質(zhì)量的關(guān)鍵。首先進(jìn)行數(shù)據(jù)清理,主要包括進(jìn)行冗余數(shù)據(jù)的清除,以及對(duì)錯(cuò)誤數(shù)據(jù)和缺失數(shù)據(jù)的修復(fù),比如去除訪問中的廣告鏈接、圖片鏈接等信息,將其轉(zhuǎn)化成適合模式發(fā)現(xiàn)的、具有良好格式的數(shù)據(jù)抽象;第二步是識(shí)別用戶,想要識(shí)別出每一個(gè)用戶變得很復(fù)雜,一般采用的方法包括Cookie技術(shù),啟發(fā)式規(guī)則等;第三步是會(huì)話識(shí)別,會(huì)話識(shí)別的目的是把屬于同一用戶的同一次訪問請(qǐng)求識(shí)別出來;第四步是路徑補(bǔ)充,路徑補(bǔ)充的主要目的就是將漏掉的用戶訪問請(qǐng)求補(bǔ)充到用戶會(huì)話中,通常采用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)結(jié)合引用頁的方法進(jìn)行路徑補(bǔ)充。
模式識(shí)別:是對(duì)預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來分析數(shù)據(jù)。首先確定挖掘的目的是進(jìn)行分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等,確定了任務(wù)再?zèng)Q定使用的挖掘算法。
模式分析:解釋并評(píng)估結(jié)果,對(duì)數(shù)據(jù)挖掘得到的知識(shí)結(jié)果進(jìn)行分析,將經(jīng)過模式分析得到有價(jià)值的模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。
平臺(tái)設(shè)計(jì)時(shí),我們將平臺(tái)分為在線和離線,在線部分向?qū)W生提供訪問頁面,提供服務(wù),信息處理則為離線,進(jìn)行后臺(tái)數(shù)據(jù)挖掘。如圖1.1所示。
5 數(shù)據(jù)挖掘?qū)ζ脚_(tái)決策的支持
數(shù)據(jù)挖掘功能應(yīng)用于網(wǎng)絡(luò)教學(xué)平臺(tái),能夠?qū)崿F(xiàn)學(xué)生學(xué)習(xí)的個(gè)性化。在學(xué)校,課程的學(xué)習(xí)是循序漸進(jìn)的,學(xué)習(xí)的課程也有關(guān)聯(lián)。同一年級(jí)學(xué)習(xí)的不同班級(jí)、同一班級(jí)的不同學(xué)生,由于授課方式、學(xué)生基礎(chǔ)的不同,成績(jī)結(jié)果相差很大。利用教學(xué)平臺(tái)中存放的歷史學(xué)習(xí)記錄和歷史成績(jī),結(jié)合關(guān)聯(lián)規(guī)則挖掘,聚類挖掘等技術(shù),找到一條最佳學(xué)習(xí)路徑,因材施教,對(duì)課程學(xué)習(xí)做出合理安排。
數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)平臺(tái)的優(yōu)化提供了數(shù)據(jù)支持。利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則,尋找教學(xué)平臺(tái)頁面間的內(nèi)在聯(lián)系??梢栽趯W(xué)習(xí)者訪問A網(wǎng)頁時(shí),根據(jù)關(guān)聯(lián)規(guī)則結(jié)果,向其推薦頁面C。平臺(tái)還可以提前將頁面C下載至用戶緩沖,加快瀏覽速度。
6 總結(jié)與展望
與原來的電大在線比較,網(wǎng)絡(luò)決策支持系統(tǒng)的優(yōu)點(diǎn)主要在于強(qiáng)調(diào)遠(yuǎn)程教育的網(wǎng)絡(luò)學(xué)習(xí)過程;強(qiáng)調(diào)教師與學(xué)生、學(xué)生與學(xué)生或?qū)W生與資源的互動(dòng);強(qiáng)調(diào)網(wǎng)絡(luò)學(xué)習(xí)的環(huán)境建設(shè),強(qiáng)調(diào)個(gè)性化學(xué)習(xí)支持,強(qiáng)調(diào)網(wǎng)站結(jié)構(gòu)的合理。
WEB日志挖掘的理論研究及實(shí)現(xiàn)技術(shù)涉及多方面的理論、方法和技術(shù),由于本文主要是針對(duì)自適應(yīng)站點(diǎn)建構(gòu)的可行性研究,因此對(duì)算法的要求主要是算法正確、可行,對(duì)于系統(tǒng)的完善、資源的優(yōu)化和服務(wù)器優(yōu)化設(shè)計(jì)等在今后需要更深入的研究。
參考文獻(xiàn):
[1]劉上力,趙勁強(qiáng),聶勤務(wù).Web使用挖掘中的數(shù)據(jù)預(yù)處理方法[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào),2010,4(8):23-27
[2]焦李成.智能數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].西安:西安電子科技大學(xué)出版社,2006,8
[3]朱晉華,陳俊杰.Web日志預(yù)處理中會(huì)話識(shí)別的優(yōu)化[J].太原理工大學(xué)學(xué)報(bào),2008,2(4):34-36
[4]劉加伶,范軍.基于用戶訪問樹的Web日志挖掘數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué),2009,4(8):13-16
[基金項(xiàng)目]貴州省教育廳自然科學(xué)研究項(xiàng)目(合同編號(hào):2010060)
[作者簡(jiǎn)介]曹智勇(1975-),男,貴州,副教授;陳妤倩(1975-),女,貴州,講師。