邵孟良
摘要:針對網(wǎng)絡(luò)教學(xué)資源平臺中資源的靜態(tài)特性,以及無法實時獲取Internet上動態(tài)資源的問題,提出基于分類與評價算法的云端資源動態(tài)更新的系統(tǒng)建設(shè)方案,并對系統(tǒng)整體架構(gòu)及資源動態(tài)采集模塊、文件自動化分類模塊、評價與反饋模塊進行分析設(shè)計,對核心的文件分類模塊采用基于詞頻及權(quán)重值的集成分類算法,通過分類搜索樹運算構(gòu)建,最后實驗驗證系統(tǒng)及算法正確、高效。
關(guān)鍵詞:教學(xué)資源庫;文件分類;詞頻分類;搜索樹
中圖分類號:TP311? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)18-0274-03
Abstract: Aiming at the static characteristics of resources in the network teaching resource platform and the problem of not being able to obtain real-time dynamic resources on the Internet, a system construction scheme based on classification and evaluation algorithm for dynamic updating of cloud resources is proposed, and the system architecture and resource dynamic collection modules and files are proposed. The automatic classification module, evaluation and feedback module are used for analysis and design. The core file classification module adopts the integrated classification algorithm based on word frequency and weight value, and is constructed by classification search tree operation. Finally, the experimental verification system and algorithm are correct and efficient.
Key words: Teaching resource library; document classification; word frequency classification; search tree
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)教育及資源成為傳統(tǒng)教育的有益補充與擴展。各大高職院校非常重視網(wǎng)絡(luò)教育資源與傳統(tǒng)教學(xué)模式的結(jié)合應(yīng)用,提高人才培養(yǎng)質(zhì)量。同時,國家也給予大力的支持,如:教育部于2010年啟動高等職業(yè)教育專業(yè)教學(xué)資源庫建設(shè)項目,2010年遴選、立項11個項目,2011年遴選、立項17個項目,涉及13個學(xué)科大類、16個省市和32個高職院校,建設(shè)資金達3億多元[1];2018 年底“新建一批國家級職業(yè)教育專業(yè)教學(xué)資源庫和國家精品在線開放課程”、“立項建設(shè)省級高等職業(yè)教育專業(yè)教學(xué)資源庫 (200個左右)和精品在線開放課程(1000門左右)”[2]。
教學(xué)資源庫的建設(shè)與使用帶動全國職業(yè)教育的人才培養(yǎng)模式改革,推動職業(yè)教育教學(xué)改革,促進學(xué)習(xí)方式轉(zhuǎn)變,滿足學(xué)習(xí)者個性化、多樣化、自主式的學(xué)習(xí)需要,整體提升職業(yè)教育人才培養(yǎng)質(zhì)量和社會服務(wù)能力[3]。
目前,建成的教學(xué)資源庫一般具有以下功能:完善的庫類別,資源的共建共享, WEB集成,資源檢索,網(wǎng)上交流,自主學(xué)習(xí)等[4]。在庫類別中,一般分為專業(yè)標(biāo)準庫、網(wǎng)絡(luò)課程庫、精品課建設(shè)庫、專業(yè)信息庫、專業(yè)特色專題庫、專業(yè)試卷庫、專業(yè)圖片庫、專業(yè)視頻動畫庫、專業(yè)合作企業(yè)庫、專業(yè)文獻庫等。用戶可自己維護自定義資源庫的類別。由于教學(xué)資源庫的建設(shè)周期長,而上傳到平臺的資源多為靜態(tài)數(shù)據(jù),且一般是由教學(xué)實施方手工方式上傳更新,在知識日新月異的信息時代,專業(yè)庫的知識內(nèi)容嚴重滯后,無法適應(yīng)專業(yè)的飛速發(fā)展,特別是專業(yè)信息庫、專業(yè)文獻庫。
針對教學(xué)資源庫資源種類單一、不能清晰地標(biāo)注資源之間的邏輯關(guān)系、更新不及時等問題[5],本文擬提出建設(shè)基于分類與評價算法的云端資源動態(tài)更新的系統(tǒng)建設(shè)方案,由系統(tǒng)自動化地抓取Internet上的相關(guān)資源,并進行智能化地歸類,動態(tài)更新專業(yè)信息庫、專業(yè)文獻庫,以適應(yīng)專業(yè)的發(fā)展,及時跟蹤專業(yè)領(lǐng)域前沿技術(shù)。如何對Internet上海量的、異構(gòu)的、動態(tài)的、半結(jié)構(gòu)化或非結(jié)構(gòu)化的信息資源進行抓取與分類,本文將結(jié)合教學(xué)資源庫的特定案例進行研究與嘗試。
1系統(tǒng)分析與設(shè)計
1.1系統(tǒng)整體設(shè)計
系統(tǒng)整體架構(gòu)圖如圖1所示:
本系統(tǒng)主要涉及資源動態(tài)采集、文件分類、資源評價與反饋三大模塊。資源動態(tài)采集模塊實時地抓取頁面;文件分類模塊根據(jù)專業(yè)性質(zhì)及難易度等要求進行自動化文檔歸類;資源評價與反饋模塊讓用戶對資源進行評議,并反饋給文件分類模塊,通過機器學(xué)習(xí)不斷提高文件分類的精準度。
1.2資源動態(tài)采集模塊
資源動態(tài)采集模塊根據(jù)專業(yè)庫的不同,依據(jù)配置文件中設(shè)置的URL、關(guān)鍵字、采集策略等搜索條件,實時地抓取Internet上的資源,并生成輸出數(shù)據(jù)文件供文件分類模塊進一步處理歸類。資源采集流程如圖2:
1.3文件分類模塊
文件分類模塊根據(jù)采集輸出的數(shù)據(jù),結(jié)合關(guān)鍵字庫,采用相應(yīng)的文本分類算法進行分類,歸集到相關(guān)類別中。
文本分類算法眾多,針對本應(yīng)用系統(tǒng)特點,主要是針對固定的課程,其教學(xué)計劃與要求比較明確(如:課程關(guān)鍵字、每個章節(jié)關(guān)鍵字、每個知識點關(guān)鍵字等都比較明確),故采用基于詞頻分類器集成的文本分類方法。文件分類模塊架構(gòu)如圖3所示:
1.4資源評價與反饋模塊
文件分類模塊完成文檔的自動化分類與歸集,但由于文檔結(jié)構(gòu)復(fù)雜,文件分類模塊無法智能化理解文件內(nèi)容,其分類算法對文件的分類與歸集會存在一定的誤差。為適時調(diào)整與反饋分類評價,資源評價與反饋模塊完成以下操作:當(dāng)用戶瀏覽文件內(nèi)容時,讓用戶對文件進行簡要評價,計算生成調(diào)整參數(shù)值,傳入調(diào)整因子,反饋到文件分類模塊,調(diào)整分類結(jié)果。
2相關(guān)技術(shù)概述
2.1網(wǎng)頁抓取技術(shù)
網(wǎng)頁抓取主要根據(jù)關(guān)鍵字檢索網(wǎng)頁內(nèi)容,尋找匹配的頁面。其關(guān)鍵技術(shù)是字符串匹配算法。字符串匹配分為精確字符串匹配和非精確字符串匹配,其匹配的模式有單模式匹配和多模式匹配。單模式匹配算法主要有:BF算法、KMP算法、BM算法、RK算法、Horspool算法[6]、Sunday算法[7]等,及各種改進的算法;多模式匹配算法主要有:AC (Aho-Corasick algorithm)、ACBM(CW)[8]、WM[9]、ACQS、DAWG(ACRF)、MultiBDM[10]等,及各種改進的算法。
本系統(tǒng)根據(jù)課程及章節(jié)設(shè)置關(guān)鍵字,其關(guān)鍵字比較固定,為適應(yīng)不同的要求,根據(jù)章、節(jié)、知識點設(shè)置1-3級關(guān)鍵字,抓取頁面時,根據(jù)需要選擇不同的級別,對技術(shù)綜合類的網(wǎng)站選擇粗粒度的關(guān)鍵字,對專業(yè)性的網(wǎng)站選擇細粒度的關(guān)鍵字,缺省情況選擇到2級關(guān)鍵字。由于關(guān)鍵字較多,本系統(tǒng)采用多模式匹配算法進行匹配,以提高網(wǎng)頁抓取速度。
2.2文件分類技術(shù)
文本分類的任務(wù)是將文集(corpus)中的文本分到預(yù)先定義的類別中[11]。根據(jù)分類器的數(shù)量將文本分類分為兩大類:單分類器文本分類和多分類器文本分類。單分類器文本分類是指采用單一算法完成文本分類任務(wù),一個分類器能夠獨自完成分類任務(wù),這種分類器分類效果較好,但是算法復(fù)雜度較高,對樣本具有敏感性,如K近鄰分類算法、S V M分類算法等。多分類器文本分類算法是由多個分類器共同完成分類任務(wù),通過訓(xùn)練將多個簡單的基分類器按一定方式組合構(gòu)成集成分類器 , 由集成分類器合作完成分類任務(wù) , 這種分類器具有較好的泛化能力和較高的分類準確率 , 如基于集成學(xué)習(xí)的文本分類算法等[12]。
本系統(tǒng)將采用基于詞頻及權(quán)重值的集成分類方法,由細粒度級別的關(guān)鍵字詞頻及權(quán)重值向上一級歸集,并計算文檔難易度。
3智能化的文檔分類
對采集到的文檔進行分類,智能化歸檔到相關(guān)章節(jié)并設(shè)置難易度,是系統(tǒng)的核心部分。本系統(tǒng)采用基于詞頻及權(quán)重值的集成分類方法,采用搜索樹結(jié)構(gòu)運算構(gòu)建。
3.1分類樹的構(gòu)建
3.1.1 分等級關(guān)鍵字
由于教學(xué)資源庫建設(shè)針對性較強,面向具體的課程,課程一般分章、節(jié),及下面的知識點。根據(jù)章、節(jié)、知識點設(shè)置三級關(guān)鍵字,其結(jié)構(gòu)示例如下(以“數(shù)據(jù)結(jié)構(gòu)”課程為例):
3.1.2 分類樹初始構(gòu)建
各節(jié)點數(shù)據(jù)格式為:關(guān)鍵字:頻度度量值,初始化頻度度量值為0;各邊的權(quán)值為0。
3.1.3 頻度度量值和權(quán)值計算
頻度度量值和權(quán)值計算將根據(jù)資源動態(tài)采集模塊輸出的統(tǒng)計結(jié)果進行,根據(jù)關(guān)鍵字頻度、標(biāo)題關(guān)鍵字等因子進行計算。
(1) 公式定義
(2) 文檔歸類的確定
從根節(jié)點開始,選擇權(quán)值為最大的邊進行深度搜索,直至葉節(jié)點為止。搜索經(jīng)過的路徑就是各級分類的歸集點。
3.2資源評價與反饋
用戶在瀏覽文檔后,將彈出調(diào)查問卷,請用戶對資源分類適合度進行評價,若不適合,將選擇權(quán)值第二、第三大的邊進行深度搜索,供用戶進行選擇。并將選擇的結(jié)果轉(zhuǎn)化為調(diào)整因子[α],重新計算[P(i,j)]。[α]計算公式如下:
[α]=t*Count,其中t為基數(shù),缺省值為0.01,可根據(jù)用戶數(shù)與真實度進行調(diào)整;Count為給予評價與反饋的個數(shù)。對于用戶評價與反饋的真實度需要一個評估過程,可根據(jù)實驗數(shù)據(jù)最終確定基數(shù)t的取值。
4實驗驗證
以表1采集結(jié)果作為實驗樣本數(shù)據(jù),進行權(quán)值計算。
(1)計算生成搜索樹
(2)文檔歸類確定
從根節(jié)點開始,選擇權(quán)值最大的邊進行深度搜索,確定文檔歸類。如圖5所示數(shù)據(jù),搜索路徑為:線性表→鏈式存儲→線性鏈表,則一級類別為線性表,二級類別為鏈式存儲,三級類別為線性鏈表,三級備選類別為單鏈表。
從資源原文件分析理解,系統(tǒng)功能正確,分類準確。
5結(jié)論與展望
本文對教學(xué)資源庫建設(shè)中拓展資源的智能化動態(tài)更新進行了嘗試,采用基于詞頻及權(quán)重值的集成分類方法,使用分類搜索樹結(jié)構(gòu)運算構(gòu)建,確定分級文檔歸類。并對核心的文檔分類部分給出具體的設(shè)計與實現(xiàn),從分類樹的構(gòu)建,到權(quán)值計算,到最佳搜索路徑的生成。本文的研究對Internet上海量的、異構(gòu)的、動態(tài)的、半結(jié)構(gòu)化或非結(jié)構(gòu)化的信息資源進行抓取與分類,對教學(xué)資源庫動態(tài)獲取,并職能化歸類有極大的實用價值。但系統(tǒng)也還存在繼續(xù)完善的環(huán)節(jié),如:系統(tǒng)對關(guān)鍵字需要事先精心選擇,對多別名的關(guān)鍵字也需要涉及,使得系統(tǒng)的效果依賴于關(guān)鍵字的正確設(shè)置;系統(tǒng)對文檔的難度設(shè)置,無法做到智能化語義的理解,目前還只能是依據(jù)關(guān)鍵字及特性值。這些都是未來要繼續(xù)學(xué)習(xí)與研究的。
參考文獻:
[1] 中國高職高專網(wǎng).數(shù)字化學(xué)習(xí)資源中心高等職業(yè)教育教學(xué)資源庫專欄[EB/OL].[2012-12]. http://www.tech.net.cn/zyjs/index.aspx.
[2] 中華人民共和國教育部. 教育部關(guān)于印發(fā)《高等職業(yè)教育創(chuàng)新發(fā)展行動計劃(2015-2018年)》的通知[EB/OL].[2015-10].http://www.moe.gov.cn/srcsite/A07/moe_737/s3876_cxfz/201511/t20151102_216985.html
[3] 劉銳. 高職專業(yè)教學(xué)資源庫研究綜述[J]. 職業(yè)技術(shù)教育,2013(14):42-46.
[4] 張家貴,曹哲新.高職院校共享型專業(yè)教學(xué)資源庫建設(shè)研究[J].現(xiàn)代教育技術(shù),2010(7):51-54.
[5] 楊浩,付艷芳,楊陟卓.教學(xué)資源庫建設(shè)存在的問題及對策探析[J].職業(yè)教育研究,2017(02):55-60.
[6] Horspool R N. Practical fast searching in strings[J]. Software: Practice and Experience, 1980, 10(6): 501-506.
[7] Boyer R S, Moore J S. A fast string searching algorithm[J]. Communications of the ACM, 1977, 20(10): 762-772.
[8] Commentz-Walter B. A string matching algorithm fast on the average[M]. Springer Berlin Heidelberg, 1979.
[9] Wu S, Manber U. A fast algorithm for multi-pattern searching[J]. 1994.
[10] F Sebastiani. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34 (1):1-47.
[11]姜遠,周志華. 基于詞頻分類器集成的文本分類方法[J]. 計算機研究與發(fā)展,2006(10):1681-1687.
[12]梁曉娜,于紅,范麗民,駱桂爽. 改進詞頻分類器集成的文本分類算法[J].智能系統(tǒng)學(xué)報,2010(2):177-180.
【通聯(lián)編輯:梁書】