鄭志勇
摘? 要:隨著網(wǎng)絡(luò)教育信息資源的信息容量急劇增加,簡單依靠商業(yè)化搜索引擎已不能滿足個性化教與學(xué)的需求,通過使用解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果保存進(jìn)Derby數(shù)據(jù)庫,再利用數(shù)據(jù)挖掘技術(shù)對可用資源的進(jìn)行頁面價值評價和格式化存儲,必將有效提高網(wǎng)絡(luò)教育資源的使用水平。大部分學(xué)生觸網(wǎng),都是進(jìn)入微博、玩網(wǎng)絡(luò)游戲、聊天,網(wǎng)絡(luò)在學(xué)生群體中的使用更多的只是娛樂工具。
關(guān)鍵詞:數(shù)據(jù)挖掘? Jsoup? 網(wǎng)絡(luò)教育資源? 抓取策略
中圖分類號:TP311 ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2019)09(b)-0004-02
1? 網(wǎng)絡(luò)教育資源建設(shè)的現(xiàn)狀和利用分析
隨著中國互聯(lián)網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)優(yōu)化,網(wǎng)絡(luò)性能顯著提升,網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)規(guī)模不斷擴(kuò)大,網(wǎng)民低齡化趨勢明顯。但有研究顯示,盡管在校學(xué)生上網(wǎng)人數(shù)相當(dāng)多,利用網(wǎng)絡(luò)作為學(xué)習(xí)工具的人數(shù)比例還是很少,能很好地使用網(wǎng)絡(luò)資源,尤其是豐富的學(xué)科資源輔助學(xué)習(xí)的學(xué)生人數(shù)更少。在校學(xué)生無法利用網(wǎng)絡(luò)教育資源的主要原因有下面幾個方面:(1)是因為網(wǎng)上學(xué)習(xí)資源太雜,難以選擇;(2)是網(wǎng)絡(luò)學(xué)習(xí)資源呈現(xiàn)方式五花八門,有的是主次部分,充斥大量垃圾廣告,更有甚者還有包含暴力、不健康的文字和圖片,引誘學(xué)生點(diǎn)擊。(3)是網(wǎng)絡(luò)上的材料太難影響興趣;(4)是老師缺乏指引。隨著海量的網(wǎng)絡(luò)教育資源建設(shè)和快速上升的帶寬、接入終端普及率與極低的在校學(xué)生使用網(wǎng)絡(luò)教育資源的利用率形成了巨大的反差。通過數(shù)據(jù)挖掘技術(shù)抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,再利用數(shù)據(jù)挖掘技術(shù)對可用資源的進(jìn)行有效分析與格式化,將大大提高在校學(xué)生網(wǎng)絡(luò)教育資源的利用率。
2? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作原理和主要策略
2.1 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)如圖1,主要由包含數(shù)據(jù)存儲部分、頁面分析部分和終端輸出3個部分。其中數(shù)據(jù)存儲部分有URL資源庫、本地資源庫、格式庫;頁面分析部分有頁面價值計算系統(tǒng)和頁面結(jié)構(gòu)分析系統(tǒng);終端輸出部分主要包括終端展示(含手機(jī)APP、微網(wǎng)站、微信應(yīng)用)及學(xué)習(xí)反饋兩個部分。
2.2 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)流程
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作機(jī)制為教師或家長在明確學(xué)習(xí)目標(biāo)的基礎(chǔ)上,使用HTML解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,對結(jié)果URL進(jìn)行頁面價值計算,將計算結(jié)果滿足條件的URL記錄到URL目標(biāo)資源庫中。執(zhí)行頁面內(nèi)容抓取分析,進(jìn)行頁面結(jié)構(gòu)化分析,去除無效的頁面(如腳本、鏈超接、商業(yè)廣告、導(dǎo)航),將分析結(jié)果保存到本地資源庫中。最后,教師或家長可自行設(shè)計輸出格式,學(xué)生可在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上進(jìn)行學(xué)習(xí)。
2.3 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的資源抓取策略
如表1所示。
2.4 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)挖掘策略
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁面價值評價系統(tǒng),采用百分制計算,頁面分為三等,分別為不合格,合格和優(yōu)秀;其中0~50分為不合格,50~80為合格,80~100分為優(yōu)秀。
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁面價值分?jǐn)?shù)計算公式:
F=A*(W*C/B+(P+M)(2-C)/B)
A:代表網(wǎng)站權(quán)重,其中專業(yè)教育資源類網(wǎng)站權(quán)重為1.2,搜索引擎結(jié)果權(quán)重為1;
B:代表網(wǎng)站權(quán)重最大值,這里是1.2;
C:代表文字部分權(quán)重,可根據(jù)教學(xué)目標(biāo)調(diào)整;
W:代表文字內(nèi)容,滿分50分(見表2)。
P:代表圖片資源,滿分20分(見表3)。
M:代表多媒體視頻率資源,滿分30分(見表4)。
2.5 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出策略
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出采用內(nèi)容管理系統(tǒng)CMS技術(shù),網(wǎng)頁抓取功能將符合條件的頁面內(nèi)容,過濾后格式化到本地資源庫中,通過事先設(shè)計網(wǎng)站、手機(jī)APP、手機(jī)微站、微信應(yīng)用等模版,教育內(nèi)容可直接的發(fā)布在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上。
頁面內(nèi)容過濾策略為:過濾所有腳本、所有外鏈、所有樣式、導(dǎo)航欄,只保留
范圍標(biāo)簽內(nèi)的內(nèi)容。3? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的實(shí)現(xiàn)
3.1 基礎(chǔ)準(zhǔn)備
開發(fā)平臺操作系統(tǒng)為Windows;開發(fā)語言采用Java;數(shù)據(jù)庫采用JAVA自帶Derby數(shù)據(jù)庫。
3.2 URL目標(biāo)資源庫設(shè)計
URL目標(biāo)資源庫用于存儲有價值的教育資源網(wǎng)站頁面URL地址和搜索引擎的搜索結(jié)果中有價值的頁面URL。核心字段有:來源類型,分搜索引擎和教育資源兩類,保存頁面的地址,抓取時間,文字?jǐn)?shù),圖片數(shù),資源URL抓取核心代碼,采用Jsoup的Document類來完成。
3.3 本地資源庫設(shè)計
本地資源庫設(shè)計與普通的內(nèi)容管理系統(tǒng)類似,核心是頁面內(nèi)容表。核心字段主要有教學(xué)任務(wù),文章類型文章內(nèi)容等。
4? 應(yīng)用案例
本課題研究應(yīng)用于素質(zhì)拓展課程古詩詞教學(xué),網(wǎng)絡(luò)上有關(guān)古詩的網(wǎng)站,百度找到相關(guān)結(jié)果約86,100,000,面對如此海量的、質(zhì)量參此不齊的信息資源,僅依托搜索結(jié)果是很難達(dá)到教學(xué)目標(biāo)的,如要求教師自己建設(shè)一個相關(guān)教學(xué)網(wǎng)站,需要教師有一定的信息技術(shù)能力和教學(xué)資源的儲備,影響教師使用信息化教學(xué)的積極性。通過網(wǎng)絡(luò)資源挖掘系統(tǒng)挖掘古詩的原文、譯文、古詩的寫作環(huán)境、古詩的內(nèi)涵、古詩朗讀、古詩視頻等資源存儲到本地資源庫用于教學(xué),能大大提高學(xué)生對古詩的感悟能力和古詩鑒賞能力。
5? 結(jié)語
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)通過對現(xiàn)有海量網(wǎng)絡(luò)教育資源挖掘和格式化,一方面簡化或避免了教師重復(fù)建設(shè)教育資源;另一方面也降低了學(xué)生查找和使用網(wǎng)絡(luò)教育資源的難度,避免了學(xué)生被網(wǎng)絡(luò)不良資源的侵害,對實(shí)際有效利用海量網(wǎng)絡(luò)教育資源是可行的。
參考文獻(xiàn)
[1] 盛雪豐.Android開發(fā)一大神器——Jsoup[J].電腦知識與技術(shù),2015,11(8):63-65.
[2] 馮思度,楊健葉,韓煦.基于醫(yī)療信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與設(shè)計[J].現(xiàn)代信息科技,2019(10):23-25.
[3] 胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計算機(jī)研究與發(fā)展,2011,48(1):45-54.