包敬海
[摘要]如今,人們對網(wǎng)絡(luò)的依賴性越來越強。然而,網(wǎng)絡(luò)過載現(xiàn)象越來越嚴重,給學生管理工作者快速、準確地找到自己所需的信息帶來極大不便。采用網(wǎng)絡(luò)蜘蛛和Tag技術(shù),構(gòu)建一種學生管理工作個性化服務(wù)系統(tǒng)。利用網(wǎng)絡(luò)蜘蛛遍歷互聯(lián)網(wǎng)相關(guān)站點、搜集信息,并將用戶最需要的信息進行推送,滿足用戶對學生管理信息的需求。
[關(guān)鍵詞]個性化 網(wǎng)絡(luò)蜘蛛 Tag 搜索引擎 學生管理
隨著網(wǎng)絡(luò)的快速發(fā)展,一方面,人們對從網(wǎng)絡(luò)中獲取信息的依賴程度越來越大;另一方面,網(wǎng)絡(luò)中的信息爆炸式增長,也給人們快速、準確地找到自己需要的信息帶來越來越大的困難。傳統(tǒng)搜索引擎缺乏個性化的局限性日益突出,難以滿足學生管理工作者的需求。采用網(wǎng)絡(luò)蜘蛛和Tag技術(shù),構(gòu)建學生管理工作個性化服務(wù)系統(tǒng),將最有用的信息向用戶進行推送。
一、傳統(tǒng)搜索引擎存在的難題
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2009年7月公布的《第24次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》可知,國內(nèi)網(wǎng)民數(shù)量和網(wǎng)絡(luò)普及率保持高速增長,84.3%的網(wǎng)民認為互聯(lián)網(wǎng)是其最重要的信息渠道。對于廣大學生管理工作者,借助網(wǎng)絡(luò)尋找相關(guān)信息,提高管理水平,成為一項重要的任務(wù)。
但是,要在網(wǎng)絡(luò)的海洋中快速、準確地尋找到最有用的信息,并不是一件簡單的事情。通常,人們借助Google、百度等搜索引擎進行檢索。但是,由于網(wǎng)絡(luò)中信息數(shù)量增長過快,信息過載日益嚴重。信息過載指的是由于信息過多過雜,超出了人的處理能力,造成人們無法有效萃取出想要的信息的一種狀態(tài)。
信息過載發(fā)展迅速,嚴重影響人的工作效率。例如,2005年,在Google中關(guān)于“搜索引擎”的結(jié)果只有262萬條;到了2007年,筆者統(tǒng)計的結(jié)果為750萬條;而到了2009年7月,則高達3220萬條。在數(shù)以千萬計的檢索結(jié)果中,混雜著無數(shù)與用戶真實意圖并不相關(guān)的內(nèi)容,使得用戶越來越難以快速找到真正滿足自己需求的內(nèi)容。
其實,不同職業(yè)、年齡、愛好的用戶,對同一個要檢索的關(guān)鍵字要表達的意思是不一樣的。用戶檢索“jaguar”時,根據(jù)其興趣,所表達的意思是完全不一樣的。例如,動物、戰(zhàn)斗機,或者足球隊,等等。傳統(tǒng)的搜索引擎不能僅僅從關(guān)鍵字返回所有的結(jié)果,而應(yīng)該根據(jù)用戶的職業(yè)、愛好等特點,向用戶提供滿足其個性化需求的一種信息服務(wù),實現(xiàn)個性化服務(wù)。
二、學生管理工作個性化服務(wù)的需求
學生管理是一項繁瑣的工作,同時也責任重大,一旦出現(xiàn)意外事情,都會給學校、學生和自己帶來危害。因此,特別需要借助個性化服務(wù)系統(tǒng)不斷更新觀念,充實知識,提高教育學生的能力。
首先,學生管理工作者需要關(guān)注的問題還是比較多的,例如,安全、學習、就業(yè)、法律法規(guī)等。其中的細節(jié)很多,需要工作者盡量多掌握各方面的知識。其次,學生管理工作者需要不斷從網(wǎng)絡(luò)中獲取新信息,更新自己的管理理念,適應(yīng)社會的發(fā)展。再次,學生管理工作是一項需要常抓不懈,如果沒有不斷充實新的實例,僅僅靠強調(diào)和空談理論,學生很難聽進去,效果不理想。而如果根據(jù)網(wǎng)絡(luò)中的相關(guān)新聞實例進行講解,分析起來更具體、更深刻,有的放矢自然能讓學生產(chǎn)生的共鳴。
因此,從網(wǎng)絡(luò)中獲取相關(guān)信息非常重要,教育工作者對此也有迫切的需求。
三、學生管理工作個性化服務(wù)系統(tǒng)的設(shè)計
根據(jù)教育工作者對學生管理工作信息的需求,針對網(wǎng)絡(luò)過載的難題,可以通過建設(shè)學生管理工作個性化服務(wù)系統(tǒng)的方法來解決。其思路為:收集網(wǎng)絡(luò)中的新聞,過濾掉無關(guān)信息,將相關(guān)信息分類存儲,并向用戶推送,實現(xiàn)個性化服務(wù)。
首先,不管哪個搜索引擎要收集網(wǎng)絡(luò)中的網(wǎng)頁,都需要使用網(wǎng)絡(luò)蜘蛛 (也稱為網(wǎng)絡(luò)爬蟲)沿著一定的開始路徑、按照一定的爬行算法去掃描互聯(lián)網(wǎng),把爬行到的網(wǎng)頁收集到數(shù)據(jù)庫中。其工作原理如圖1所示。
當然,網(wǎng)絡(luò)中信息太多,要進行比較全面地掃描,只有Google等技術(shù)力量和硬件條件都比較雄厚的企業(yè)才能實現(xiàn)。但是,如果針對某個IP段或網(wǎng)站進行爬行,要求并不是很高。因此,筆者將該系統(tǒng)定位于爬行地方論壇、門戶網(wǎng)站的新聞欄目。這樣,既可以獲取全國各地可靠性較高的信息,操作性也較好。
然后,利用各種算法,將數(shù)據(jù)庫中的信息進行過濾。網(wǎng)絡(luò)蜘蛛搜集到的信息,很多是重復的,只保留權(quán)威性較高的即可。其次,對于那些與學生管理工作無關(guān)的,可以通過與Tag比較并排除。Tag(標簽、書簽)是一種采用平行的、可以自定義的詞匯來對一個信息文檔進行分類或表達。自Web2.0開始后,Tag的應(yīng)用越來越廣泛。例如,新聞分類、論壇專題化、網(wǎng)址站點、博客等各個領(lǐng)域。在該系統(tǒng)的Tag條目中,用戶可以根據(jù)自己的需求自行添加。例如,“網(wǎng)癮”、“網(wǎng)友”、“詐騙”等。系統(tǒng)將相關(guān)信息貼上Tag以后,自然方便用戶進行查詢。如果服務(wù)器性能不高,可以只保留新聞標題、鏈接地址和Tag,這樣能讓系統(tǒng)運行更順暢。
最后,用戶進入系統(tǒng)時,系統(tǒng)根據(jù)用戶定制的興趣,把相關(guān)信息向用戶推送,實現(xiàn)個性化服務(wù)。同時,用戶還可以修改定制的內(nèi)容,并可以提交對該新聞的態(tài)度(如圖2所示),幫助系統(tǒng)進行分析、排序,提供更好的服務(wù)。
四、結(jié)束語
利用網(wǎng)絡(luò)蜘蛛對地方論壇、門戶網(wǎng)站的新聞欄目進行搜集信息,通過與系統(tǒng)的Tag進行比較,清除無關(guān)信息,并對信息進行分類。最后,根據(jù)用戶定制的興趣,將最有用的信息向用戶推送,實現(xiàn)對學生管理工作者的個性化服務(wù)。
參考文獻:
[1]CNNIC.中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報[EB/OL].
[2] David Bawden,Clive Holtham,Nigel Courtney.Perspectives on information overload.Aslib Proceedings,1999,51(8):249.
[3]黃國景.元搜索引擎?zhèn)€性化搜索的研究與設(shè)計[D].蘇州大學碩士論文,2005.
[4]曾春,邢春曉,周立柱.個性化服務(wù)綜述[J].軟件學報,2002,(10).
[5]司姣姣.Tag的發(fā)展研究[J].山東圖書館學刊,2009,(1):66-70.
基金項目:廣西教育廳科研項目(200708MS073)。