孔祥瑜 吳孟哲 陳新宇 孟澤鑫
摘要:本文主要論述了基于RSS的高校綜合信息平臺的建立及其應(yīng)用方法。作為互聯(lián)網(wǎng)上的最新技術(shù)之一,RSS通過XML標(biāo)準(zhǔn)定義了內(nèi)容的包裝和發(fā)布格式,使得信息發(fā)布、接收和使用更加穩(wěn)定、高效、實(shí)時(shí)、安全、低成本。該平臺實(shí)現(xiàn)了信息資源的自動(dòng)提取與采集以及RSS自定義添加與分享,同時(shí)對采集到的信息進(jìn)行分類、在線聚合,具有強(qiáng)交互性、高共享性、高度個(gè)性化、知識種類多樣化等眾多優(yōu)點(diǎn),具有一定的市場價(jià)值。
關(guān)鍵詞:RSS;聚合;信息平臺;分享;高校學(xué)生
一.RSS基本原理
RSS技術(shù)是基于XML標(biāo)準(zhǔn)建立的內(nèi)容包裝和投遞的協(xié)議,它規(guī)范了網(wǎng)站發(fā)布更新消息時(shí)的格式,要求以XML格式記錄信息的題目、作者、發(fā)布時(shí)間、摘要內(nèi)容、相關(guān)的URL地址等。網(wǎng)站更新內(nèi)容時(shí),只需要按照RSS標(biāo)準(zhǔn)生成同樣形式的文件,RSS訂閱工具可以檢測網(wǎng)站發(fā)布文件并自動(dòng)地將更新的文件下載到本地。用戶通過RSS reader可以瀏覽到相應(yīng)頻道給出的信息列表,通過刷新可以查看最新的頻道更新內(nèi)容。同時(shí)通過相應(yīng)的URL地址可以鏈接到原始網(wǎng)站查看詳細(xì)內(nèi)容。RSS搭建了一個(gè)信息迅速傳播的平臺,使得用戶可以不用逐個(gè)登陸網(wǎng)站而實(shí)時(shí)獲取最新消息。RSS標(biāo)準(zhǔn)規(guī)定的XML格式文件使得文件中包含的信息能直接被其他站點(diǎn)調(diào)用,同時(shí)也能在其他的終端和服務(wù)中使用。
二.系統(tǒng)框架與功能分析
2.1系統(tǒng)框架設(shè)計(jì)
基于RSS架構(gòu)的高校綜合信息平臺的個(gè)性化服務(wù)體現(xiàn)在用戶可以定制頻道內(nèi)容,實(shí)現(xiàn)的關(guān)鍵在于收集用戶個(gè)性設(shè)置。通過RSS訂閱頁面,收集用戶個(gè)性設(shè)置,用于生成RSS頻道描述信息。最終通過網(wǎng)站內(nèi)置的簡易RSS閱讀器將用戶定制內(nèi)容展示在個(gè)人空間。如圖2-1、圖2-2所示,本平臺系統(tǒng)總體設(shè)計(jì)采用目前比較流行的輕型框架組合SSH(Struts、Spring、Hibernate)實(shí)現(xiàn)。
RSS訂閱頁面收集用戶個(gè)性設(shè)置信息,并將其存入個(gè)性設(shè)置數(shù)據(jù)庫。RSS頻道生成器根據(jù)用戶識別代碼,從個(gè)性設(shè)置數(shù)據(jù)庫讀取個(gè)性設(shè)置信息,用于查詢公告信息和數(shù)據(jù)庫,生成頻道信息。用戶可直接登錄個(gè)人空間進(jìn)行定制信息的閱讀。
在用戶端,RSS閱讀器可以按照用戶喜好。有選擇性地將用戶感興趣的內(nèi)容來源進(jìn)行“聚合”,為用戶提供多來源信息的“一站式”服務(wù)。
2.2系統(tǒng)功能分析
1、自動(dòng)聚合信息資源
基于RSS的信息聚合功能,用戶只需根據(jù)自身需要或興趣,訂閱相應(yīng)的信息與資源,即可在聚合器獲取到符合條件的所有資源,而不必為查找資源遍歷各個(gè)信息資源網(wǎng)站,節(jié)省了大量時(shí)間,提高了效率。
2、自動(dòng)過濾信息資源
基于RSS的信息過濾功能,用戶還可以通過設(shè)置過濾掉不需要或不感興趣的信息或頻道,防止垃圾信息,方便本地資源管理,如文檔分類排序、搜索和標(biāo)記已讀/未讀等多種資源管理功能,所以大大方便了教學(xué)信息內(nèi)容的解讀以及管理。
3、自動(dòng)更新信息資源
基于RSS的信息推送功能,服務(wù)器端更新的信息資源,會被及時(shí)主動(dòng)地推送到聚合器上,從而確保了最新的信息資源能夠在第一時(shí)間被發(fā)現(xiàn)并使用,用戶不必再頻繁登錄網(wǎng)站以查詢資源是否已更新。
三.系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)
3.1RSS解析
RSS feed就是RSS的Web內(nèi)容源,有人叫它種子,由于RSS Feed是基于XML標(biāo)準(zhǔn)的,可看作是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,因此可以使用半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù),將RSS Feed文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng)起來,從而很容易地實(shí)現(xiàn)RSS Feed數(shù)據(jù)源的抽取與存儲。
3.2信息內(nèi)容過濾
在信息內(nèi)容提取時(shí),為了過濾掉廣告、圖標(biāo)等影響用戶閱讀的雜質(zhì),設(shè)置了信息內(nèi)容過濾器,通過對信息內(nèi)容頁面的分析,根據(jù)用戶設(shè)置的過濾條件,對廣告等雜質(zhì)進(jìn)行過濾。
3.3并行采集
為了提高采集效率,系統(tǒng)采用多線程技術(shù)對多個(gè)任務(wù)進(jìn)行并行采集。主線程根據(jù)設(shè)置的最大線程數(shù)目和執(zhí)行周期負(fù)責(zé)對各子線程的調(diào)用,子線程負(fù)責(zé)對各個(gè)啟動(dòng)的任務(wù)進(jìn)行采集。
3.4重復(fù)內(nèi)容檢測
為了在采集時(shí)避免信息重復(fù)采集,在數(shù)據(jù)庫中設(shè)計(jì)了抓取的鏈接記錄表,詳細(xì)記錄每一條抓取過的鏈接,在每次信息采集時(shí)將采集到的源標(biāo)題及其鏈接與數(shù)據(jù)庫中的抓取鏈接記錄表進(jìn)行比較,如果抓取鏈接記錄表中存在該條記錄,則表示該條信息已經(jīng)采集,不再進(jìn)行采集。
3.5編碼方式檢測
由于采集的信息源來自于不同的網(wǎng)站,為了確定其編碼方式,設(shè)計(jì)了編碼檢測器對其進(jìn)行檢測,由于編碼方式一般在網(wǎng)頁的開頭,因此,編碼檢測器首先讀取網(wǎng)頁的前1000字節(jié),然后從中提取編碼方式。
4總結(jié)與展望
通過以上論述,我們知道,利用RSS技術(shù)可以使得高校綜合信息平臺具有如下優(yōu)勢:
(1)信息過濾:是充當(dāng)知識和信息的“過濾器”,通過RSS技術(shù)讓網(wǎng)絡(luò)形成最好的知識積累方式,可以使得“隱性知識”真正通過網(wǎng)絡(luò)實(shí)現(xiàn)“顯性”化;
(2)信息搜集:簡單進(jìn)行訂閱RSS頻道,只要經(jīng)過一些相關(guān)部門的整合,就可以搜集各高校網(wǎng)絡(luò)上值得關(guān)注的信息,如從圖書館網(wǎng)站、或其他系部網(wǎng)站及時(shí)獲得最新信息;
(3)信息推送:把學(xué)校網(wǎng)絡(luò)上的最新信息變動(dòng)推送給用戶;
(4)信息交流:通過RSS技術(shù),使得需要不斷學(xué)習(xí)的各位學(xué)校用戶,可以在很短的時(shí)間內(nèi),接觸最鮮活的思想,瀏覽全球范圍最好的新聞、文章、評論與報(bào)告,準(zhǔn)確把握最新的熱點(diǎn)、觀點(diǎn)、動(dòng)態(tài)和趨勢;
隨著RSS技術(shù)的快速發(fā)展和普及,必將推動(dòng)高校網(wǎng)絡(luò)教育的個(gè)性化智能化。
參考文獻(xiàn):
[1]胡智文.RSS與語義網(wǎng)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(17):4618-4620.
[2]謝倩堃.RSS新聞的更新特征分析及RSS Reader的訂閱模型[D].北京:北京交通大學(xué)電子信息工程學(xué)院,2008.
[3]Jussi Myllymaki. Effective Web Data Extraction with Standard XML Technologies[J]. Hong Kang, 2001(10):125.