• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題的教育信息定向采集系統(tǒng)的設(shè)計(jì)

      2014-04-29 00:00:00杜素芳

      摘 要:本文分析了基于主題的教育信息定向采集系統(tǒng)的總體設(shè)計(jì)結(jié)構(gòu),并對各功能模塊的設(shè)計(jì)和功能進(jìn)行了闡述和探討。

      關(guān)鍵詞:信息;采集;去重

      中圖分類號:TP393.09;TP274.2

      基于主題的教育信息定向采集系統(tǒng),是面對包含某一特定主題的教育領(lǐng)域網(wǎng)站,自動判斷網(wǎng)頁信息是否和主題具有相關(guān)性,如果網(wǎng)頁信息和主題吻合,將網(wǎng)頁信息進(jìn)行分析、存放。收集大量主題相關(guān)信息,大大提高教育信息的搜索、查詢速度,為教育領(lǐng)域的主題相關(guān)的用戶提供資源查詢的服務(wù)。本文主要介紹系統(tǒng)的總體設(shè)計(jì)以及功能模塊的設(shè)計(jì)。

      1 系統(tǒng)總體設(shè)計(jì)

      基于主題的教育信息采集系統(tǒng)總體結(jié)構(gòu)如圖1所示。

      圖1 系統(tǒng)總體結(jié)構(gòu)圖

      整個系統(tǒng)由五部分組成分別是Spider采集、頁面解析下載、頁面及URL主題相關(guān)性過濾,網(wǎng)頁和URL去重處理和信息資源庫管理。

      (1)Spider采集:主要完成信息資源的采集工作,采用最新的多線程技術(shù),通過web協(xié)議迅速實(shí)現(xiàn)信息的收集;

      (2)頁面解析下載:根據(jù)相應(yīng)的采集要求,對URL及頁面信息進(jìn)行解析,并根據(jù)規(guī)定的內(nèi)容要求,下載解析得到的符合要求的信息,為系統(tǒng)的下一步工作提供基礎(chǔ);

      (3)頁面及URL主題相關(guān)性過濾:頁面主題相關(guān)性過濾,是對頁面內(nèi)容進(jìn)行分析,判斷其是否和要求主題相關(guān),若無關(guān)則過濾剔除。URL主題相關(guān)性過濾,是由已獲取信息進(jìn)行預(yù)測,判斷網(wǎng)頁中提取的URL是否與主題相關(guān),按照預(yù)測相關(guān)度的高度排列URL的順序,形成新的URL隊(duì)列;

      (4)網(wǎng)頁和URL去重處理:對采集過程中采集到的重復(fù)性內(nèi)容進(jìn)行處理。重復(fù)性內(nèi)容包括分析得到的鏡像網(wǎng)頁、轉(zhuǎn)載網(wǎng)頁、隊(duì)列中重復(fù)的URL等;

      (5)信息資源庫管理:采集到的信息形成基于主題的資源庫,由系統(tǒng)進(jìn)行統(tǒng)一管理,如把信息發(fā)布到文件或特定的網(wǎng)站等。

      系統(tǒng)采用分布式系統(tǒng)設(shè)計(jì)。設(shè)置專用的URL管理器,為Spider采集器提供待采集URL隊(duì)列的管理服務(wù)。定向采集站點(diǎn)內(nèi)的有效內(nèi)容通過Web協(xié)議,由采集器負(fù)責(zé)完成采集工作,采集的Web原始頁面信息,存放成XML文件形式。Web原始頁面的正文和HTML標(biāo)簽的分離由頁面解析下載的頁面分析器來完成。URL解析器主要完成從HTML標(biāo)簽提取頁面中所包含的URL鏈接。頁面過濾器主要完成與主題相關(guān)HTML頁面的提取。

      2 功能模塊設(shè)計(jì)

      根據(jù)教育信息采集系統(tǒng)的要實(shí)現(xiàn)的功能,其模塊結(jié)構(gòu)如圖2所示。

      圖2 模塊結(jié)構(gòu)

      2.1 Spider信息采集模塊

      Spider信息采集主要完成網(wǎng)頁信息的采集工作,是整個系統(tǒng)功能實(shí)現(xiàn)的基礎(chǔ)。信息采集量的大小,信息準(zhǔn)確度的高度直接決定了系統(tǒng)的性能。

      網(wǎng)頁信息的采集效率是系統(tǒng)性能考察的關(guān)鍵指標(biāo),為了最大程度提高信息的采集速度,采用多線程技術(shù)進(jìn)行并行采集是適用的設(shè)計(jì)方案。在采用多線程并行操作的環(huán)境下,線程的同步處理就是必須解決的重點(diǎn)問題。例如,本系統(tǒng)在設(shè)計(jì)時,URL隊(duì)列的管理采用的是多線程訪問控制,所以在正常訪問沒有異常的情況下,要保證某一線程對URL隊(duì)列實(shí)行插入、修改、提取、刪除等操作時,其它線程不能同時訪問該隊(duì)列。頁面采集主要利用傳輸協(xié)議與遠(yuǎn)程的Web信息源服務(wù)器進(jìn)行網(wǎng)絡(luò)通信,把相應(yīng)的頁面信息從服務(wù)器上下載至本地服務(wù)器。系統(tǒng)對URL隊(duì)列的管理主要有待訪問URL、已訪問URL和去除URL三個隊(duì)列的訪問控制。

      2.2 頁面解析

      頁面解析是對HTML頁面進(jìn)行分析,按照類別提取頁面的相關(guān)信息,為頁面采集對所采集頁面進(jìn)行頁面和URL主題相關(guān)度判斷及網(wǎng)頁去重處理提供數(shù)據(jù)基礎(chǔ)。由于教育信息采集系統(tǒng),處理的絕大部分頁面都是靜態(tài)頁面,所以頁面解析時主要對靜態(tài)HTML頁面進(jìn)行處理,主要功能有HTML語法分析、提取標(biāo)題、提取正文等。

      2.3 主題相關(guān)度判斷

      系統(tǒng)功能中最關(guān)鍵的部分是對經(jīng)過spider信息采集得到的頁面信息中提取到的URL和內(nèi)容進(jìn)行主題相關(guān)度判斷。主題相關(guān)度判斷包括URL主題相關(guān)度判斷和頁面主題相關(guān)度判斷。URL主題相關(guān)度判斷主要完成的工作是預(yù)測從已下載網(wǎng)頁中判別提取的URL,并對URL進(jìn)行分析,判斷URL所指頁面與采集主題的相關(guān)程度,把與主題無關(guān)或關(guān)聯(lián)度太低的URL除去,保留主題相關(guān)度高的有利用價值的URL,將其加入URL種子集中。頁面主題相關(guān)度判斷主要完成的工作時對采集到的頁面內(nèi)容進(jìn)行主題相關(guān)度判斷,把與主題關(guān)聯(lián)度低的頁面過濾去除,只保留與主題密切相關(guān)的頁面內(nèi)容,從而提高所采集頁面的準(zhǔn)確程度。

      2.4 網(wǎng)頁去重

      本系統(tǒng)所設(shè)計(jì)的網(wǎng)頁去重處理包括兩種情況下的處理操作。第一種情況是網(wǎng)頁內(nèi)容完全重復(fù),第二種情況是對網(wǎng)頁的內(nèi)容稍作修改,內(nèi)容有細(xì)微不同。因此,有三類網(wǎng)頁都需要網(wǎng)頁去重進(jìn)行處理,分別是完全相同的URL網(wǎng)頁、鏡像網(wǎng)頁(不同的URL指向的相同網(wǎng)頁)、轉(zhuǎn)載網(wǎng)頁(網(wǎng)頁內(nèi)容相似但形式不同的網(wǎng)頁)。為了實(shí)現(xiàn)網(wǎng)頁去重功能,綜合考慮系統(tǒng)的性能和運(yùn)行效率,系統(tǒng)采用三級去重處理機(jī)制。分別是相同URL去除、鏡像網(wǎng)頁去除和轉(zhuǎn)載網(wǎng)頁去除。

      基于主題的信息采集系統(tǒng)能夠提高Web頁面的采集覆蓋率和準(zhǔn)確性。它能在特定主題內(nèi)采集到更廣泛、更全面、更準(zhǔn)確的頁面信息,從而大大提高了頁面采集的質(zhì)量和水平。

      參考文獻(xiàn):

      [1]馮珂.數(shù)據(jù)采集系統(tǒng)在卷煙生產(chǎn)中的應(yīng)用研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(02):132-133.

      [2]張楠,趙士達(dá).地震災(zāi)害信息采集系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(06):22-24.

      作者簡介:杜素芳(1975-),女,河南濮陽人,碩士,講師,研究方向:軟件工程。

      作者單位:濮陽職業(yè)技術(shù)學(xué)院,河南濮陽 457000

      仪征市| 寻甸| 思南县| 三门县| 大城县| 山东| 绥化市| 兴宁市| 寿宁县| 阿拉善盟| 原平市| 新田县| 翼城县| 轮台县| 南康市| 乌什县| 孝义市| 广东省| 兴海县| 宜城市| 星座| 太白县| 田阳县| 怀远县| 大方县| 晴隆县| 洛扎县| 自治县| 辽中县| 横山县| 景德镇市| 绥滨县| 宁陵县| 西盟| 临西县| 资阳市| 兴海县| 罗山县| 南丰县| 咸丰县| 修武县|