摘要:結(jié)合網(wǎng)絡(luò)蜘蛛、模糊匹配和改進(jìn)的Hilltop算法等技術(shù),該文設(shè)計(jì)了一套網(wǎng)站內(nèi)容檢索系統(tǒng),實(shí)現(xiàn)了抓取網(wǎng)站網(wǎng)頁、處理檢索命令、匹配網(wǎng)頁內(nèi)容、確定檢索結(jié)果相關(guān)度和資源管理等功能,能有效地協(xié)助監(jiān)管部門加強(qiáng)對(duì)信息的監(jiān)控和管理。
關(guān)鍵詞:網(wǎng)站內(nèi)容檢索;網(wǎng)絡(luò)蜘蛛;模糊匹配;Hilltop算法
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)05-1098-02
Design of Web Content Retrieval System
JIANG Ming-liang1, LI Zhi-Qing2
(1.Department of Computer Science and Engineering, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China; 2.Guangzhou Party Institute of CCP, Guangzhou 510070, China)
Abstract: Combined with technologies of web spider, fuzzy matching and the improved hilltop algorithm, the paper designed a web content retrieval system, which could capture pages of website, process the retrieval command, match the web content, calculate the relative degree and manage the system resource, and so on, help supervisory department to monitor and manage the web published content effectively.
Key words: Web Content Retreival; Web Spider; Fuzzy Matching; hilltop algorithm
1 前言
目前,計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)發(fā)展迅速,為人類的發(fā)展起到積極的推動(dòng)作用,但也存在負(fù)面的影響,如網(wǎng)上色情賭博有害信息、虛假信息、政治經(jīng)濟(jì)的謠言等等,對(duì)社會(huì)造成一定的危害,也會(huì)影響政治和經(jīng)濟(jì)和穩(wěn)定,甚至危害國家安全。本文設(shè)計(jì)的網(wǎng)站內(nèi)容檢索系統(tǒng)能夠很好地滿足各監(jiān)管部門對(duì)加強(qiáng)信息監(jiān)控和管理的迫切需求,協(xié)助他們及時(shí)發(fā)現(xiàn)已經(jīng)發(fā)布在網(wǎng)絡(luò)上的有害、虛假、反動(dòng)的信息,快速高效地完成工作。
2 系統(tǒng)的總體結(jié)構(gòu)
內(nèi)容檢索系統(tǒng)由分網(wǎng)頁獲取、模糊檢索和用戶查詢?nèi)蟛糠纸M成,如圖1所示。網(wǎng)頁獲取部分主要包括IP數(shù)據(jù)庫、網(wǎng)站內(nèi)容收集器和網(wǎng)頁資源庫。IP數(shù)據(jù)庫保存了系統(tǒng)要抓取網(wǎng)站的IP地址以供網(wǎng)站內(nèi)容收集器使用。網(wǎng)站內(nèi)容收集器用于根據(jù)IP數(shù)據(jù)庫的信息從相關(guān)網(wǎng)站獲取對(duì)應(yīng)的網(wǎng)頁。網(wǎng)頁資源庫用于保存網(wǎng)站內(nèi)容收集器抓取各種網(wǎng)頁資源。模糊檢索部分主要包括關(guān)鍵詞典庫、中心資源管理器、模糊檢索器、命令處理接口、頁級(jí)別判定器和檢索結(jié)果庫。關(guān)鍵詞典庫保存了用戶鍵入的關(guān)鍵詞和使用關(guān)鍵詞的歷史記錄。中心資源管理器主要用于管理系統(tǒng)的各種資源、包括IP信息、關(guān)鍵詞信息等等。命令處理接口用于接收客戶端提交的檢索請(qǐng)求命令,并將命令提交給模糊檢索器執(zhí)行。模糊檢索器是系統(tǒng)的重要核心部件,它負(fù)責(zé)將根據(jù)各種資源和檢索命令進(jìn)行匹配運(yùn)算,也可以基于首次檢索結(jié)果的基礎(chǔ)上進(jìn)行二次檢索,以得到更正確地,更合理地、匹配度更高的結(jié)果。檢索結(jié)果庫用于保存各種檢索結(jié)果。頁級(jí)別判定器能確定檢索結(jié)果的匹配程度,并按相關(guān)度高低生成檢索結(jié)果網(wǎng)頁。用戶查詢部分主要包括本地IP數(shù)據(jù)庫、本地關(guān)鍵詞典庫、本地資源管理器、檢索命令提交器和本地檢索結(jié)果,其中檢索命令提交器負(fù)責(zé)根據(jù)用戶的鍵入信息和系統(tǒng)的資源生成檢索請(qǐng)求命令,并提交給服務(wù)端系統(tǒng)執(zhí)行。
3 系統(tǒng)的工作原理
網(wǎng)站內(nèi)容收集器根據(jù)IP數(shù)據(jù)庫的IP信息或URL信息訪問相應(yīng)的網(wǎng)站,抓回該網(wǎng)站的網(wǎng)頁存放到網(wǎng)頁資源數(shù)據(jù)庫。用戶通過客戶端系統(tǒng)生成的檢索請(qǐng)求,由檢索命令提交器發(fā)送到服務(wù)端的命令處理接口進(jìn)行預(yù)處理、解釋,轉(zhuǎn)換成模糊檢索器可以執(zhí)行的命令。然后模糊檢索器根據(jù)命令信息從網(wǎng)頁資源庫中取出相應(yīng)的網(wǎng)頁(若網(wǎng)頁資源庫沒有該網(wǎng)站的網(wǎng)頁,調(diào)用網(wǎng)站內(nèi)容收集器獲得該網(wǎng)頁),進(jìn)行關(guān)鍵詞匹配檢索運(yùn)算,找出匹配的網(wǎng)頁,并通過頁級(jí)別判定器對(duì)檢索結(jié)果依據(jù)排序算法進(jìn)行相關(guān)度排序,結(jié)果保存在檢索結(jié)果庫或直接返回給客戶。用戶也可以在初次檢索結(jié)果的基礎(chǔ)上進(jìn)行二次檢索,以進(jìn)一步提高檢索結(jié)果的匹配程度和精確度??蛻舳讼到y(tǒng)與服務(wù)端系統(tǒng)可以在資源管理器的控制下進(jìn)行各種資源信息的交換。
4 主要模塊說明
本系統(tǒng)采用C/S模式,劃分為服務(wù)端子系統(tǒng)和客戶端子系統(tǒng)。服務(wù)端子系統(tǒng)主要提供抓取網(wǎng)站網(wǎng)頁、處理檢索命令、匹配網(wǎng)頁內(nèi)容、二次檢索、確定結(jié)果相關(guān)度和資源管理等功能,客服端子系統(tǒng)則提供接收用戶檢索請(qǐng)求、顯示檢索結(jié)果和本地資源管理等功能。系統(tǒng)的模塊劃分如圖2所示。
1) 網(wǎng)站內(nèi)容收集器
網(wǎng)站內(nèi)容收集器由網(wǎng)絡(luò)蜘蛛程序和URL提取程序組成。網(wǎng)絡(luò)蜘蛛技術(shù)[1]是現(xiàn)今許多著名網(wǎng)頁搜索引擎為了獲取互聯(lián)網(wǎng)上的網(wǎng)頁所使用的專項(xiàng)技術(shù),本系統(tǒng)對(duì)此技術(shù)進(jìn)行優(yōu)化,能結(jié)合URL提取程序提供的信息動(dòng)態(tài)地調(diào)整網(wǎng)頁的抓取深度和抓取頁面的數(shù)量。URL提取程序能從網(wǎng)絡(luò)蜘蛛程序抓回的網(wǎng)頁里提取URL,它采用特定的分析算法來過濾掉無效的、明顯不相干的URL信息,以提高網(wǎng)頁抓取的效率和質(zhì)量。
2) 命令處理接口
命令處理接口負(fù)責(zé)將客戶端系統(tǒng)提交的檢索請(qǐng)求命令進(jìn)行解釋或轉(zhuǎn)換成模糊檢索器可以識(shí)別的、執(zhí)行的命令,其關(guān)鍵部件是命令解釋器,負(fù)責(zé)判斷檢索命令的語法結(jié)構(gòu)和參數(shù)的正確性,并將合法的命令轉(zhuǎn)換成模糊檢索器可理解的、可執(zhí)行的命令。命令處理接口可以集成到模糊檢索器里,可以作為一個(gè)獨(dú)立的部件實(shí)現(xiàn)。
3) 模糊檢索器
模糊檢索器是系統(tǒng)的重要核心部件,它根據(jù)各種資源與檢索命令進(jìn)行匹配運(yùn)算,并將符合條件的網(wǎng)頁保存在檢索結(jié)果庫里。它由網(wǎng)頁獲取模塊、模糊匹配模塊、二次檢索模塊和匹配規(guī)則模塊組成。網(wǎng)頁獲取模塊用于從網(wǎng)頁資源庫中獲得對(duì)應(yīng)的網(wǎng)頁以作為檢索的對(duì)象;模糊匹配模塊負(fù)責(zé)根據(jù)匹配規(guī)則對(duì)檢索對(duì)象執(zhí)行匹配運(yùn)算,找出相匹配的網(wǎng)頁,保存在檢索結(jié)果庫里;二次檢索模塊是基于首次檢索結(jié)果的基礎(chǔ)上根據(jù)新檢索命令和匹配規(guī)則進(jìn)行檢索;匹配規(guī)則模塊負(fù)責(zé)制定各種匹配規(guī)則和匹配參數(shù)。
4) 頁級(jí)別判定器
頁級(jí)別判定器通過各種排序算法來確定網(wǎng)頁與檢索關(guān)鍵詞的匹配程度,并按照從高到低的順序生成檢索結(jié)果頁面,以供提出檢索操作請(qǐng)求的客戶端系統(tǒng)使用。排序算法是頁級(jí)別判定器的核心,它主要采用Google搜索引擎所使用的“PageRank結(jié)合Hilltop算法” [2-3]的簡(jiǎn)化版,該算法能較準(zhǔn)確地分辨出頁面的匹配程度。
5) 檢索命令提交器
檢索命令提交器由參數(shù)獲取模塊、命令生成模塊、命令提交模塊和結(jié)果接收模塊組成。參數(shù)獲取模塊用于接收用戶鍵入的各種操作請(qǐng)求和對(duì)應(yīng)的參數(shù)。命令生成模塊根據(jù)用戶的檢索要求,利用所獲得命令參數(shù)生成檢索請(qǐng)求命令。命令提交模塊負(fù)責(zé)將檢索請(qǐng)求命令發(fā)送到服務(wù)端系統(tǒng)。結(jié)果接收模塊用于從服務(wù)端系統(tǒng)中接收用戶檢索請(qǐng)求的執(zhí)行結(jié)果,呈現(xiàn)給用戶或者保存到本地檢索結(jié)果。
5 結(jié)論
本文結(jié)合網(wǎng)絡(luò)蜘蛛、模糊匹配和改進(jìn)的Hilltop算法等技術(shù),采用C/S模式,設(shè)計(jì)了一套網(wǎng)站內(nèi)容檢索系統(tǒng),并闡述了它的系統(tǒng)結(jié)構(gòu)、工作原理和主要功能模塊。本系統(tǒng)主要提供抓取網(wǎng)站網(wǎng)頁、匹配網(wǎng)頁內(nèi)容、確定敏感信息和資源管理等功能,能有效地協(xié)助監(jiān)管部門切實(shí)加強(qiáng)公共信息的監(jiān)管工作。
參考文獻(xiàn):
[1] 劉剛,于力超.搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦與信息技術(shù),2007,15(4):36-39.
[2] 楊思洛.搜索引擎的排序技術(shù)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005(1):43-47.
[3] 周必水,張延紅.HillTop算法剖析[J].計(jì)算機(jī)時(shí)代,2005(4):1-3.