葛曉玢 劉杰 崔健
摘要:隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)絡(luò)規(guī)模的不斷擴大,人們能夠獲得的新聞信息資源也日益豐富。應(yīng)用搜索引擎進行檢索,經(jīng)常會得到內(nèi)容相同或相近的新聞網(wǎng)頁,它們不但浪費了存儲資源,而且加重了用戶檢索和閱讀的負擔。網(wǎng)頁去重處理是提高搜索引擎的關(guān)鍵技術(shù)之一,因此,發(fā)現(xiàn)并去除重復(fù)網(wǎng)頁信息的研究工作具有重要意義。文中提出了一種基于版權(quán)信息的新聞網(wǎng)頁去重算法,其主要思想是:應(yīng)用轉(zhuǎn)載的新聞網(wǎng)頁大多會標出其來源這一特征,并結(jié)合網(wǎng)頁文本內(nèi)容進行新聞網(wǎng)頁去重。實驗結(jié)果表明:該方法有效,對新聞網(wǎng)頁實現(xiàn)較好的去重,能夠得到較高的正確率及召回率,具有很好的應(yīng)用價值。
關(guān)鍵詞:網(wǎng)頁去重;搜索引擎;版權(quán);新聞網(wǎng)頁;模糊匹配
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)26-6211-04
Detection and Elimination of Duplicated News Webpages Based on Copyright
GE Xiao-bin, LIU Jie, CUI Jian
(Department of Information,Tongling Vocational College, Tongling 244000, China)
Abstract: As the World Wide Web grows rapidly to become the largest and the most popular source of readily available informa? tion, it is increasingly abundant to access to information sources.Application of search engines, users often get the redundant news webpages with same content or similar news webpages, they will not only be a waste of storage resources, and increase users to re? trieve and read the burden. Weeding out duplicated news webpages is one of the key technologies of search engine, Consequent? ly,to detect and eliminate those pages in facsimile is of great significance. In this paper, a method based on copyright information is proposed to detect and eliminate the duplicated news webpages, This method basic thought is: reprint of most of the news web? pages will be the source of its marked characteristics, combined with the text content of the page to re-page news. The experi? mental result indicates that,this method can complete in view of the news content duplicated news webpages,and can be a high accuracy rate and the rate of recall.
Key words: duplicated webpages; search engine; copyright; news webpages; fuzzy matching
隨著互聯(lián)網(wǎng)技術(shù)和規(guī)模的空前發(fā)展,應(yīng)用搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)上獲取信息的主要渠道之一。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織及處理,并為用戶提供檢索服務(wù),從而起到信息導航目的[1]。但是,由于互聯(lián)網(wǎng)上的信息經(jīng)常被相互轉(zhuǎn)載,因此檢索出的網(wǎng)頁大多是具有相同信息的重復(fù)網(wǎng)頁。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2005年7月發(fā)布的統(tǒng)計報告顯示,用戶在回答“檢索信息時遇到的最大問題”這一提問時,選擇“重復(fù)信息太多”選項的占44.6 %,排名第1位;據(jù)統(tǒng)計,目前Inte rnet近似鏡像網(wǎng)頁數(shù)的比例約占全部頁面的30%~45%[2];清華大學IT可用性實驗室對Google、Baidu等中文搜索引擎的研究表明,重復(fù)網(wǎng)頁占全部網(wǎng)頁的比率,Google約占3.4%,Baidu約占2.1%[7]。國際上對轉(zhuǎn)載文檔去重方法的研究最初主要是針對大型文件系統(tǒng),1993年,Arizona大學的Manber提出了一個SIF工具,用基于字符串匹配的方法來度量文件之間的相似性,用于在大規(guī)模文件系統(tǒng)中尋找內(nèi)容相似的文件[8-9]。網(wǎng)頁之間的大量轉(zhuǎn)載使得網(wǎng)頁冗余非常嚴重,大量重復(fù)網(wǎng)頁的存在一方面加重了用戶檢索和閱讀的負擔;另一方面,也浪費了大量的存儲資源,降低了索引效率,影響了準確率和召回率[3-7]。因此,準確、快速的發(fā)現(xiàn)并去除重復(fù)網(wǎng)頁將是一項具有實際意義的工作。隨著文本信息處理技術(shù)的發(fā)展,人們判斷和處理近似網(wǎng)頁的方法也日益豐富,如文本分類、聚類技術(shù)、特征碼檢索技術(shù)、特征串模糊匹配技術(shù)等等。
本文以新聞網(wǎng)頁為研究對象,提出了基于版權(quán)信息的新聞網(wǎng)頁去重策略,該方法應(yīng)用轉(zhuǎn)載的新聞網(wǎng)頁大多會標出其來源這一特征,并結(jié)合網(wǎng)頁文本內(nèi)容進行新聞網(wǎng)頁去重,提取主題信息。
篇部分重復(fù)新聞網(wǎng)頁,在PC機器CPU為T5750,2.00GHz,內(nèi)存為1024M,操作系統(tǒng)為Windows XP的實驗環(huán)境下進行實驗,應(yīng)用正確率及召回率對算法進行評價,實驗結(jié)果如表1所示:
表1實驗結(jié)果圖4文本修改率與去重召回率的關(guān)系
根據(jù)圖3,基于版權(quán)信息去重算法,其去重正確率稍低于基于特征碼去重算法,究其原因分析,有部分新聞網(wǎng)頁在轉(zhuǎn)載時,沒有尊重版權(quán),缺少版權(quán)信息的文字描述;根據(jù)圖4,當新聞網(wǎng)頁部分內(nèi)容修改時,基于版權(quán)信息的去重算法明顯優(yōu)于基于特征碼的去重算法,究其原因分析,主要是因為基于特征碼的去重算法對文本修改非常敏感,微小的文本內(nèi)容修改均有可能導致新聞網(wǎng)頁特征碼的變化。
法具有速度快,檢測率高,算法容易實現(xiàn)等特點,能夠有效地去除檢索結(jié)果集合中內(nèi)容相同或相近的新聞網(wǎng)頁,能夠在網(wǎng)頁發(fā)生修改時兼顧查全率和查準率,更適合網(wǎng)頁的去重。文中對新聞網(wǎng)頁的結(jié)構(gòu)特征進行了深入分析,但結(jié)構(gòu)特征的選擇具有一定局限性。下一步研究的重點是對文中提出的算法進一步進行完善,使得聚集的結(jié)果更合理,更符合網(wǎng)頁本身的特征,提高檢索質(zhì)量,指導工程實踐。
[1]李曉明,閆宏飛.搜索引擎原理、技術(shù)與系統(tǒng)[M].北京:科學出版社,2004.
[2]高凱,王永成,肖君.網(wǎng)頁去重策略[J].上海交通大學學報,2006,40(5):775-777.
[3]陳基漓,牛秦洲.基于特征碼的網(wǎng)頁去重[J].微計算機信息,2006,22(3-3):113-115.
[4]羅永蓮,羅永秀,張永奎.突發(fā)事件新聞網(wǎng)頁的去重方法研究[J].計算機應(yīng)用與軟件,2008,25(8):24-26.
[5]魏麗霞,鄭家恒.基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J].計算機應(yīng)用,2007,27(11):2854:2856.
[6]王建勇,謝正茂,雷鳴,等.近似鏡像網(wǎng)頁檢測算法的研究與評價[J].電子學報,2000,28(11):130-132.
[7]閻亞杰.網(wǎng)頁去重方法研究[J].電腦開發(fā)與應(yīng)用,2008,21(8):60-62.
[8] Cho J H,Shivakumar N,Garcia-Molina H.Finding ACM International Conference on Management of the Data[M]. USA:ACM Press,2000(2):355-366.
[9] Liu C J, Wechsler H. A shape and texture based en- hanced Fisher classifier for face recognition[J]. IEEE Transactions on Image Processing, 2001,10(4):598-608.