摘要:隨著互聯(lián)網(wǎng)應(yīng)用的不斷開發(fā),基于網(wǎng)頁(yè)正文提取的技術(shù)層出不窮。幾種比較經(jīng)典的提取模型包括:基于DOM樹網(wǎng)頁(yè)提取模型、基于統(tǒng)計(jì)的網(wǎng)頁(yè)提取模型、基于分塊的網(wǎng)頁(yè)提取模型。本文對(duì)網(wǎng)頁(yè)正文提取技術(shù)的綜合分析與研究,各種網(wǎng)頁(yè)提取算法的優(yōu)劣。
關(guān)鍵詞:網(wǎng)頁(yè)正文提取技術(shù);經(jīng)典提取模型的分析與研究
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 22-0000-02
1 引言
隨著信息技術(shù)的迅速發(fā)展,基于互聯(lián)網(wǎng)的應(yīng)用越來越多的受到人們關(guān)注。WWW以超文本的形式給用戶提供多種類別和形式的信息(包括技術(shù)資料、商業(yè)信息、新聞報(bào)道、娛樂信息等)??梢哉f,WWW是當(dāng)今世界上最大的電子信息庫(kù),蘊(yùn)含著許多具有潛在價(jià)值的知識(shí)。根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)最新報(bào)告顯示,截至2011年6月,中國(guó)網(wǎng)民規(guī)模達(dá)到4.85億,較2010年底增加2770萬人;互聯(lián)網(wǎng)普及率攀升至36.2%,較2010年提高1.9個(gè)百分點(diǎn)。我國(guó)手機(jī)網(wǎng)民規(guī)模為3.18億,較2010年底增加了1494萬人。手機(jī)網(wǎng)民在總體網(wǎng)民中的比例達(dá)65.5%,成為中國(guó)網(wǎng)民的重要組成部分。人們可以借助移動(dòng)設(shè)備以及計(jì)算機(jī),通過互聯(lián)網(wǎng)尋找任何自己想要的信息,然而,互聯(lián)網(wǎng)又是一個(gè)具有開放性、異構(gòu)性以及動(dòng)態(tài)性的分布式網(wǎng)絡(luò),其資源分布分散、管理結(jié)構(gòu)不一,這就導(dǎo)致了知識(shí)獲取的困難。如何準(zhǔn)確識(shí)別并有效提取包含在Web網(wǎng)頁(yè)中的正文內(nèi)容是Web智能信息檢索[1-2]、文檔自動(dòng)摘要[3-4]、用戶瀏覽體驗(yàn)等諸多領(lǐng)域的重要工作之一。
2 基于DOM樹的網(wǎng)頁(yè)正文提取技術(shù)
目前在網(wǎng)頁(yè)信息抽取技術(shù)中研究得最多的基于DOM的網(wǎng)頁(yè)抽取技術(shù),它歷屬于自動(dòng)訓(xùn)練的研究方法,也是近些年來發(fā)展得最好的技術(shù)方法。DOM就是文檔對(duì)象模型,全稱為Document Object Model,它將HTML文檔里的標(biāo)簽信息,如Table,List等利用起來,把文檔解析成一個(gè)邏輯樹型結(jié)構(gòu),節(jié)點(diǎn)就是對(duì)象。構(gòu)建完DOM樹后,通過將各個(gè)節(jié)點(diǎn)遍歷,對(duì)各種非正文信息包括廣告,鏈接群等識(shí)別并移除,移除完非正文信息后,正文內(nèi)容就是DOM樹中剩下的節(jié)點(diǎn)內(nèi)容。
由于依賴于HTML文檔里的標(biāo)簽結(jié)構(gòu)的基于DOM樹的算法,對(duì)于HTML規(guī)范語(yǔ)法的要求很寬松,所以不同的設(shè)計(jì)人員執(zhí)行的規(guī)范程度不一樣,比如標(biāo)簽的不匹配等。雖然這種不規(guī)范性對(duì)于HTML本身的執(zhí)行不會(huì)造成問題,但卻可能使構(gòu)建DOM樹的過程瀕臨崩潰。另外,更加重要的一點(diǎn)在于,解析DOM樹的過程效率比較低。因?yàn)樗鼤?huì)對(duì)文檔中的每一個(gè)Element、Attribute、Comment等都創(chuàng)建一個(gè)對(duì)象,這樣,大量的對(duì)象在運(yùn)行過程中將會(huì)被創(chuàng)建和銷毀,大大增加了搜索引擎中海量數(shù)據(jù)的處理的負(fù)擔(dān)。
3 基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文提取技術(shù)
傳統(tǒng)的網(wǎng)頁(yè)內(nèi)容提取方法需要針對(duì)不同的數(shù)據(jù)源創(chuàng)建不同的包裝器,基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文抽取技術(shù)克服了這樣的缺點(diǎn),它具有了一定的普遍性。不需要樣本學(xué)習(xí),也大大提高了正文抽取的速度。
Finn等人將HTML看作是字符和標(biāo)簽組成的序列,判斷文字是否為正文的依據(jù)是使用文本和HTML代碼的密度,從而在字符集中的區(qū)域提取文字?;镜奶幚砉ぷ魅缦拢?/p>
(1)解析HTML代碼并記下處理的字節(jié)數(shù);(2)以行或段的形式保存解析輸出的文本;(3)統(tǒng)計(jì)每一行文本對(duì)應(yīng)的HTML代碼的字節(jié)數(shù);(4)通過計(jì)算文本相對(duì)于字節(jié)數(shù)的比率來獲取文本密度;(5)最后用神經(jīng)網(wǎng)絡(luò)來決定這一行是不是文本的一部分。
李蕾等人提出了一種基于快速傅立葉變換(FFT)的網(wǎng)頁(yè)正文內(nèi)容提取算法。采用窗口分段的方法, 利用統(tǒng)計(jì)學(xué)原理和FFT, 得出每個(gè)可能區(qū)間的權(quán)值, 從而求解出最佳正文區(qū)間。其基本步驟如下:
(1)讀入HTML文件,轉(zhuǎn)換為Unicode代碼;(2)采用窗口分段的方法,將文件切分成若干等長(zhǎng)窗口段;(3)應(yīng)用統(tǒng)計(jì)學(xué)原理,對(duì)字符進(jìn)行強(qiáng)制編碼轉(zhuǎn)換;(4)對(duì)每一段窗口作FFT,得到頻域的F向量;(5)各段頻域互相求差;(6)計(jì)算每個(gè)區(qū)間的權(quán)值;(7)依據(jù)權(quán)值排序;(8)加權(quán)平均。
這些方法不必知道HTML網(wǎng)頁(yè)文件的結(jié)構(gòu)和它所使用的lable標(biāo)簽,不管是含有文本內(nèi)容的新聞文章還是博客頁(yè)面,它都能有效的工作。但這種方法對(duì)于有表格和鏈接等標(biāo)簽結(jié)構(gòu)的網(wǎng)頁(yè),不能有效的工作,它僅適用于正文文字較集中的網(wǎng)頁(yè)。
4 基于分塊的網(wǎng)頁(yè)正文提取技術(shù)
當(dāng)Web頁(yè)面呈現(xiàn)在用戶面前時(shí),用戶可能下意識(shí)地將網(wǎng)頁(yè)頁(yè)面劃分成幾個(gè)語(yǔ)義塊。基于分塊的網(wǎng)頁(yè)正文提取技術(shù)類似于基于DOM的正文提取技術(shù),區(qū)別在于前者在對(duì)頁(yè)面分塊時(shí),僅僅考慮布局標(biāo)簽或其他頁(yè)面布局信息。
一種基于HTML標(biāo)簽及其所含內(nèi)容,把每一個(gè)
塊看成是一個(gè)內(nèi)容塊,然后計(jì)算內(nèi)容塊內(nèi)關(guān)鍵字的嫡值,來確定每個(gè)內(nèi)容塊的嫡值,這個(gè)嫡值是指出現(xiàn)在整個(gè)網(wǎng)頁(yè)簇中的特征詞的權(quán)重。利用貪心法動(dòng)態(tài)的選擇墑值的閉值,找出含有有用的信息內(nèi)容塊。實(shí)驗(yàn)證明這種方法的召回率和準(zhǔn)確率都較高。
一些人提出基于視覺特征的網(wǎng)頁(yè)分塊法VIPS(Vision-based Page Segmentation),旨在基于頁(yè)面視覺表示提取Web頁(yè)面的語(yǔ)義結(jié)構(gòu)。對(duì)應(yīng)于一塊。每個(gè)節(jié)點(diǎn)將賦予一個(gè)值(凝聚度)指明基于視覺塊中內(nèi)容的凝VIPS算法全部利用頁(yè)面的布局特征。首先,結(jié)合DOM樹以及一些視覺提示信息得到頁(yè)面的基于視覺的內(nèi)容結(jié)構(gòu)。根據(jù)一定的語(yǔ)義關(guān)聯(lián),利用字體、顏色、大小等網(wǎng)頁(yè)版面特征,將整個(gè)網(wǎng)頁(yè)表示成一棵HTML-DOM樹;從HTML-DOM樹中找出所有合適的塊,然后提取這些塊的隔離物。這里,隔離物是Web頁(yè)面中的水平線或垂直線,在視覺上不與任何塊相交。基于這些隔離物可以構(gòu)造web頁(yè)面的語(yǔ)義樹。一個(gè)web頁(yè)面可以表示成塊即為語(yǔ)義樹的葉節(jié)點(diǎn)的集合。與基于DOM的方法相比,由VIPS得到的分割聚集了更多的語(yǔ)義信息。由于噪聲信息,如導(dǎo)航、廣告、修飾等,經(jīng)常放在頁(yè)面的特定位置上,所以很容易去除。具有不同主題的內(nèi)容區(qū)分為分離的塊。
基于特定標(biāo)簽的分塊方法局限于文字內(nèi)容比較集中的網(wǎng)頁(yè)。實(shí)際情況中的網(wǎng)頁(yè)樣式結(jié)構(gòu)和
5 總結(jié)
前面對(duì)已有的國(guó)內(nèi)外主流的網(wǎng)頁(yè)提取技術(shù)做了總結(jié)和歸納,總結(jié)傳統(tǒng)的網(wǎng)頁(yè)提取技術(shù),我們發(fā)現(xiàn)其在復(fù)雜性和準(zhǔn)確率上很難達(dá)成統(tǒng)一:
1)經(jīng)典研究以字符串匹配和樹形結(jié)構(gòu)匹配為基礎(chǔ)],盡管可以很好反映Web文檔的結(jié)構(gòu),但是其時(shí)間復(fù)雜度至少為,很難滿足Web應(yīng)用實(shí)時(shí)性需求;2)基于統(tǒng)計(jì)學(xué)提取方法只適用于正文文字較集中的網(wǎng)頁(yè),如果段落間有表格或鏈接等標(biāo)簽豐富的結(jié)構(gòu),就不能有效處理了;3)基于分塊和視覺的提取方法運(yùn)用的啟發(fā)知識(shí)往往較為模糊,需要人工不斷地總結(jié)調(diào)整規(guī)則,規(guī)則較多,很難找到統(tǒng)一的規(guī)則集,很難普及使用。
總之,網(wǎng)頁(yè)正文提取技術(shù)目前尚屬一個(gè)較新的領(lǐng)域,也是當(dāng)前的一個(gè)研究熱點(diǎn)。雖然國(guó)外在這方面的研究取得了一定的進(jìn)展。但在理論和技術(shù)上仍然存在著諸多困難和局限性。尤其是很難再?gòu)?fù)雜性和準(zhǔn)確率上達(dá)成統(tǒng)一,為此,本論文試圖進(jìn)行嘗試新的研究,利用中文文字自身的特點(diǎn),通過一種基于神經(jīng)網(wǎng)絡(luò)的正文提取的新方法讓計(jì)算機(jī)自動(dòng)識(shí)別正文行。然后根據(jù)識(shí)別的正文行標(biāo)記,對(duì)網(wǎng)頁(yè)進(jìn)行分塊,最后選擇最優(yōu)分塊作為網(wǎng)頁(yè)正文。
[作者簡(jiǎn)介]
楊麗萍(1976-),女,籍貫:黑龍江省海倫市,講師。碩士學(xué)位,研究方向:數(shù)據(jù)挖掘