• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于標(biāo)點(diǎn)密度的網(wǎng)頁正文提取方法

    2015-05-30 22:06:44楊欽楊沐昀

    楊欽 楊沐昀

    摘 要:本文提出了一種基于DOM樹的正文提取方法。該方法是在基于DOM樹的文本密度的正文提取算法的框架上改進(jìn)而來的?;趯?duì)文言文翻譯網(wǎng)站的觀察,本方法使用標(biāo)點(diǎn)符號(hào)密度取代原方法的文本密度。通過隨機(jī)選取50篇文言文翻譯網(wǎng)頁作為測(cè)試集,本文提出的方法獲得了更好的準(zhǔn)確率、召回率和F值。

    關(guān)鍵詞:DOM;標(biāo)點(diǎn)密度;文本密度;正文提取

    中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2015)04-

    A Method of Webpage Content Extraction based on Point Density

    YANG Qin, YANG Muyun

    (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

    Abstract: This paper proposes a DOM based content extraction method. It is improved from the DOM based content extraction via text density. Based on the observation of classical Chinese translation websites, the paper uses point density to replace text density.50 classical Chinese translaiton webpages are randomly chosen as the test data set, the proposed method obtains better precision, recall, and F-measure.

    Keywords: DOM; Point Density; Text Density; Content Extraction

    0引 言

    互聯(lián)網(wǎng)的快速發(fā)展使其已經(jīng)成為一個(gè)天然龐大的數(shù)據(jù)來源,而且其影響也正在日漸提升之中。搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)挖掘等技術(shù)正是使用這些網(wǎng)絡(luò)數(shù)據(jù)來發(fā)現(xiàn)有用的信息和知識(shí)。具體來說,這些技術(shù)的研究對(duì)象就是網(wǎng)頁的正文內(nèi)容。但在現(xiàn)實(shí)狀況下,網(wǎng)頁的正文卻通常是和網(wǎng)頁的其他內(nèi)容如導(dǎo)航信息、廣告、版權(quán)說明等混合摻雜在一起。這些內(nèi)容和網(wǎng)頁的主題并無任何關(guān)系,而只是噪聲信息,因而對(duì)有關(guān)網(wǎng)頁課題的探索研究造成全局性的復(fù)雜且重大的影響。

    基于此,為了提升網(wǎng)絡(luò)數(shù)據(jù)挖掘和信息檢索等的設(shè)計(jì)研究性能,即可利用網(wǎng)頁正文提取技術(shù)從網(wǎng)頁中去除噪聲信息提取網(wǎng)頁正文??傮w來說,正文提取可以提升相關(guān)研究的工程實(shí)際性能,并已在現(xiàn)實(shí)中獲得了廣泛的應(yīng)用。使用WEB作為語料庫吸引了自然語言處理領(lǐng)域眾多的研究者的關(guān)注參與。通過自動(dòng)下載相關(guān)網(wǎng)頁,并進(jìn)行正文提取,就可以較短的時(shí)間,較小的代價(jià)構(gòu)建一個(gè)大型語料庫。此外,移動(dòng)手機(jī)的大量普及則使得網(wǎng)頁需要適應(yīng)較小的屏幕。綜上可知,針對(duì)網(wǎng)頁進(jìn)行正文提取的需求已是日顯迫切。然而,提取網(wǎng)頁正文卻是一個(gè)困難的任務(wù)。早在2005年,Gibson等[1]就估計(jì)出網(wǎng)絡(luò)上的噪聲信息的比例將在40%~50%,并且準(zhǔn)確預(yù)言了這個(gè)比例還會(huì)不斷上升?,F(xiàn)如今,網(wǎng)頁的布局和風(fēng)格已比從前更趨復(fù)雜,這一現(xiàn)象也隨即愈加嚴(yán)重?,F(xiàn)在的網(wǎng)頁大多使用格式標(biāo)簽和

    等代替結(jié)構(gòu)標(biāo)簽來展示網(wǎng)頁的格式信息。但諸多較早使用的正文提取方法卻已無法適應(yīng)這一變化,其表現(xiàn)則呈顯著大幅下降態(tài)勢(shì)。根本原因在于,近年來的網(wǎng)頁很多都不再使用如、等特定的HTML線索,而那些正文提取算法中使用的卻仍是這些經(jīng)典標(biāo)志。

    在本文中,提出了一個(gè)從網(wǎng)頁中提取正文的高效算法。該算法不僅可以提取網(wǎng)頁正文,而且保持了原有的網(wǎng)頁結(jié)構(gòu)信息。文中的正文提取方法主要基于對(duì)文言文翻譯網(wǎng)站的觀察:網(wǎng)站中的噪聲信息往往是一些導(dǎo)航和其他鏈接信息,基本沒有標(biāo)點(diǎn)符號(hào);而網(wǎng)頁的正文則含有大量的標(biāo)點(diǎn)符號(hào)。同時(shí),噪聲信息和正文信息在網(wǎng)頁中總是作為整體出現(xiàn),因此在DOM樹中屬于某一個(gè)祖先節(jié)點(diǎn)。

    首先,研究提出了衡量網(wǎng)頁標(biāo)簽重要性的指標(biāo):標(biāo)點(diǎn)符號(hào)密度(簡稱標(biāo)點(diǎn)密度,記為PointDensity)。當(dāng)一個(gè)網(wǎng)頁用一顆DOM樹來表示后,即需計(jì)算DOM樹中每個(gè)節(jié)點(diǎn)的標(biāo)點(diǎn)密度。標(biāo)點(diǎn)密度高的節(jié)點(diǎn)表示這個(gè)節(jié)點(diǎn)在網(wǎng)頁中對(duì)應(yīng)的標(biāo)簽的內(nèi)容更可能是正文,相反則更可能是噪聲信息。此后,則將沿用基于DOM樹的文本密度的正文提取框架,并使用標(biāo)點(diǎn)密度和(PointDensitySum)來提取完整的正文。最終仿真實(shí)驗(yàn)表明,本文提出的方法快速、準(zhǔn)確,且可獲得比文本密度方法更好的結(jié)果。

    不近如此,研究提出的方法還具有和文本密度方法一樣的優(yōu)勢(shì),也就是沒有過多考慮網(wǎng)頁的結(jié)構(gòu),同時(shí)也沒有尋找特定的HTML線索。另外,本文研究也保持了網(wǎng)頁原有的結(jié)構(gòu)信息,利用本文方法將能輸出處理后的html文檔,并不僅僅是沒有任何格式的文本。

    本文的后續(xù)章節(jié)內(nèi)容如下:第二節(jié)介紹正文提取的相關(guān)工作,第三節(jié)重點(diǎn)介紹本文提出的基于DOM的標(biāo)點(diǎn)密度的正文提取。本文在第四節(jié)給出了詳細(xì)的實(shí)驗(yàn)設(shè)置和結(jié)果分析,并在第五節(jié)進(jìn)行了工作總結(jié)。

    1相關(guān)工作

    Rahman等[2]在2001年提出正文提?。–ontent Extraction)這個(gè)術(shù)語。近十余年,專家學(xué)者集中研究如何從網(wǎng)頁中抽取正文并提出了眾多的解決方法。

    正文提取研究的早期,研究者使用正則表達(dá)式,通過查找特定的HTML標(biāo)記形成公共模板,而后使用人工制定的網(wǎng)絡(luò)抽取器把內(nèi)嵌在公共模版間的內(nèi)容抽取出來。這些方法的優(yōu)勢(shì)在于其準(zhǔn)確性非常高,而其明顯的劣勢(shì)則表現(xiàn)在對(duì)不同的網(wǎng)站要?jiǎng)?chuàng)建不同的正則表達(dá)式。甚至一個(gè)網(wǎng)站可能會(huì)有多種結(jié)構(gòu),而且這些網(wǎng)站還可能會(huì)改變其結(jié)構(gòu)或布局。上述情況表明,這類方法需要?jiǎng)討B(tài)更新。

    研究者提出了很多基于網(wǎng)頁統(tǒng)計(jì)信息的正文提取方法。Finn[3]等在2001年提出Body Text Extraction (BTE)算法。這個(gè)算法是為了提升數(shù)字圖書館正文分類器的準(zhǔn)確性。研究將HTML文檔表示為一系列詞和標(biāo)簽符號(hào),再通過識(shí)別單一的連續(xù)的區(qū)域來抽取正文,通常識(shí)別出來的這個(gè)區(qū)域包含最多的詞和最少的HTML標(biāo)簽。為了克服BTE方法只能發(fā)現(xiàn)一個(gè)單一的連續(xù)的文本塊的限制,Pinto等[4]把這個(gè)方法擴(kuò)展成Document Slope Curves (DSC)方法。在該方法中,視窗技術(shù)可用于定位文檔區(qū)域,在這個(gè)區(qū)域中詞標(biāo)記比標(biāo)簽標(biāo)記要更加頻繁。此次開發(fā)技術(shù)可用來提升QuASM系統(tǒng)使用網(wǎng)絡(luò)數(shù)據(jù)回答問題的性能和效率。

    Debnath等[5]提出基于HTML文檔塊分割的Feature Extractor (FE)和K Feature Extractor (KFE)技術(shù)。該方法對(duì)每個(gè)塊分析了設(shè)定的特征例如文本的數(shù)量,圖像和腳本代碼,而后再通過選擇最符合某個(gè)期望特征(如最多的文本)的塊來提取正文。Gupta等[6]在2003年嘗試把不同的啟發(fā)式方法結(jié)合到Crunch的系統(tǒng)框架中。這個(gè)框架基于DOM樹,通過定義兩類過濾器發(fā)現(xiàn)并從DOM樹刪除非正文內(nèi)容。這一研究證明了,不同正文提取算法的適當(dāng)組合會(huì)產(chǎn)生比單一的方法更好的結(jié)果。此后,Gottron[7]則設(shè)計(jì)了CombineE框架。這是一個(gè)最新的集成框架,能使得正文提取算法的配置變得更加簡單。

    Mantratzis等[8]在2005年提出Link Quota Filter (LQF)方法。LQF通過識(shí)別文本與超鏈接比例高的DOM元素來確定鏈接列表和導(dǎo)航信息。這個(gè)方法實(shí)際是從文檔中刪除鏈接塊來提取正文。LQF的缺點(diǎn)是算法本身依賴于結(jié)構(gòu)元素,并且只能清除超鏈接類型的噪聲。Gottron[9]在2008年提出Content Code Blurring(CCB)算法。這個(gè)方法可在具有相同格式的源碼序列中進(jìn)行正文提取。Weninger等[10]在2010年提出標(biāo)簽比例(CETR)算法。該方法使用HTML文檔標(biāo)簽比例從網(wǎng)頁中抽取正文。方法中,以行為基礎(chǔ)計(jì)算標(biāo)簽比例,再將比例結(jié)果的直方圖聚類成正文和噪聲區(qū)域。CETR算法簡潔且高效的方法,但卻容易受到網(wǎng)頁源代碼風(fēng)格變化的影響。Kohlschütter等[11]在2010年提出了一個(gè)可對(duì)網(wǎng)頁文本元素實(shí)施分類的簡單有效的應(yīng)用技術(shù)。具體就是通過分析一些淺文本特征(如平均句長、字?jǐn)?shù)以及文本位置)來識(shí)別樣板,該方法的理論基礎(chǔ)是數(shù)量語言學(xué)的隨機(jī)文本生成。

    孫飛等[12]在2011年提出Content Extraction via Text Density (CETD)算法。這個(gè)方法基于DOM樹,使用DOM樹節(jié)點(diǎn)的文本密度Text Density 和Composite Text Density衡量節(jié)點(diǎn)重要性,同時(shí)結(jié)合DensitySum區(qū)分出正文區(qū)域和噪聲區(qū)域,進(jìn)而提取出正文內(nèi)容。該方法具有快速、準(zhǔn)確、通用的特點(diǎn),并且最終得到的是結(jié)構(gòu)化文本而不是大多數(shù)方法的純文本。Qureshi等[13]在2012年提出一個(gè)基于DOM樹的混合模型。研究中結(jié)合兩個(gè)不同的模型,一個(gè)模型基于統(tǒng)計(jì)特征(文本信息和鏈接密度),另一個(gè)模型則基于格式特性(如字體、風(fēng)格、位置)。Uzun等[14]在2013年提出一個(gè)兩步驟相互促進(jìn)的混合方法。其中的步驟一是使用決策樹學(xué)習(xí)得到抽取正文的規(guī)則,步驟二是利用得到的規(guī)則進(jìn)行正文提取。相應(yīng)地,Insa等[15]也在2013年提出了Words/Leafs Ratio(WLR)算法。這個(gè)方法基于DOM樹,通過分析結(jié)點(diǎn)的文字葉子比率(WLR)和結(jié)點(diǎn)的層級(jí)關(guān)系,從而識(shí)別出包含正文的塊。

    2基于DOM的標(biāo)點(diǎn)密度的正文提取

    這一節(jié)將主要介紹基于DOM樹的標(biāo)點(diǎn)密度的正文提取算法。本文的這一算法是參考孫飛等[12]的基于DOM樹的文本密度算法的框架上,并通過優(yōu)化改進(jìn)而最終獲得實(shí)現(xiàn)的。

    2.1DOM樹

    DOM(Document Object Model)的中文名是文檔對(duì)象模型,也就是一個(gè)與語言和平臺(tái)都無關(guān)的協(xié)議。該協(xié)議允許程序和腳本動(dòng)態(tài)地獲取和更新HTML等文檔的內(nèi)容、結(jié)構(gòu)和風(fēng)格。DOM提供了一系列接口,通過這些接口就可以對(duì)文檔進(jìn)行處理,并將這些處理進(jìn)行展現(xiàn)。DOM把HTML中的所有元素都定義成節(jié)點(diǎn)。DOM實(shí)際是一個(gè)樹狀結(jié)構(gòu),DOM樹通過樹的父子節(jié)點(diǎn)和兄弟節(jié)點(diǎn)來表示HTML中標(biāo)簽的嵌套關(guān)系和并列關(guān)系。使用DOM處理HTML網(wǎng)頁,實(shí)際是把HTML文檔處理成一顆樹,DOM提供各種處理接口,這樣就能通過接口以樹的形式對(duì)HTML文檔進(jìn)行訪問、處理以及呈現(xiàn)。

    2.2標(biāo)點(diǎn)密度

    通過對(duì)古漢語現(xiàn)代漢語相應(yīng)網(wǎng)站的觀察和分析,可以發(fā)現(xiàn)有一個(gè)比文本密度更適合的特征。文本密度把所有的文本統(tǒng)一對(duì)待,但是文本不同,對(duì)于確定一個(gè)節(jié)點(diǎn)是否為正文節(jié)點(diǎn)的作用也是不一樣的。相對(duì)于其他文本內(nèi)容來說,標(biāo)點(diǎn)符號(hào)則具有更為顯著的標(biāo)識(shí)的作用。

    從古漢語現(xiàn)代漢語網(wǎng)頁可以看出,標(biāo)點(diǎn)符號(hào)只存在于正文中,不存在于噪聲信息中。其他兩個(gè)即將用到的網(wǎng)站也是這種情況?;谶@一原因,即可使用標(biāo)點(diǎn)替換文本來計(jì)算密度更能區(qū)分正文和噪聲。為了和文本密度進(jìn)行區(qū)分,可將其定義為標(biāo)點(diǎn)密度。節(jié)點(diǎn)i的標(biāo)點(diǎn)密度是節(jié)點(diǎn)i的標(biāo)點(diǎn)個(gè)數(shù)PointNumber和節(jié)點(diǎn)i的節(jié)點(diǎn)個(gè)數(shù)NodeNumber的比值。其中,PointNumber表示節(jié)點(diǎn)所有子樹的標(biāo)點(diǎn)個(gè)數(shù)之和;NodeNumber表示節(jié)點(diǎn)所有子樹的節(jié)點(diǎn)個(gè)數(shù)之和。

    在算法的實(shí)現(xiàn)中,通過對(duì)DOM樹的遍歷,可以得到每一個(gè)節(jié)點(diǎn)的標(biāo)點(diǎn)個(gè)數(shù)和節(jié)點(diǎn)個(gè)數(shù)并計(jì)算出其標(biāo)點(diǎn)密度。這樣,DOM樹中的節(jié)點(diǎn)i的標(biāo)點(diǎn)密度定義如下:

    (1)

    式中,Pi表示節(jié)點(diǎn)i的標(biāo)點(diǎn)個(gè)數(shù),即PointNumber;Ni表示節(jié)點(diǎn)的節(jié)點(diǎn)個(gè)數(shù),即NodeNumber。當(dāng)Ni是0時(shí),令Ni=1。

    PointDensity反映了網(wǎng)頁中對(duì)應(yīng)標(biāo)簽的標(biāo)點(diǎn)密度。結(jié)構(gòu)簡單且包含較多標(biāo)點(diǎn)符號(hào)的標(biāo)簽,其標(biāo)點(diǎn)密度較高;結(jié)構(gòu)復(fù)雜且包含較少標(biāo)點(diǎn)的節(jié)點(diǎn)其標(biāo)點(diǎn)密度較小。同時(shí),標(biāo)點(diǎn)密度相對(duì)文本密度更獨(dú)立于網(wǎng)站的結(jié)構(gòu),而且對(duì)正文信息和噪聲的區(qū)分也將更加有效。

    基于鏈接噪聲沒有或者很少有標(biāo)點(diǎn)符號(hào)這個(gè)觀察事實(shí),所提出的標(biāo)點(diǎn)密度很必然地實(shí)現(xiàn)了對(duì)超鏈接噪聲的排除,所以此處將不再參照復(fù)雜文本密度定義復(fù)雜標(biāo)簽密度。

    2.3標(biāo)點(diǎn)密度和

    這里,參照文本密度和DensitySum定義標(biāo)簽密度和PointDensitySum。節(jié)點(diǎn)i的標(biāo)簽密度和定義為節(jié)點(diǎn)i的直接孩子節(jié)點(diǎn)的標(biāo)簽密度之和,其公式如下:

    (2)

    其中,child(i)表示節(jié)點(diǎn)i的直接孩子節(jié)點(diǎn)集合,PointDensityj表示節(jié)點(diǎn)j的文本密度。閾值的選取,將文本密度、文本密度和分別替換為標(biāo)點(diǎn)密度、標(biāo)點(diǎn)密度和。這樣,先找到標(biāo)簽密度和最大的節(jié)點(diǎn),再將body節(jié)點(diǎn)到該節(jié)點(diǎn)路徑上的最小的節(jié)點(diǎn)標(biāo)簽密度作為閾值。

    2.4正文提取算法

    研究使用孫飛等[16]開發(fā)的提取算法,只是將相應(yīng)的文本密度、文本密度和分別替換為標(biāo)點(diǎn)密度、標(biāo)點(diǎn)密度和。算法的輸入是網(wǎng)頁DOM樹的根節(jié)點(diǎn)R,和閾值t,輸出是網(wǎng)頁正文,算法描述如下:

    (1)如果節(jié)點(diǎn)R的標(biāo)點(diǎn)密度大于閾值t,則轉(zhuǎn)(2),否則結(jié)束;

    (2)找到節(jié)點(diǎn)R的子樹(包括R本身)中標(biāo)點(diǎn)密度和最大的節(jié)點(diǎn)C;

    (3)將節(jié)點(diǎn)C標(biāo)記為正文節(jié)點(diǎn);

    (4)對(duì)節(jié)點(diǎn)R的每個(gè)孩子節(jié)點(diǎn)提取正文。

    3 實(shí)驗(yàn)

    在本節(jié)中,首先介紹了實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)。然后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行呈現(xiàn)和討論。

    數(shù)據(jù)集

    本文針對(duì)的是古漢語現(xiàn)代漢語平行篇章存在的網(wǎng)站及網(wǎng)頁。其中采用的實(shí)驗(yàn)數(shù)據(jù)是隨機(jī)抽取50個(gè)古漢語現(xiàn)代漢語平行篇章網(wǎng)頁。標(biāo)準(zhǔn)正文是通過人工方式從網(wǎng)頁采選獲得的。

    3.2評(píng)價(jià)指標(biāo)

    實(shí)驗(yàn)結(jié)果的評(píng)價(jià)采用準(zhǔn)確率Precision、召回率Recall和F值。設(shè)O為算法輸出的網(wǎng)頁正文,H為標(biāo)準(zhǔn)正文。把O,H看作漢字及標(biāo)點(diǎn)符號(hào)組成的字符串,那么:

    (3)

    (4)

    (5)

    其中,LCS(O,H)表示字符串O,H的最長公共子串,len(LCS(O,H))表示LCS(O,H)的長度,len(O)表示字符串O的長度,len(H)表示字符串H的長度。

    3.3實(shí)驗(yàn)結(jié)果和分析

    研究設(shè)計(jì)實(shí)現(xiàn)了文本密度、復(fù)雜文本密度和標(biāo)點(diǎn)密度三個(gè)正文提取算法。其在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比可如表1所示。

    表1 三種正文提取算法的性能比較

    Tab.1 Comparison of three content extraction algorithm

    方法\性能 準(zhǔn)確率 召回率 F值

    標(biāo)點(diǎn)密度算法 0.891 1 1 0.942 4

    文本密度算法 0.881 3 0.983 7 0.929 7

    復(fù)雜文本密度算法 0.887 9 0.997 3 0.939 4

    從實(shí)驗(yàn)結(jié)果可以看到,使用標(biāo)點(diǎn)密度的正文提取算法準(zhǔn)確率、召回率和F值上均要高于其他兩種方法。

    4 結(jié)束語

    本文提出的基于標(biāo)點(diǎn)密度的網(wǎng)頁正文提取方法,該方法的改進(jìn)創(chuàng)新主要在于使用了更為合適的標(biāo)點(diǎn)密度替換文本密度。總而言之,這一研究進(jìn)程就是基于文言文翻譯網(wǎng)站上的一個(gè)觀測(cè)事實(shí),即:正文信息含有更多的標(biāo)點(diǎn)符號(hào)而噪聲信息基本沒有標(biāo)點(diǎn)符號(hào)。由此出發(fā),本文提出的方法獲得了比文本密度更好的性能,而且在準(zhǔn)確率、召回率和F-值上都有一定的提升。

    參考文獻(xiàn):

    [1] PUNERA K, GIBSON D, TOMKINS A. The volume and evolution of Web Page Templates[C]// Special interest tracks and posters of the 14th international conference on World Wide Web, Chiba:ACM, 2005:830-839.

    [2] RAHMAN A F R, ALAM H, HARTONO R. Content extraction from html documents[C]//1st Int. Workshop on Web Document Analysis (WDA2001), Seattle:[s.n.], 2001: 1-4.

    [3] FINN A, KUSHMERICK N, SMYTH B. Fact or fiction: Content classification for digital libraries[C]// DELOS Workshops, Citeseer:Dublin, 2001:1-6.

    [4] PINTO D, BRANSTEIN M, COLEMAN R, et al. QuASM: a system for question answering using semi-structured data[C]//Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries, New York:ACM, 2002: 46-55.

    [5] DEBNATH S, MITRA P, GILES C L. Automatic extraction of informative blocks from webpages[C]//Proceedings of the Acm Sac, Santa Fe:ACM, 2005:1722-1726.

    [6] GUPTA S, KAISER G, STOLFO S. Extracting context to improve accuracy for HTML content extraction[C]//Special interest tracks and posters of the 14th international conference on World Wide Web, Chiba:ACM, 2005: 1114-1115.

    [7] GOTTRON T. Combining content extraction heuristics: the CombinE system[C]//Proceedings of the 10th International Conference on Information Integration and Web-based Applications & Services, Linz:ACM, 2008: 591-595.

    [8] MANTRATZIS C, ORGUN M, CASSIDY S. Separating XHTML content from navigation clutter using DOM-structure block analysis[C]// Hypertext 05 Proceedings of the Sixteenth Acm Conference on Hypertext & Hypermedia, New York:ACM, 2005:145-147.

    [9] GOTTRON T. Content code blurring: A new approach to content extraction[C]// Proceedings of the 2008 19th International Conference on Database and Expert Systems Application, [s.1.]:IEEE Computer Society, 2008:29-33.

    [10] WENINGER T, HSU W H, HAN J. CETR: content extraction via tag ratios.[C]// Proceedings of the 19th international conference on World wide web, Raleigh:ACM, 2010:971-980.

    [11] KOHLSCHUTTER C, FANKHAUSER P, NEJDL W. Boilerplate detection using shallow text features[C]//Proceedings of the third ACM international conference on Web search and data mining, NewYork:ACM, 2010: 441-450.

    [12] SUN F, SONG D, LIAO L. DOM based content extraction via text density[C]// Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, Beijing:ACM, 2011:245-254.

    [13] QURESHI P A R, MEMON N. Hybrid model of content extraction[J]. Journal of Computer & System Sciences, 2012, 78(4):1248–1257.

    [14] UZUN E, AGUN H V, YERLIKAYA T. A hybrid approach for extracting informative content from web pages[J]. Information Processing & Management, 2013, 49(4): 928-944.

    [15] INSA D, SILVA J, TAMARIT S. Using the words/leafs ratio in the DOM tree for content extraction[J]. J. Log. Algebr. Program., 2013, 82(8): 311-325.

    80岁老熟妇乱子伦牲交| 三级毛片av免费| 亚洲美女黄片视频| 亚洲专区字幕在线| 一本色道久久久久久精品综合| 一个人免费在线观看的高清视频| 精品国产亚洲在线| 午夜福利一区二区在线看| 午夜福利影视在线免费观看| 狠狠精品人妻久久久久久综合| svipshipincom国产片| 国产精品久久久久久人妻精品电影 | 久久久国产欧美日韩av| 最近最新中文字幕大全电影3 | 亚洲av美国av| 丝袜喷水一区| 香蕉久久夜色| 午夜免费鲁丝| 久久这里只有精品19| 亚洲久久久国产精品| 一二三四在线观看免费中文在| 亚洲中文日韩欧美视频| 亚洲精品自拍成人| 中文字幕另类日韩欧美亚洲嫩草| 久久久久精品人妻al黑| 一个人免费看片子| 精品国产国语对白av| 男女高潮啪啪啪动态图| 免费人妻精品一区二区三区视频| 日韩欧美三级三区| 亚洲少妇的诱惑av| av电影中文网址| 色尼玛亚洲综合影院| 一区二区三区精品91| 99国产综合亚洲精品| 久久精品aⅴ一区二区三区四区| 热re99久久国产66热| 精品久久久久久电影网| 国产91精品成人一区二区三区 | 黑人巨大精品欧美一区二区蜜桃| 一二三四在线观看免费中文在| 国产aⅴ精品一区二区三区波| 熟女少妇亚洲综合色aaa.| 国产成人av教育| 老汉色av国产亚洲站长工具| 男女无遮挡免费网站观看| 亚洲精品在线美女| 两人在一起打扑克的视频| 99re6热这里在线精品视频| 国产精品影院久久| 少妇 在线观看| 天天躁日日躁夜夜躁夜夜| 欧美久久黑人一区二区| 国产一区二区在线观看av| 成年人黄色毛片网站| 午夜福利在线观看吧| 露出奶头的视频| 亚洲美女黄片视频| 另类精品久久| 99国产精品一区二区三区| 精品国产乱子伦一区二区三区| 国产片内射在线| av又黄又爽大尺度在线免费看| 操出白浆在线播放| 满18在线观看网站| 亚洲成av片中文字幕在线观看| 国产主播在线观看一区二区| av天堂在线播放| 好男人电影高清在线观看| 日韩中文字幕欧美一区二区| 高清欧美精品videossex| 国产男女内射视频| 免费女性裸体啪啪无遮挡网站| 亚洲精品美女久久av网站| 精品国产一区二区三区四区第35| 12—13女人毛片做爰片一| 欧美日韩av久久| 黄色毛片三级朝国网站| 天堂8中文在线网| 欧美日韩成人在线一区二区| 精品福利永久在线观看| 日韩免费av在线播放| 精品国产超薄肉色丝袜足j| 丝袜美足系列| 午夜福利视频精品| 日本av手机在线免费观看| 性少妇av在线| 欧美变态另类bdsm刘玥| 亚洲欧美色中文字幕在线| 久久久国产欧美日韩av| 久久婷婷成人综合色麻豆| 国产成人欧美| 精品国产亚洲在线| 9热在线视频观看99| 美国免费a级毛片| 国产精品久久久久久人妻精品电影 | 午夜福利视频在线观看免费| 好男人电影高清在线观看| 亚洲精品在线美女| 成人特级黄色片久久久久久久 | 国产一区二区三区视频了| 亚洲自偷自拍图片 自拍| 色综合婷婷激情| 9色porny在线观看| 国产成人啪精品午夜网站| 自拍欧美九色日韩亚洲蝌蚪91| 日本wwww免费看| 亚洲国产欧美一区二区综合| 国产精品免费一区二区三区在线 | 一边摸一边抽搐一进一小说 | 亚洲专区国产一区二区| 757午夜福利合集在线观看| 一级毛片女人18水好多| 午夜成年电影在线免费观看| 99久久精品国产亚洲精品| 亚洲五月婷婷丁香| 久久人妻熟女aⅴ| 久久久水蜜桃国产精品网| 亚洲成人免费av在线播放| 国产精品熟女久久久久浪| 亚洲av片天天在线观看| 亚洲avbb在线观看| 十八禁人妻一区二区| 亚洲精华国产精华精| 久久中文字幕一级| 中文字幕人妻丝袜制服| 国产高清激情床上av| 极品少妇高潮喷水抽搐| 免费黄频网站在线观看国产| 丰满饥渴人妻一区二区三| 五月天丁香电影| 欧美国产精品va在线观看不卡| 我要看黄色一级片免费的| 91老司机精品| 操美女的视频在线观看| 精品熟女少妇八av免费久了| 久久天躁狠狠躁夜夜2o2o| 亚洲性夜色夜夜综合| 一二三四社区在线视频社区8| 欧美在线黄色| 国产真人三级小视频在线观看| 97在线人人人人妻| 女人被躁到高潮嗷嗷叫费观| 亚洲专区中文字幕在线| 伊人久久大香线蕉亚洲五| 国产无遮挡羞羞视频在线观看| 在线观看66精品国产| 97人妻天天添夜夜摸| 精品国产国语对白av| 久久影院123| 国产男女内射视频| 国产片内射在线| 黑人欧美特级aaaaaa片| 丰满人妻熟妇乱又伦精品不卡| 国产成人av激情在线播放| 久久国产精品人妻蜜桃| 9色porny在线观看| 久久人人爽av亚洲精品天堂| 亚洲精品久久午夜乱码| 伦理电影免费视频| 免费久久久久久久精品成人欧美视频| 亚洲国产中文字幕在线视频| 国产成人欧美在线观看 | 老汉色av国产亚洲站长工具| 国产男女超爽视频在线观看| 精品免费久久久久久久清纯 | 亚洲自偷自拍图片 自拍| 日韩免费高清中文字幕av| 女人爽到高潮嗷嗷叫在线视频| 一区二区三区乱码不卡18| 亚洲成人手机| 窝窝影院91人妻| 亚洲精品久久午夜乱码| 免费在线观看日本一区| 欧美精品av麻豆av| 久久热在线av| 777米奇影视久久| 日韩大片免费观看网站| aaaaa片日本免费| 两人在一起打扑克的视频| 国产区一区二久久| 亚洲色图av天堂| 首页视频小说图片口味搜索| 黄片播放在线免费| 怎么达到女性高潮| 九色亚洲精品在线播放| tube8黄色片| 十八禁网站网址无遮挡| 国产一区二区激情短视频| 最新的欧美精品一区二区| 精品一区二区三区四区五区乱码| 国产高清videossex| 国产免费视频播放在线视频| 亚洲专区国产一区二区| 亚洲少妇的诱惑av| 久久中文看片网| 天堂中文最新版在线下载| 一级,二级,三级黄色视频| 欧美日韩成人在线一区二区| 久久午夜亚洲精品久久| 桃红色精品国产亚洲av| 国产欧美日韩一区二区精品| 精品一区二区三区四区五区乱码| 国产精品欧美亚洲77777| 亚洲情色 制服丝袜| 国产成人av激情在线播放| 最新美女视频免费是黄的| 免费在线观看日本一区| 搡老熟女国产l中国老女人| 九色亚洲精品在线播放| 一区二区三区激情视频| 超碰97精品在线观看| 亚洲美女黄片视频| 精品亚洲乱码少妇综合久久| 免费黄频网站在线观看国产| 亚洲成av片中文字幕在线观看| 亚洲av日韩精品久久久久久密| 亚洲精品中文字幕一二三四区 | 自拍欧美九色日韩亚洲蝌蚪91| 国产精品久久电影中文字幕 | 女人被躁到高潮嗷嗷叫费观| 亚洲成人免费av在线播放| 久久精品aⅴ一区二区三区四区| 日韩视频在线欧美| 成人特级黄色片久久久久久久 | 99国产精品99久久久久| 91精品国产国语对白视频| 老司机在亚洲福利影院| 国产成人欧美| 亚洲第一av免费看| 日韩 欧美 亚洲 中文字幕| 丝瓜视频免费看黄片| 极品少妇高潮喷水抽搐| 悠悠久久av| 国产深夜福利视频在线观看| 国产精品香港三级国产av潘金莲| 国产男女超爽视频在线观看| 亚洲国产欧美一区二区综合| 日本wwww免费看| 高清av免费在线| 久久午夜综合久久蜜桃| 亚洲欧美一区二区三区久久| 欧美成人午夜精品| 欧美日韩亚洲高清精品| 亚洲国产看品久久| 在线永久观看黄色视频| videosex国产| 在线看a的网站| 免费观看av网站的网址| 成人手机av| 国产精品一区二区在线观看99| 久久免费观看电影| 国产精品偷伦视频观看了| 黄片大片在线免费观看| 久久久久视频综合| 黄片播放在线免费| 五月天丁香电影| 757午夜福利合集在线观看| 丰满饥渴人妻一区二区三| 国产不卡一卡二| 欧美黑人欧美精品刺激| 中国美女看黄片| 精品福利永久在线观看| 99热网站在线观看| 夫妻午夜视频| 亚洲国产中文字幕在线视频| 国产高清videossex| 成人精品一区二区免费| 成年人午夜在线观看视频| 韩国精品一区二区三区| 国产亚洲精品第一综合不卡| 日韩三级视频一区二区三区| 大陆偷拍与自拍| 日韩人妻精品一区2区三区| 99精国产麻豆久久婷婷| 精品免费久久久久久久清纯 | 啦啦啦视频在线资源免费观看| 欧美性长视频在线观看| 老熟妇仑乱视频hdxx| 久久精品熟女亚洲av麻豆精品| 精品人妻熟女毛片av久久网站| 99精品欧美一区二区三区四区| 黄频高清免费视频| 男男h啪啪无遮挡| 久久精品亚洲精品国产色婷小说| 久久久久久免费高清国产稀缺| 美女午夜性视频免费| 久久av网站| 亚洲七黄色美女视频| 精品熟女少妇八av免费久了| 欧美日韩亚洲国产一区二区在线观看 | 曰老女人黄片| 免费少妇av软件| 久久人妻熟女aⅴ| 国产男女内射视频| 成人永久免费在线观看视频 | 18禁黄网站禁片午夜丰满| 久久影院123| 蜜桃国产av成人99| 亚洲第一青青草原| 男人操女人黄网站| 50天的宝宝边吃奶边哭怎么回事| 王馨瑶露胸无遮挡在线观看| 日韩一区二区三区影片| 国产精品香港三级国产av潘金莲| 成在线人永久免费视频| 欧美日韩视频精品一区| 大片电影免费在线观看免费| 真人做人爱边吃奶动态| 免费在线观看影片大全网站| 亚洲 国产 在线| 啦啦啦免费观看视频1| 国产精品.久久久| 亚洲熟女精品中文字幕| 欧美中文综合在线视频| 天天躁日日躁夜夜躁夜夜| 国产一区二区三区视频了| 久久久精品免费免费高清| 久久久久久久久久久久大奶| 亚洲成a人片在线一区二区| 搡老乐熟女国产| 国产精品亚洲一级av第二区| 久久精品国产a三级三级三级| 国产在线免费精品| 亚洲一区二区三区欧美精品| 精品久久蜜臀av无| 中文字幕高清在线视频| 18禁观看日本| 一区二区日韩欧美中文字幕| 高清黄色对白视频在线免费看| 国产精品秋霞免费鲁丝片| 王馨瑶露胸无遮挡在线观看| 欧美 日韩 精品 国产| 久久天堂一区二区三区四区| 夜夜爽天天搞| tocl精华| 亚洲精品久久午夜乱码| 亚洲熟女毛片儿| 中文字幕制服av| 一进一出好大好爽视频| 国产成人精品无人区| e午夜精品久久久久久久| 亚洲国产欧美网| 亚洲专区中文字幕在线| 99精品欧美一区二区三区四区| 精品国产乱码久久久久久男人| 国产精品亚洲av一区麻豆| 国产成人免费无遮挡视频| 亚洲成人免费电影在线观看| 久久毛片免费看一区二区三区| 久久精品国产亚洲av高清一级| 一级片'在线观看视频| 亚洲 欧美一区二区三区| 精品国产亚洲在线| 在线观看免费视频网站a站| 亚洲七黄色美女视频| 国产麻豆69| 最近最新中文字幕大全电影3 | 国产亚洲精品久久久久5区| 男女边摸边吃奶| 国产国语露脸激情在线看| 黄色a级毛片大全视频| 黄色视频在线播放观看不卡| 巨乳人妻的诱惑在线观看| 国产精品一区二区在线观看99| 国产黄频视频在线观看| 免费av中文字幕在线| 久久精品亚洲精品国产色婷小说| 波多野结衣av一区二区av| 91成年电影在线观看| 日韩有码中文字幕| 精品一区二区三区av网在线观看 | 香蕉久久夜色| 嫩草影视91久久| 国产一卡二卡三卡精品| 纵有疾风起免费观看全集完整版| 可以免费在线观看a视频的电影网站| 757午夜福利合集在线观看| 国产又爽黄色视频| 亚洲一码二码三码区别大吗| 一本—道久久a久久精品蜜桃钙片| 一区二区三区乱码不卡18| 老汉色∧v一级毛片| 中文字幕人妻丝袜一区二区| 免费观看a级毛片全部| 国产精品电影一区二区三区 | 91成年电影在线观看| 99精品久久久久人妻精品| 亚洲 欧美一区二区三区| 99国产极品粉嫩在线观看| 性高湖久久久久久久久免费观看| 人人妻人人澡人人看| 丰满迷人的少妇在线观看| 999精品在线视频| 亚洲成av片中文字幕在线观看| 建设人人有责人人尽责人人享有的| 侵犯人妻中文字幕一二三四区| 久久久水蜜桃国产精品网| 国产欧美亚洲国产| 亚洲欧洲精品一区二区精品久久久| 国产在线观看jvid| 亚洲国产av影院在线观看| 亚洲欧美激情在线| 成人黄色视频免费在线看| 老熟妇仑乱视频hdxx| 亚洲人成电影免费在线| 午夜视频精品福利| 菩萨蛮人人尽说江南好唐韦庄| 亚洲伊人色综图| 久久久久久亚洲精品国产蜜桃av| 丁香欧美五月| 多毛熟女@视频| 人妻 亚洲 视频| 国产aⅴ精品一区二区三区波| 日本精品一区二区三区蜜桃| 一区二区三区国产精品乱码| 男女之事视频高清在线观看| 欧美精品亚洲一区二区| 丝袜人妻中文字幕| 老熟妇仑乱视频hdxx| 一进一出抽搐动态| 久久久国产欧美日韩av| 国产精品 欧美亚洲| 欧美激情 高清一区二区三区| 久久热在线av| 成人亚洲精品一区在线观看| 热99国产精品久久久久久7| av网站免费在线观看视频| 久热爱精品视频在线9| 成人手机av| 三上悠亚av全集在线观看| 午夜老司机福利片| 啦啦啦免费观看视频1| 国产精品免费大片| e午夜精品久久久久久久| 精品亚洲成国产av| 中文字幕另类日韩欧美亚洲嫩草| 久久久久精品人妻al黑| 日本撒尿小便嘘嘘汇集6| 热re99久久精品国产66热6| av网站免费在线观看视频| 中文字幕精品免费在线观看视频| 国产伦理片在线播放av一区| 色综合欧美亚洲国产小说| 亚洲 国产 在线| 高清毛片免费观看视频网站 | 国产欧美日韩一区二区三区在线| 久久精品91无色码中文字幕| 久久精品国产综合久久久| 亚洲成av片中文字幕在线观看| 美女扒开内裤让男人捅视频| 97在线人人人人妻| 老司机午夜福利在线观看视频 | e午夜精品久久久久久久| 天天影视国产精品| 欧美国产精品一级二级三级| 欧美日本中文国产一区发布| 成人永久免费在线观看视频 | 久久久久久久大尺度免费视频| av福利片在线| 国产精品久久久av美女十八| 高清在线国产一区| 19禁男女啪啪无遮挡网站| 欧美乱码精品一区二区三区| 欧美精品人与动牲交sv欧美| 亚洲精品国产区一区二| 美女主播在线视频| 国产亚洲精品第一综合不卡| 午夜成年电影在线免费观看| 精品人妻熟女毛片av久久网站| 精品国产国语对白av| 亚洲一码二码三码区别大吗| 动漫黄色视频在线观看| 日韩一卡2卡3卡4卡2021年| 精品国产一区二区三区四区第35| 最近最新中文字幕大全电影3 | 欧美一级毛片孕妇| www.熟女人妻精品国产| 国产精品久久久久久精品古装| 欧美日韩中文字幕国产精品一区二区三区 | 日韩大片免费观看网站| 蜜桃国产av成人99| 18禁美女被吸乳视频| 我的亚洲天堂| 久久久欧美国产精品| 看免费av毛片| 黄频高清免费视频| 亚洲成人免费电影在线观看| 热99re8久久精品国产| 在线观看一区二区三区激情| 国产一区二区 视频在线| 90打野战视频偷拍视频| 精品福利观看| 波多野结衣一区麻豆| 精品人妻1区二区| 婷婷丁香在线五月| 深夜精品福利| 国产成+人综合+亚洲专区| 1024视频免费在线观看| 日韩免费av在线播放| av又黄又爽大尺度在线免费看| a级片在线免费高清观看视频| 免费在线观看日本一区| 亚洲av电影在线进入| 白带黄色成豆腐渣| 成人av在线播放网站| 久久精品aⅴ一区二区三区四区| 极品教师在线免费播放| 狠狠狠狠99中文字幕| 伦理电影免费视频| 日本五十路高清| 国产三级黄色录像| 欧美中文综合在线视频| 亚洲专区中文字幕在线| 99久久无色码亚洲精品果冻| 91九色精品人成在线观看| 亚洲熟妇熟女久久| 国产久久久一区二区三区| 一区福利在线观看| 日日摸夜夜添夜夜添小说| 性色av乱码一区二区三区2| 亚洲国产高清在线一区二区三| 亚洲欧美激情综合另类| 欧美午夜高清在线| 在线观看舔阴道视频| 一边摸一边抽搐一进一小说| 精品一区二区三区视频在线观看免费| 69av精品久久久久久| 在线国产一区二区在线| 日韩欧美三级三区| 午夜成年电影在线免费观看| 精华霜和精华液先用哪个| 亚洲人成伊人成综合网2020| 国产亚洲精品久久久久久毛片| 叶爱在线成人免费视频播放| 可以在线观看毛片的网站| 亚洲av美国av| 伦理电影免费视频| 国产真人三级小视频在线观看| 毛片女人毛片| 天天一区二区日本电影三级| 国产精品女同一区二区软件 | 很黄的视频免费| 国产精品亚洲av一区麻豆| 色老头精品视频在线观看| 麻豆国产97在线/欧美| 99久久综合精品五月天人人| 又紧又爽又黄一区二区| 99精品欧美一区二区三区四区| 两人在一起打扑克的视频| 色老头精品视频在线观看| 亚洲国产欧美人成| 国内精品久久久久精免费| 久久中文看片网| 一本精品99久久精品77| 在线观看一区二区三区| 少妇的丰满在线观看| 亚洲精品在线观看二区| 国内精品久久久久久久电影| 91麻豆精品激情在线观看国产| 欧美乱码精品一区二区三区| 久久性视频一级片| 美女免费视频网站| 可以在线观看毛片的网站| 99久久无色码亚洲精品果冻| 日韩精品青青久久久久久| av黄色大香蕉| 在线观看美女被高潮喷水网站 | 91麻豆av在线| 亚洲精品粉嫩美女一区| 婷婷精品国产亚洲av| 国内精品久久久久久久电影| 国产精品,欧美在线| 特级一级黄色大片| 麻豆国产av国片精品| 一进一出抽搐gif免费好疼| 男人的好看免费观看在线视频| 亚洲国产精品合色在线| 叶爱在线成人免费视频播放| 久久久久久久久中文| 久久久久久久久久黄片| www.熟女人妻精品国产| 中文字幕人成人乱码亚洲影| 可以在线观看的亚洲视频| av在线蜜桃| 性色av乱码一区二区三区2| 国产精品野战在线观看| 久久精品影院6| 精品国内亚洲2022精品成人| 国产精品九九99| 中文字幕高清在线视频| 亚洲狠狠婷婷综合久久图片| 亚洲午夜理论影院| 国产精品爽爽va在线观看网站| 成人精品一区二区免费| 国产精品爽爽va在线观看网站| 波多野结衣巨乳人妻| 国产一区二区激情短视频| 变态另类成人亚洲欧美熟女| 国产69精品久久久久777片 | 无限看片的www在线观看| 久久久国产成人免费| 国产伦精品一区二区三区视频9 | 全区人妻精品视频| 香蕉丝袜av| 国内精品久久久久精免费| 国产黄a三级三级三级人| 国产亚洲精品综合一区在线观看| 国产一区二区激情短视频| 最近最新中文字幕大全电影3| 精品国产美女av久久久久小说| 国产人伦9x9x在线观看| 欧美黄色片欧美黄色片| 国产高清videossex| 欧美黑人欧美精品刺激|