• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于網(wǎng)頁布局相似度的Web論壇數(shù)據(jù)抽取

    2010-07-18 03:11:44王允李弼程林琛
    中文信息學報 2010年2期
    關鍵詞:網(wǎng)頁頁面布局

    王允,李弼程,林琛

    (信息工程大學信息工程學院,河南鄭州450002)

    1 引言

    隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,Web論壇也由最初的電子布告欄(Bu lletin Board System)系統(tǒng)日益成長壯大。目前,我國擁有近140萬個Web論壇,2008年底中國網(wǎng)絡信息中心(CNNIC)的統(tǒng)計報告指出,論壇的使用人數(shù)達到了9 100萬,占網(wǎng)民總數(shù)的30%以上。每天都有成千上萬的人在不同的Web論壇探討問題,交流觀點,日積月累使Web論壇成為一個巨大的信息資源庫。作為互聯(lián)網(wǎng)的重要組成部分,對Web論壇的信息處理也逐漸被人們重視。針對Web論壇的應用日趨多樣,如Google、Baidu等搜索引擎都提供了對論壇信息的檢索;Web論壇在網(wǎng)絡輿情傳播中的重要作用近年來受到了廣泛的關注[1-2];此外還有網(wǎng)絡社區(qū)挖掘[3]等。

    面對內(nèi)容、形式多樣的Web論壇,如何有效地抽取其中的數(shù)據(jù)是各種Web論壇應用的前提。Web論壇數(shù)據(jù)抽取必須解決以下兩個問題:(1)抽取什么數(shù)據(jù);(2)如何抽取。話題是一個Web論壇的基本組成部分,話題隸屬于不同的版塊,由主帖和若干跟帖組成。我們采用元數(shù)據(jù)來描述話題,話題的元數(shù)據(jù)有話題所屬站點、所屬版塊、作者、標題、發(fā)表時間、帖子內(nèi)容及各回帖的作者、回復時間、內(nèi)容等。本文只討論可以從論壇網(wǎng)頁中直接抽取出的話題元數(shù)據(jù)如作者、標題、時間、內(nèi)容等信息。利用元數(shù)據(jù)表示話題可以幫助我們更好的利用數(shù)據(jù)庫來存儲論壇數(shù)據(jù),從而為后續(xù)的應用提供便利。

    對于第二個問題,為了適應眾多不同風格類型的網(wǎng)絡論壇站點,我們旨在找到一種通用性強、自動化程度和抽取精度都比較高的方法。通過對Web論壇頁面的生成機制、視覺效果、H TM L語法結(jié)構的分析,發(fā)現(xiàn)了論壇類網(wǎng)頁所具有的普遍特征,總結(jié)出兩點重要結(jié)論,并在此基礎上提出了一種基于頁面布局相似度的Web論壇數(shù)據(jù)抽取方法。本文以下部分將詳細介紹該方法的相關內(nèi)容。

    2 相關研究和技術

    Web論壇數(shù)據(jù)抽取屬于Web信息抽取中針對網(wǎng)頁中某種屬性的抽取,比如從新聞報道中抽取標題、正文內(nèi)容、作者、發(fā)表時間等。目前Web信息抽取的方法多是基于規(guī)則,一般都是針對某一網(wǎng)站制定規(guī)則并以此構造分裝器(W rapper)實現(xiàn)自動抽取。典型的系統(tǒng)有 STALKER[4]、WH ISK[5]等。W rapper是一種軟件構件,它主要通過兩種途徑來構建,一是知識工程的途徑,即通過領域?qū)<襾碇贫ǔ槿∫?guī)則,這需要耗費大量的人力,成本很高;另外一種是采用機器學習的途徑自動構建W rapper,根據(jù)標注樣本,機器學習算法通過自動學習來建立抽取模型,這種方式仍然需要手工標注樣本。總之,利用分裝器的信息抽取技術都要在一定程度上依靠人工輔助,自動化程度比較低,其系統(tǒng)的適用性較差,目前只在比價購物方面的商業(yè)應用中比較成功。由于論壇網(wǎng)頁形式多樣且不斷更新,因此,W rapper的維護成本較高,不適合大規(guī)模應用。

    無監(jiān)督的Web信息抽取主要針對含有多個數(shù)據(jù)記錄的網(wǎng)頁,比如產(chǎn)品列表頁面,通過發(fā)現(xiàn)網(wǎng)頁中的重復模式來確定數(shù)據(jù)區(qū)域,比較有代表性的算法有 MDR[6]、DEPTA[7]、NET[8]等。 此外,文獻[9]提出了一種自適應的方法以適應更多類型的網(wǎng)頁。由于論壇網(wǎng)頁具有嚴格緊湊的結(jié)構,因此上述方法也可用于論壇網(wǎng)頁。但是,這些方法都是基于編輯距離(Edit Distance)[10]的字符串比較來發(fā)現(xiàn)重復模式。即將信息包含的HTM L標簽順序連接成字符串,通過比較發(fā)現(xiàn)相似的字符串來確定待抽取的數(shù)據(jù)區(qū)域。但是網(wǎng)頁結(jié)構復雜多變且存在很多局部噪聲,僅僅通過字符串的比較將導致比較低的抽取準確率。文獻[11]利用視覺特征和語言特征將網(wǎng)頁劃分成不同的內(nèi)容塊,再進一步確定主要內(nèi)容塊,文獻[12]也是對網(wǎng)頁進行塊狀分割,雖然其性能還有待提高,但是這種對網(wǎng)頁進行分塊處理的思想還是值得我們借鑒的。本文的方法從網(wǎng)頁的布局角度出發(fā),利用影響網(wǎng)頁的布局結(jié)構的HTM L標簽,通過查找網(wǎng)頁內(nèi)部相似的布局結(jié)構來確定數(shù)據(jù)區(qū)域,能夠有效提高抽取的準確率。

    3 基于網(wǎng)頁布局相似度的Web論壇數(shù)據(jù)抽取方法

    待抽取的話題元數(shù)據(jù)包含在兩種類型的網(wǎng)頁中,一種是帖子的主題頁面,用來列出帖子的標題并提供指向帖子內(nèi)容頁面的鏈接,圖1是一個典型的例子。另外一種是帖子的內(nèi)容頁面,包含了主帖、回帖的內(nèi)容,如圖2所示。二者所含內(nèi)容雖然不同,但通過分析可以發(fā)現(xiàn)它們具有相同的結(jié)構特點,因此可以采用同樣的方式處理。

    3.1 Web論壇網(wǎng)頁的布局結(jié)構特點

    Web論壇系統(tǒng)一般都在服務端使用CGI模塊來動態(tài)生成同一功能類型的 HTM L頁面,這些動態(tài)生成的頁面往往采用相同的模板,在單個網(wǎng)頁內(nèi)或網(wǎng)頁之間,相同類型的信息內(nèi)容具有相似的視覺效果。因此,整個頁面往往都很規(guī)整,結(jié)構上很緊湊。如圖1、圖2中矩形框之間結(jié)構布局都是相似的,可以看出它們都包含了標題、作者、時間、內(nèi)容等,并且這些內(nèi)容在塊中的位置都是固定的。從網(wǎng)頁的DOM樹結(jié)構同樣可以看出這一點,如圖3所示,圖1中的矩形區(qū)域?qū)赥able節(jié)點下的每個TR節(jié)點,從圖中兩個展開的TR節(jié)點可以看到其對應位置的節(jié)點是相同的,而且其余的TR節(jié)點也有同樣的結(jié)構。這些特征都明顯區(qū)別于網(wǎng)頁中的其他部分,可以幫助我們區(qū)分導航條、廣告區(qū)、相關信息等網(wǎng)頁的其他區(qū)域,從而有效的濾除噪聲。

    綜合以上分析,我們總結(jié)得到以下關于Web論壇網(wǎng)頁的重要結(jié)論:

    (1)從視覺效果上看,主題頁面和內(nèi)容頁面通常含有大量(通常都有數(shù)十個)布局結(jié)構相似的內(nèi)容塊。圖1中這樣的塊有71個,這明顯區(qū)別于頁面的其他部分。我們把這些包含了論壇話題元數(shù)據(jù)的區(qū)域稱為論壇網(wǎng)頁的主題信息塊,如圖1和圖2中的矩形區(qū)域。

    圖1 主題頁面

    圖2 內(nèi)容頁面

    圖3 頁面的DOM樹結(jié)構

    (2)從HTM L語法結(jié)構上看,表示這些相似內(nèi)容塊的節(jié)點通常都是Table、Div、UL,Form等的子孫節(jié)點,并且都位于DOM樹的同一個層次。如圖2中相似的TR節(jié)點都是同一個Table的子節(jié)點。

    3.2 數(shù)據(jù)抽取的具體實現(xiàn)過程

    基于上述特點,本文采用分級處理的方式抽取論壇話題的元數(shù)據(jù),主要包括兩個步驟:

    (1)網(wǎng)頁級處理,濾除整體噪聲,識別出各個主題信息塊;

    (2)區(qū)域級處理,濾除局部噪聲,從主題塊中提取出元數(shù)據(jù)。

    其優(yōu)點是將抽取范圍縮小到一個小的區(qū)域(主題信息塊),經(jīng)過兩層過濾提高了精度。下面介紹具體實現(xiàn)過程。

    3.2.1 主題信息塊識別

    人們觀察網(wǎng)頁時總是能快速準確的定位自己感興趣的部分,這在很大程度上得益于網(wǎng)頁的塊狀布局結(jié)構。整個網(wǎng)頁被劃分成各個不同語義內(nèi)容的區(qū)域且一般都有固定的位置,比如導航區(qū)通常位于頁面頂端,廣告一般在兩側(cè),而版權信息和相關鏈接一般在網(wǎng)頁底部。這種布局的實現(xiàn)是由HTM L語言的塊狀標簽節(jié)點來控制的,如 Table、Div、Form等,這些節(jié)點將網(wǎng)頁分割成各個相對獨立的區(qū)域。因此,在將網(wǎng)頁解析成DOM樹時只保留塊狀節(jié)點以提高運算的效率。

    由前面分析可知,主題信息塊的識別就是要找到網(wǎng)頁中那些含有大量相似結(jié)構的區(qū)域,對應于DOM樹,就是找到那些含有大量(和預先設定的值相比)相似子節(jié)點的節(jié)點。對每一個DOM樹節(jié)點,可以通過計算其子節(jié)點兩兩之間的相似度判斷是否相似,算法的偽代碼如下所示:

    由于主題信息塊的個數(shù)通常是最多的,因此可以簡單的判定NodeSet中含有最多孩子節(jié)點的節(jié)點即為我們要找的節(jié)點。實際使用中K可取較大的值(主題信息塊的數(shù)量通常都較大)。

    上述算法中的關鍵是判斷兩個節(jié)點是否相似。通常我們觀察兩個物體是否相似時總是習慣先從整體上把握,比如大小、形狀是否相同,再分析其內(nèi)部的特征,比如質(zhì)地、棱角等。同樣觀察網(wǎng)頁也是如此,是一個從宏觀到微觀的過程,我們往往先看整體上的結(jié)構布局,再逐步深入內(nèi)部細節(jié)。因此,我們定義節(jié)點的結(jié)構相似度SoL(Sim ilarity of Layout)來度量兩個節(jié)點在布局結(jié)構上的相似程度。SoL是0到1之間的值,越接近1表示兩個節(jié)點的布局結(jié)構越相似。設有兩個節(jié)點 x,y,則它們的 SoL定義為:

    其中N表示比較的深度,即只比較到第N層節(jié)點;Mi表示第i層子節(jié)點的個數(shù);ωi為第i層子節(jié)點對整體結(jié)構布局的貢獻系數(shù),一般認為越深層次的節(jié)點對宏觀布局的影響越小,因此它們對應的ωi值就越小,其反映的更多的是節(jié)點間細節(jié)上的差異,顯然 ωi應該滿足表示進行比較的兩個節(jié)點的第i層第j個節(jié)點是否為同種類型的塊狀節(jié)點,其值取0或1。首先判斷兩個節(jié)點是否為使用了同樣的H TM L標簽,比如是否同為TR或TD標簽,若不同,則Sij為0;若相同,則繼續(xù)比較兩節(jié)點屬性是否相同,如width,sty le,align等能反映節(jié)點布局結(jié)構的屬性,若這些屬性值也相同,則Sij為1。

    實驗表明,在 N取3,ωi分別取0.6,0.3,0.1時,若SoL值大于0.9則可認為兩個節(jié)點相似,此時可以達到較好的識別效果。如果要求的精度更高,則可以適當?shù)脑龃?N的值,同時調(diào)整 ωi的取值,此時相應的SoL值也要更大才能判斷節(jié)點是否相似。實際上主題信息塊之間確實存在一些局部細節(jié)上的不同,但這并不影響它們之間的整體相似性。

    3.2.2 元數(shù)據(jù)提取

    元數(shù)據(jù)在主題信息塊中的位置是相對固定的而且數(shù)據(jù)本身各有特點,如查看回復數(shù)為阿拉伯數(shù)字;時間一般有固定的格式;正文通常含有較多文本且其中很少出現(xiàn)超鏈接;標題鏈接的錨文本長度一般要大于其他鏈接的錨文本長度;作者一般都表現(xiàn)為鏈接的形式用于指向其主頁并且有時會出現(xiàn)“作者”、“Name”等前綴。這些信息都有助于我們正確提取數(shù)據(jù),但有些情況不能忽視,比如有些回帖的內(nèi)容很短,甚至只有一個字;正文中出現(xiàn)的數(shù)字,時間;表示作者的鏈接錨文本可能長于標題的鏈接錨文本;另外主題信息塊中仍有少量噪聲,比如一些廣告鏈接和功能性鏈接等,這些情況都將嚴重影響抽取的準確性。

    由于主題信息塊之間是相似的,相同的內(nèi)容都有相同的表現(xiàn)形式,會表現(xiàn)出一定的統(tǒng)計規(guī)律性,比如若某一位置所有的主題信息塊中都出現(xiàn)時間則可認為是時間,從而區(qū)別于個別正文中出現(xiàn)的時間。因此,我們考慮所有的主題信息塊。

    將主題信息塊表示成具有明顯語義信息的節(jié)點的集合,比如文本節(jié)點、超鏈接、圖片等,其他節(jié)點不予考慮。其中第i個主題信息塊Bi表示為如下形式:

    采用深度優(yōu)先的方式遍歷主題信息塊中的所有節(jié)點,按照下面的步驟得到Bi:

    (1)獲取下一個要處理的節(jié)點。若為空,結(jié)束。否則轉(zhuǎn)至(2)。

    (2)若當前節(jié)點的子節(jié)點只含有文本節(jié)點或鏈接節(jié)點,則將其添加到Bi中,轉(zhuǎn)至(1)。

    由上述方法將所有主題信息塊表示成語義節(jié)點的集合。先對Bi中的節(jié)點進一步過濾,若所有的Bi中節(jié)點ni都相同,則認為ni是噪聲節(jié)點,再應用以下規(guī)則從Bi中抽取代表元數(shù)據(jù)的節(jié)點:

    R1:對所有Bi中對應文本節(jié)點求出其長度的平均值,最大者為正文。

    R2:對所有Bi中對應鏈接節(jié)點求出其錨文本長度的平均值,最大者為標題。

    R3:所有Bi中對應某節(jié)點其文本中均含有數(shù)字則為查看回復數(shù)。

    R4:所有Bi中對應某節(jié)點其文本中均含有一定格式的時間字符串則為時間。通過大量調(diào)查我們搜集了數(shù)十種Web論壇中經(jīng)常使用的時間表達形式。

    R5:若所有Bi中對應某節(jié)點其文本中均出現(xiàn)“作者”、“Name”等字樣則為作者,否則B i中鏈接節(jié)點中位置靠前且錨文本長度較短的為作者節(jié)點。

    4 實驗部分

    為了驗證本方法對于各種Web論壇系統(tǒng)的自動抽取性能,我們選取了100個論壇站點作為數(shù)據(jù)來源,這100個站點包含了目前比較有代表性的中文論壇,同時還有一部分英文論壇。論壇的類型多種多樣,有綜合性的門戶網(wǎng)站的論壇如新浪、搜狐、網(wǎng)易等,也有專業(yè)性較強的如法制論壇、CSDN社區(qū)等,還包括一些地方性論壇如北方論壇、福州論壇等。每個論壇均選取若干版塊,內(nèi)容涉及政治、經(jīng)濟、軍事、體育、娛樂等不同領域,利用網(wǎng)絡蜘蛛程序共抓取網(wǎng)頁21 088篇,其中主題頁面8 136篇,內(nèi)容頁面12 952篇。選取部分頁面作為實驗數(shù)據(jù)用于方法中參數(shù)的確定,其余頁面作為測試集來驗證方法的性能,數(shù)據(jù)組成如表1所示。實驗內(nèi)容主要包括參數(shù)選取、測試集上的抽取性能以及分類實驗。

    表1 實驗數(shù)據(jù)和測試數(shù)據(jù)

    4.1 參數(shù)選取

    方法中主要用到的參數(shù)有布局相似度閾值,計算布局相似度時需要比較的層數(shù)以及每一層對整體布局的貢獻系數(shù)。其中,比較層數(shù)N的選取最為重要,因為它影響到其他參數(shù)的選擇,主要須考慮以下因素:層數(shù)偏少,即比較的過于粗略則可能得到很多相似的節(jié)點,影響最后抽取的準確度;層數(shù)偏多,即比較的過于細致則可能得不到正確的結(jié)果并且所消耗的時間會更多。因此,需要綜合考慮使得抽取的準確率和召回率都比較高,同時運算處理速度又快。貢獻系數(shù)的選取要依據(jù)以下原則:外層的貢獻系數(shù)要大于內(nèi)層,即要滿足以下條件:

    在實驗中,我們選擇N=1,2,3,4,5,6來分別計算處理每個網(wǎng)頁的平均時間和抽取的召回率和準確率,而貢獻系數(shù)的選取則根據(jù)式(2),可根據(jù)實際情況作具體調(diào)整,這里只給出 N=3時的一組參考值(0.6,0.3,0.1),此時布局相似度SoL為0.9時效果較好。具體實驗結(jié)果如圖4和圖5所示。圖4顯示處理時間隨著N的增大而不斷增大最終趨于平緩,這是因為大部分的網(wǎng)頁DOM樹層數(shù)都在一定范圍內(nèi),因此實際處理的層數(shù)不會隨N的增加而無限增加。由圖5可以明顯看到,N取太小或太大值時,準確率和召回率均不能達到令人滿意的效果,這與我們的分析是一致的。綜合考慮,N一般取2或3,此時可在處理速度和抽取精度上達到一個較為平衡的狀態(tài)。

    圖4 N取不同值時的平均處理時間

    圖5 N取不同值時的召回率和準確率

    4.2 抽取性能

    (一)總體實驗

    在參數(shù)確定后,我們在更大的測試集上來驗證本方法的性能。按照本方法的流程,本部分實驗按照以下步驟進行:

    (1)主題信息塊的識別準確率和召回率。主題信息塊的識別是本方法的關鍵,其性能直接影響到最終的抽取結(jié)果。我們將與目前比較流行的自動化抽取工具MDR[4]進行對比,采用準確率(REC)和召回率(PRE)[13]來衡量抽取性能。結(jié)果如表1所示。

    其中ACE表示所有正確抽取的結(jié)果,AER表示所有抽取的結(jié)果,ACR表示所有正確的結(jié)果。

    (2)元數(shù)據(jù)抽取準確率。在正確識別主題信息塊的基礎上,我們只關心元數(shù)據(jù)的抽取準確率。表2給出了實驗結(jié)果。

    最后,將上述兩步的結(jié)果相乘可以得到最終的抽取準確率,它反映了本方法對Web論壇數(shù)據(jù)抽取的總體性能。結(jié)果如表3所示。

    表2 主題信息塊識別結(jié)果對比

    表3 元數(shù)據(jù)抽取準確率

    表4 總體性能(準確率/%)

    說明:表2,3中缺失項表示該項數(shù)據(jù)不在此類頁面中或未從此類頁面中抽取。(二)分類實驗

    為了進一步驗證本方法的性能,我們對采集到的論壇網(wǎng)頁進行更進一步的分類、細化,分別按照語種(中文和英文)、所涉及領域、不同時間段來組織網(wǎng)頁進行實驗。

    圖6是對中英文論壇的對比結(jié)果,從中可以看出,對英文論壇數(shù)據(jù)的抽取在召回率和準確率上都要高于中文論壇。通過對比網(wǎng)頁我們發(fā)現(xiàn),這主要是由于相對于一些中文論壇,很多英文站點的網(wǎng)頁設計都很簡潔,語法也相對更規(guī)范,同時廣告等噪聲信息較少,這在很大程度上有助于提高抽取的精度。

    圖6 中英文論壇對比

    考慮到有些網(wǎng)站可能會改版,因此我們對采集到的網(wǎng)頁按照不同的時間段來分類以檢驗本文方法的適應性。將網(wǎng)頁按照月份來分類,共分為4月~9月六類,結(jié)果如圖7所示??梢钥吹?在不同的時間段仍然能保持較高的召回率和準確率,但在6月份以后的結(jié)果卻有一定程度的下降。對比這兩部分的數(shù)據(jù)我們發(fā)現(xiàn)兩點不同:1)版面的調(diào)整,使用了不同的模板,顯示方式有所不同;2)部分網(wǎng)站改用腳本程序來動態(tài)顯示數(shù)據(jù),我們下載到的網(wǎng)頁與通過瀏覽器看到的效果不一樣,真實數(shù)據(jù)被隱藏。對于第一種情況,本方法表現(xiàn)出良好的適應性,前后變化不大,真正影響抽取結(jié)果的是第二種情況,本方法幾乎無法給出滿意的結(jié)果,這也是我們改進的方向,畢竟動態(tài)網(wǎng)站是一種趨勢,腳本技術更是被廣泛應用。

    圖7 不同時間段召回率和準確率的變化圖

    網(wǎng)絡論壇的表現(xiàn)形式多樣,所涉及的領域也不盡相同。我們對采集到的網(wǎng)頁按不同領域來分類,主要包括綜合類、軍事類、技術類、娛樂類,其余網(wǎng)頁數(shù)量較少的歸為其他類,實驗結(jié)果如圖8所示,不同領域的抽取結(jié)果在召回率和準確率上均相差不大,這也說明了本方法可適用于不同類型的論壇。

    圖8 按不同領域分類的抽取性能

    4.3 結(jié)果分析

    總體實驗表明,本方法在數(shù)據(jù)樣本量較大的時候依然能表現(xiàn)出良好的性能。從表2可以看出本方法對不同論壇站點的主題頁面和內(nèi)容頁面中主題信息塊的識別準確率和召回率都很高,這充分說明了論壇網(wǎng)頁所具有的布局結(jié)構特點能很好的幫助我們正確提取信息,也驗證了我們所得結(jié)論的正確性。其中對內(nèi)容頁面識別的準確率稍低,原因是一些內(nèi)容頁面中由于回帖數(shù)少導致相似的主題塊個數(shù)少(有些甚至沒有回帖)從而導致錯誤。對比結(jié)果顯示,本文方法在準確率和召回率上都要明顯優(yōu)于MDR,其原因就在于本文方法只考慮了對布局結(jié)構有影響的H TM L標簽,從而能夠有效濾除其他標簽的影響,相對于MDR基于字符串比較的方式,受到網(wǎng)頁內(nèi)部噪聲的影響小,因而準確率明顯高于MDR,更適合用于對論壇網(wǎng)頁的數(shù)據(jù)抽取。

    表3顯示在主題信息塊中對元數(shù)據(jù)的抽取能達到較高準確率。這是由于時間、數(shù)量特征明顯,很容易區(qū)分,而通過統(tǒng)計平均使得內(nèi)容、標題、作者的準確率也能令人滿意。表4說明了方法的總體性能良好,在沒有人工干預的情況下可以達到實用要求。但是由于各站點對數(shù)據(jù)的組織形式不盡相同,而且一些站點使用腳本程序來實時動態(tài)的顯示數(shù)據(jù),這使得我們雖然能正確找到主題信息塊,但對某些元數(shù)據(jù)的抽取效果不盡如人意。

    分類實驗進一步證明了本方法并不局限于對某一領域、某一時間段、某種特定語言的論壇數(shù)據(jù)抽取。由于其利用的是論壇網(wǎng)頁普遍具有的布局結(jié)構特點,因而對于各種論壇站點均能表現(xiàn)出良好的適應性。

    5 結(jié)束語

    本文明確了論壇數(shù)據(jù)抽取的任務(抽取什么數(shù)據(jù))并利用論壇網(wǎng)頁結(jié)構布局結(jié)構上的特點,提出了一種全自動的數(shù)據(jù)抽取方法,該方法通過兩級處理有效的濾除了網(wǎng)頁噪聲的影響,達到了令人滿意的抽取結(jié)果。實驗表明該方法具有較強的實用性,能適用于不同的論壇站點。但是,在一些方面仍然需要改進:由于很多網(wǎng)頁大量使用客戶端腳本程序來顯示數(shù)據(jù),使得僅僅對網(wǎng)頁進行分析是不夠的,還需要增加腳本執(zhí)行功能以獲取最終的數(shù)據(jù);在確定主題信息塊時僅僅根據(jù)數(shù)量的多少可能會導致錯誤,可考慮一些其他規(guī)則如主題信息塊中的文本長度等;此外,為了更進一步地提高抽取準確率,還需要對更大規(guī)模的論壇數(shù)據(jù)進行分析,總結(jié)出適用于論壇數(shù)據(jù)抽取的規(guī)律。

    [1] 薛瑋.網(wǎng)絡輿情信息挖掘系統(tǒng)的研究[D].北京:北京交通大學,2008.

    [2] 姚曉娜.BBS熱點話題挖掘與觀點分析[D].大連:大連海事大學,2008.

    [3] J.Zhang,M.S.Ackerman,and L.Adamic.Expertise netw orks in on line communities:structure and algorithm s[C]//Proc.16th WWW,Ban ff,Canada,May 2007.2007:221-230.

    [4] I.M uslea,S.M inton,C.Knoblock.A H ierarchical Approach to W rapper Induction[C]//Third International Conference on Autonomous Agents,(Agents'99),Seattle,May 1999.

    [5] S.Soderland.Learning Information Extraction Rules for Semistructured and Free Tex t[J].Machine Learning,1999.

    [6] Liu B.,G rossman R.,Zhai Y.M ining Data Records in W eb Pages[C]//KDD 2003:601-606.

    [7] Z.Yanhong and L.Bing,Web Data Extraction Based on Partial Tree A lignment[C]//Proceedings of the ACM,2005:76-85.

    [8] Liu,B.and Zhai,Y.,NET-A System for Extracting W eb Data from Flat and Nested Data Records[C]//W ISE 2005,2005:487-495.

    [9] Justin Park and Denilson Barbosa.Adaptive Record Extraction From Web Pages[C]//WWW 2007.

    [10] Gusfield,D.A lgorithms on strings,tree,and sequence[M].Cambridge.1997.

    [11] 韓先培,劉康,趙軍.基于布局特征與語言特征的網(wǎng)頁主要內(nèi)容塊發(fā)現(xiàn)[J].中文信息學報,2008,22(1):15-21.

    [12] 瞿有利,于浩,徐國偉,等.Web頁面信息塊的自動分割[J].中文信息學報,2003,18(1):6-13.

    [13] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[D].北京:北京大學計算機科學與技術系計算語言研究所,2003.

    猜你喜歡
    網(wǎng)頁頁面布局
    大狗熊在睡覺
    刷新生活的頁面
    基于CSS的網(wǎng)頁導航欄的設計
    電子制作(2018年10期)2018-08-04 03:24:38
    BP的可再生能源布局
    能源(2017年5期)2017-07-06 09:25:57
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    VR布局
    網(wǎng)頁制作在英語教學中的應用
    電子測試(2015年18期)2016-01-14 01:22:58
    2015 我們這樣布局在探索中尋找突破
    Face++:布局刷臉生態(tài)
    10個必知的網(wǎng)頁設計術語
    国产亚洲一区二区精品| 国产精品国产av在线观看| 久久这里有精品视频免费| 天堂俺去俺来也www色官网| 男女无遮挡免费网站观看| 色视频www国产| 麻豆成人午夜福利视频| 在线免费观看不下载黄p国产| 老司机亚洲免费影院| 在线免费观看不下载黄p国产| 国产精品女同一区二区软件| 精品亚洲成国产av| 男人狂女人下面高潮的视频| 国产精品一二三区在线看| 欧美精品亚洲一区二区| 免费看日本二区| 一级黄片播放器| 国产日韩欧美亚洲二区| 大香蕉久久网| 国产伦精品一区二区三区视频9| 国产黄片视频在线免费观看| 国产一级毛片在线| 国产精品一区二区三区四区免费观看| 亚洲怡红院男人天堂| 国产黄片视频在线免费观看| 麻豆精品久久久久久蜜桃| 亚洲三级黄色毛片| 日韩欧美 国产精品| 亚洲国产欧美在线一区| a 毛片基地| 国产色婷婷99| 天天躁夜夜躁狠狠久久av| 18禁裸乳无遮挡动漫免费视频| 99久久综合免费| 国产精品久久久久久久久免| 极品人妻少妇av视频| 乱人伦中国视频| 精品卡一卡二卡四卡免费| 2021少妇久久久久久久久久久| 夜夜骑夜夜射夜夜干| 亚洲国产欧美日韩在线播放 | 人妻 亚洲 视频| 国产毛片在线视频| 免费av不卡在线播放| h日本视频在线播放| 国产av精品麻豆| 成人亚洲欧美一区二区av| 午夜福利在线观看免费完整高清在| 亚洲国产精品专区欧美| 午夜老司机福利剧场| 99久久人妻综合| 欧美精品人与动牲交sv欧美| 七月丁香在线播放| 中文乱码字字幕精品一区二区三区| av在线老鸭窝| 天天操日日干夜夜撸| 国产男女内射视频| 成年人午夜在线观看视频| 极品少妇高潮喷水抽搐| 男女免费视频国产| 成人影院久久| 色视频www国产| 亚洲性久久影院| 日本与韩国留学比较| 噜噜噜噜噜久久久久久91| 少妇人妻精品综合一区二区| a级片在线免费高清观看视频| 久久免费观看电影| 人人澡人人妻人| 亚洲av综合色区一区| 亚洲国产精品999| 免费高清在线观看视频在线观看| av天堂久久9| 人妻系列 视频| 欧美人与善性xxx| 观看av在线不卡| 亚洲,一卡二卡三卡| 国产精品蜜桃在线观看| 免费av不卡在线播放| 亚洲av.av天堂| 美女福利国产在线| 男人爽女人下面视频在线观看| 久久久久国产精品人妻一区二区| 亚洲av成人精品一区久久| 精品久久久久久电影网| 在线观看三级黄色| 91在线精品国自产拍蜜月| 最近手机中文字幕大全| 2021少妇久久久久久久久久久| 免费观看的影片在线观看| 在现免费观看毛片| 丰满饥渴人妻一区二区三| 中国美白少妇内射xxxbb| 自拍偷自拍亚洲精品老妇| 久久人人爽av亚洲精品天堂| 国产乱人偷精品视频| 国产熟女欧美一区二区| 久久久久久久久大av| 国产精品久久久久久av不卡| tube8黄色片| 日本免费在线观看一区| 精品久久久久久久久av| 国产视频内射| 性高湖久久久久久久久免费观看| 国产精品国产三级国产av玫瑰| 久久韩国三级中文字幕| av在线app专区| 夫妻性生交免费视频一级片| 亚洲内射少妇av| 97精品久久久久久久久久精品| 97超碰精品成人国产| av播播在线观看一区| 中文字幕av电影在线播放| 青春草国产在线视频| 色视频www国产| 亚洲综合色惰| 各种免费的搞黄视频| 一级片'在线观看视频| 久久人人爽av亚洲精品天堂| 美女cb高潮喷水在线观看| 国产一级毛片在线| 国产探花极品一区二区| 日本黄大片高清| 熟女av电影| 欧美成人精品欧美一级黄| 精品久久久久久电影网| 日本猛色少妇xxxxx猛交久久| 久久国产亚洲av麻豆专区| 中文字幕制服av| 国产高清不卡午夜福利| 久久久精品94久久精品| 妹子高潮喷水视频| 你懂的网址亚洲精品在线观看| 大片电影免费在线观看免费| 亚洲欧美日韩另类电影网站| 国产精品99久久久久久久久| 国产一区二区在线观看av| av不卡在线播放| 赤兔流量卡办理| 欧美精品一区二区免费开放| 最近手机中文字幕大全| 午夜免费男女啪啪视频观看| 亚洲国产av新网站| 久久久久国产精品人妻一区二区| 国产精品.久久久| 中国三级夫妇交换| 午夜激情福利司机影院| 少妇高潮的动态图| 97在线视频观看| 日本黄色片子视频| .国产精品久久| 黑人高潮一二区| 最近的中文字幕免费完整| 亚洲,欧美,日韩| 搡女人真爽免费视频火全软件| 亚洲欧美清纯卡通| 不卡视频在线观看欧美| 最近最新中文字幕免费大全7| 久久久久精品性色| 成人亚洲精品一区在线观看| 国产精品欧美亚洲77777| 能在线免费看毛片的网站| 丝袜脚勾引网站| 精品一品国产午夜福利视频| 国产色婷婷99| 日韩欧美 国产精品| √禁漫天堂资源中文www| 男人爽女人下面视频在线观看| 久久国产精品男人的天堂亚洲 | 久久国产亚洲av麻豆专区| 亚洲国产精品国产精品| 少妇被粗大的猛进出69影院 | 亚洲在久久综合| 高清午夜精品一区二区三区| 18禁裸乳无遮挡动漫免费视频| 插阴视频在线观看视频| 老女人水多毛片| .国产精品久久| 日韩制服骚丝袜av| 婷婷色综合www| 久久精品国产鲁丝片午夜精品| 日韩,欧美,国产一区二区三区| 亚洲精品视频女| 国产精品三级大全| a 毛片基地| 少妇的逼水好多| 午夜福利网站1000一区二区三区| 777米奇影视久久| 亚洲欧美清纯卡通| 亚洲av成人精品一区久久| 久久久久久久久久久免费av| 2022亚洲国产成人精品| 大片电影免费在线观看免费| 最近手机中文字幕大全| 久久久久久久大尺度免费视频| 熟妇人妻不卡中文字幕| 99re6热这里在线精品视频| 最新的欧美精品一区二区| 精品一区在线观看国产| 欧美xxxx性猛交bbbb| 少妇精品久久久久久久| 人人妻人人爽人人添夜夜欢视频 | 极品人妻少妇av视频| 嫩草影院新地址| 久久久久久久久久成人| 成人国产麻豆网| 国精品久久久久久国模美| 精品99又大又爽又粗少妇毛片| av视频免费观看在线观看| 国产黄色免费在线视频| 精品一区在线观看国产| 最近2019中文字幕mv第一页| 欧美一级a爱片免费观看看| 国产在线免费精品| 街头女战士在线观看网站| 国产高清有码在线观看视频| 色视频www国产| 黄色日韩在线| 久久久久精品久久久久真实原创| 精品一区在线观看国产| 韩国高清视频一区二区三区| 中文资源天堂在线| 欧美亚洲 丝袜 人妻 在线| 我要看日韩黄色一级片| 亚洲va在线va天堂va国产| 能在线免费看毛片的网站| 亚洲精品成人av观看孕妇| 国产欧美日韩精品一区二区| 永久网站在线| 又粗又硬又长又爽又黄的视频| 美女福利国产在线| 99久久人妻综合| 国产成人午夜福利电影在线观看| 一区二区三区精品91| 亚洲伊人久久精品综合| 日本av手机在线免费观看| 日韩亚洲欧美综合| 极品教师在线视频| 精品人妻一区二区三区麻豆| 久久久久国产网址| 日韩中字成人| av卡一久久| 天堂俺去俺来也www色官网| 97超碰精品成人国产| 亚洲av国产av综合av卡| 国产精品国产三级国产av玫瑰| 国产中年淑女户外野战色| 街头女战士在线观看网站| 9色porny在线观看| 国产精品伦人一区二区| 97超碰精品成人国产| 亚洲精品自拍成人| 国产亚洲91精品色在线| 97精品久久久久久久久久精品| 久久久久国产网址| 又粗又硬又长又爽又黄的视频| 亚洲精品日本国产第一区| av专区在线播放| 日韩av在线免费看完整版不卡| 亚洲精品乱久久久久久| 亚洲精品久久午夜乱码| 亚洲图色成人| 国产av码专区亚洲av| 国产欧美日韩综合在线一区二区 | 精品一区二区三区视频在线| 日本欧美视频一区| 三级国产精品欧美在线观看| 成人特级av手机在线观看| 亚洲精品成人av观看孕妇| 高清视频免费观看一区二区| 国产一区二区三区av在线| 亚洲欧洲日产国产| 国产片特级美女逼逼视频| 国产亚洲av片在线观看秒播厂| 欧美区成人在线视频| 色吧在线观看| 99九九在线精品视频 | 深夜a级毛片| 精品卡一卡二卡四卡免费| 日日啪夜夜爽| 你懂的网址亚洲精品在线观看| 又大又黄又爽视频免费| 91久久精品国产一区二区成人| 日本黄色片子视频| 成人亚洲欧美一区二区av| 五月天丁香电影| 国产午夜精品一二区理论片| 亚洲精品自拍成人| 国精品久久久久久国模美| 一级a做视频免费观看| 国产黄片视频在线免费观看| 国产69精品久久久久777片| 男女免费视频国产| 高清欧美精品videossex| 日本黄色日本黄色录像| 久久久精品94久久精品| 日韩精品免费视频一区二区三区 | 熟女av电影| 亚洲av男天堂| 久久精品国产a三级三级三级| freevideosex欧美| 国产美女午夜福利| 男女啪啪激烈高潮av片| 国产精品久久久久久精品电影小说| 全区人妻精品视频| 一本久久精品| 日韩熟女老妇一区二区性免费视频| 91老司机精品| 人妻一区二区av| 一级毛片电影观看| 精品一品国产午夜福利视频| 亚洲avbb在线观看| 国产又爽黄色视频| 国产男人的电影天堂91| 国产野战对白在线观看| 免费不卡黄色视频| 国产亚洲av片在线观看秒播厂| 人人妻人人澡人人看| 国产一级毛片在线| 纵有疾风起免费观看全集完整版| 久久综合国产亚洲精品| 99国产极品粉嫩在线观看| 90打野战视频偷拍视频| 极品人妻少妇av视频| 女人爽到高潮嗷嗷叫在线视频| 搡老岳熟女国产| 18在线观看网站| 久久 成人 亚洲| av欧美777| 操出白浆在线播放| 啦啦啦视频在线资源免费观看| 无遮挡黄片免费观看| 亚洲七黄色美女视频| 法律面前人人平等表现在哪些方面 | 9色porny在线观看| 久久狼人影院| 日本91视频免费播放| 日韩视频一区二区在线观看| 国产精品秋霞免费鲁丝片| 一二三四在线观看免费中文在| 老汉色av国产亚洲站长工具| 亚洲国产av影院在线观看| 高清欧美精品videossex| 在线永久观看黄色视频| 亚洲精品久久久久久婷婷小说| 亚洲色图综合在线观看| 男人添女人高潮全过程视频| 美女主播在线视频| 久久精品亚洲熟妇少妇任你| 国产精品久久久av美女十八| 久久久久国内视频| 欧美人与性动交α欧美软件| 精品乱码久久久久久99久播| 香蕉国产在线看| 老司机深夜福利视频在线观看 | 国产成人影院久久av| 91精品国产国语对白视频| 涩涩av久久男人的天堂| 亚洲黑人精品在线| 国产高清videossex| 欧美日韩亚洲高清精品| 美女大奶头黄色视频| 黄片播放在线免费| 中文字幕制服av| 99国产精品一区二区蜜桃av | 久久精品熟女亚洲av麻豆精品| 在线观看免费日韩欧美大片| 欧美激情高清一区二区三区| 久久国产精品人妻蜜桃| 丁香六月天网| 美女主播在线视频| 黄网站色视频无遮挡免费观看| 中文字幕人妻丝袜制服| www.精华液| 黄片播放在线免费| 国产深夜福利视频在线观看| 视频区欧美日本亚洲| 2018国产大陆天天弄谢| 亚洲av成人不卡在线观看播放网 | 欧美国产精品va在线观看不卡| 久久精品熟女亚洲av麻豆精品| 最近中文字幕2019免费版| 欧美精品av麻豆av| 好男人电影高清在线观看| 亚洲一区二区三区欧美精品| 国产成人免费无遮挡视频| 午夜福利视频在线观看免费| 日韩一卡2卡3卡4卡2021年| 五月开心婷婷网| 国产激情久久老熟女| 悠悠久久av| 大型av网站在线播放| 精品第一国产精品| 午夜免费成人在线视频| 中国美女看黄片| 中文字幕精品免费在线观看视频| 一本一本久久a久久精品综合妖精| 丰满人妻熟妇乱又伦精品不卡| 涩涩av久久男人的天堂| 欧美亚洲 丝袜 人妻 在线| 美女福利国产在线| 国产精品影院久久| 香蕉国产在线看| 午夜福利影视在线免费观看| 啦啦啦 在线观看视频| 9色porny在线观看| 亚洲国产看品久久| 最黄视频免费看| 黑人巨大精品欧美一区二区mp4| 久久久国产精品麻豆| 大码成人一级视频| 日韩制服丝袜自拍偷拍| 如日韩欧美国产精品一区二区三区| 精品久久久精品久久久| 黄片小视频在线播放| 亚洲国产av影院在线观看| 国产精品99久久99久久久不卡| 国产亚洲欧美在线一区二区| 国产在视频线精品| 亚洲精华国产精华精| 欧美成人午夜精品| 波多野结衣一区麻豆| 国产高清视频在线播放一区 | 每晚都被弄得嗷嗷叫到高潮| 另类精品久久| 久久这里只有精品19| av线在线观看网站| 中文精品一卡2卡3卡4更新| 波多野结衣av一区二区av| 亚洲av男天堂| 国产主播在线观看一区二区| 亚洲精品国产色婷婷电影| 国产91精品成人一区二区三区 | 国产亚洲av高清不卡| 国产av又大| 纯流量卡能插随身wifi吗| 一区二区av电影网| 亚洲少妇的诱惑av| 老司机午夜福利在线观看视频 | 国产91精品成人一区二区三区 | 成年人午夜在线观看视频| 欧美精品一区二区大全| 一级a爱视频在线免费观看| 免费高清在线观看视频在线观看| 国产成人欧美| 免费不卡黄色视频| 欧美在线黄色| 丰满迷人的少妇在线观看| 欧美激情极品国产一区二区三区| 大片免费播放器 马上看| 男女之事视频高清在线观看| e午夜精品久久久久久久| www.熟女人妻精品国产| 捣出白浆h1v1| 国产免费一区二区三区四区乱码| 国产免费福利视频在线观看| 亚洲欧美激情在线| 精品熟女少妇八av免费久了| 欧美av亚洲av综合av国产av| 搡老乐熟女国产| 捣出白浆h1v1| 中文字幕精品免费在线观看视频| 久久久久国内视频| 成年av动漫网址| 可以免费在线观看a视频的电影网站| 一区二区日韩欧美中文字幕| 淫妇啪啪啪对白视频 | 欧美中文综合在线视频| 日本黄色日本黄色录像| 欧美人与性动交α欧美软件| 国产成人影院久久av| 18禁观看日本| 各种免费的搞黄视频| 80岁老熟妇乱子伦牲交| 久久99热这里只频精品6学生| 老司机影院毛片| 亚洲国产精品成人久久小说| 香蕉国产在线看| 97在线人人人人妻| 精品一区在线观看国产| 国产三级黄色录像| 老司机影院成人| 欧美日韩成人在线一区二区| 乱人伦中国视频| www.精华液| 国产一区二区三区综合在线观看| 免费在线观看视频国产中文字幕亚洲 | 窝窝影院91人妻| 黄频高清免费视频| 黄网站色视频无遮挡免费观看| 国产成人一区二区三区免费视频网站| av欧美777| 脱女人内裤的视频| 亚洲av日韩在线播放| 久久久精品区二区三区| 国产区一区二久久| 久久中文看片网| 亚洲国产欧美网| 电影成人av| 老熟妇仑乱视频hdxx| 久久久久国产一级毛片高清牌| 黄片小视频在线播放| netflix在线观看网站| av超薄肉色丝袜交足视频| 国产高清视频在线播放一区 | 人妻一区二区av| 欧美日韩国产mv在线观看视频| 色精品久久人妻99蜜桃| 韩国精品一区二区三区| 黑人猛操日本美女一级片| av有码第一页| 国产精品一区二区精品视频观看| 一进一出抽搐动态| 一级黄色大片毛片| 99精国产麻豆久久婷婷| 一级黄色大片毛片| 极品人妻少妇av视频| 在线观看免费视频网站a站| 50天的宝宝边吃奶边哭怎么回事| 国产伦人伦偷精品视频| 亚洲精品在线美女| 各种免费的搞黄视频| 人妻一区二区av| 夜夜骑夜夜射夜夜干| 嫁个100分男人电影在线观看| 国产深夜福利视频在线观看| 高清在线国产一区| 亚洲人成77777在线视频| 精品福利观看| 国产极品粉嫩免费观看在线| 久热这里只有精品99| 午夜福利视频精品| 亚洲精品自拍成人| 精品人妻1区二区| 国产精品一区二区在线不卡| 亚洲精品美女久久av网站| 精品国内亚洲2022精品成人 | 美女国产高潮福利片在线看| av超薄肉色丝袜交足视频| 亚洲 国产 在线| 欧美少妇被猛烈插入视频| 久久久国产精品麻豆| 亚洲专区国产一区二区| 少妇人妻久久综合中文| 考比视频在线观看| 在线观看舔阴道视频| 亚洲av国产av综合av卡| 99久久人妻综合| www.熟女人妻精品国产| 国产精品av久久久久免费| 国产亚洲av高清不卡| 桃花免费在线播放| 男女床上黄色一级片免费看| 国产精品久久久久成人av| 成年人黄色毛片网站| 巨乳人妻的诱惑在线观看| 亚洲 欧美一区二区三区| 国产精品久久久久久人妻精品电影 | 欧美+亚洲+日韩+国产| 亚洲国产中文字幕在线视频| 国产免费现黄频在线看| 国产日韩欧美视频二区| 少妇的丰满在线观看| 亚洲精品美女久久av网站| 老司机在亚洲福利影院| 99久久国产精品久久久| av视频免费观看在线观看| 咕卡用的链子| 亚洲色图 男人天堂 中文字幕| 丁香六月天网| 亚洲欧美日韩高清在线视频 | 国产精品亚洲av一区麻豆| 十八禁网站免费在线| 丝袜脚勾引网站| 国产一区二区在线观看av| 久久中文看片网| av不卡在线播放| 操出白浆在线播放| 亚洲视频免费观看视频| 老司机深夜福利视频在线观看 | 国产精品影院久久| 国产成人啪精品午夜网站| 黄色视频不卡| 欧美日韩av久久| 免费观看a级毛片全部| 国产日韩欧美亚洲二区| 日本vs欧美在线观看视频| 午夜久久久在线观看| 免费在线观看完整版高清| 日日夜夜操网爽| 国产男女超爽视频在线观看| 免费日韩欧美在线观看| 国产真人三级小视频在线观看| 免费在线观看黄色视频的| 在线观看人妻少妇| 精品一区在线观看国产| 国产一区二区三区综合在线观看| 99久久综合免费| 人成视频在线观看免费观看| 激情视频va一区二区三区| 免费不卡黄色视频| 一区福利在线观看| av在线播放精品| 天堂中文最新版在线下载| 亚洲中文字幕日韩| 久久精品久久久久久噜噜老黄| 国产在线观看jvid| 青春草亚洲视频在线观看| 最近中文字幕2019免费版| 国产精品久久久久久精品电影小说| 如日韩欧美国产精品一区二区三区| 人人妻,人人澡人人爽秒播| 老司机午夜十八禁免费视频| 精品一区二区三卡| 久久国产精品人妻蜜桃|