王允,李弼程,林琛
(信息工程大學信息工程學院,河南鄭州450002)
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,Web論壇也由最初的電子布告欄(Bu lletin Board System)系統(tǒng)日益成長壯大。目前,我國擁有近140萬個Web論壇,2008年底中國網(wǎng)絡信息中心(CNNIC)的統(tǒng)計報告指出,論壇的使用人數(shù)達到了9 100萬,占網(wǎng)民總數(shù)的30%以上。每天都有成千上萬的人在不同的Web論壇探討問題,交流觀點,日積月累使Web論壇成為一個巨大的信息資源庫。作為互聯(lián)網(wǎng)的重要組成部分,對Web論壇的信息處理也逐漸被人們重視。針對Web論壇的應用日趨多樣,如Google、Baidu等搜索引擎都提供了對論壇信息的檢索;Web論壇在網(wǎng)絡輿情傳播中的重要作用近年來受到了廣泛的關注[1-2];此外還有網(wǎng)絡社區(qū)挖掘[3]等。
面對內(nèi)容、形式多樣的Web論壇,如何有效地抽取其中的數(shù)據(jù)是各種Web論壇應用的前提。Web論壇數(shù)據(jù)抽取必須解決以下兩個問題:(1)抽取什么數(shù)據(jù);(2)如何抽取。話題是一個Web論壇的基本組成部分,話題隸屬于不同的版塊,由主帖和若干跟帖組成。我們采用元數(shù)據(jù)來描述話題,話題的元數(shù)據(jù)有話題所屬站點、所屬版塊、作者、標題、發(fā)表時間、帖子內(nèi)容及各回帖的作者、回復時間、內(nèi)容等。本文只討論可以從論壇網(wǎng)頁中直接抽取出的話題元數(shù)據(jù)如作者、標題、時間、內(nèi)容等信息。利用元數(shù)據(jù)表示話題可以幫助我們更好的利用數(shù)據(jù)庫來存儲論壇數(shù)據(jù),從而為后續(xù)的應用提供便利。
對于第二個問題,為了適應眾多不同風格類型的網(wǎng)絡論壇站點,我們旨在找到一種通用性強、自動化程度和抽取精度都比較高的方法。通過對Web論壇頁面的生成機制、視覺效果、H TM L語法結(jié)構的分析,發(fā)現(xiàn)了論壇類網(wǎng)頁所具有的普遍特征,總結(jié)出兩點重要結(jié)論,并在此基礎上提出了一種基于頁面布局相似度的Web論壇數(shù)據(jù)抽取方法。本文以下部分將詳細介紹該方法的相關內(nèi)容。
Web論壇數(shù)據(jù)抽取屬于Web信息抽取中針對網(wǎng)頁中某種屬性的抽取,比如從新聞報道中抽取標題、正文內(nèi)容、作者、發(fā)表時間等。目前Web信息抽取的方法多是基于規(guī)則,一般都是針對某一網(wǎng)站制定規(guī)則并以此構造分裝器(W rapper)實現(xiàn)自動抽取。典型的系統(tǒng)有 STALKER[4]、WH ISK[5]等。W rapper是一種軟件構件,它主要通過兩種途徑來構建,一是知識工程的途徑,即通過領域?qū)<襾碇贫ǔ槿∫?guī)則,這需要耗費大量的人力,成本很高;另外一種是采用機器學習的途徑自動構建W rapper,根據(jù)標注樣本,機器學習算法通過自動學習來建立抽取模型,這種方式仍然需要手工標注樣本。總之,利用分裝器的信息抽取技術都要在一定程度上依靠人工輔助,自動化程度比較低,其系統(tǒng)的適用性較差,目前只在比價購物方面的商業(yè)應用中比較成功。由于論壇網(wǎng)頁形式多樣且不斷更新,因此,W rapper的維護成本較高,不適合大規(guī)模應用。
無監(jiān)督的Web信息抽取主要針對含有多個數(shù)據(jù)記錄的網(wǎng)頁,比如產(chǎn)品列表頁面,通過發(fā)現(xiàn)網(wǎng)頁中的重復模式來確定數(shù)據(jù)區(qū)域,比較有代表性的算法有 MDR[6]、DEPTA[7]、NET[8]等。 此外,文獻[9]提出了一種自適應的方法以適應更多類型的網(wǎng)頁。由于論壇網(wǎng)頁具有嚴格緊湊的結(jié)構,因此上述方法也可用于論壇網(wǎng)頁。但是,這些方法都是基于編輯距離(Edit Distance)[10]的字符串比較來發(fā)現(xiàn)重復模式。即將信息包含的HTM L標簽順序連接成字符串,通過比較發(fā)現(xiàn)相似的字符串來確定待抽取的數(shù)據(jù)區(qū)域。但是網(wǎng)頁結(jié)構復雜多變且存在很多局部噪聲,僅僅通過字符串的比較將導致比較低的抽取準確率。文獻[11]利用視覺特征和語言特征將網(wǎng)頁劃分成不同的內(nèi)容塊,再進一步確定主要內(nèi)容塊,文獻[12]也是對網(wǎng)頁進行塊狀分割,雖然其性能還有待提高,但是這種對網(wǎng)頁進行分塊處理的思想還是值得我們借鑒的。本文的方法從網(wǎng)頁的布局角度出發(fā),利用影響網(wǎng)頁的布局結(jié)構的HTM L標簽,通過查找網(wǎng)頁內(nèi)部相似的布局結(jié)構來確定數(shù)據(jù)區(qū)域,能夠有效提高抽取的準確率。
待抽取的話題元數(shù)據(jù)包含在兩種類型的網(wǎng)頁中,一種是帖子的主題頁面,用來列出帖子的標題并提供指向帖子內(nèi)容頁面的鏈接,圖1是一個典型的例子。另外一種是帖子的內(nèi)容頁面,包含了主帖、回帖的內(nèi)容,如圖2所示。二者所含內(nèi)容雖然不同,但通過分析可以發(fā)現(xiàn)它們具有相同的結(jié)構特點,因此可以采用同樣的方式處理。
Web論壇系統(tǒng)一般都在服務端使用CGI模塊來動態(tài)生成同一功能類型的 HTM L頁面,這些動態(tài)生成的頁面往往采用相同的模板,在單個網(wǎng)頁內(nèi)或網(wǎng)頁之間,相同類型的信息內(nèi)容具有相似的視覺效果。因此,整個頁面往往都很規(guī)整,結(jié)構上很緊湊。如圖1、圖2中矩形框之間結(jié)構布局都是相似的,可以看出它們都包含了標題、作者、時間、內(nèi)容等,并且這些內(nèi)容在塊中的位置都是固定的。從網(wǎng)頁的DOM樹結(jié)構同樣可以看出這一點,如圖3所示,圖1中的矩形區(qū)域?qū)赥able節(jié)點下的每個TR節(jié)點,從圖中兩個展開的TR節(jié)點可以看到其對應位置的節(jié)點是相同的,而且其余的TR節(jié)點也有同樣的結(jié)構。這些特征都明顯區(qū)別于網(wǎng)頁中的其他部分,可以幫助我們區(qū)分導航條、廣告區(qū)、相關信息等網(wǎng)頁的其他區(qū)域,從而有效的濾除噪聲。
綜合以上分析,我們總結(jié)得到以下關于Web論壇網(wǎng)頁的重要結(jié)論:
(1)從視覺效果上看,主題頁面和內(nèi)容頁面通常含有大量(通常都有數(shù)十個)布局結(jié)構相似的內(nèi)容塊。圖1中這樣的塊有71個,這明顯區(qū)別于頁面的其他部分。我們把這些包含了論壇話題元數(shù)據(jù)的區(qū)域稱為論壇網(wǎng)頁的主題信息塊,如圖1和圖2中的矩形區(qū)域。
圖1 主題頁面
圖2 內(nèi)容頁面
圖3 頁面的DOM樹結(jié)構
(2)從HTM L語法結(jié)構上看,表示這些相似內(nèi)容塊的節(jié)點通常都是Table、Div、UL,Form等的子孫節(jié)點,并且都位于DOM樹的同一個層次。如圖2中相似的TR節(jié)點都是同一個Table的子節(jié)點。
基于上述特點,本文采用分級處理的方式抽取論壇話題的元數(shù)據(jù),主要包括兩個步驟:
(1)網(wǎng)頁級處理,濾除整體噪聲,識別出各個主題信息塊;
(2)區(qū)域級處理,濾除局部噪聲,從主題塊中提取出元數(shù)據(jù)。
其優(yōu)點是將抽取范圍縮小到一個小的區(qū)域(主題信息塊),經(jīng)過兩層過濾提高了精度。下面介紹具體實現(xiàn)過程。
3.2.1 主題信息塊識別
人們觀察網(wǎng)頁時總是能快速準確的定位自己感興趣的部分,這在很大程度上得益于網(wǎng)頁的塊狀布局結(jié)構。整個網(wǎng)頁被劃分成各個不同語義內(nèi)容的區(qū)域且一般都有固定的位置,比如導航區(qū)通常位于頁面頂端,廣告一般在兩側(cè),而版權信息和相關鏈接一般在網(wǎng)頁底部。這種布局的實現(xiàn)是由HTM L語言的塊狀標簽節(jié)點來控制的,如 Table、Div、Form等,這些節(jié)點將網(wǎng)頁分割成各個相對獨立的區(qū)域。因此,在將網(wǎng)頁解析成DOM樹時只保留塊狀節(jié)點以提高運算的效率。
由前面分析可知,主題信息塊的識別就是要找到網(wǎng)頁中那些含有大量相似結(jié)構的區(qū)域,對應于DOM樹,就是找到那些含有大量(和預先設定的值相比)相似子節(jié)點的節(jié)點。對每一個DOM樹節(jié)點,可以通過計算其子節(jié)點兩兩之間的相似度判斷是否相似,算法的偽代碼如下所示:
由于主題信息塊的個數(shù)通常是最多的,因此可以簡單的判定NodeSet中含有最多孩子節(jié)點的節(jié)點即為我們要找的節(jié)點。實際使用中K可取較大的值(主題信息塊的數(shù)量通常都較大)。
上述算法中的關鍵是判斷兩個節(jié)點是否相似。通常我們觀察兩個物體是否相似時總是習慣先從整體上把握,比如大小、形狀是否相同,再分析其內(nèi)部的特征,比如質(zhì)地、棱角等。同樣觀察網(wǎng)頁也是如此,是一個從宏觀到微觀的過程,我們往往先看整體上的結(jié)構布局,再逐步深入內(nèi)部細節(jié)。因此,我們定義節(jié)點的結(jié)構相似度SoL(Sim ilarity of Layout)來度量兩個節(jié)點在布局結(jié)構上的相似程度。SoL是0到1之間的值,越接近1表示兩個節(jié)點的布局結(jié)構越相似。設有兩個節(jié)點 x,y,則它們的 SoL定義為:
其中N表示比較的深度,即只比較到第N層節(jié)點;Mi表示第i層子節(jié)點的個數(shù);ωi為第i層子節(jié)點對整體結(jié)構布局的貢獻系數(shù),一般認為越深層次的節(jié)點對宏觀布局的影響越小,因此它們對應的ωi值就越小,其反映的更多的是節(jié)點間細節(jié)上的差異,顯然 ωi應該滿足表示進行比較的兩個節(jié)點的第i層第j個節(jié)點是否為同種類型的塊狀節(jié)點,其值取0或1。首先判斷兩個節(jié)點是否為使用了同樣的H TM L標簽,比如是否同為TR或TD標簽,若不同,則Sij為0;若相同,則繼續(xù)比較兩節(jié)點屬性是否相同,如width,sty le,align等能反映節(jié)點布局結(jié)構的屬性,若這些屬性值也相同,則Sij為1。
實驗表明,在 N取3,ωi分別取0.6,0.3,0.1時,若SoL值大于0.9則可認為兩個節(jié)點相似,此時可以達到較好的識別效果。如果要求的精度更高,則可以適當?shù)脑龃?N的值,同時調(diào)整 ωi的取值,此時相應的SoL值也要更大才能判斷節(jié)點是否相似。實際上主題信息塊之間確實存在一些局部細節(jié)上的不同,但這并不影響它們之間的整體相似性。
3.2.2 元數(shù)據(jù)提取
元數(shù)據(jù)在主題信息塊中的位置是相對固定的而且數(shù)據(jù)本身各有特點,如查看回復數(shù)為阿拉伯數(shù)字;時間一般有固定的格式;正文通常含有較多文本且其中很少出現(xiàn)超鏈接;標題鏈接的錨文本長度一般要大于其他鏈接的錨文本長度;作者一般都表現(xiàn)為鏈接的形式用于指向其主頁并且有時會出現(xiàn)“作者”、“Name”等前綴。這些信息都有助于我們正確提取數(shù)據(jù),但有些情況不能忽視,比如有些回帖的內(nèi)容很短,甚至只有一個字;正文中出現(xiàn)的數(shù)字,時間;表示作者的鏈接錨文本可能長于標題的鏈接錨文本;另外主題信息塊中仍有少量噪聲,比如一些廣告鏈接和功能性鏈接等,這些情況都將嚴重影響抽取的準確性。
由于主題信息塊之間是相似的,相同的內(nèi)容都有相同的表現(xiàn)形式,會表現(xiàn)出一定的統(tǒng)計規(guī)律性,比如若某一位置所有的主題信息塊中都出現(xiàn)時間則可認為是時間,從而區(qū)別于個別正文中出現(xiàn)的時間。因此,我們考慮所有的主題信息塊。
將主題信息塊表示成具有明顯語義信息的節(jié)點的集合,比如文本節(jié)點、超鏈接、圖片等,其他節(jié)點不予考慮。其中第i個主題信息塊Bi表示為如下形式:
采用深度優(yōu)先的方式遍歷主題信息塊中的所有節(jié)點,按照下面的步驟得到Bi:
(1)獲取下一個要處理的節(jié)點。若為空,結(jié)束。否則轉(zhuǎn)至(2)。
(2)若當前節(jié)點的子節(jié)點只含有文本節(jié)點或鏈接節(jié)點,則將其添加到Bi中,轉(zhuǎn)至(1)。
由上述方法將所有主題信息塊表示成語義節(jié)點的集合。先對Bi中的節(jié)點進一步過濾,若所有的Bi中節(jié)點ni都相同,則認為ni是噪聲節(jié)點,再應用以下規(guī)則從Bi中抽取代表元數(shù)據(jù)的節(jié)點:
R1:對所有Bi中對應文本節(jié)點求出其長度的平均值,最大者為正文。
R2:對所有Bi中對應鏈接節(jié)點求出其錨文本長度的平均值,最大者為標題。
R3:所有Bi中對應某節(jié)點其文本中均含有數(shù)字則為查看回復數(shù)。
R4:所有Bi中對應某節(jié)點其文本中均含有一定格式的時間字符串則為時間。通過大量調(diào)查我們搜集了數(shù)十種Web論壇中經(jīng)常使用的時間表達形式。
R5:若所有Bi中對應某節(jié)點其文本中均出現(xiàn)“作者”、“Name”等字樣則為作者,否則B i中鏈接節(jié)點中位置靠前且錨文本長度較短的為作者節(jié)點。
為了驗證本方法對于各種Web論壇系統(tǒng)的自動抽取性能,我們選取了100個論壇站點作為數(shù)據(jù)來源,這100個站點包含了目前比較有代表性的中文論壇,同時還有一部分英文論壇。論壇的類型多種多樣,有綜合性的門戶網(wǎng)站的論壇如新浪、搜狐、網(wǎng)易等,也有專業(yè)性較強的如法制論壇、CSDN社區(qū)等,還包括一些地方性論壇如北方論壇、福州論壇等。每個論壇均選取若干版塊,內(nèi)容涉及政治、經(jīng)濟、軍事、體育、娛樂等不同領域,利用網(wǎng)絡蜘蛛程序共抓取網(wǎng)頁21 088篇,其中主題頁面8 136篇,內(nèi)容頁面12 952篇。選取部分頁面作為實驗數(shù)據(jù)用于方法中參數(shù)的確定,其余頁面作為測試集來驗證方法的性能,數(shù)據(jù)組成如表1所示。實驗內(nèi)容主要包括參數(shù)選取、測試集上的抽取性能以及分類實驗。
表1 實驗數(shù)據(jù)和測試數(shù)據(jù)
方法中主要用到的參數(shù)有布局相似度閾值,計算布局相似度時需要比較的層數(shù)以及每一層對整體布局的貢獻系數(shù)。其中,比較層數(shù)N的選取最為重要,因為它影響到其他參數(shù)的選擇,主要須考慮以下因素:層數(shù)偏少,即比較的過于粗略則可能得到很多相似的節(jié)點,影響最后抽取的準確度;層數(shù)偏多,即比較的過于細致則可能得不到正確的結(jié)果并且所消耗的時間會更多。因此,需要綜合考慮使得抽取的準確率和召回率都比較高,同時運算處理速度又快。貢獻系數(shù)的選取要依據(jù)以下原則:外層的貢獻系數(shù)要大于內(nèi)層,即要滿足以下條件:
在實驗中,我們選擇N=1,2,3,4,5,6來分別計算處理每個網(wǎng)頁的平均時間和抽取的召回率和準確率,而貢獻系數(shù)的選取則根據(jù)式(2),可根據(jù)實際情況作具體調(diào)整,這里只給出 N=3時的一組參考值(0.6,0.3,0.1),此時布局相似度SoL為0.9時效果較好。具體實驗結(jié)果如圖4和圖5所示。圖4顯示處理時間隨著N的增大而不斷增大最終趨于平緩,這是因為大部分的網(wǎng)頁DOM樹層數(shù)都在一定范圍內(nèi),因此實際處理的層數(shù)不會隨N的增加而無限增加。由圖5可以明顯看到,N取太小或太大值時,準確率和召回率均不能達到令人滿意的效果,這與我們的分析是一致的。綜合考慮,N一般取2或3,此時可在處理速度和抽取精度上達到一個較為平衡的狀態(tài)。
圖4 N取不同值時的平均處理時間
圖5 N取不同值時的召回率和準確率
(一)總體實驗
在參數(shù)確定后,我們在更大的測試集上來驗證本方法的性能。按照本方法的流程,本部分實驗按照以下步驟進行:
(1)主題信息塊的識別準確率和召回率。主題信息塊的識別是本方法的關鍵,其性能直接影響到最終的抽取結(jié)果。我們將與目前比較流行的自動化抽取工具MDR[4]進行對比,采用準確率(REC)和召回率(PRE)[13]來衡量抽取性能。結(jié)果如表1所示。
其中ACE表示所有正確抽取的結(jié)果,AER表示所有抽取的結(jié)果,ACR表示所有正確的結(jié)果。
(2)元數(shù)據(jù)抽取準確率。在正確識別主題信息塊的基礎上,我們只關心元數(shù)據(jù)的抽取準確率。表2給出了實驗結(jié)果。
最后,將上述兩步的結(jié)果相乘可以得到最終的抽取準確率,它反映了本方法對Web論壇數(shù)據(jù)抽取的總體性能。結(jié)果如表3所示。
表2 主題信息塊識別結(jié)果對比
表3 元數(shù)據(jù)抽取準確率
表4 總體性能(準確率/%)
說明:表2,3中缺失項表示該項數(shù)據(jù)不在此類頁面中或未從此類頁面中抽取。(二)分類實驗
為了進一步驗證本方法的性能,我們對采集到的論壇網(wǎng)頁進行更進一步的分類、細化,分別按照語種(中文和英文)、所涉及領域、不同時間段來組織網(wǎng)頁進行實驗。
圖6是對中英文論壇的對比結(jié)果,從中可以看出,對英文論壇數(shù)據(jù)的抽取在召回率和準確率上都要高于中文論壇。通過對比網(wǎng)頁我們發(fā)現(xiàn),這主要是由于相對于一些中文論壇,很多英文站點的網(wǎng)頁設計都很簡潔,語法也相對更規(guī)范,同時廣告等噪聲信息較少,這在很大程度上有助于提高抽取的精度。
圖6 中英文論壇對比
考慮到有些網(wǎng)站可能會改版,因此我們對采集到的網(wǎng)頁按照不同的時間段來分類以檢驗本文方法的適應性。將網(wǎng)頁按照月份來分類,共分為4月~9月六類,結(jié)果如圖7所示??梢钥吹?在不同的時間段仍然能保持較高的召回率和準確率,但在6月份以后的結(jié)果卻有一定程度的下降。對比這兩部分的數(shù)據(jù)我們發(fā)現(xiàn)兩點不同:1)版面的調(diào)整,使用了不同的模板,顯示方式有所不同;2)部分網(wǎng)站改用腳本程序來動態(tài)顯示數(shù)據(jù),我們下載到的網(wǎng)頁與通過瀏覽器看到的效果不一樣,真實數(shù)據(jù)被隱藏。對于第一種情況,本方法表現(xiàn)出良好的適應性,前后變化不大,真正影響抽取結(jié)果的是第二種情況,本方法幾乎無法給出滿意的結(jié)果,這也是我們改進的方向,畢竟動態(tài)網(wǎng)站是一種趨勢,腳本技術更是被廣泛應用。
圖7 不同時間段召回率和準確率的變化圖
網(wǎng)絡論壇的表現(xiàn)形式多樣,所涉及的領域也不盡相同。我們對采集到的網(wǎng)頁按不同領域來分類,主要包括綜合類、軍事類、技術類、娛樂類,其余網(wǎng)頁數(shù)量較少的歸為其他類,實驗結(jié)果如圖8所示,不同領域的抽取結(jié)果在召回率和準確率上均相差不大,這也說明了本方法可適用于不同類型的論壇。
圖8 按不同領域分類的抽取性能
總體實驗表明,本方法在數(shù)據(jù)樣本量較大的時候依然能表現(xiàn)出良好的性能。從表2可以看出本方法對不同論壇站點的主題頁面和內(nèi)容頁面中主題信息塊的識別準確率和召回率都很高,這充分說明了論壇網(wǎng)頁所具有的布局結(jié)構特點能很好的幫助我們正確提取信息,也驗證了我們所得結(jié)論的正確性。其中對內(nèi)容頁面識別的準確率稍低,原因是一些內(nèi)容頁面中由于回帖數(shù)少導致相似的主題塊個數(shù)少(有些甚至沒有回帖)從而導致錯誤。對比結(jié)果顯示,本文方法在準確率和召回率上都要明顯優(yōu)于MDR,其原因就在于本文方法只考慮了對布局結(jié)構有影響的H TM L標簽,從而能夠有效濾除其他標簽的影響,相對于MDR基于字符串比較的方式,受到網(wǎng)頁內(nèi)部噪聲的影響小,因而準確率明顯高于MDR,更適合用于對論壇網(wǎng)頁的數(shù)據(jù)抽取。
表3顯示在主題信息塊中對元數(shù)據(jù)的抽取能達到較高準確率。這是由于時間、數(shù)量特征明顯,很容易區(qū)分,而通過統(tǒng)計平均使得內(nèi)容、標題、作者的準確率也能令人滿意。表4說明了方法的總體性能良好,在沒有人工干預的情況下可以達到實用要求。但是由于各站點對數(shù)據(jù)的組織形式不盡相同,而且一些站點使用腳本程序來實時動態(tài)的顯示數(shù)據(jù),這使得我們雖然能正確找到主題信息塊,但對某些元數(shù)據(jù)的抽取效果不盡如人意。
分類實驗進一步證明了本方法并不局限于對某一領域、某一時間段、某種特定語言的論壇數(shù)據(jù)抽取。由于其利用的是論壇網(wǎng)頁普遍具有的布局結(jié)構特點,因而對于各種論壇站點均能表現(xiàn)出良好的適應性。
本文明確了論壇數(shù)據(jù)抽取的任務(抽取什么數(shù)據(jù))并利用論壇網(wǎng)頁結(jié)構布局結(jié)構上的特點,提出了一種全自動的數(shù)據(jù)抽取方法,該方法通過兩級處理有效的濾除了網(wǎng)頁噪聲的影響,達到了令人滿意的抽取結(jié)果。實驗表明該方法具有較強的實用性,能適用于不同的論壇站點。但是,在一些方面仍然需要改進:由于很多網(wǎng)頁大量使用客戶端腳本程序來顯示數(shù)據(jù),使得僅僅對網(wǎng)頁進行分析是不夠的,還需要增加腳本執(zhí)行功能以獲取最終的數(shù)據(jù);在確定主題信息塊時僅僅根據(jù)數(shù)量的多少可能會導致錯誤,可考慮一些其他規(guī)則如主題信息塊中的文本長度等;此外,為了更進一步地提高抽取準確率,還需要對更大規(guī)模的論壇數(shù)據(jù)進行分析,總結(jié)出適用于論壇數(shù)據(jù)抽取的規(guī)律。
[1] 薛瑋.網(wǎng)絡輿情信息挖掘系統(tǒng)的研究[D].北京:北京交通大學,2008.
[2] 姚曉娜.BBS熱點話題挖掘與觀點分析[D].大連:大連海事大學,2008.
[3] J.Zhang,M.S.Ackerman,and L.Adamic.Expertise netw orks in on line communities:structure and algorithm s[C]//Proc.16th WWW,Ban ff,Canada,May 2007.2007:221-230.
[4] I.M uslea,S.M inton,C.Knoblock.A H ierarchical Approach to W rapper Induction[C]//Third International Conference on Autonomous Agents,(Agents'99),Seattle,May 1999.
[5] S.Soderland.Learning Information Extraction Rules for Semistructured and Free Tex t[J].Machine Learning,1999.
[6] Liu B.,G rossman R.,Zhai Y.M ining Data Records in W eb Pages[C]//KDD 2003:601-606.
[7] Z.Yanhong and L.Bing,Web Data Extraction Based on Partial Tree A lignment[C]//Proceedings of the ACM,2005:76-85.
[8] Liu,B.and Zhai,Y.,NET-A System for Extracting W eb Data from Flat and Nested Data Records[C]//W ISE 2005,2005:487-495.
[9] Justin Park and Denilson Barbosa.Adaptive Record Extraction From Web Pages[C]//WWW 2007.
[10] Gusfield,D.A lgorithms on strings,tree,and sequence[M].Cambridge.1997.
[11] 韓先培,劉康,趙軍.基于布局特征與語言特征的網(wǎng)頁主要內(nèi)容塊發(fā)現(xiàn)[J].中文信息學報,2008,22(1):15-21.
[12] 瞿有利,于浩,徐國偉,等.Web頁面信息塊的自動分割[J].中文信息學報,2003,18(1):6-13.
[13] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[D].北京:北京大學計算機科學與技術系計算語言研究所,2003.