馮艷卉,洪 宇,顏振祥,姚建民,朱巧明
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
關于如何從一些雙語網站下的平行網頁對中抽取平行資源已經有大量的研究,例如文獻[1-3]利用URL串和HTML標簽的特性來獲取候選平行網頁,然后通過基于內容等方面的特征來驗證候選平行資源的翻譯等價性。雙語資源不僅存在于平行的雙語網頁對中,也存在于一個單獨的雙語混合網頁中。目前已經有些研究提出了如何在雙語混合網頁中抽取平行資源的方法,例如文獻[4]提出了一種基于模式的自適應方法來挖掘平行資源。但由于互聯網中存在著海量的網頁,所以如何快速有效地定位潛在的雙語混合網頁是一個很大的挑戰(zhàn)。
為了實現雙語混合網頁的自動、高效獲取,本文基于搜索引擎提出了一個新的、有效的方法。該方法具有以下幾個優(yōu)點:
1. 以前的研究大都是從特定的雙語網站下抽取平行資源。這些雙語網站大多是政府網站或者會議網站,因此收集到的資源往往規(guī)模較小且領域覆蓋面有限。由于搜索引擎索引了整個互聯網中海量的網頁,所以本文通過提交平行句對到搜索引擎,來獲取有價值的雙語混合網頁,從而大大擴展了平行語料的來源。
2. 給定一個搜索引擎,只需要分析一個樣例結果網頁來訓練產生記錄包裝器,計算量少,而且產生的包裝器可以很容易的被用來識別該搜索引擎檢索到的所有記錄。
3. 本文將雙語混合網頁的驗證看成是一個二值分類問題,從任意搜索引擎中獲取的任意領域的記錄可以等價地被用作訓練數據和測試數據。
本文的組織方式如下: 在第2節(jié),介紹相關工作;第3節(jié)是介紹本文提出的方法的綜述;雙語混合網頁的驗證和獲取將會在第4、第5節(jié)介紹;第6節(jié)給出實驗方法及其實驗結果;最后,第7節(jié)總結全文。
本文提出了通過搜索引擎返回的檢索結果來獲取候選雙語網頁的方法,所以如何從結果頁面中抽取記錄是一個關鍵技術。早期的信息抽取系統(tǒng)[5-6]根據用戶提供標記好的數據學習抽取規(guī)則,但這些半自動化的抽取方法對于不斷變化的萬維網來說可移植性差,因此越來越多的學者致力于研究完全自動化或者接近自動化的抽取信息的方法。
早期的網絡信息抽取系統(tǒng)需要由用戶提供標記好的數據,以便可以學習到很多抽取規(guī)則。但是半自動化的抽取方法對于不斷變化的萬維網來說可移植性差、伸縮性差,因此越來越多的學者致力于研究完全自動化或接近自動化的信息抽取方法。
結構化的數據對象是指從潛在的網絡數據庫檢索出的并以確定的模式顯示在網頁上的數據記錄,因此自動化的信息抽取方法就是試圖尋找這些確定的模式,并使用這些模式來挖掘更多的數據。目前已有些方法能夠在不需要人力參與的情況下自動化地解決這個問題。文獻[7]提出的方法是通過標識出在一篇文檔中多次出現的子串來進行記錄的抽取。文獻[8]通過遍歷文檔的DOM樹結構發(fā)現多個相似的廣義節(jié)點,進而間接挖掘出含有豐富數據的子樹。文獻[9]使用可視化信息構建一棵標簽樹來推斷標簽之間的結構化關系。通過遍歷標簽樹,文獻[10]不僅能夠挖掘出淺層次的記錄還能挖掘出深層次的數據記錄。文獻[11]也是從網頁的標簽樹出發(fā),綜合使用可視化內容特征和標簽樹的結構進行信息抽取。該方法假設數據記錄存在于某最小的含有豐富數據的子樹中,同時被標簽森林中的分割符分割。文獻[12]的目的是從網頁中挖掘出所有的動態(tài)部分,然后從每一個動態(tài)部分抽取記錄,不同的是文獻[11]是從單個部分抽取記錄。文獻[13]指出標簽路徑如何構成整個網頁,它通過比較標簽對的出現模式來估計標簽修飾同類對象的可能性程度,但該方法會帶來噪音信息。本文遵循文獻[13]的方法,同時針對具體實驗進行適應性改進。
標簽路徑: 一個標簽的路徑是指一個從DOM樹的根節(jié)點到自身的所有節(jié)點的有序序列。通過標簽路徑可以明確標簽的位置[12]。標簽路徑通常分為兩類: 文本型標簽路徑和非文本型標簽路徑。文本型標簽路徑是指路徑的末節(jié)點是文本型節(jié)點的路徑,而非文本型標簽路徑是指末節(jié)點不是文本型的路徑。
數據記錄: 將關鍵詞提交給搜索引擎,通常會返回帶有確定數目檢索結果的頁面,每個檢索結果就是一條數據記錄。由于這些數據記錄是通過檢索潛在的網絡數據庫獲得的,所以本文也把數據記錄稱作網絡記錄。
當一個網頁被表示成一系列標簽路徑時,一條數據/網絡記錄可以表示成一條或者多條標簽路徑(包括文本型和非文本型路徑)。本文的目的就是挖掘出由計算機程序自動產生的、以確定的模式顯示的結構化的數據記錄。例如,提交檢索詞“I see.我明白了。” 圖1給出了百度返回的一個樣例網頁, 其中只給出四條數據記錄的快照,它們的布局模式基本相同。
圖1 百度返回的搜索結果樣例網頁
本文的算法流程如圖2所述展開。算法中有兩個重要環(huán)節(jié): (1)記錄包裝器的產生。通過提交平行句對到搜索引擎,用戶可以得到包含了大量網絡記錄的檢索結果頁面。對于給定的搜索引擎,為了產生相應的記錄包裝器,只需選擇出一個樣例頁面,然后使用聚類的方法分析標簽路徑間的出現模式相似性。之后可以使用這些已經產生的記錄包裝器挖掘同一搜索引擎下的更多數據記錄,并收集所有返回記錄鏈接到的真實網頁作為候選雙語混合網頁。(2)高質量雙語混合網頁的收集。為了獲得高質量雙語混合網頁,訓練產生一個有效的網頁分類器來判斷候選網頁的類型。但一個結果頁面通常也包含了一些與檢索詞不相關的信息,例如關于該搜索引擎的主頁的宣傳信息、方便用戶使用的導航信息等,這些噪音信息增加了記錄抽取的難度。另外,也存在著一些與檢索詞不相關的或者相關度比較低的記錄,它們增加了驗證候選網頁類型的困難。
圖2 算法流程圖
本文中,選擇搜索引擎返回的第一個結果網頁作為樣例網頁,使用Affinity Propagation (AP)聚類方法[14]對樣例網頁內部的標簽路徑進行分析,將構成網頁內部重復布局模式的標簽路徑聚集到同一組中。為了產生標簽路徑分組,AP聚類算法不需要滿足以下三方面的約束: (1)樣例必需是特定類型的,(2)樣本間的相似度的取值必需在某個特定范圍內,(3)相似矩陣必須是對稱的。這也是本文選擇使用AP聚類方法的原因。
本文中定義一個網頁分為兩類: 雙語混合網頁和非雙語混合網頁。所以為了判斷一個網頁的類型,本文構造一個基于重疊詞、長度和頻度三方面特征的SVM二值分類器[15]。SVM可以很好地解決特征之間具有相關性的分類問題,就像本文的網頁分類問題。然而大多數概率分類器(例如貝葉斯分類器)則嚴格假設特征之間的相互獨立性[16]。
搜索引擎返回的結果頁面包含了確定數目的有序文檔摘要,這些摘要可以鏈接到實際的文檔或者網頁。一個網頁的摘要通常包含網頁標題、網頁的URL、搜索引擎對該網頁的有效緩存版本的鏈接地址,以及網頁摘要或者網頁片段。
檢索結果與檢索詞的語言是相關的。例如分別提交10個不同的單語檢索詞和10個平行句對到搜索引擎,取與每個檢索詞的前100條返回結果。在單語檢索詞的返回結果中98%是單語網頁,只有2%是雙語網頁。而通過提交平行句對獲得的候選網頁中有64.6%是雙語混合網頁,具體結果如圖3所示。從圖3中還可以看出第10個檢索詞的返回結果里雙語混合網頁只有10.1%,這是由檢索詞本身語義上的歧義等問題造成的。本文僅僅使用檢索詞的語言特性來獲取更多的候選雙語網頁,這種情況下的實驗結果已經明顯優(yōu)于單語檢索。
圖3 通過雙語句對檢索獲取的雙語網頁占據比例分布示意圖
基于以上的觀察,本文把搜索引擎作為雙語混合網頁的來源。采用提交平行句對到搜索引擎的方法來收集更多的候選雙語混合網頁。圖1展示了百度返回的一個樣例結果頁面,其中檢索詞是“I see.”及其等價翻譯對“我明白了?!备鶕嶒灲Y果可知,為了收集更多的候選雙語網頁,這種情況下比單獨提交單語的“I see.”或者“我明白了。”的檢索結果更優(yōu)。從四條數據記錄的具體摘要內容可以預測出只有第三條記錄很可能鏈接不到雙語混合網頁,其余三條記錄鏈接到的真實網頁非常可能是雙語的。
本文通過先序遍歷DOM樹結構獲得布局整個網頁的所有標簽路徑的一個有序集合,這里的有序是指根據遍歷的順序為所有路徑進行全局編號,形成一個從路徑標號到路徑的一一映射。當然在整個頁面內部,許多標簽路徑很可能重復出現了多次,所以基于遍歷得到的有序標簽路徑集合,很容易構造一個從HTML標簽路徑到其出現位置的反映射。例如,遍歷圖1中的樣例頁面共得到599個標簽路徑,在構建反向的映射之后,總共收集到86個非重復標簽路徑。表1列出了其中部分結果,Pi表示第i條標簽路徑,向量Si存儲Pi的所有出現位置,如表1中的第三列所示。例如表1中所示,P3(htmlhead#text)在整個網頁內部分別出現在3、4、7、8、9五個位置。
表1 樣例頁面中部分互異標簽路徑及其出現位置
本文把識別出網頁內部重復布局模式看作是一個標簽對的聚類問題。本文中的相似度函數得分能夠預示路徑間是否緊密出現和如何交錯出現。
對于標簽路徑Pi,其平均位置可以由Si的所有項加和、求平均得到。例如在表1中,P11和P15的平均出現位置分別是227和215(分別由表1中的S11的13項內容和S15的12項內容加和、求平均得到)。本文通過比較路徑的平均出現位置距離來描繪兩標簽路徑出現的緊密程度,例如P11和P15之間的距離是12(227-215)。
最困難的問題是如何捕獲任意兩標簽路徑間的交錯性。為此,首先定義一個向量Oi,它的長度等于先序遍歷網頁DOM樹得到的所有HTML標簽路徑的總數,同一個網頁內部任意Oi向量的長度都是相同的。對于任一項Oi(k)只有兩個取值: 0或者1,0表示標簽路徑Pi沒有出現在位置k處;相反的,1表示Pi出現在位置k處。例如,對于表1中的標簽路徑P3(“htmlhead#text”)來說,得到O3=(0, 0, 1, 1, 0, 0, 1, 1, 1, 0…0)。因為總共有599個標簽路徑構成了圖1中的樣例頁面,所以O3的維度是599,且該網頁內部的任意Oi的維度都是599。
圖4 標簽路徑的劃分實例
另外,本文定義DOi/Oj為路徑Pi關于路徑Pj的劃分,也就是Pj的出現將Pi的Oi向量劃分成幾個非空域集合。只有當Oj(k)的值為1的時候,Oj(k)才可作為一個劃分標志,路徑Pi出現在每一個劃分區(qū)域的次數就作為代表該區(qū)域的值。Oi中可能存在多個劃分標志連續(xù)出現,此時要合并成一個有效的劃分標志。如Pi沒有出現在某一個劃分區(qū)域中,那么該區(qū)域的值理論上是0,但是從數學定義出發(fā),劃分是指某個非空集合的非空子集的一個集合且每個元素屬于且僅屬于一個子集,因此本文將忽略這樣的空域。圖4展示了3個標簽路徑交錯出現的情況。其中,路徑P1和P2規(guī)律地交錯出現,它們很有可能屬于聚類結果中的同一組,相比而言P3的出現不具有規(guī)律性。并得到DO1/O3={1, 1, 1},DO3/O1={1, 2, 1}。
本文通過DOi/Oj來描述任意兩個標簽路徑Pi和Pj是如何規(guī)律性交錯出現。從劃分的數學意義上講,如果DOi/Oj具有較小的方差,那么相關路徑Pi和Pj很可能被聚集到同一組中。因此,本文借用DOi/Oj和DOj/Oi的方差來定義交錯度量μ:
μ(Oi,Oj)=max{Var(DOi/Oj),Var(DOj/Oi)}
(1)
對于任意兩個標簽路徑來說,得到的關于緊密性度量和交錯性度量的值都是非負實數。對于每個度量值來說,值越小說明該兩條路徑被聚集到同一個組中的可能性越大。因此,歸一化相似度量σ(Pi,Pj)定義為以上兩個度量的反比例式關系式:
(2)
其中,ε是一個非負因子,用來避免分子為零的情況。在實驗中,選擇ε= 10??梢钥闯靓?Pi,Pj)的值必在(0, 1]范圍內。
至此可以得到一個有關樣例網頁內部出現的所有路徑的對稱相似度量矩陣,以此作為AP聚類算法的輸入。聚類得到的每一組結果中包含了n條規(guī)律性重復相伴出現的標簽路徑,這些路徑不具有被聚集到不同組別的顯著相關性。在網頁DOM樹的遍歷結果中,每個位置上出現的路徑有且只有一個,因此定義出現位置最靠前的路徑為每組路徑的祖先路徑(有且只有一個這樣的祖先路徑)。與此同時,我們還發(fā)現:
1. 與一條數據記錄緊密相關的HTML代碼通常包含多于3條標簽路徑,因此本文只分析包含大于或者等于4條路徑的路徑組。例如,在圖1所示的樣例網頁的聚類結果中,共有三個路徑數目小于4的分組。
2. 常見搜索引擎返回的檢索結果頁面通常會包含10條或更多確定數目的網頁記錄,并且采用相似的顯示模式。鑒于這點發(fā)現,如果某路徑分組中的祖先路徑沒有出現大于本文設定的閾值次數,則認為該祖先路徑引導的內容不是有效的記錄。
3. 搜索引擎返回的檢索結果是整個結果頁面的主要內容。因此有效標簽路徑的出現位置必定是全局最優(yōu)的(全局最優(yōu)是指標簽路徑的起始位置和結束位置的范圍必須寬于某個預先設定的閾值)。本文選定整個網頁的三分之一長度作為閾值(這里的長度是指布局整個網頁的所有標簽路徑的總數)。
為了詳細描述數據記錄的抽取過程,首先假定在整個網頁中某分組的祖先標簽路徑Pa共出現在m個位置,那么Si是(Pos1…Posi…Posm),Posi記錄著路徑Pa第i次出現的具體位置,每一次出現都對應著一個孩子路徑集。如表2所示,Da (i)是第i個孩子路徑集合,也是從位置Posi到位置Posi+1-1之間的路徑集的一個子集,因為本文中要過濾掉不是以Pa作為前綴的標簽路徑。表2中DaI作為Pa的所有孩子路徑集合的總稱。通過Da (i)中文本型標簽路徑的具體內容就可以得到隱含在結果頁面中的第i條記錄。
表2 祖先標簽路徑Pa的孩子集實例
通過前面的工作,可以獲取到一系列數據記錄(包括摘要和URL),每一個記錄都是一個候選網頁。本文把網頁類型驗證的問題看作是一個分類問題,通過把從摘要中獲取的重要統(tǒng)計特征送入到分類器中來預測網頁類型,從而驗證一個網頁是否為雙語混合網頁。
按照語言將摘要劃分成許多個獨立的部分,每個部分用同一種語言表述,且與相鄰部分的語言不同。對于每一個摘要來說都可以得到一個由C和E組成的語言字符串,C代表中文,E代表英語(要存儲C和E代表的具體內容)。在同一個語言串中,C和E不可能連續(xù)出現。以摘要“I see. 我明白了。I quit! 我不干了!”為例,抽象后得到的語言串為“ECEC”,而文本串為TeTcTeTc,這里兩個Te代表“I see”和“I quit”,兩個Tc分別代表“我明白了”和“我不干了”。
不同的特征函數對于分類器來說會產生不同的結果,所以選擇特征函數很重要。本文中構造的SVM分類器融合了關于摘要內容的重疊詞、長度和頻度三方面特征:
(1) 基于重疊詞的度量
重疊詞度量用來判斷中文短語和英文短語的語義相似度?;谥丿B詞的中文短語和英文短語的相似度分數計算如下:
(3)
其中分母代表標準化因子,在實驗中選擇p+q作為它的值,p代表中文短語c_res中所有詞語的長度,q代表英文短語e_res中所有詞的長度。另外,ci代表中文詞的第i個詞,ej代表英文詞中的第j個詞,在文獻[17]出現的Sim(ci,ej)代表中文詞ci和英文詞ej的相似度。
在被切分后的摘要中,對于每個語言串的偶數位置的子摘要T,利用公式(3)來分別計算T與左右相鄰摘要的相似度。當T沒有左或者右鄰居時,它與空鄰居的相似度為0。對于每個偶數位置上的子摘要來說都具有兩個候選相似度得分,選擇分數更高的值作為相似度向量InV的元素。無論語言串的長度是2×n還是2×n+1,InV的長度都是n。摘要s基于InV的得分計算如下:
(4)
其中Score(s)是摘要s基于重疊詞度量的得分,m表示InV中值不為0的項數。除此之外,m/n也作為一個基于長度度量的有效值,它代表了在摘要中翻譯對所占的比例。
(2) 基于長度的度量
例如,對于語言串“ECECEC”,為了簡便,用“E1C1E2C2E3C3”來代替它。本文中基于長度度量的第一個分數值如下:
(5)
這里s和m與等式(4)中代表的含義相同。另外,c和e是指與InV中非零項相關連的中英文子摘要。函數Len(s)用來計算句子s中所有詞的個數。
實驗表明如果語言串的長度過長或過短,那么該摘要鏈接到的網頁就很有可能不是雙語混合網頁。另外,即使一些語言串的長度比較適中,但它也可能不是雙語混合網頁的摘要。所以每個子摘要的長度也會影響最后的分類結果。
(3) 基于檢索詞在摘要中的頻度的度量
在每個檢索結果頁面內部,檢索詞在摘要等內容塊中通常被突出地標記。因此檢索詞在摘要中的頻度也作為一個度量。
基于上述三方面度量,每條數據記錄都可以轉換為6元特征空間。
一方面為了收集相當規(guī)模的訓練語料,另一方面為了評估雙語混合網頁驗證方法的搜索引擎獨立性,所以本文共收集了谷歌、百度、雅虎、有道、Bing和騰訊搜搜六個常見搜索引擎的相關數據。
將隨機挑選的檢索詞提交不同的搜索引擎之后,通過本文提出的方法和人工的方式分別收集返回的結果記錄,其中人工收集的結果用來評價記錄抽取方法的有效性。為了評價雙語混合網頁驗證算法的有效性,本文從收集到的記錄集中隨機抽取2 300個記錄(其中60%是正例)來訓練分類器,另外隨機抽選出不同的230個記錄作為測試樣例。
訓練數據通過兩種方法來進行人工標注。第一種方法是基于摘要的內容。標注者通過瀏覽每一個摘要的內容直接對該摘要定位的網頁的可能類型給出判斷。如果摘要里包含許多互相平行的翻譯對,那么該網頁就被標注為雙語網頁,如果不存在或者很少存在這樣的翻譯對,則該網頁被標注為非雙語網頁。同時還遵循另外一種標注方法,把每個數據記錄的URL直接通過瀏覽器來嘗試訪問。通過瀏覽真實網頁的正文內容是否包含相當數量的平行句對,來標記候選網頁的類型。通過這兩個標注方法得到的數據的最大不同點在于當某雙語混合網頁的摘要中不包含任何可以預示網頁類別的有效信息時,按照第一種方法把該網頁標注成非雙語混合網頁,按照第二種方法則把該網頁標注成雙語網頁。另外,某些候選網頁由于過期、服務器變更等原因無法訪問,導致兩種標注方法的標注結果也會不同。
本文通過衡量網頁分類器的性能來評價整個系統(tǒng)。由于檢索詞、網頁摘要與真實網頁之間存在著本質的聯系,所以從表2中的數據可以看到,隨著特征的增加分類器的準確率從70.2% 提高到85.10%,其中,W是指重疊詞特征,L是指長度特征,F是指頻率特征。從表2中還看出長度特征和頻率特征的使用對于雙語混合網頁的驗證有著顯著的影響。
表2 特征組合對分類器的影響
實驗中為了提高重疊詞度量的分類性能,本文不僅使用雙語詞典,還使用了從平行語料中抽取出的等價翻譯對集合,這是由于雙語字典不可能包括所有的實體。
基于兩類使用不同標注方法的訓練數據,共進行了三次雙語混合網頁驗證的實驗,三次實驗結果在表3中詳細給出。表3中,#1是指根據摘要內容來標注的實驗語料,#2是指根據真實網頁的內容來標注的實驗語料。本文使用準確率和召回率來衡量本文提出的方法。從表3中可以看出基于第2類實驗語料的實驗平均準確率達到73%,而基于第1類實驗語料的平均準確率達到了81.3%。這是由于在許多情況下,存在著過期、服務器變更等因素導致網頁不可用。從表3中還可以看出實驗無論是基于第一類實驗語料還是第二類實驗語料,召回率都很高,這意味著本文構造的分類器能夠準確地選擇出高質量的雙語混合網頁。
表3 基于兩種實驗數據的實驗結果
由于記錄抽取工作的性能顯著影響雙語混合網頁的收集工作,所以衡量記錄抽取工作的性能對整個實驗方案來說是一個有意義的中間評價。
為了測試已經構造好的包裝器的健壯性,將本文的方法收集的記錄與人工收集的記錄集進行比較。這里準確率和召回率被用來衡量記錄抽取工作的性能。實驗結果表明人工收集的記錄中的98%都可以通過本文的方法自動收集到,同時程序收集到的記錄具有99%的準確率,這個數據表示通過本文的方法產生的包裝器是很健壯的,適用于抽取各種數據記錄。召回率略低于準確率表明在抽取過程有時丟失了一些記錄,這是由于在抽取記錄的過程中,這些沒有被抽取到的記錄的布局是不同于封裝在包裝器中的常見的用來布局數據記錄的標簽路徑。
本文還與文獻[18]的方法進行了比較。基于樣例結果頁面,文獻[18]的工作強調了如何區(qū)分動態(tài)片段和記錄。該方法分九個步驟識別不同的片段邊界從而產生片段包裝器。本文基于網頁的標簽樹結構進行方法設計,而文獻[18]通過網頁的遍歷DOM樹結構抽取每一個結果頁面的內容,因此比本文的方法要復雜些。共同點在于充分使用給定搜索引擎的樣例頁面。該方法同樣得到了98.8%的高精確率和98.7% 的召回率。
本文提出了一個收集雙語混合網頁的新方法。為了提高收集方法的效率、節(jié)省時間,該方法主要分析搜索引擎返回的摘要而不是大量候選網頁的正文。候選雙語混合網頁的驗證被看作是一個分類問題,從摘要出發(fā),融合了重疊詞、長度和頻度三方面有效特征。此外,基于HTML路徑的相似性,使用AP聚類算法從搜索引擎返回的結果頁面中抽取網頁記錄。實驗結果表明本文提出的方法得到了較高的準確率和召回率。
在未來的工作中,重點考慮使用語義特征和語言特征相結合的方法來篩選出可以獲得更多雙語網頁的高質量檢索詞。此外,通過本文的方法收集的雙語混合網頁可以是當前雙語短語或者雙語句對的主要來源,我們也會將之應用于平行翻譯對資源抽取等相關工作。
[1] Resnik Philip and Noah A. Smith. The web as a Parallel Corpus[J]. Computational Linguistics,2003,29(3):349-380.
[2] Zhang Ying, Ke Wu, Jianfeng Gao, Phil Vines. Automatic Acquisition of Chinese-English Parallel Corpus from the Web[C]//Proceedings of 28th European Conference on Information Retrieval.2006
[3] Shi Lei, Cheng Niu, Ming Zhou, and Jianfeng Gao. A DOM Tree Alignment Model for Mining Parallel Data from the Web[C]//Joint Proceedings of the Association for Computational Linguistics and the International Conference on Computational Linguistics, Sydney, Australia.2006.
[4] Long Jiang, Shiquan Yang, Ming Zhou, Xiaohua Liu and Qingsheng Zhou. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//The 47th Annual Meeting of the Association for Computational Linguistics. 2009: 870-878.
[5] Baumgartner R., S. Flesca and G. Gottlob. Visual Web Information Extraction with Lixto[C]//Proceedings of the 27th International Conference on Very Large Data Bases, September 11-14, 2001:119-128.
[6] Zhai Y., B. Liu. Extracting Web Data Using Instance-Based Learning[C]//Proc. Sixth Int’l Conf. Web Information Systems Engineering. 2005.
[7] Chang C., S. Lui. Information Extraction based on Pattern Discovery[C]//Proceedings of the 10th international conference on World Wide Web. May 01-05, Hong Kong,2001: 681-688.
[8] Liu B., R. Grossman and Y. Zhai. Mining Data Records in Web Pages[C]//Proceedings of the ninth ACM SIGKDD international conference on Knowledge Discovery and Data mining, Washington, D.C, 2003: 601-606.
[9] Zhai Y., B. Liu. Web Data Extraction Based on Partial Tree Alignment[C]//Proceedings of the 14th international conference on World Wide Web. May 10-14, Chiba, Japan,2005.
[10] Liu B. and Y. Zhai. System for extracting Web data from flat and nested data records[C]//Proceedings of the Conference on Web Information Systems Engineering, 2005: 487-495.
[11] Zhao H., W. Meng, Z. Wu, V. Raghavan, C. Yu. Fully Automatic Wrapper Generation for Search Engines[C]//Proceedings of the 14th international conference on World Wide Web, 2005: 66-75.
[12] Zhao H., W. Meng, Z. Wu, V. Raghavan, C. Yu. Automatic Extraction of Dynamic Record Sections from Search Engine Result Pages[C]//Proceedings of the 32nd International conference on Very large databases.2006.
[13] Miao Gengxin, Junichi Tatemura, Wang-Pin Hsiung, Arsany Sawires, Louise E. Moser. Extracting data records from the web using tag path clustering[C]//Proceedings of the 18th International Conference on World Wide Web, Spain, Madrid.2009.
[14] Frey B. J. and D. Dueck. Clustering by passing messages between data points[J]. Science, 16 February 2007, 315(5814):972-976.
[15] Cortes, C. and V. Vapnik. Support-vector network[J]. Machine Learning 20: 273-297.
[16] DuVerle David, Helmut Prendinger. A Novel Discourse Parser Based on Support Vector Machine Classification[C]//The 47th Annual Meeting of the Association for Computational Linguistics. 2009: 665-673.
[17] Deng Dan. Research on Chinese-English word alignment[D]. Institute of Computing Technology Chinese Academy of Sciences, Master Thesis. (in Chinese). 2004.
[18] Zhao H., W. Meng, Z. Wu, V. Raghavan, C. Yu. Automatic Extraction of Dynamic Record Sections from Search Engine Result Pages[C]//Proceedings of the 32nd International conference on Very large databases.2006.