• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向單一雙語網(wǎng)頁的雙語資源挖掘方法

    2011-06-14 02:33:30張桂平王瑩瑩
    中文信息學(xué)報(bào) 2011年1期
    關(guān)鍵詞:網(wǎng)頁雙語頁面

    羅 陽,季 鐸,張桂平,王瑩瑩

    (沈陽航空航天大學(xué) 知識(shí)工程中心,遼寧 沈陽 110136)

    1 引言

    雙語平行語料庫是由原文文本及其平行對(duì)應(yīng)的譯文文本構(gòu)成的語料庫,在翻譯知識(shí)的獲取、雙語詞典的建立、機(jī)器翻譯和跨語言信息檢索等自然語言處理領(lǐng)域有重要的應(yīng)用價(jià)值。隨著互聯(lián)網(wǎng)的普及和國際化的需要,越來越多的信息以多種語言的形式在網(wǎng)絡(luò)上發(fā)布,使互聯(lián)網(wǎng)成為一個(gè)取之不盡,日益增長(zhǎng)的信息資源庫,其中包含大量的雙語甚至多語語料資源。本文所要介紹的是一種如何從浩如煙海的、復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)中挖掘雙語資源的方法。根據(jù)雙語資源的存在形式可將Web資源分為兩大類[1],即雙語平行網(wǎng)頁和單一雙語網(wǎng)頁(下文稱雙語網(wǎng)頁): 前者是兩個(gè)單語的平行網(wǎng)頁,兩種語言的平行文本分別存在于這兩個(gè)單語的平行網(wǎng)頁中;后者是一個(gè)雙語網(wǎng)頁,平行文本存在于這個(gè)網(wǎng)頁內(nèi)。具體來說,雙語平行頁面中對(duì)應(yīng)位置的內(nèi)容可以作為雙語平行句對(duì)。以往的系統(tǒng)都主要集中于對(duì)這類頁面的研究。并主要通過平行頁面的URL進(jìn)行關(guān)聯(lián)的分析和挖掘,在具體應(yīng)用中都獲得了較好的效果[2-4]。

    雙語網(wǎng)頁可能是對(duì)商品的介紹、對(duì)專業(yè)術(shù)語的解釋或外語學(xué)習(xí)網(wǎng)站。雙語頁面中包含大量雙語資源,并且這些雙語資源大部分遵循一定的規(guī)則和模式。一個(gè)日漢雙語頁面中包含格式一致的雙語信息(日漢翻譯對(duì)),如“3 ベリファイ 檢驗(yàn),證實(shí),核實(shí) verify”等,且都遵循相同的格式規(guī)則,如圖1所示。據(jù)估算[1],在中文網(wǎng)站中至少有數(shù)以千萬計(jì)的雙語頁面,每個(gè)頁面中都包含有大量的雙語資源,如果能通過人工整理將此類有章可循的雙語網(wǎng)頁從互聯(lián)網(wǎng)眾多的頁面中篩選出來,然后按照既有的模式對(duì)其內(nèi)部雙語翻譯對(duì)進(jìn)行挖掘,即可得到對(duì)齊的雙語資源。這種方案在雙語對(duì)齊分析后期語料細(xì)加工上具有優(yōu)勢(shì);另外雙語網(wǎng)頁往往具有領(lǐng)域性知識(shí),可以進(jìn)行不同領(lǐng)域的雙語資源挖掘。因此本文主要研究此類網(wǎng)頁的雙語資源挖掘。

    圖2 方法框架

    本文深入研究中日雙語網(wǎng)頁的結(jié)構(gòu)特點(diǎn),在進(jìn)行網(wǎng)頁篩選時(shí)不采用傳統(tǒng)的詞作為特征,而是利用網(wǎng)頁中頻繁出現(xiàn)的包含雙語信息的模式判別雙語網(wǎng)頁。本文提出了一種基于頻繁序列模式(Frequent Sequence Pattern, FSP)的網(wǎng)頁分類算法來對(duì)互聯(lián)網(wǎng)中的頁面進(jìn)行分類,篩選出符合要求的中日雙語頁面,從中抽取雙語資源。實(shí)驗(yàn)結(jié)果表明,本方法能夠有效地進(jìn)行網(wǎng)頁分類,篩選出的網(wǎng)頁具有90%以上的正確率。在此基礎(chǔ)之上,使用FSP對(duì)雙語頁面中的資源進(jìn)行挖掘可得到92.5%的正確率。本文以日漢兩種語言為例,討論了日漢雙語網(wǎng)頁分類方法,該方法同樣適用于英漢、英日等編碼區(qū)分度大,和日韓、中韓等較難區(qū)分編碼的雙語網(wǎng)頁分類。方法框架如圖2所示。

    2 相關(guān)工作

    在從單一雙語網(wǎng)頁中挖掘雙語資源方面,2007年Cao[5]、2008年Lin[6]提出兩種不同的方法,都是基于括號(hào)的模式,如“北京大學(xué) (パキンだいがく)”,括號(hào)中的日語為括號(hào)前漢語的翻譯。該方法適用于網(wǎng)站頁面中出現(xiàn)諸如人名、地名、書籍名及動(dòng)植物名等專有名詞,和專業(yè)領(lǐng)域里的專業(yè)術(shù)語,作者為了方便讀者以及提高頁面的可閱讀性,在其母語后用括號(hào)將其外語翻譯標(biāo)注出來的頁面,這樣的頁面有很多潛在的雙語翻譯對(duì)。2008年郭稷[7]等還就這種形式中,母語術(shù)語邊界劃分問題進(jìn)行分析,例如“足球教練佐夫(Zolf)”中Zolf對(duì)應(yīng)翻譯的確定,提出使用多特征判別模型進(jìn)行邊界劃分。這種通過括號(hào)來提取術(shù)語翻譯的思想在大量頁面中做過測(cè)試,并且取得了預(yù)期的結(jié)果,然而,并不是所有的雙語頁面都遵循括號(hào)模式,所以這類思想可能會(huì)錯(cuò)失Web上的很多翻譯資源。2007年Cao[8]訓(xùn)練了一個(gè)音譯對(duì)齊判別模型用于音譯對(duì)的抽取,然后訓(xùn)練一個(gè)翻譯判別模型,利用此模型進(jìn)行翻譯對(duì)的抽取。不過利用音譯抽取具有一定的局限性,因?yàn)楹芏嚯p語翻譯對(duì)的讀音并不相同,對(duì)于漢—日翻譯對(duì)來說,出現(xiàn)讀音類似的翻譯對(duì)的幾率非常低。2009年Jiang[1]同樣將雙語頁面建立成DOM樹,使用音譯模型發(fā)掘種子,然后用模式匹配的方法在每一個(gè)節(jié)點(diǎn)的內(nèi)部文本中挖掘潛在的英漢雙語翻譯對(duì),并采用了分類器給候選模式打分。

    網(wǎng)頁分類技術(shù)借鑒了文本分類中的一些方法,但是Web頁面資源與普通文本資源相比又有以下特點(diǎn): (1)Web頁面為半結(jié)構(gòu)化資源,除了頁面內(nèi)容外還有許多其他信息,如HTML標(biāo)簽、JavaScript等腳本語言內(nèi)容等;(2)格式非常靈活,一個(gè)頁面可能包含不同的格式并且每個(gè)格式有不同的標(biāo)準(zhǔn);(3)不同Web頁面的風(fēng)格與內(nèi)容有很大差異。除了Web頁面自身的特點(diǎn)外,作為中日雙語頁面中的一種語言,日文的結(jié)構(gòu)具有很大復(fù)雜性,導(dǎo)致對(duì)日文的判定有一定難度。這些特點(diǎn)決定網(wǎng)頁分類算法分成三類,基于內(nèi)容的分類方法,基于鏈接的分類方法和組合分類的方法。

    基于內(nèi)容的網(wǎng)頁方法即將Web頁面用純文本的形式表示出來,然后使用文本分類技術(shù),例如K-NN算法和基于SVM的方法從訓(xùn)練集中篩選特征詞,然后計(jì)算訓(xùn)練集和測(cè)試集的相似度進(jìn)行分類。Sung[9]提出了一種基于標(biāo)簽區(qū)域的逐步分析算法(TAgger-Reigon Progressive Analysis, TARPA),Haruechaiyasak[10]提出一種基于特征詞模糊聯(lián)系(Fuzzy Association)的網(wǎng)頁分類方法?;阪溄拥姆诸惙椒慈绻撁鍭中有一個(gè)超鏈接至頁面B,那么就認(rèn)為頁面A和頁面B是相關(guān)的,可以利用分類方法對(duì)相關(guān)的頁面進(jìn)行分類。這種網(wǎng)頁分類方法的弊端是這種頁面鏈接關(guān)系往往不能正確反映頁面的語義聯(lián)系,即擁有鏈接關(guān)系的兩個(gè)頁面可能在內(nèi)容方面沒有任何聯(lián)系;而沒有鏈接關(guān)系的頁面之間可能聯(lián)系緊密,這兩種情況都會(huì)影響到分類的效果。Tai[11]提出的基于鏈接頁面的PageRank值的方法提出一種鄰居頁面的過濾方法(Neighbor Text Percolation),通過計(jì)算鏈接頁面的PageRank值來篩選出符合要求的鄰居頁面,然后將這些鄰居頁面和原頁面一起進(jìn)行分類,能夠有效改善上述弊端。使用組合分類的方法進(jìn)行網(wǎng)頁分類即使用兩種分類器,一種是借助于鏈接分類的結(jié)果來進(jìn)行內(nèi)容分類,另一種是利用內(nèi)容分類的結(jié)果來進(jìn)行鏈接分類。范炎[12]提出使用樸素貝葉斯協(xié)調(diào)分類器的方法進(jìn)行組合分類器網(wǎng)頁分類。使用組合分類的方法可以綜合前兩種方法的優(yōu)勢(shì),也能充分利用網(wǎng)頁的特征,但是不同的分類器性能不同,采用哪種分類器組合策略可以達(dá)到較好的效果很難確定。

    3 基于支持向量機(jī)的雙語網(wǎng)頁獲取

    可能包含雙語資源的網(wǎng)頁有多種獲取方法: 可以通過在搜索引擎上進(jìn)行啟發(fā)式搜索(如輸入啟發(fā)條件“日語專業(yè)詞匯”);可以收集相關(guān)主題網(wǎng)站,根據(jù)鏈接遞歸下載[13];也可以利用種子翻譯對(duì)來搜索相關(guān)網(wǎng)頁。在得到候選雙語網(wǎng)頁后,我們使用支持向量機(jī)來判別雙語網(wǎng)頁。

    3.1 支持向量機(jī)模型

    支持向量機(jī)(SVM)由Vapnik[14]在結(jié)構(gòu)風(fēng)險(xiǎn)最小化與VC維理論的理論基礎(chǔ)上提出,根據(jù)有限樣本信息,綜合考慮機(jī)器學(xué)習(xí)的能力與問題模型的復(fù)雜程度,平衡二者的優(yōu)劣利弊以獲得預(yù)期效果,能夠有效解決有限樣本集的機(jī)器學(xué)習(xí)問題。設(shè)樣本(x1,y1),…,(xi,yi),…,(xn,yn),xi∈Rn,xi和yi均為樣本中的向量,其中yi可能是樣本集中經(jīng)過特征提取后的特征構(gòu)成的向量,也可能是經(jīng)由核函數(shù)將特征向量映射至高維空間后的映射向量。若yi的取值為+1和-1,則SVM模型稱之為二分類SVM。

    若樣本集是線性可分的,在d維特征空間中判別函數(shù)的一般形式為

    f(x)=w·x+b

    (1)

    特征空間的分類平面方程為

    w·x+b=0

    (2)

    若有存在權(quán)重向量w*,使得‖w*‖最小,并且滿足

    (3)

    yi(w*·xi+b)≥1

    (4)

    則w*稱為支持向量,分類平面w*·xi+b=0為最優(yōu)分類平面,并且對(duì)所有樣本正確分類。此問題可以利用Lagrange方法轉(zhuǎn)化為其對(duì)偶模型,即找出函數(shù)

    (5)

    約束條件為

    (6)

    這是一個(gè)二次函數(shù)尋求最優(yōu)解的問題,存在唯一解。最優(yōu)解中不為零的αi即為支持向量。解此問題得到的最優(yōu)分類函數(shù)為

    (7)

    3.2 基于頻繁序列模式的特征選擇

    本文使用數(shù)據(jù)挖掘中“頻繁序列模式”[15]的概念,即: 令I(lǐng)={i1,i2,…,im}是一個(gè)項(xiàng)集,是項(xiàng)目的非空集合,其中ij是項(xiàng)目。一個(gè)序列(Sequence)s=是項(xiàng)集的有序集合,其中sj是項(xiàng)集。一個(gè)事務(wù)T是一個(gè)序列,一個(gè)事務(wù)數(shù)據(jù)庫D是一個(gè)事務(wù)集。令X代表一個(gè)序列。事務(wù)T支持X,當(dāng)且僅當(dāng)T包含X。D中支持X的事務(wù)的數(shù)目稱為X的支持度,記為support(X),如果support(X)不低于預(yù)先設(shè)定的最小支持度σmin,則稱X為頻繁序列。據(jù)此本文定義:

    定義1頻繁序列模式(Frequent Sequential Pattern, FSP): 查找DOM樹Treedom中的所有葉子節(jié)點(diǎn)Leafi,將Leafi中的內(nèi)容對(duì)應(yīng)成文本元素序列S=,若S在事務(wù)集中出現(xiàn)的次數(shù)超過閾值Tr,則認(rèn)為S為頻繁序列模式。

    Web頁面屬于半結(jié)構(gòu)化資源,本方法對(duì)Web頁面進(jìn)行預(yù)處理,將HTML文本轉(zhuǎn)化為DOM樹,取不同的文本元素(數(shù)字、空白、日文、中文、英文等)為項(xiàng)目;取DOM樹中葉子內(nèi)容對(duì)應(yīng)的文本元素序列為事務(wù),一篇HTML文本即為一個(gè)事務(wù)集。葉子內(nèi)容所對(duì)應(yīng)的文本元素序列在事務(wù)集中的支持度大于最小支持度,即為頻繁序列模式。本文將不同的文本元素使用不同的標(biāo)示符替代,其對(duì)應(yīng)關(guān)系如表1所示,可將頻繁序列模式形式化。例如模式“1 かさ(傘) 〔名〕 傘”即形式化為“NSJ(J)S〔C〕SC”。

    表1 文本類型與對(duì)應(yīng)標(biāo)識(shí)符

    一個(gè)雙語頁面中的雙語資源會(huì)遵循一定的模式,這種模式可以看作是FSP。本文規(guī)定FSP的判定條件為: 對(duì)于模式Pi,若Pi中同時(shí)包含中文和日文,并且support(Pi)>Tr,其中support(Pi)為P在一個(gè)Web頁面中出現(xiàn)的次數(shù),則認(rèn)為Pi是一個(gè)雙語FSP。Web頁面中若包含數(shù)量可觀的FSP,也就意味著頁面中包含大量雙語資源(日漢翻譯對(duì)),那么可以將其看作候選雙語頁面。例如圖1所示的頁面中包含 “8 テーパー 尖錐 taper”,形式化后的模式為“NSJSCSE”,其同時(shí)包含中文和日文,若定義Tr=5,則此模式為FSP。很顯然:

    (1) “NSJSCSE”包含的信息“8 テーパー 尖錐 taper”為有效的雙語信息;

    (2) 此頁面中雙語資源的形式大多為“NSJSCSE”。

    基于上述兩點(diǎn)可以很容易判斷出頁面為雙語頁面。所以,判斷一個(gè)Web頁面中是否為雙語頁面可以通過判斷頁面中是否包含有雙語信息的頻繁模式來實(shí)現(xiàn)。

    從Web頁面中提取頻繁序列模式過程的算法:

    For i=1 to 總網(wǎng)頁數(shù)Do

    轉(zhuǎn)化第i 個(gè)網(wǎng)頁為 DOM 樹

    形式化DOM 葉子節(jié)點(diǎn)的內(nèi)容

    If (葉子節(jié)點(diǎn)內(nèi)容的長(zhǎng)度<自然行的長(zhǎng)度)

    Then 選擇葉子節(jié)點(diǎn)做為模式片段

    Else 選擇自然行作為模式片段

    Endif

    For j=1 to 第i個(gè)網(wǎng)頁中的總模式片段數(shù)Do

    If (支持度(第j個(gè)模式片段)>Tr&& 第j個(gè)片段中包含“C”和“J”)

    Then 將第j個(gè)模式片段加入候選FSP集中

    Endif

    Endfor

    Endfor

    提取出頻繁模式作為特征后,考慮到日漢兩種語言有使用相同文字的特點(diǎn),去掉僅有日語、日漢通用文字和常用標(biāo)點(diǎn)的特征。本文采用TF-IDF的特征權(quán)重計(jì)算方法[16]:

    (8)

    tfi(d)表示特征ti在文本d中出現(xiàn)的頻率,N為文本集中的總文本數(shù),ni為出現(xiàn)特征ti的文本總數(shù)。

    4 基于頻繁序列匹配的雙語資源挖掘

    在網(wǎng)頁分類的基礎(chǔ)上,本文同樣使用3.2節(jié)得到的頻繁序列模式對(duì)已經(jīng)判定為雙語網(wǎng)頁的頁面進(jìn)行雙語資源的挖掘。即把特征選擇得到的FSP放入規(guī)則庫,將網(wǎng)頁DOM樹的葉子節(jié)點(diǎn)內(nèi)容按照文本元素形式化為模式片段,若某模式片段與規(guī)則庫中的規(guī)則相同,則提取該葉子節(jié)點(diǎn)中的內(nèi)容為雙語資源。

    利用頻繁序列模式對(duì)網(wǎng)頁信息進(jìn)行匹配處理能得到可觀的雙語信息,但是頻繁序列模式未必包括Web頁面中的所有有用信息的規(guī)則,例如人為操作時(shí)將最大頻繁模式中的“.”寫為“?!保瑹o法在規(guī)則庫中找到,可以利用機(jī)器學(xué)習(xí)的方式將這些有用的模式形式化為規(guī)則然后加入規(guī)則庫中。

    首先定義非規(guī)則文本歸屬度:

    定義2文本信息歸屬度AD: 對(duì)于非規(guī)則的文本信息Ii,令m為緊鄰Ii之前連續(xù)出現(xiàn)規(guī)則的數(shù)目;令n為緊鄰Ii之后連續(xù)出現(xiàn)的規(guī)則數(shù)目,即若Ii-1…Ii-m均為規(guī)則,Ii-m-1不是規(guī)則,則緊鄰Ii之前連續(xù)出現(xiàn)規(guī)則的數(shù)目為m,若Ii+1…Ii+n均為規(guī)則,Ii+n+1不是規(guī)則,則緊鄰Ii之后連續(xù)出現(xiàn)規(guī)則的數(shù)目為n。定義Ii的非規(guī)則文本歸屬度

    (9)

    對(duì)于不能和規(guī)則庫中規(guī)則匹配的文本信息,計(jì)算其AD值,若為0則直接舍棄;若不為0,根據(jù)AD值選取閾值,若文本信息AD值大于閾值,則將此文本信息形式化的規(guī)則擴(kuò)充至規(guī)則庫。

    定義非規(guī)則文本歸屬度,可以使本方案能自動(dòng)地挖掘文本中潛在的、非頻繁序列模式的規(guī)則。默認(rèn)AD值為1,實(shí)驗(yàn)表明閾值越大,機(jī)器學(xué)習(xí)得到的規(guī)則庫具有較高的正確率。

    5 實(shí)驗(yàn)與結(jié)果

    5.1 實(shí)驗(yàn)數(shù)據(jù)集

    本文使用《標(biāo)準(zhǔn)日本語》中單詞和機(jī)械專業(yè)術(shù)語共458個(gè)詞條為搜索項(xiàng),通過百度搜索得到6 060個(gè)網(wǎng)頁,經(jīng)過人工標(biāo)注,雙語網(wǎng)頁3 023篇,非雙語網(wǎng)頁3 037篇。實(shí)驗(yàn)隨機(jī)選取三批測(cè)試數(shù)據(jù)集,每批選取200篇雙語網(wǎng)頁,200篇非雙語網(wǎng)頁,共400篇作為測(cè)試數(shù)據(jù)集,其余作為訓(xùn)練數(shù)據(jù)集,規(guī)定網(wǎng)頁中含有5條以上雙語資源的網(wǎng)頁為雙語網(wǎng)頁。

    5.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)

    本文解決的是二分類問題,所以實(shí)驗(yàn)使用SVMlight作為SVM的實(shí)現(xiàn),用SVMlight的默認(rèn)參數(shù),構(gòu)造了一個(gè)線性SVM。

    同樣由于二分類問題,在本文實(shí)驗(yàn)中,以文本分類的準(zhǔn)確率來衡量基于頻繁序列模式的雙語網(wǎng)頁分類的性能,定義如下:

    雙語資源挖掘采用正確率(precision,簡(jiǎn)記為P)來衡量系統(tǒng)性能,定義如下:

    5.3 實(shí)驗(yàn)結(jié)果及分析

    本實(shí)驗(yàn)通過在訓(xùn)練語料中提取FSP,得到499個(gè)特征,加上每篇網(wǎng)頁中權(quán)重最大的FSP作為附加特征,共得到500個(gè)特征。實(shí)驗(yàn)選取的三批測(cè)試數(shù)據(jù)集經(jīng)過SVM分類得到的結(jié)果如表2所示,實(shí)驗(yàn)證明本方法具有較好的準(zhǔn)確性和穩(wěn)定性。然而,實(shí)驗(yàn)中是按網(wǎng)頁中的自然行和DOM樹的葉子節(jié)點(diǎn)(由HTML標(biāo)簽分割的內(nèi)容)為單位提取頻繁序列模式的,對(duì)于雙語對(duì)不在同一行或被標(biāo)簽分開的網(wǎng)頁(如雙語翻譯對(duì)存在與表格中)就無法提取到正確的FSP,甚至提取不到FSP,則在分類時(shí)會(huì)將這類網(wǎng)頁分到非雙語網(wǎng)頁中去,從而對(duì)分類的準(zhǔn)確率有一部分影響。

    表2 網(wǎng)頁判別實(shí)驗(yàn)結(jié)果

    通過有雙語網(wǎng)頁判別和直接用頻繁序列模式提取雙語資源的對(duì)比實(shí)驗(yàn)可以看出,在雙語網(wǎng)頁判別的基礎(chǔ)上挖掘雙語資源具有較高的準(zhǔn)確性,這對(duì)于收集雙語資源,建立高質(zhì)量的雙語資源庫是有意義的,實(shí)驗(yàn)結(jié)果如表3所示。

    表3 雙語資源挖掘?qū)嶒?yàn)結(jié)果

    6 總結(jié)與未來工作

    本文描述了一種基于頻繁序列模式的Web雙語資源挖掘方法,該方法首先使用網(wǎng)頁中頻繁出現(xiàn)的含有兩種語言特征的序列模式為分類特征,用SVM實(shí)現(xiàn)網(wǎng)頁分類,然后在確定為雙語頁面的網(wǎng)頁中使用頻繁模式挖掘出雙語資源。實(shí)驗(yàn)證明該方法在雙語網(wǎng)頁分類和雙語資源挖掘的任務(wù)上有較好的性能。

    未來工作中,我們將進(jìn)行非自然行中頻繁模式提取的工作,考慮將模式疊加,以解決表格和非自然行雙語頁面分類的問題。并在雙語網(wǎng)頁分類的基礎(chǔ)上進(jìn)行雙語資源的挖掘,根據(jù)頻繁模式提取出高質(zhì)量對(duì)齊的雙語翻譯對(duì),建立雙語語料庫。

    [1] L. Jiang, S. Yang, M. Zhou, et. al. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Proceedings of 47th Annual Meeting of the Association for Computational Linguistics. ACL, 2009: 870-878.

    [2] Jisong Chen,Rowena Chau,and Chung-Hsing Yeh.Discovering parallel text from the World Wide Web[C]//Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Interllationalization.Australia, 2004: 157-161.

    [3] Philip Resnik and Noah A.Smith.The web as a parallel corpus[J].Computational Linguistics,29: 349-380.

    [4] Ying Zhang, Ke.Wu, Jianfeng Gao, et. al.Automatic acquisition of chinese-english parallel corpus from the web[C]//Proceedings of ECIR-06,28th European Conference on Information Retrieval. 2006.

    [5] G.H. Cao, J.F. Gao and J.Y. Nie. A system tomine large-scale bilingual dictionaries from monolingualweb pages[C]//Proceedings of MT summit XI: 57-64.

    [6] D. Lin, S. Zhao, B. Durme, et. al. Mining Parenthetical Translations from the Web by Word Alignment[C]//ACL 08, 2008: 994-1002.

    [7] 郭稷,呂雅娟,劉群.一種有效的基于Web的雙語翻譯對(duì)獲取方法[J].中文信息學(xué)報(bào),2008,22(6): 103-109.

    [8] G.H.Cao,J.F.Gao and J.Y.Nie. A System to Mine Large-Scale Bilingual Dictionaries from Monolingual web Pages[C]//Proceedings of MT Summit XI, 2007.

    [9] Lichun Sun, Mengchang Chen, et.al. Web Document Classification based on Tagged-Region Progressive Analysis[C]//Proceedings of the International Computer Symposium (ICS), 2004.

    [10] Choochart Haruechaiyasak, Meiling Shyu. Web Document Classification Based on Fuzzy Association[C]//Proceedings of the 26th International Computer Software and Applications Conference, 2002: 487-492.

    [11] Shyhming Tai, Chengzen Yang and Ingxian Chen. Improved Automatic Web-page Classification by Neighbor Text Percolation[C]//Proceedings of the 8th CSIM Conference on Information Management Research and Practice, 2002: 289-296.

    [12] 范焱,鄭誠,王清毅,等. 用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁[J]. 軟件學(xué)報(bào), 2001, 12 (9): 1386-1392.

    [13] 林政,呂雅娟,劉群,等. 基于雙語混和網(wǎng)頁的平行語料挖掘[C]//第十屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議,2009.

    [14] Cortes C, Vapnik V. Support vector networks [J]. Machine Learning, 1995, 20 (3): 273-297.

    [15] Agrawal R Srikant. Mining sequential patterns[C]//Proceedings of the 95 Int’1 Conf Data Engineering, Taipei, Taiwan, 1995: 73-98

    [16] 徐鳳亞, 羅振聲. 文本自動(dòng)分類中特征權(quán)重算法的改進(jìn)研究[J].計(jì)算機(jī)工程與應(yīng)用, 2005, 41(1): 181-184.

    猜你喜歡
    網(wǎng)頁雙語頁面
    大狗熊在睡覺
    刷新生活的頁面
    基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
    快樂雙語
    新晨(2013年7期)2014-09-29 06:19:50
    快樂雙語
    新晨(2013年5期)2014-09-29 06:19:50
    快樂雙語
    新晨(2013年10期)2014-09-29 02:50:54
    10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
    同一Word文檔 縱橫頁面并存
    亚洲国产欧美一区二区综合| 一级毛片电影观看| 国产毛片在线视频| 一本久久精品| 人妻一区二区av| 丝瓜视频免费看黄片| 人妻人人澡人人爽人人| 男的添女的下面高潮视频| av在线app专区| 国产99久久九九免费精品| 日本色播在线视频| 亚洲精品成人av观看孕妇| av又黄又爽大尺度在线免费看| 亚洲欧美一区二区三区黑人| 日韩精品免费视频一区二区三区| 99久国产av精品国产电影| 成人国产av品久久久| 日韩精品有码人妻一区| 亚洲精华国产精华液的使用体验| 精品卡一卡二卡四卡免费| 美女扒开内裤让男人捅视频| 免费女性裸体啪啪无遮挡网站| 极品少妇高潮喷水抽搐| 女人爽到高潮嗷嗷叫在线视频| 少妇人妻久久综合中文| 19禁男女啪啪无遮挡网站| 999久久久国产精品视频| 综合色丁香网| 99精品久久久久人妻精品| 久久久久久久久久久免费av| 亚洲精品第二区| 国产亚洲最大av| 午夜福利,免费看| 亚洲av综合色区一区| 国产一区二区 视频在线| 国产极品粉嫩免费观看在线| 免费高清在线观看日韩| 咕卡用的链子| 日韩av免费高清视频| 成人黄色视频免费在线看| 久久久久精品人妻al黑| 一区二区三区激情视频| 免费观看性生交大片5| 日韩制服骚丝袜av| 欧美精品人与动牲交sv欧美| 赤兔流量卡办理| 中文字幕制服av| 丝袜脚勾引网站| 亚洲国产中文字幕在线视频| 交换朋友夫妻互换小说| 丝袜喷水一区| 建设人人有责人人尽责人人享有的| 黄片播放在线免费| 国产精品秋霞免费鲁丝片| 午夜福利在线免费观看网站| 伦理电影大哥的女人| 乱人伦中国视频| 国产精品一区二区在线不卡| 亚洲激情五月婷婷啪啪| 黄色一级大片看看| 久久狼人影院| 亚洲精品第二区| 看免费av毛片| 国产激情久久老熟女| 一区二区三区精品91| 1024香蕉在线观看| av线在线观看网站| 日韩一区二区三区影片| 亚洲国产av影院在线观看| 亚洲一区二区三区欧美精品| 午夜福利一区二区在线看| 纯流量卡能插随身wifi吗| 国产老妇伦熟女老妇高清| 国产欧美日韩综合在线一区二区| 国产成人精品久久二区二区91 | 亚洲专区中文字幕在线 | 99国产精品免费福利视频| 麻豆精品久久久久久蜜桃| 女性被躁到高潮视频| 啦啦啦中文免费视频观看日本| 成人国产av品久久久| 欧美日韩成人在线一区二区| 亚洲精品久久成人aⅴ小说| 在线观看人妻少妇| 欧美日韩亚洲高清精品| 久久人人爽人人片av| 亚洲一区二区三区不卡视频| 色综合欧美亚洲国产小说| 欧美色视频一区免费| 啪啪无遮挡十八禁网站| 国产av一区二区精品久久| 精品电影一区二区在线| 成人精品一区二区免费| 两个人看的免费小视频| 午夜福利视频1000在线观看 | 国产精品久久视频播放| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲色图 男人天堂 中文字幕| 性色av乱码一区二区三区2| 久久婷婷人人爽人人干人人爱 | 欧美午夜高清在线| 91成人精品电影| 久久香蕉精品热| 欧美不卡视频在线免费观看 | 亚洲片人在线观看| 黑人巨大精品欧美一区二区蜜桃| 麻豆成人av在线观看| 岛国在线观看网站| av电影中文网址| 欧美日本视频| 免费观看精品视频网站| 久久精品国产99精品国产亚洲性色 | 久久中文字幕一级| 天堂√8在线中文| 日本欧美视频一区| 自线自在国产av| 亚洲专区国产一区二区| 久久精品国产99精品国产亚洲性色 | 精品国产美女av久久久久小说| 国产精品久久久久久亚洲av鲁大| 亚洲国产欧美日韩在线播放| 亚洲欧美精品综合一区二区三区| 欧美乱码精品一区二区三区| www.熟女人妻精品国产| 欧美一级毛片孕妇| 国产亚洲欧美98| 黄色片一级片一级黄色片| 好男人在线观看高清免费视频 | 国产三级黄色录像| 99热只有精品国产| 欧美黑人精品巨大| 国产xxxxx性猛交| 亚洲av成人不卡在线观看播放网| 嫩草影视91久久| 国产高清视频在线播放一区| 亚洲专区国产一区二区| 久久久久国产精品人妻aⅴ院| 欧美绝顶高潮抽搐喷水| 日日夜夜操网爽| 一级毛片女人18水好多| 91大片在线观看| 校园春色视频在线观看| 99久久国产精品久久久| 午夜免费激情av| 亚洲av熟女| 国产亚洲精品久久久久5区| 亚洲精品国产精品久久久不卡| 欧美黑人欧美精品刺激| 日韩欧美三级三区| 午夜免费观看网址| 国产免费av片在线观看野外av| 久久久国产欧美日韩av| 亚洲全国av大片| 亚洲 国产 在线| 午夜视频精品福利| 12—13女人毛片做爰片一| 亚洲欧美激情在线| 午夜福利影视在线免费观看| 搡老熟女国产l中国老女人| 亚洲国产欧美网| 成熟少妇高潮喷水视频| 国产精品亚洲av一区麻豆| 国内精品久久久久久久电影| 美女 人体艺术 gogo| tocl精华| 午夜精品在线福利| 久久精品成人免费网站| 麻豆av在线久日| 十八禁人妻一区二区| 午夜福利视频1000在线观看 | 国产成+人综合+亚洲专区| 成人欧美大片| 免费高清在线观看日韩| 国产成人精品在线电影| 黄色视频不卡| 欧美日韩中文字幕国产精品一区二区三区 | 日韩精品青青久久久久久| 日韩精品青青久久久久久| 久久欧美精品欧美久久欧美| 女人高潮潮喷娇喘18禁视频| 91字幕亚洲| 大型黄色视频在线免费观看| 97碰自拍视频| 亚洲少妇的诱惑av| 一级a爱片免费观看的视频| 亚洲国产精品999在线| 村上凉子中文字幕在线| 久久人人精品亚洲av| 亚洲欧美日韩无卡精品| 国产精品香港三级国产av潘金莲| 日韩精品免费视频一区二区三区| 免费少妇av软件| 午夜福利欧美成人| 日韩欧美一区视频在线观看| 国产欧美日韩一区二区三| 国产精品一区二区三区四区久久 | 黄色成人免费大全| 亚洲熟女毛片儿| 国产一级毛片七仙女欲春2 | 亚洲一区中文字幕在线| 老司机在亚洲福利影院| 成人特级黄色片久久久久久久| 在线观看66精品国产| 亚洲欧美激情在线| 麻豆久久精品国产亚洲av| 久久婷婷成人综合色麻豆| 午夜福利高清视频| 国产精品1区2区在线观看.| 中文亚洲av片在线观看爽| 妹子高潮喷水视频| 国产成人欧美| 伊人久久大香线蕉亚洲五| 纯流量卡能插随身wifi吗| 国产野战对白在线观看| 久久天堂一区二区三区四区| 国产欧美日韩一区二区三| 欧美黄色片欧美黄色片| 美女高潮到喷水免费观看| 亚洲性夜色夜夜综合| 免费看美女性在线毛片视频| 精品免费久久久久久久清纯| 99香蕉大伊视频| av福利片在线| 可以免费在线观看a视频的电影网站| 日本在线视频免费播放| 国产精品电影一区二区三区| 国产区一区二久久| 免费在线观看亚洲国产| www.www免费av| tocl精华| 久久精品国产99精品国产亚洲性色 | 久久天躁狠狠躁夜夜2o2o| 成人手机av| 精品国产一区二区久久| 极品人妻少妇av视频| 久久这里只有精品19| 三级毛片av免费| 人妻久久中文字幕网| 两个人看的免费小视频| 亚洲国产欧美网| 色婷婷久久久亚洲欧美| 一边摸一边抽搐一进一出视频| 亚洲人成网站在线播放欧美日韩| 日韩免费av在线播放| 国产野战对白在线观看| 欧美午夜高清在线| 国产黄a三级三级三级人| 精品久久久久久久毛片微露脸| 高清黄色对白视频在线免费看| 18禁裸乳无遮挡免费网站照片 | 久久婷婷人人爽人人干人人爱 | 日本三级黄在线观看| 我的亚洲天堂| 成人永久免费在线观看视频| 一二三四在线观看免费中文在| 大型黄色视频在线免费观看| 在线视频色国产色| 免费av毛片视频| videosex国产| 一级片免费观看大全| 性色av乱码一区二区三区2| 亚洲五月婷婷丁香| 操美女的视频在线观看| www.熟女人妻精品国产| 日日爽夜夜爽网站| 午夜福利,免费看| 久久天躁狠狠躁夜夜2o2o| 一边摸一边抽搐一进一小说| 在线av久久热| 国产片内射在线| 亚洲中文日韩欧美视频| 激情在线观看视频在线高清| 成人av一区二区三区在线看| 欧美av亚洲av综合av国产av| 国产91精品成人一区二区三区| 亚洲性夜色夜夜综合| 桃红色精品国产亚洲av| 夜夜夜夜夜久久久久| 中文字幕最新亚洲高清| 黑人操中国人逼视频| 亚洲欧美精品综合一区二区三区| 国产欧美日韩一区二区三区在线| 美女大奶头视频| 在线天堂中文资源库| 一级片免费观看大全| 国产麻豆69| 国产97色在线日韩免费| 国产日韩一区二区三区精品不卡| 国产亚洲精品综合一区在线观看 | 亚洲av电影在线进入| 日韩高清综合在线| 亚洲人成伊人成综合网2020| 亚洲欧洲精品一区二区精品久久久| 搡老熟女国产l中国老女人| 激情视频va一区二区三区| 午夜影院日韩av| 欧美日本中文国产一区发布| 日韩视频一区二区在线观看| 中亚洲国语对白在线视频| 非洲黑人性xxxx精品又粗又长| 国产精品一区二区在线不卡| 成人永久免费在线观看视频| 国产一区二区三区视频了| 男女下面进入的视频免费午夜 | 国产99白浆流出| 丁香欧美五月| 国产精品九九99| 免费看十八禁软件| 成年女人毛片免费观看观看9| 91老司机精品| 曰老女人黄片| 午夜影院日韩av| 久久香蕉国产精品| 免费看十八禁软件| 在线av久久热| 精品久久久久久久人妻蜜臀av | 午夜福利18| 人人妻人人爽人人添夜夜欢视频| 亚洲国产精品成人综合色| av片东京热男人的天堂| 最近最新中文字幕大全电影3 | 热99re8久久精品国产| 久久久久久久久免费视频了| 欧美精品啪啪一区二区三区| 国产精品影院久久| 国产一区二区在线av高清观看| www.www免费av| 大码成人一级视频| 久久 成人 亚洲| 妹子高潮喷水视频| 精品一品国产午夜福利视频| 黑丝袜美女国产一区| 成年人黄色毛片网站| 国内久久婷婷六月综合欲色啪| 一本综合久久免费| 韩国精品一区二区三区| 男女床上黄色一级片免费看| 色播亚洲综合网| 成年女人毛片免费观看观看9| netflix在线观看网站| 麻豆久久精品国产亚洲av| 久久精品国产亚洲av香蕉五月| 亚洲精品中文字幕一二三四区| 极品人妻少妇av视频| 免费在线观看日本一区| 国产亚洲精品久久久久久毛片| 亚洲片人在线观看| 国产伦人伦偷精品视频| 精品无人区乱码1区二区| 窝窝影院91人妻| 亚洲电影在线观看av| 婷婷六月久久综合丁香| 国产成人精品无人区| 最新在线观看一区二区三区| 免费一级毛片在线播放高清视频 | 大型av网站在线播放| 国内精品久久久久久久电影| 91精品国产国语对白视频| 国产高清视频在线播放一区| 男女床上黄色一级片免费看| 国产成人影院久久av| 国产片内射在线| 一二三四在线观看免费中文在| 中文字幕人成人乱码亚洲影| 男女之事视频高清在线观看| 欧美丝袜亚洲另类 | 黄色视频,在线免费观看| 最新美女视频免费是黄的| 国产精品久久久av美女十八| 天堂动漫精品| 人人澡人人妻人| 国产精品亚洲一级av第二区| 亚洲久久久国产精品| 校园春色视频在线观看| 身体一侧抽搐| 俄罗斯特黄特色一大片| 精品国产一区二区久久| 久久久久久免费高清国产稀缺| 亚洲狠狠婷婷综合久久图片| 亚洲欧美激情综合另类| 亚洲国产日韩欧美精品在线观看 | 母亲3免费完整高清在线观看| 99久久综合精品五月天人人| 熟妇人妻久久中文字幕3abv| 欧美在线黄色| 母亲3免费完整高清在线观看| 色av中文字幕| 老熟妇乱子伦视频在线观看| 久久精品aⅴ一区二区三区四区| 亚洲aⅴ乱码一区二区在线播放 | 日本免费一区二区三区高清不卡 | 正在播放国产对白刺激| 国产亚洲av高清不卡| 国产av一区二区精品久久| 麻豆av在线久日| 国产片内射在线| 亚洲三区欧美一区| 99热只有精品国产| 给我免费播放毛片高清在线观看| 日韩欧美国产在线观看| 激情视频va一区二区三区| 人人妻人人爽人人添夜夜欢视频| 制服诱惑二区| 午夜福利成人在线免费观看| 手机成人av网站| 国产蜜桃级精品一区二区三区| 麻豆av在线久日| 黄色a级毛片大全视频| 一区二区三区高清视频在线| 国产精品日韩av在线免费观看 | 欧美日韩黄片免| 国产一区二区三区综合在线观看| 午夜精品久久久久久毛片777| 国产成人免费无遮挡视频| 亚洲伊人色综图| 免费女性裸体啪啪无遮挡网站| 欧美色欧美亚洲另类二区 | 亚洲熟妇中文字幕五十中出| 在线观看日韩欧美| 久久青草综合色| www.自偷自拍.com| 俄罗斯特黄特色一大片| 色综合欧美亚洲国产小说| 又紧又爽又黄一区二区| 欧美黄色片欧美黄色片| 欧美人与性动交α欧美精品济南到| 麻豆一二三区av精品| 欧美日本亚洲视频在线播放| 两个人视频免费观看高清| 亚洲男人的天堂狠狠| 亚洲国产高清在线一区二区三 | 777久久人妻少妇嫩草av网站| 国产精品久久久久久精品电影 | 亚洲欧美一区二区三区黑人| 精品久久久久久成人av| 夜夜看夜夜爽夜夜摸| 欧美激情极品国产一区二区三区| 熟女少妇亚洲综合色aaa.| 99精品在免费线老司机午夜| 欧美黑人精品巨大| 91麻豆av在线| 色在线成人网| 国产97色在线日韩免费| 成人国产一区最新在线观看| 嫁个100分男人电影在线观看| 欧美性长视频在线观看| 黄色视频,在线免费观看| 亚洲中文日韩欧美视频| 淫秽高清视频在线观看| 亚洲国产欧美网| 国产一区二区激情短视频| 淫妇啪啪啪对白视频| 国产精品二区激情视频| 亚洲avbb在线观看| 男女做爰动态图高潮gif福利片 | 夜夜躁狠狠躁天天躁| 岛国视频午夜一区免费看| a级毛片在线看网站| 久久久久国产精品人妻aⅴ院| 免费观看人在逋| 色播在线永久视频| 露出奶头的视频| 日韩大尺度精品在线看网址 | 欧美久久黑人一区二区| 久热这里只有精品99| 午夜福利成人在线免费观看| 午夜免费成人在线视频| 18禁黄网站禁片午夜丰满| 老司机靠b影院| 高清毛片免费观看视频网站| 成人国产综合亚洲| 制服丝袜大香蕉在线| 午夜日韩欧美国产| 国产午夜精品久久久久久| 我的亚洲天堂| 亚洲成人国产一区在线观看| 久久伊人香网站| 99re在线观看精品视频| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲成人精品中文字幕电影| 很黄的视频免费| 老熟妇仑乱视频hdxx| 国产熟女午夜一区二区三区| 亚洲 欧美 日韩 在线 免费| 久久天躁狠狠躁夜夜2o2o| 侵犯人妻中文字幕一二三四区| 一个人观看的视频www高清免费观看 | 欧美激情极品国产一区二区三区| 淫妇啪啪啪对白视频| 黄片小视频在线播放| svipshipincom国产片| avwww免费| 亚洲男人的天堂狠狠| 欧美黑人精品巨大| 中文字幕色久视频| 国产精品久久久av美女十八| 国产亚洲欧美98| 两个人免费观看高清视频| 亚洲 欧美一区二区三区| 黄频高清免费视频| 亚洲中文字幕日韩| 夜夜夜夜夜久久久久| 他把我摸到了高潮在线观看| 国产1区2区3区精品| 国产成人精品无人区| 色哟哟哟哟哟哟| 欧美中文日本在线观看视频| 黄片小视频在线播放| 精品国产国语对白av| 亚洲精华国产精华精| 日韩免费av在线播放| 国产亚洲欧美精品永久| 19禁男女啪啪无遮挡网站| 欧美日韩瑟瑟在线播放| 久9热在线精品视频| 美女免费视频网站| 啦啦啦观看免费观看视频高清 | 日韩中文字幕欧美一区二区| 精品一区二区三区四区五区乱码| av视频免费观看在线观看| 成人精品一区二区免费| 日本 欧美在线| 日本免费一区二区三区高清不卡 | 长腿黑丝高跟| 两性午夜刺激爽爽歪歪视频在线观看 | 久久中文看片网| 欧美日本视频| 高清毛片免费观看视频网站| 男女午夜视频在线观看| 九色国产91popny在线| 丝袜美腿诱惑在线| 精品国产超薄肉色丝袜足j| 亚洲一区高清亚洲精品| 亚洲成av片中文字幕在线观看| 一本大道久久a久久精品| 男人的好看免费观看在线视频 | 欧美+亚洲+日韩+国产| 午夜成年电影在线免费观看| 午夜福利免费观看在线| 黑人巨大精品欧美一区二区mp4| 亚洲欧美激情综合另类| 18禁国产床啪视频网站| 午夜福利影视在线免费观看| 两性夫妻黄色片| 亚洲第一av免费看| 国产激情欧美一区二区| 老鸭窝网址在线观看| 黑人巨大精品欧美一区二区蜜桃| 国产高清videossex| 嫩草影院精品99| 午夜两性在线视频| 精品欧美国产一区二区三| 91成人精品电影| 国产激情久久老熟女| 亚洲第一青青草原| 日日摸夜夜添夜夜添小说| 又黄又粗又硬又大视频| 男女床上黄色一级片免费看| 午夜日韩欧美国产| 大陆偷拍与自拍| 国产精品乱码一区二三区的特点 | 欧美久久黑人一区二区| 国产黄a三级三级三级人| 丁香六月欧美| 国产精品自产拍在线观看55亚洲| 无限看片的www在线观看| 两个人视频免费观看高清| 国产乱人伦免费视频| 国产精品久久视频播放| 精品一区二区三区视频在线观看免费| 国产色视频综合| 欧美+亚洲+日韩+国产| 国产单亲对白刺激| 国产免费av片在线观看野外av| 高潮久久久久久久久久久不卡| 久久久久久久午夜电影| 国产成+人综合+亚洲专区| 免费搜索国产男女视频| 激情视频va一区二区三区| 18禁黄网站禁片午夜丰满| 无遮挡黄片免费观看| 多毛熟女@视频| www.999成人在线观看| netflix在线观看网站| 亚洲一码二码三码区别大吗| 国产亚洲精品久久久久久毛片| 在线观看日韩欧美| 午夜福利18| 国产片内射在线| 久久香蕉国产精品| 两性午夜刺激爽爽歪歪视频在线观看 | 国产激情欧美一区二区| 极品教师在线免费播放| 亚洲色图av天堂| 国产成人影院久久av| 91字幕亚洲| 精品日产1卡2卡| 国产私拍福利视频在线观看| 真人做人爱边吃奶动态| а√天堂www在线а√下载| 亚洲自拍偷在线| 老司机午夜福利在线观看视频| 日韩欧美一区视频在线观看| 美国免费a级毛片| 后天国语完整版免费观看| 精品人妻在线不人妻| 国产成+人综合+亚洲专区| 久久中文字幕人妻熟女| 久久国产精品人妻蜜桃| а√天堂www在线а√下载| 精品福利观看| 成人国语在线视频| 亚洲成人国产一区在线观看| 中文字幕精品免费在线观看视频| 最近最新中文字幕大全免费视频|