• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于統(tǒng)計學(xué)習(xí)模型的句法分析方法綜述

    2013-04-23 10:15:00吳偉成周俊生曲維光
    中文信息學(xué)報 2013年3期
    關(guān)鍵詞:子樹短語準(zhǔn)確率

    吳偉成,周俊生,曲維光,2

    (1.南京師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023;2. 南京大學(xué) 計算機軟件新技術(shù)國家重點實驗室,江蘇 南京 210023)

    1 引言

    句法分析是自然語言處理的核心技術(shù),是對語言進行深層理解的基石。句法分析的任務(wù)是識別出句子所包含的句法成分以及這些成分之間的關(guān)系,一般以句法樹來表示句法分析的結(jié)果。從20世紀(jì)50年代初機器翻譯課題被提出算起,自然語言處理研究已經(jīng)有60年歷史,句法分析一直是阻礙自然語言處理前進的巨大障礙。句法分析主要有以下兩大難點:

    第一為歧義。自然語言區(qū)別于人工語言的一個重要的特點就是它存在大量的歧義現(xiàn)象。人類自身可以依靠大量的先驗知識有效地消除各種歧義,而機器由于在知識表示和獲取方面還存在嚴(yán)重不足,很難像人類那樣進行句法分析消歧。

    第二為搜索空間。句法分析是一個極為復(fù)雜的任務(wù),候選樹個數(shù)隨句子長度呈指數(shù)級增長,搜索空間巨大。因此,必須設(shè)計出合適的解碼器,以確保能夠在可以容忍的時間內(nèi)搜索到模型定義的最優(yōu)解或者近似解。

    句法分析方法可以簡單地分為基于規(guī)則的方法和基于統(tǒng)計的方法兩大類。基于規(guī)則的方法在處理大規(guī)模真實文本時,會存在語法規(guī)則覆蓋度有限、系統(tǒng)可遷移性差等缺陷。隨著大規(guī)模標(biāo)注樹庫的建立,基于統(tǒng)計學(xué)習(xí)模型的句法分析方法開始興起,句法分析器的性能不斷提高,最典型的就是風(fēng)靡于20世紀(jì)70年代的PCFG(Probabilistic Context Free Grammar,簡稱PCFG),它在句法分析領(lǐng)域得到了極大應(yīng)用。統(tǒng)計句法分析模型本質(zhì)上是一套面向候選樹的評價方法,給正確的句法樹賦予一個較高的分值,而給不合理的句法樹賦予一個較低的分值,這樣就可以借用候選句法樹的分值進行消歧。

    近些年來,基于統(tǒng)計學(xué)習(xí)模型的句法分析方法受到了研究者們的廣泛關(guān)注而迅速成為研究熱點,多種模型與算法先后被提出。本文依據(jù)采用的學(xué)習(xí)模型和算法類型,將各種統(tǒng)計句法分析模型歸為以下五類,試圖建立起基于統(tǒng)計學(xué)習(xí)模型的句法分析方法研究的發(fā)展概貌。

    (1) 基于PCFG的生成式句法分析模型?;赑CFG的生成式句法分析模型是利用PCFG規(guī)則所提供的概率信息來得到生成式模型所定義的最優(yōu)樹,解碼方式一般采用線圖算法。按照PCFG規(guī)則形式,基于PCFG的生成式句法分析模型主要有三類方法: 基于單純PCFG的句法分析方法、基于詞匯化PCFG的句法分析方法、基于子類劃分PCFG的句法分析方法。

    (2) 基于豐富特征的判別式句法分析模型?;谪S富特征的判別式句法分析模型是將機器學(xué)習(xí)領(lǐng)域內(nèi)性能良好的判別式結(jié)構(gòu)化預(yù)測方法應(yīng)用于句法分析領(lǐng)域,目前主要有基于大間隔(max-margin)分析方法和基于CRF的句法分析方法。

    (3) 基于移進—歸約(shift-reduce)決策的句法分析模型。基于移進—歸約決策句法分析模型是從計算機高級語言的編譯原理中推廣而來,利用分類器對移進和歸約決策進行判定,句法分析過程一般采用自底向上、從左到右的方式。

    (4) 面向數(shù)據(jù)的句法分析模型(Data Oriented Parsing,簡稱DOP)。DOP模型是建立在子樹樹庫的基礎(chǔ)上,通過組合樹庫中子樹來完成句法分析。目前主要有兩類方法: 基于STSG-DOP (Stochastic Tree Substitution Grammar,簡稱STSG)方法和基于PCFG-DOP方法。

    (5) 多句法分析器的組合。多句法分析器組合是針對單一模型的局限性所作出的改進,對多個高精度的句法分析器輸出的結(jié)果進行合成。目前的合成方式主要有子樹重組合和候選樹重排序。

    本文首先概要介紹關(guān)于句法分析的數(shù)據(jù)集與評測方法; 然后重點闡述以上五種句法分析模型,著重對各類模型和算法思想進行分析和對比;接下來,對中文句法分析的研究現(xiàn)狀進行綜述;最后,對句法分析下一步的研究方向與趨勢進行展望,特別針對中文句法分析,給出我們的一些想法。

    2 句法分析的數(shù)據(jù)集與評測方法

    2.1 句法分析的數(shù)據(jù)集

    目前研究者使用最多的樹庫來自于美國賓夕法尼亞大學(xué)加工的英文賓州樹庫(Penn TreeBank,簡稱PTB)[1]。PTB前身為ATIS(Air Travel Information System,簡稱ATIS)和WSJ(Wall Street Journal,簡稱WSJ)樹庫,具有較高的一致性和標(biāo)注準(zhǔn)確性,是目前研究英文句法分析所公認的標(biāo)注語料庫。

    中文樹庫建設(shè)較晚,比較著名的有中文賓州樹庫(Chinese TreeBank,簡稱CTB)[2]、清華樹庫(Tsinghua Chinese TreeBank,簡稱TCT)[3]、中國臺灣“中研院”樹庫(Sinica TreeBank)[4]。CTB是賓夕法尼亞大學(xué)標(biāo)注的漢語句法樹庫,目前絕大多數(shù)的中文句法分析研究均以CTB為基準(zhǔn)語料庫。TCT是清華大學(xué)計算機系智能技術(shù)與系統(tǒng)國家重點實驗室人員從漢語平衡語料庫中提取出100萬漢字規(guī)模的語料文本,經(jīng)過自動句法分析和人工校對,形成高質(zhì)量的標(biāo)注有完整句法結(jié)構(gòu)的中文句法樹庫語料。Sinica TreeBank是中國臺灣“中研院”詞庫小組從中研院平衡語料庫(Sinica Corpus)中抽取句子,經(jīng)由電腦自動分析成句法樹,并加以人工修改、檢驗后所得的成果。

    2.2 句法分析的評測方法

    目前比較主流的句法分析評測方法是PARSEVAL評測體系[5],它是一種粒度比較適中、較為理想的評價方法,主要指標(biāo)有準(zhǔn)確率(precision)、召回率(recall)、交叉括號數(shù)(crossing brackets)。

    準(zhǔn)確率表示分析正確的短語個數(shù)在句法分析的結(jié)果中所占的比例,即分析結(jié)果中與標(biāo)準(zhǔn)句法樹中的短語相匹配的個數(shù)占分析結(jié)果中所有短語個數(shù)的比例。

    召回率表示分析得到正確的短語個數(shù)在標(biāo)準(zhǔn)分析樹全部短語個數(shù)所占的比例。

    交叉括號表示分析得到的某一個短語的覆蓋范圍與標(biāo)準(zhǔn)句法分析結(jié)果的某個短語的覆蓋范圍存在重疊又不存在包含關(guān)系,即構(gòu)成了一個交叉括號。

    除以上定義指標(biāo)外,F(xiàn)1值也經(jīng)常被用來衡量句法分析器性能。

    3 基于PCFG的生成式句法分析模型

    基于PCFG的生成式句法分析模型是目前研究最為充分、形式最為簡單的統(tǒng)計句法分析模型,最優(yōu)樹Tbest一般采用概率生成式模型計算,如式(1)所示:

    聯(lián)合概率P(T,S)一般是候選句法樹T中所用規(guī)則LHS→RHS的概率乘積,如式(2)所示:

    本文按照PCFG規(guī)則形式,將基于PCFG的生成式句法分析模型分為三類方法: 基于單純PCFG的句法分析方法[6]、基于詞匯化PCFG的句法分析方法[6-11]、基于子類劃分PCFG的句法分析方法[12-15]?;趩渭働CFG的句法分析方法在計算樹的概率時引入三個基本假設(shè): 位置不變性(place invariance) 假設(shè)、上下文無關(guān)性(context-free) 假設(shè)、祖先節(jié)點無關(guān)性 (ancestor-free) 假設(shè),它的規(guī)則形式最為簡單。基于詞匯化PCFG的句法分析方法和基于子類劃分PCFG的句法分析方法,是對單純PCFG方法的改進,主要表現(xiàn)在對單純PCFG所做的三個獨立性假設(shè)進行突破。基于詞匯化PCFG的句法分析方法將短語標(biāo)記與其某個單詞(一般為它的中心詞)相關(guān)聯(lián),引入詞匯信息進行消歧?;谧宇悇澐諴CFG的句法分析方法引入上下文信息對短語標(biāo)記進行細分,具體做法有利用語言學(xué)知識自定義規(guī)則來細分短語標(biāo)記[12-13]和利用機器學(xué)習(xí)算法自動對短語標(biāo)記進行劃分[14-15]。若無特殊說明,以下報告的結(jié)果均來自于如下實驗設(shè)置: 訓(xùn)練集WSJ 02-21;測試集WSJ 23。

    3.1 基于單純PCFG的句法分析方法

    文獻[6]實現(xiàn)了一種基于單純PCFG的句法分析方法,實驗結(jié)果為: 召回率70.6%,準(zhǔn)確率74.8%。結(jié)果并不理想的主要原因在于它所引入的三個基本假設(shè)并不符合實際語言情況,難以解決需要上下文信息才可以消除的句法歧義。為了突破PCFG所做的獨立性假設(shè),出現(xiàn)了詞匯化PCFG方法和子類劃分PCFG方法。

    3.2 基于詞匯化PCFG的句法分析方法

    針對單純PCFG性能低下問題,文獻[6]將每個短語標(biāo)記引入詞匯信息,詞匯化PCFG的實驗結(jié)果為: 召回率86.7%,準(zhǔn)確率86.6%。同單純PCFG方法相比,召回率和準(zhǔn)確率分別提高了16.1%和11.8%。

    為了解決詞匯化PCFG后所帶來的數(shù)據(jù)稀疏問題,目前比較成功的方法有用類似最大熵方式來計算規(guī)則概率[7]和利用馬爾可夫過程對規(guī)則進行分解[8]。最大熵優(yōu)點在于可以考慮更多的特征,而且可以采用刪除插值(deleted interpolation)平滑方法來解決數(shù)據(jù)稀疏問題。受最大熵啟發(fā),可以用類似最大熵的方式來計算規(guī)則概率,但該方法計算出來的概率不再嚴(yán)格歸一,只能看作是評價句法樹可能性的分值。該方法的實驗結(jié)果為:召回率89.6%,準(zhǔn)確率89.5%。中心詞驅(qū)動模型(head-driven model)將每一條規(guī)則看作一個馬爾可夫過程,即首先由父節(jié)點生成中心子節(jié)點,然后自右向左依次生成中心子節(jié)點左邊節(jié)點,最后自左向右依次生成中心子節(jié)點右部節(jié)點。利用馬爾可夫過程對規(guī)則進行分解后,極大緩解了數(shù)據(jù)稀疏問題,該方法的實驗結(jié)果為:召回率88.1%,準(zhǔn)確率88.3%。

    為了進一步提高詞匯化PCFG句法分析器的性能,可以將重排序(reranking)方法引入到句法分析中,但該方法需要一個高精度的基準(zhǔn)句法分析器(baseline parser),比較典型的是Collins(1999)[8]中的模型2和Charniak(2000)[7]。Collins(1999)中的模型2采用基于Boosting方法[9]重排序后的結(jié)果為:召回率89.6%,準(zhǔn)確率89.9%,采用樹核方法重排序后的結(jié)果為:召回率88.6%,準(zhǔn)確率88.9%,雖然結(jié)果略低于前者,但算法效率得到了提高[10]。Charniak(2000)采用最大熵方法[11]重排序后的F1值為91.0%。

    3.3 基于子類劃分PCFG的句法分析方法

    與單純PCFG方法相比,詞匯化PCFG方法取得了一定的成功,但同時也產(chǎn)生了非常嚴(yán)重的三大問題: 規(guī)則數(shù)量急劇上升、數(shù)據(jù)稀疏問題嚴(yán)重、解析算法復(fù)雜度增加。于是,人們不禁要問: 研究者有沒有高估詞匯信息在句法分析的作用,非詞匯化PCFG方法是否還有提高的潛能?文獻[12]研究了句法樹表示方法與PCFG性能之間的關(guān)系,在理論和實踐上說明了基于PCFG的句法分析器的性能會隨著句法樹表示方法的不同而急劇變化。通過為句法樹中的每個結(jié)點引入其父節(jié)點短語標(biāo)記,句法分析的F1值就可以提高8個百分點。該實驗結(jié)果表明: 樹庫中的短語標(biāo)記粒度過粗,區(qū)分度不夠,缺少用于消歧的上下文信息。

    根據(jù)短語在句法樹中的上下文信息,可以自定義規(guī)則對短語標(biāo)記進行細分,所利用的上下文信息一般包括父節(jié)點和兄弟節(jié)點短語標(biāo)記等。文獻[13]在整個實驗中,除詞性標(biāo)注外,未使用任何詞匯信息,實驗結(jié)果為: 召回率85.1%,準(zhǔn)確率86.3%。雖然性能劣于詞匯化PCFG方法,但該方法非常簡單、容易理解、易于實現(xiàn)。因此,文獻[13]獲得了2003年ACL大會的最佳論文獎。

    利用EM算法可以自動對短語標(biāo)記進行劃分[14-15]。它首先為原始規(guī)則A→BC中短語標(biāo)記分別標(biāo)注一個整數(shù)類別x、y、z,然后在E步,計算標(biāo)注規(guī)則的期望次數(shù),如式(3)所示:

    其中,Pout和PIn分別為內(nèi)部概率和外部概率;r、s和t為規(guī)則的跨度(span);

    在M步,通過以上得到的期望次數(shù)去更新規(guī)則概率,如式(4)所示:

    可以每次將短語標(biāo)記劃分為兩個子類,然后合并區(qū)分不大的劃分。該方法實驗中使用子類劃分后的樹庫語料,實驗結(jié)果為: 召回率89.9%,準(zhǔn)確率90.2%。

    4 基于豐富特征的判別式句法分析模型

    隨著機器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,多種結(jié)構(gòu)化學(xué)習(xí)模型先后被提出。判別式的結(jié)構(gòu)化學(xué)習(xí)模型具有可以融合大量有效特征,且能避免在生成式學(xué)習(xí)模型中需引入的獨立性假設(shè)等優(yōu)點,在實際應(yīng)用中一般比生成式方法性能要好。基于豐富特征的判別式句法分析模型是將機器學(xué)習(xí)領(lǐng)域內(nèi)的判別式結(jié)構(gòu)化學(xué)習(xí)模型應(yīng)用于句法分析領(lǐng)域,并借用豐富特征來消解句法分析過程中所產(chǎn)生的歧義。目前主要有基于大間隔的句法分析方法[16]和基于CRF的句法分析方法[17]。

    4.1 基于大間隔的句法分析方法

    大間隔馬爾可夫網(wǎng)絡(luò)(Max-Margin Markov Networks,簡稱M3N)融合了SVM的大間隔理論與概率圖模型處理結(jié)構(gòu)關(guān)系的能力[18],可以解決復(fù)雜的結(jié)構(gòu)化預(yù)測問題,因此可以將它應(yīng)用到句法分析上[16]。

    判別函數(shù)采用如下形式:

    其中,Φ(x,y)代表與x相對應(yīng)的句法樹y的特征向量;w代表特征權(quán)重;

    間隔定義為樣本與輸出y在權(quán)值w上的差值。如式(6)所示:

    然后最小化權(quán)重w:

    (7)

    其中Li,y為損失函數(shù),ξi為松弛變量。

    以上優(yōu)化問題的對偶形式為:

    (8)

    其中Ii,y=I(xi,yi,y),指示y與yi是否相同;

    主問題的解w*就是正確和錯誤句法樹特征向量的線性組合,如式(9)所示:

    其中α*是對偶問題的解。

    由于主公式和對偶公式中的變量個數(shù)隨句子長度呈指數(shù)級增長,因此該文對模型進行了分解,將參數(shù)數(shù)目降為多項式級,最終用類似SMO的方式進行參數(shù)學(xué)習(xí)。該模型在WSJ15(長度小于等于15的句子)上的實驗結(jié)果為: 召回率89.1%,準(zhǔn)確率89.1%。

    針對M3N模型訓(xùn)練速度問題,可以采用多個獨立而且可以并行訓(xùn)練的二元分類器來代替它,每個二元分類器用于識別一個短語標(biāo)記,句法分析任務(wù)就是通過組合這些分類器來完成,因此分類器的訓(xùn)練速度可以得到很大提高[19-20]。該方法在WSJ15上的實驗結(jié)果為: 召回率89.2%,準(zhǔn)確率89.6%。

    4.2 基于CRF的句法分析方法

    與基于PCFG的生成式模型相比,采用CRF模型進行句法分析,主要不同點在于產(chǎn)生式的概率計算方法和概率歸一化的方式[17]。該模型最大化句法樹的條件概率值而不是聯(lián)合概率值,并且對概率進行全局歸一化。

    候選句法樹的概率估算形式如式(10):

    互聯(lián)網(wǎng)的出現(xiàn),改變了我們的生活方式與學(xué)習(xí)方式,也對教育行業(yè)提出了新的挑戰(zhàn),近年來,網(wǎng)絡(luò)教學(xué)已經(jīng)受到越來越多國內(nèi)外高校的重視網(wǎng)絡(luò),網(wǎng)絡(luò)與教育相結(jié)合的呼聲日益高漲?!禞ava程序設(shè)計》課程是計算機專業(yè)的主修設(shè)計課程之一,是一門概念抽象且注重實踐性的專業(yè)課程。對于該課程來說,傳統(tǒng)的教學(xué)模式比較單一,課程講解起來不易理解,如何將泛雅平臺應(yīng)用于《Java程序設(shè)計》課程的教學(xué)成了各大高校的重中之重。

    團勢函數(shù)(clique potentials) 采用的是指數(shù)形式:

    訓(xùn)練數(shù)據(jù)的log似然值為:

    以上log似然值對θi求偏導(dǎo)數(shù)就是特征的經(jīng)驗期望與模型期望之間的差值:

    該模型在WSJ15實驗結(jié)果為: 召回率90.4%;準(zhǔn)確率為91.4%,在整個測試集上實驗結(jié)果為: 召回率87.8%,準(zhǔn)確率88.2%。

    5 基于移進—歸約決策的句法分析模型

    基于移進—歸約決策句法分析模型是用一個寄存符號的先進后出的棧S,把存在隊列Q里面的輸入符號一個一個地移進到棧里,當(dāng)棧頂形成某個規(guī)則的一個候選式時,就把棧頂?shù)倪@一部分歸約為該規(guī)則的左部符號。決策判定,即執(zhí)行移進還是歸約動作,是由分類器根據(jù)當(dāng)前句法分析狀態(tài)(S和Q的內(nèi)容)給出。由此可見,移進—歸約決策句法分析采用了自底向上、從左到右的分析過程。該方法的句法分析時間復(fù)雜度為O(n),其中n是句子長度[21]。

    早期移進—歸約決策的句法分析器中采用right、left、up、unary、 root五類決策類別[22-23]。right up left分別表示新節(jié)點的起始節(jié)點、中間節(jié)點、末節(jié)點,即right up left 表示可以歸為一個新的短語,unary表示要進行一元歸約,root表示句法分析任務(wù)結(jié)束。早期主要有采用決策樹和最大熵對以上類別進行分類。決策樹所用到的特征包括了詞的類別,這些類別需要用聚類方法得到,花費的計算代價很高,解碼過程分兩階段完成,雖然引入剪枝策略,與蠻力法相比,相對高效地得到了模型定義的最優(yōu)解,但是對于某些句子,解碼器的搜索空間仍然巨大[22]。最大熵分類器只用到了詞本身信息,與決策樹相比,模型訓(xùn)練的代價較小,解碼方式采用了BeamSearch方法,雖然有可能得不到模型所定義的最優(yōu)解,但算法的執(zhí)行效率得到了提高。決策樹的實驗結(jié)果為: 召回率84.0%,準(zhǔn)確率84.3%。最大熵的實驗結(jié)果為: 召回率86.3%,準(zhǔn)確率87.5%。

    最近比較流行的移進—歸約句法分析器將決策類別分為四大類[24]: SHIFT、REDUCE-unary-X、REDUCE-binary-{L/R}-X、TERMINATE。SHIFT表示從隊列Q中移出一個詞語到棧S中;REDUCE-unary-X表示將要進行一元歸約,新生成節(jié)點X;REDUCE-binary{L/R}-X表示進行二元歸約,新生成節(jié)點X,L和R表示X的中心詞來自于左孩子節(jié)點還是右孩子節(jié)點。TERMINATE表示句法分析任務(wù)結(jié)束。要訓(xùn)練得到基于以上四類決策的句法分析器,需要對樹庫進行二元轉(zhuǎn)換(binarization transform),X表示二元轉(zhuǎn)換過后的短語標(biāo)記。雖然決策類別很多,但是分類器的分類性能很高(我們再現(xiàn)了文獻[43]中的結(jié)果,決策類別達到76個,但是分類精度高達94.7%)。目前主要基于SVM和感知器的移進—歸約句法分析器,SVM句法分析結(jié)果為: 召回率87.6%,準(zhǔn)確率87.5%,雖然結(jié)果略低于詞匯化PCFG模型,但句法分析速度得到了很大的提高[21]。感知器方法從全局角度對決策進行了考量,在CTB上取得了非常好的結(jié)果[24]。

    基于移進—歸約決策的句法分析模型應(yīng)用于中文時對詞性非常敏感,文獻[24]顯示: 基于正確詞性標(biāo)注與基于自動詞性標(biāo)注(標(biāo)注精度為93.5%)的句法分析實驗的F1值相差高達9.4個百分點,主要原因是中文詞性標(biāo)注精度不高和該方法需要考慮大量的詞性作為特征。

    6 面向數(shù)據(jù)的句法分析模型

    DOP模型是建立在包含大量語言現(xiàn)象的樹庫基礎(chǔ)上,通過組合數(shù)庫中的子樹來實現(xiàn)句法分析任務(wù)。與基于PCFG的句法分析模型相比,可以將DOP模型中的子樹看作文法,PCFG規(guī)則是DOP模型文法特殊形式,即子樹的高度為1。

    本節(jié)首先介紹最優(yōu)樹的定義準(zhǔn)則,然后介紹兩種主流的利用DOP模型進行句法分析的方法: STSG-DOP方法[25-27]和PCFG-DOP方法[28-31]。STSG-DOP方法將DOP思想歸結(jié)為子樹替換過程,而PCFG-DOP方法將STSG-DOP中的子樹文法轉(zhuǎn)化為PCFG形式,減少了文法的數(shù)量,提高了句法分析的速度。

    6.1 最優(yōu)樹的定義準(zhǔn)則

    DOP模型一個重要特征就是可能有多個有效推導(dǎo)d對應(yīng)于同一棵候選樹T,這就涉及到模型所定義的最優(yōu)樹Tbest準(zhǔn)則問題。就目前DOP模型的研究,主要有以下六種準(zhǔn)則:

    第一個準(zhǔn)則為最有可能推導(dǎo)(the Most Probable Derivation,簡稱MPD)。MPD是在所有可能的有效推導(dǎo)中,找出概率最大的一個有效推導(dǎo),如式(14)所示:

    第二個準(zhǔn)則為最有可能分析(the Most Probable Parse,簡稱MPP)。在MPP中,句法樹T的概率是與T對應(yīng)的所有可能推導(dǎo)dT的概率累加和,如式(15)所示:

    計算MPP是NP-hard問題[32],一般采用近似搜索算法,例如Viterbi-n-best方法[27,29]。

    第三個準(zhǔn)則為最大成分分析(the Maximum Constituents Parse,簡稱MCP)。MCP考慮了每一個短語cT正確的可能性,挑出具有最大成分的候選樹T,如式(16)所示:

    MCP是對MPP的近似,可以采用動態(tài)規(guī)劃算法高效地計算MCP[28]。

    第四個準(zhǔn)則為最大規(guī)則和(the Max Rule Sum,簡稱 MRS)。MRS是由MCP推廣而來,候選樹T的概率是T中所有規(guī)則rT的后驗概率累加和,如式(17)所示:

    第五個準(zhǔn)則為最大規(guī)則積(the Max Rule Production,簡稱MRP)。MRP與MRS類似,將MRS中的累加符號改為累乘符號,如式(18)所示:

    MRP的性能一般要優(yōu)于MRS[15]。

    第六個準(zhǔn)則為最短推導(dǎo)(Shortest Derivation,簡稱SD)。以上五種準(zhǔn)則是基于概率,而SD是基于推導(dǎo)的長度,選取具有最短長度的推導(dǎo),如式(19)所示:

    從子樹的大小來說,SD是比較傾向于大子樹。最短推導(dǎo)可能有多個,一般要對最短推導(dǎo)進行排序處理[33]。

    6.2 基于STSG-DOP方法

    STSG-DOP[25,34]通過組合樹庫中的子樹來完成句法分析。其中,最基本的操作是替換(substitution),句法樹概率是通過計算子樹的頻度得到。

    STSG-DOP方法在ATIS樹庫上取得了成功,但是為了計算MPP,采用Monte Carlo采樣算法[26],由于該算法的隨機性和缺少應(yīng)用該算法的進一步細節(jié),有些研究者并不承認該方法在ATIS樹庫上的結(jié)果[28]。但隨著各種近似搜索算法和最優(yōu)樹準(zhǔn)則的出現(xiàn),Bod等人摒棄了Monte Carlo算法,出現(xiàn)了結(jié)果可再現(xiàn)的高性能句法分析器[27,29-31],使得越來越多的研究者開始關(guān)注DOP模型。

    由于STSG子樹的數(shù)量非常大,而且極其冗余,從理論和計算的角度,都需要對數(shù)庫中的子樹進行限制。這自然會產(chǎn)生一個想法: 是否可以減少子樹數(shù)量同時又可以提高句法分析器的性能?文獻[27]針對該問題在WSJ樹庫上進行了研究,分別考察了子樹大小、詞匯化上下文、結(jié)構(gòu)上下文、非中心詞依賴,在WSJ40(長度小于等于40的句子)上的實驗表明: 對子樹進行限制確實能夠提高句法分析的性能。該文最后將WSJ40取得最好性能的子樹選取方法應(yīng)用在標(biāo)準(zhǔn)測試集上,實驗結(jié)果為: 召回率89.7%,準(zhǔn)確率89.7%,結(jié)果略高于之前詞匯化模型Charniak(2000)[7],與當(dāng)時的Collins(2000)[9]的結(jié)果相當(dāng)。

    6.3 基于PCFG-DOP方法

    PCFG-DOP方法[28]將子樹中的每一個外部節(jié)點(exterior non-terminal)對應(yīng)于8種PCFG規(guī)則,使得文法數(shù)量隨樹庫大小呈線性增長,與STSG-DOP相比,文法數(shù)量急劇下降。

    PCFG-DOP方法在文獻[27]子樹選取的基礎(chǔ)上的實驗結(jié)果為: 召回率89.5%,準(zhǔn)確率89.7%,雖然召回率略低于文獻[27] (相差0.2%),但句法分析的速度提高了60倍[29]。結(jié)合SD和MPP準(zhǔn)則可以形成兩種DOP模型[29]: LS-DOP和SL-DOP,SL-DOP是從N種概率值最高的候選樹中,選出推導(dǎo)長度最短的句法樹,LS-DOP是從N種推導(dǎo)最短的候選句法樹中,選出概率值最高的句法樹。SL-DOP實驗結(jié)果為: 召回率90.7%,準(zhǔn)確率90.8%,LS-DOP實驗結(jié)果為: 召回率89.4%,準(zhǔn)確率89.7%。

    為了能夠高效地利用DOP模型進行句法分析,可以對子樹樹庫規(guī)模和文法形式進行改進: 規(guī)定樹庫中的子樹數(shù)量必須大于等于2(可以利用樹核算法高效地抽取所有滿足條件的子樹[31]),將子樹的根節(jié)點和葉節(jié)點分別映射為PCFG規(guī)則的左部和右部,文獻[31]的Tbest準(zhǔn)則采用MRS,實驗的F1值為89.1%。

    由于PCFG-DOP方法的文法數(shù)量相對較少,可以利用樹庫中的所有子樹進行句法分析,文獻[30]的Tbest準(zhǔn)則采用MRP,實驗的F1值為88.1%,雖然結(jié)果低于子樹選取后的結(jié)果,但是并沒有付出昂貴的代價進行子樹選取也沒有引入詞匯信息。

    7 多句法分析器的組合

    以上介紹的幾種句法分析模型有個共同的缺點: 最佳句法樹Tbest都是基于單一模型定義的,得到的最優(yōu)解并不一定最接近實際情況。近些年來,針對單一模型的局限性,另一個研究重點放在多個句法分析器組合上。這種方法是利用多個高精度的基準(zhǔn)句法分析器(baseline parser)輸出多個高概率值結(jié)果,并結(jié)合豐富句法結(jié)構(gòu)特征對它們進行合成處理。目前合成方式主要有子樹重組合[35-36]和候選樹重排序[37]。子樹重組合是對候選樹中的子樹進行重組,形成一個新的最優(yōu)的句法樹。候選樹重排序是對候選樹分值進行重新估算,選出分值最高的候選樹作為最后的分析結(jié)果。

    子樹重組合主要有投票方法和權(quán)重相加法。投票法就是首先統(tǒng)計各子樹在候選樹上的頻度,然后選擇頻度最多的子樹來組合成一棵新的句法樹,該方法得到的結(jié)果偏向于準(zhǔn)確率[35]。權(quán)重相加法就是利用CKY算法將跨度相同短語標(biāo)記間的成分權(quán)值相加,最后得到能夠覆蓋整個句子的概率值最大的句法樹,該方法得到的實驗結(jié)果偏向于召回率,為了調(diào)和準(zhǔn)確率和召回率,一般要引入閾值對候選子樹進行剪枝[36]。文獻[35]采用投票方法,在實驗中采用三個高精度的基準(zhǔn)句法分析器,最優(yōu)性能為: 召回率88.5%,準(zhǔn)確率88.7%,進行子樹重組合后,實驗結(jié)果為: 召回率89.2%,準(zhǔn)確率92.1%。文獻[36]采用權(quán)重相加法,在實驗中采用五個高精度的句法分析器,最優(yōu)性能為: 召回率90.6%,準(zhǔn)確率91.3%,子樹重組合后實驗結(jié)果為: 召回率91.0%,準(zhǔn)確率93.2%。

    子樹重組合的優(yōu)點在于利用到了多個高精度的基準(zhǔn)句法分析器,但存在兩個不足點: 第一,每一個句法分析器只輸出一個結(jié)果;第二,沒有利用到候選句法樹的起始概率值,雖然不同句法分析器輸出的候選樹的概率值不可比較。候選樹重排序方法繼承了子樹重組合的優(yōu)點,并針對其缺點進行了改進,即讓每個基準(zhǔn)句法分析器都輸出多個最優(yōu)結(jié)果,并且將句法樹的起始概率值作為主要特征。文獻[37]進行了候選樹重排序,基準(zhǔn)句法分析器采用Charniak(2000)[7]和Petrov(2007)[15],并且讓這兩個句法分析器分別輸出最優(yōu)的50個結(jié)果,實驗的F1值為92.6%。

    為了便于比較分析,表1列出了各種句法分析方法在英文賓州樹庫上的句法分析性能。

    表1 句法分析器性能比較

    續(xù)表

    8 中文句法分析的研究現(xiàn)狀

    與英文句法分析相比,中文句法分析的研究相對較晚。按照上文的分類方法,以下將簡單綜述中文句法分析的研究現(xiàn)狀。若無特殊說明,以下報告的結(jié)果均來自于如下實驗設(shè)置: 訓(xùn)練集CTB 001-270;測試集CTB 271-300(基于正確分詞且句子長度小于等于40)。

    在單純PCFG方法方面,文獻[38]利用內(nèi)向—外向算法,從已有小規(guī)模中文賓州樹庫中提取規(guī)則,利用大規(guī)模已做好分詞標(biāo)注的語料庫對規(guī)則進行訓(xùn)練,并針對漢語的特點(特別是漢語虛詞的特點),引入句法結(jié)構(gòu)共現(xiàn)的概念來減弱PCFG的獨立性假設(shè)。實驗結(jié)果表明,引入句法結(jié)構(gòu)共現(xiàn)概率能夠提高句法分析器的準(zhǔn)確率和召回率。

    在詞匯化PCFG方面,文獻[39]將Collins的中心詞驅(qū)動模型應(yīng)用于中文,實驗結(jié)果為: 召回率78.0%,準(zhǔn)確率81.2%。文獻[40]在中心詞驅(qū)動模型的基礎(chǔ)上,提出了基于語義的模型,并且對基本名詞做了特殊處理,實驗結(jié)果為: 召回率78.7%,準(zhǔn)確率80.1%(訓(xùn)練集: CTB 026-270)。文獻[41]提出了一個兩級的中文句法分析方法,基本短語和復(fù)雜短語分別被詞匯化的馬爾可夫模型和中心驅(qū)動模型所識別,實驗語料采用哈爾濱工業(yè)大學(xué)樹庫,單一模型(中心驅(qū)動模型)實驗結(jié)果為: 召回率86.4%,準(zhǔn)確率86.3%;兩級的句法分析模型實驗結(jié)果為: 召回率88.0%,準(zhǔn)確率87.5%。

    在子類劃分PCFG方面,文獻[42]自定義規(guī)則對短語標(biāo)記進行劃分,引入短語標(biāo)記的上下文信息,提出了結(jié)構(gòu)上下文相關(guān)的概率句法分析模型。實驗結(jié)果表明,引入結(jié)構(gòu)的上下文信息確實能夠提高句法分析的性能。文獻[15]將自動劃分短語標(biāo)記的方法應(yīng)用于中文,實驗結(jié)果為: 召回率85.7%,準(zhǔn)確率86.9%(訓(xùn)練集: CTB 001-270,400-1151)。

    在移進—歸約決策句法分析方面,文獻[43]將移進—歸約決策句法分析模型應(yīng)用于中文,實現(xiàn)了一個高速、準(zhǔn)確的確定性中文句法分析器,采用SVM分類器的實驗結(jié)果為: 召回率78.1%,準(zhǔn)確率81.1%。文獻[24]利用全局線性模型對決策類別進行了預(yù)測,實驗結(jié)果為: 召回率80.2%,準(zhǔn)確率80.5%;文獻[44]對移進—歸約決策方法進行了擴展,實現(xiàn)了層次式句法分析模型。該方法將句法樹的構(gòu)建轉(zhuǎn)換為層次標(biāo)注問題,分類器采用最大熵,實驗結(jié)果為: 召回率76.5%,準(zhǔn)確率80.0%。文獻[45]又將層次式句法分析模型與語義角色標(biāo)注進行了聯(lián)合學(xué)習(xí),緩解了語義分析對句法分析結(jié)果的依賴,同時又提高了兩者的性能。

    在多句法分析器組合方面,文獻[37] 以Charniak(2000)[7]和Petrov(2007)[15]句法分析器各產(chǎn)生的50-best候選樹作為輸入,系統(tǒng)合成后,在整個測試集上實驗的F1值為85.5%(訓(xùn)練集: CTB 001-270,400-1151)。

    9 總結(jié)與展望

    近十幾年來,英文句法分析有了長足的發(fā)展,而且已日趨成熟。它的研究趨勢主要基于以下兩點:

    第一點就是基于樹庫的文法受到了研究者的青睞。與早期的方法相比,現(xiàn)在的句法分析方法更強調(diào)從真實的樹庫中獲取文法知識,例如詞匯化PCFG方法、面向數(shù)據(jù)的句法分析方法,使得訓(xùn)練出來的模型更加符合實際情況,因而促進了句法分析性能的提高。

    第二點就是統(tǒng)計學(xué)習(xí)理論在句法分析領(lǐng)域扮演越來越重要的作用。隨著各種統(tǒng)計學(xué)習(xí)算法的提出,研究者開始將各種可以集成豐富上下文特征的判別式學(xué)習(xí)模型引入到句法分析領(lǐng)域,例如: 應(yīng)用結(jié)構(gòu)化學(xué)習(xí)模型CRF和大間隔方法實現(xiàn)句法分析,針對傳統(tǒng)生成式模型的不足實現(xiàn)了理論上的改進。

    同時也可以看出,這兩個因素也引發(fā)了一些問題。詞匯化PCFG方法帶來了非常嚴(yán)重的三大問題,造成訓(xùn)練和測試時需要巨大的時空開銷。STSG-DOP方法子樹數(shù)量巨大,雖然出現(xiàn)了PCFG-DOP方法,減少了文法數(shù)量,但是仍然非常冗余,因此,子樹的選取也是DOP模型非常值得研究的課題。與傳統(tǒng)的生成式模型相比,大間隔方法和CRF方法等判別式學(xué)習(xí)模型的消歧能力更強,但模型的復(fù)雜度也更高,例如M3N模型在WSJ15上訓(xùn)練就需要幾個月時間[17]。因此,在應(yīng)用一些有效的判別式學(xué)習(xí)模型實現(xiàn)句法分析任務(wù)時,如何利用句法樹結(jié)構(gòu)的特性設(shè)計和實現(xiàn)更有效地學(xué)習(xí)和訓(xùn)練算法也將會是下一步研究的熱點。

    值得一提的是,子類劃分PCFG方法和移進—歸約方法另辟蹊徑,取得了比較好的性能。子類劃分PCFG方法較好地克服了詞匯化PCFG的固有缺點,而且是當(dāng)今精度最高的單一句法分析模型之一。另外,基于移進—歸約決策的句法分析模型將傳統(tǒng)的利用線圖算法進行句法分析的過程轉(zhuǎn)化為一系列基于分類器的移進和歸約決策分類過程,而決策分類可以采用決策樹、最大熵、SVM等性能良好的分類器。該句法分析模型具有很強的靈活性和可擴充性。而且該模型應(yīng)用于中文時取得了較好的性能,且具有句法分析速度快等優(yōu)點。

    中文句法分析相對于英文句法分析還有很長的路要走,但可以借鑒英文句法分析,譬如將大間隔和CRF等判別式學(xué)習(xí)模型,以及DOP方法應(yīng)用于中文,相信可以取得性能的提高。基于上述分析,我們提出一些關(guān)于改善中文句法分析的幾點思路。

    (1) 近些年,依存句法分析成為研究熱點,依存樹反應(yīng)了詞匯間的依存關(guān)系,屬于語義范疇,提供了比單純詞匯更為豐富的信息,因此更加有利于消歧。文獻[46]利用依存結(jié)構(gòu)來輔助句法分析,采用單純PCFG實驗結(jié)果就與詞匯化PCFG性能相當(dāng),充分說明了語義信息對句法分析的作用。受該文啟發(fā),可以利用依存結(jié)構(gòu)來輔助其他句法分析模型,也可以將句法分析與后續(xù)語義分析任務(wù)進行聯(lián)合學(xué)習(xí),以緩解句法分析對語義信息的嚴(yán)重依賴。

    (2) 文獻[43]在句法分析過程中孤立地在每個步驟應(yīng)用分類器進行移進和歸約決策,而沒有考慮每個移進—歸約決策的全局效果。文獻[24]雖然對文獻[43]的方法進行一些改進,但使用的解碼算法只是一個近似搜索算法,并不能在迭代過程中搜索出全局最優(yōu)的移進和歸約決策序列,且感知器并不是一個具有良好泛化性能的學(xué)習(xí)器,因而,該方法在理論上并沒有很強的、自然的保證。近來,文獻[47] 提出了一種新的基于搜索的結(jié)構(gòu)化預(yù)測學(xué)習(xí)算法SEARN,將復(fù)雜的結(jié)構(gòu)化預(yù)測問題轉(zhuǎn)換為簡單的代價敏感分類問題,且在理論上對該算法的有效性進行了分析和證明。因此,可以考慮將SEARN算法應(yīng)用到基于移進—歸約決策的句法分析模型上,相信能夠?qū)崿F(xiàn)一個性能良好的中文句法分析器。

    (3) 由于漢語缺乏形態(tài)變化,目前主流的中文句法分析所用的詞類標(biāo)記和短語標(biāo)記并不能反映其語法功能,而且相同條件下中英文句法分析的結(jié)果相差較大[48],因此,有必要進一步研究適合中文自身特點的句法分析器。陳小荷教授提出了徹底按照詞的語法功能來劃分漢語詞類[49]以及基于語法功能匹配句法分析的設(shè)想。文獻[50]通過實踐驗證了通過語法功能來處理詞語分類以及在句法中進行語法功能匹配是可行的?;谡Z法功能匹配的句法分析思想目前還處于探索階段,因此,這種將中文語法特點與一些句法分析模型相結(jié)合的研究,也將會是今后一個有意義的研究方向。

    致謝感謝英國劍橋大學(xué)Zhang Yue博士,與他的討論使我們受益匪淺。

    [1] Mitchell P Marcus, Mary Ann Marcinkiewicz, Beatrice Santorini. Building a Large Annotated Corpus of English:The Penn TreeBank [J]. Computational linguistics, 1993,19(2):313-330.

    [2] Naiwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank:Phrase Structure Annotation of a Large Corpus [J]. Natural Language Engineering, 2005,11(2):207 -238.

    [3] 周強.漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報, 2004, 18(4):1-8.

    [4] Huang Chu-Ren, Keh-Jiann Chen, Feng-Yi Chen, et al. Sinica Treebank:Design Criteria,Annotation Guidelines, and On-line Interface[C]//Proceedings of the Chinese Language Processing Worshop. Stroudsburg: Association for Computational Linguistics, 2000:29-37.

    [5] E Black, S Abney, D Flickenger, et al. A Procedure for Quantitatively Comparing the Syntactic Coverage of English Grammars[C]//Proceedings of the DARPA Speech and Natural Language Workshop. Stroudsburg: Association for Computational Linguistics, 1991:306-311.

    [6] Eugene Charniak. Statistical parsing with a context-free grammar and word statistics[C]//Proceedings of the 14th National Conference on Artificial Intelligence. MenloPark: AAAI Press/MIT Press, 1997: 598-603.

    [7] Eugene Charniak. A maximum-entropy inspired parser[C]//Proceedings of NAACL 2000. San Francisco: Morgan Kaufmann Publishers, 2000:132-139.

    [8] Michael Collins. Head-Driven Statistical Models for Natural Language Parsing [D]. Philadelphia: University of Pennsylvania, 1999.

    [9] Michael Collins. Discriminative reranking for natural language parsing[C]//Proceedings of ICML 2000: 175-182.

    [10] Michael Collins, Nigel Duffy. New ranking algorithms for parsing and tagging: kernels over discrete structures, and the voted perceptron[C]//Proceedings of the ACL 2002. Stroudsburg: Association for Computational Linguistics, 2002:263-270.

    [11] Eugene Charniak, Mark Johnson. Coarse-to-fine n-best parsing and maxent discriminative reranking[C]//Proceedings of ACL 2005. Stroudsburg: Association for Computational Linguiscs, 2005:173-180.

    [12] Johnson Mark. PCFG models of linguistic tree representations [J]. Computations Linguistics, 1998,24(4):613-632.

    [13] Dan Klein, Christopher D Manning. Accurate Unlexicalized Parsing[C]//Proceedings of ACL 2003. Stroudsburg: Association for Computational Linguistics, 2003:423-430.

    [14] Slav Petrov, Leon Barrett, Romain Thibaux, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:443-440.

    [15] Slav Petrov, Dan Klein. Improved inference for unlexicalized parsing[C]//Proceedings of HLT-NAACL 2007. Rochester, 2007:404-411.

    [16] Taskar B, Klein D, Collins M, et al. Max-margin parsing[C]//Proceedings of EMNLP 2004. Barcelona, 2004.

    [17] Jenny Rose Finkel, Alex Kleeman, Christopher D Manning. Efficient, feature-based, conditional random field parsing[C]//Proceedings of ACL-HLT 2008. 959-967.

    [18] B Taskar, C Guestrin, D Koller. Max margin Markov networks[C]//Proceedings of NIPS 2003. Vancouver, 2003.

    [19] Turian J, Melamed ID. Constituent parsing by classification[C]//Proceedings of IWPT 2005. Stroudsburg: Association for Computational Linguistics, 2005.

    [20] Turian J, Melamed ID. Advances in discriminative parsing[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006.

    [21] Kenji Sagae, Alon Lavie. A classifier-based parser with linear run-time complexity[C]//Proceedings of IWPT 2005: 125-132.

    [22] Magerman David M. Statistical Decision-Tree Models for Parsing[C]//Proceedings of ACL 1995. Stroudsburg: Association for Computational Linguistics, 1995:276-283.

    [23] Adwait Ratnaparkhi. A Linear Observed Time Statistical Parser Based on Maximum Entropy Models[C]//Proceedings of EMNLP 1997.

    [24] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search [J]. Computational Linguistics, 2011,37(1): 105-151.

    [25] Rens Bod. A computational model of language performance: data oriented parsing[C]//Proceedings of COLING 1992. Stroudsburg: Association for Computational Linguistics, 1992:855-859.

    [26] Rens Bod. Using an Annotated Corpus as a Stochastic Grammar[C]//Proceedings of the Sixth Conference of the European Chapter of the ACL. Stroudsburg: Association for Computational Linguistics, 1993:37-44.

    [27] Rens Bod. What is the minimal set of fragments that achieves maximal parse accuracy?[C]//Proceedings of ACL 2001. Stroudsburg: Association for Computational Linguistics, 2001.

    [28] Joshua Goodman. Efficient algorithms for parsing the DOP model[C]//Proceedings of EMNLP 1996: 143-152.

    [29] Rens Bod. An efficient implementation of a new DOP model[C]//Proceedings of EACL. Stroudsburg: Association for Computational Linguistics, 2003:19-26.

    [30] Mohit Bansal, Dan Klein. Simple, accurate parsing with an all-fragments grammar[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1098-1107.

    [31] Federico Sangati, Willem Zuidema. Accurate Parsing with Compact Tree-Substitution Grammars: Double-DOP[C]//Proceedings of EMNLP 2011: 84-95.

    [32] Sima’an K. Computational Complexity of Probabilistic Disambiguation by Means of Tree Grammars[C]//Proceedings of COLING 1996.Stroudsburg: Association for Computational Linguistics, 1996:1175-1180.

    [33] Rens Bod. Parsing with the Shortest Derivation[C]//Proceedings of COLING [C]. Stroudsburg: Association for Computational Linguistics, 2000:69-75.

    [34] Remko Scha. Taaltheorie en taaltechnologie: competence en performance [C]//R. de Kort and G.L.J. Leerdam (eds.): Computertoepassingen in de Neerlandistiek. Almere: LVVN, 1990:7-22.

    [35] John Henderson, Eric Brill. Exploiting diversity in natural language processing: combining parsers[C]//Proceedings of EMNLP 1999: 187-194.

    [36] Kenji Sagae, Alon Lavie. Parser combination by reparsing[C]//Proceedings of NAACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:129-132.

    [37] Hui Zhang, Min Zhang, Chew Lim Tan, et al. K-Best Combination of Syntactic Parsers[C]//Proceedings of EMNLP 2009. Stroudsburg: Association for Computational Linguistics, 2009:1552-1560.

    [38] 林穎,史曉東,郭峰. 一種基于概率上下文無關(guān)文法的漢語句法分析[J].中文信息學(xué)報, 2006,20(2):1-7.

    [39] Daniel M Bikel. On the parameter space of generative lexicalized statistical models [D]. Philadelphia: University of Pennsylvania, 2004.

    [40] Deyi Xiong, Shuanglong Li, Qun Liu, et al.Parsing the Penn Chinese Treebank with semantic knowledge[C]//Proceedings of IJCNLP 2005: 70-81.

    [41] 曹海龍. 基于詞匯化統(tǒng)計模型的漢語句法分析研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2006.

    [42] 張浩, 劉群, 白碩.結(jié)構(gòu)上下文相關(guān)的概率句法分析[C]//第一屆學(xué)生計算語言學(xué)研討會.北京:北京大學(xué),2002.

    [43] Mengqiu Wang, Kenji Sagae, Teruko Mitamura. A fast, accurate deterministic parser for Chinese[C]//Proceedings of COLING/ACL. Stroudsburg: Association for Computational Linguistics, 2006:425-432.

    [44] Li Junhui, Zhou Guodong, Ng Hwee Tou. Syntactic Parsing with Hierarchical Modeling[C]//Proceedings of AIRS 2008: 561-566.

    [45] Li Junhui, Zhou Guodong, Ng Hwee Tou. Joint Syntatic and Semantic Parsing of Chinese[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1108-1117.

    [46] Zhiguo Wang, Chengqing Zong. Phrase Structure Parsing with Dependency Structure[C]//Proceedings of COLING 2010. Stroudsburg: Association for Computational Linguistics, 2010:1292-1300.

    [47] Hal Daumé III, Langford J, Marcu D. Search-based structured prediction [J]. Machine Learning, 2009,75(3):297-325.

    [48] Daniel M. Bikel. Two Statistical Parsing Models Applied to the Chinese Treebank[C]//Proceedings of the Second Chinese Language Processing Workshop. Stroudsburg: Association for Computational Linguistics, 2000:1-6.

    [49] 陳小荷. 從自動句法分析角度看漢語詞類問題[J]. 語言教學(xué)與研究,1999.

    [50] 徐艷華. 現(xiàn)代漢語實詞語法功能考察及詞類體系重構(gòu)[D].南京:南京師范大學(xué),2006.

    猜你喜歡
    子樹短語準(zhǔn)確率
    黑莓子樹與烏鶇鳥
    一種新的快速挖掘頻繁子樹算法
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
    書本圖的BC-子樹計數(shù)及漸進密度特性分析?
    高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
    基于覆蓋模式的頻繁子樹挖掘方法
    国产 一区精品| 精品一区二区三区av网在线观看| 香蕉av资源在线| 亚洲国产日韩欧美精品在线观看| 亚洲国产精品成人久久小说 | or卡值多少钱| 成年女人看的毛片在线观看| 久久这里只有精品中国| 国产成人影院久久av| 成人毛片a级毛片在线播放| 一卡2卡三卡四卡精品乱码亚洲| 少妇人妻精品综合一区二区 | 人人妻人人看人人澡| 免费观看精品视频网站| 日本免费a在线| 久久99热这里只有精品18| 日韩人妻高清精品专区| 精品久久久久久久久久久久久| 91麻豆精品激情在线观看国产| 国产老妇女一区| 欧美国产日韩亚洲一区| 简卡轻食公司| 日本爱情动作片www.在线观看 | 国产高清有码在线观看视频| 又黄又爽又免费观看的视频| 免费看av在线观看网站| 在线观看免费视频日本深夜| 亚洲精品日韩av片在线观看| 亚洲内射少妇av| 色综合色国产| 亚洲av中文字字幕乱码综合| 国产色爽女视频免费观看| 极品教师在线视频| 男人的好看免费观看在线视频| 久久综合国产亚洲精品| 国产成人福利小说| 久久久久久伊人网av| 国产精品综合久久久久久久免费| 变态另类成人亚洲欧美熟女| 亚洲av成人精品一区久久| 男女之事视频高清在线观看| 精品午夜福利在线看| 天堂av国产一区二区熟女人妻| 亚洲高清免费不卡视频| 久久精品国产亚洲av香蕉五月| 欧美激情国产日韩精品一区| 看片在线看免费视频| 如何舔出高潮| 国产真实乱freesex| 国产精华一区二区三区| 色播亚洲综合网| 美女黄网站色视频| 日本免费一区二区三区高清不卡| 少妇的逼水好多| 久久久色成人| 欧美日韩综合久久久久久| 国产69精品久久久久777片| 一区福利在线观看| 91久久精品电影网| 日韩av不卡免费在线播放| 婷婷精品国产亚洲av| 国产精品久久久久久久电影| 小说图片视频综合网站| 人人妻人人澡人人爽人人夜夜 | 国产精品国产三级国产av玫瑰| 精华霜和精华液先用哪个| 欧美+亚洲+日韩+国产| 成人毛片a级毛片在线播放| 亚洲经典国产精华液单| 91狼人影院| 成人欧美大片| 亚洲欧美精品综合久久99| 极品教师在线视频| 日本撒尿小便嘘嘘汇集6| 午夜免费激情av| 日韩三级伦理在线观看| 亚洲av成人av| 91av网一区二区| 国产精品亚洲一级av第二区| 级片在线观看| 六月丁香七月| 精品国产三级普通话版| 中文亚洲av片在线观看爽| 日本在线视频免费播放| 午夜a级毛片| .国产精品久久| 看片在线看免费视频| 亚洲美女搞黄在线观看 | 国产精品一区二区免费欧美| 亚洲图色成人| 直男gayav资源| 日韩大尺度精品在线看网址| 亚洲不卡免费看| 成人二区视频| 久久99热6这里只有精品| 麻豆乱淫一区二区| 欧美xxxx性猛交bbbb| 亚洲四区av| 午夜福利视频1000在线观看| 一级毛片电影观看 | 国产精品亚洲一级av第二区| 成人综合一区亚洲| 最近最新中文字幕大全电影3| 国产综合懂色| 又爽又黄无遮挡网站| 干丝袜人妻中文字幕| 欧美成人精品欧美一级黄| 亚洲欧美精品综合久久99| 一级毛片我不卡| 天天躁日日操中文字幕| 亚洲内射少妇av| eeuss影院久久| 久久久久国产精品人妻aⅴ院| 国产综合懂色| 免费在线观看成人毛片| 日韩高清综合在线| 久久久久国内视频| 在现免费观看毛片| 亚洲婷婷狠狠爱综合网| 欧美在线一区亚洲| 午夜福利在线观看吧| 精品一区二区三区视频在线| 国产淫片久久久久久久久| 久久精品国产亚洲网站| 亚洲久久久久久中文字幕| 久久久精品大字幕| 成人精品一区二区免费| av在线亚洲专区| 看免费成人av毛片| 在线天堂最新版资源| 国产老妇女一区| 色哟哟哟哟哟哟| 久久热精品热| av在线观看视频网站免费| 少妇被粗大猛烈的视频| 97超视频在线观看视频| 国产精品三级大全| 一夜夜www| 毛片女人毛片| 美女高潮的动态| 乱码一卡2卡4卡精品| 美女被艹到高潮喷水动态| 日韩,欧美,国产一区二区三区 | 久久精品国产自在天天线| 一区二区三区高清视频在线| av在线蜜桃| 亚洲av中文av极速乱| 日本五十路高清| 搡老岳熟女国产| 国产三级在线视频| 亚洲精品日韩av片在线观看| 国产蜜桃级精品一区二区三区| 高清日韩中文字幕在线| 久久人人爽人人爽人人片va| 久久99热6这里只有精品| 午夜爱爱视频在线播放| 51国产日韩欧美| 最近在线观看免费完整版| 亚洲欧美中文字幕日韩二区| 国产日本99.免费观看| 久久久国产成人精品二区| 亚洲精品456在线播放app| 老司机福利观看| 淫妇啪啪啪对白视频| 99久久精品一区二区三区| 午夜日韩欧美国产| 看免费成人av毛片| 免费看a级黄色片| 精品人妻视频免费看| 日本五十路高清| 黄色一级大片看看| 日本成人三级电影网站| 你懂的网址亚洲精品在线观看 | 看片在线看免费视频| 少妇熟女aⅴ在线视频| 亚洲成人av在线免费| 男女啪啪激烈高潮av片| 成年女人看的毛片在线观看| 不卡一级毛片| 亚洲av中文av极速乱| 国产精品福利在线免费观看| 亚洲成人中文字幕在线播放| 男人舔奶头视频| 男人舔奶头视频| 在线观看一区二区三区| 久久婷婷人人爽人人干人人爱| 日韩精品有码人妻一区| 少妇人妻一区二区三区视频| 欧美日韩精品成人综合77777| 日本 av在线| 亚洲精品色激情综合| 听说在线观看完整版免费高清| 中国国产av一级| 久久综合国产亚洲精品| 97热精品久久久久久| 午夜爱爱视频在线播放| 特大巨黑吊av在线直播| 男人狂女人下面高潮的视频| 一卡2卡三卡四卡精品乱码亚洲| 国产又黄又爽又无遮挡在线| 日韩国内少妇激情av| 看免费成人av毛片| 在线观看66精品国产| 91久久精品电影网| 两个人的视频大全免费| 国内少妇人妻偷人精品xxx网站| 91午夜精品亚洲一区二区三区| 老熟妇仑乱视频hdxx| 亚洲精品亚洲一区二区| 日本与韩国留学比较| 亚洲美女视频黄频| eeuss影院久久| 天堂动漫精品| 午夜亚洲福利在线播放| 中国美女看黄片| 国产精华一区二区三区| 俺也久久电影网| 国产人妻一区二区三区在| 中文字幕免费在线视频6| 国产大屁股一区二区在线视频| 欧美最黄视频在线播放免费| 在线播放无遮挡| 日本熟妇午夜| 插逼视频在线观看| 久久久久国产精品人妻aⅴ院| 99久久九九国产精品国产免费| 身体一侧抽搐| 12—13女人毛片做爰片一| 亚洲成人精品中文字幕电影| 成年女人看的毛片在线观看| 91久久精品电影网| 欧美日韩精品成人综合77777| 国产精品一区二区三区四区久久| 亚洲内射少妇av| 日韩成人av中文字幕在线观看 | 淫妇啪啪啪对白视频| 国产精品99久久久久久久久| av福利片在线观看| 日日啪夜夜撸| 搡女人真爽免费视频火全软件 | 亚洲精品影视一区二区三区av| 岛国在线免费视频观看| 99riav亚洲国产免费| 国产中年淑女户外野战色| 中文在线观看免费www的网站| 国产免费男女视频| 国产 一区精品| 97在线视频观看| 一边摸一边抽搐一进一小说| 国产v大片淫在线免费观看| 老女人水多毛片| 中文字幕久久专区| 成人高潮视频无遮挡免费网站| 国内少妇人妻偷人精品xxx网站| 在线观看一区二区三区| 亚洲av熟女| 亚洲人成网站在线播| 综合色av麻豆| 91麻豆精品激情在线观看国产| 中文字幕熟女人妻在线| 国模一区二区三区四区视频| 成年女人毛片免费观看观看9| 亚洲成人久久爱视频| 99热这里只有精品一区| 97超碰精品成人国产| 日本-黄色视频高清免费观看| 日日撸夜夜添| 69av精品久久久久久| 性欧美人与动物交配| 国产伦精品一区二区三区四那| 成人亚洲欧美一区二区av| 午夜a级毛片| 18禁在线无遮挡免费观看视频 | 久久久久久久久中文| 亚洲人成网站在线播放欧美日韩| 无遮挡黄片免费观看| 亚洲熟妇熟女久久| 嫩草影院入口| 精品无人区乱码1区二区| 人妻丰满熟妇av一区二区三区| 国内精品一区二区在线观看| 三级国产精品欧美在线观看| 搡老岳熟女国产| 麻豆国产97在线/欧美| 免费搜索国产男女视频| 国产日本99.免费观看| 国产色爽女视频免费观看| 两性午夜刺激爽爽歪歪视频在线观看| 国产亚洲精品久久久久久毛片| 99国产极品粉嫩在线观看| 99久久中文字幕三级久久日本| 免费观看人在逋| 午夜爱爱视频在线播放| 尤物成人国产欧美一区二区三区| 在线播放无遮挡| 午夜福利在线观看免费完整高清在 | 精品久久久久久久末码| 美女高潮的动态| 亚洲中文日韩欧美视频| 成人毛片a级毛片在线播放| 深夜精品福利| 国模一区二区三区四区视频| 免费看日本二区| 中文字幕av在线有码专区| 亚洲中文字幕一区二区三区有码在线看| 国产一区二区在线观看日韩| 亚洲精品国产成人久久av| 亚洲国产精品成人久久小说 | 美女高潮的动态| 观看免费一级毛片| 欧美绝顶高潮抽搐喷水| 在线观看av片永久免费下载| 深夜精品福利| 久久午夜福利片| aaaaa片日本免费| 精品久久久噜噜| 国内精品一区二区在线观看| 日韩av不卡免费在线播放| 免费不卡的大黄色大毛片视频在线观看 | 精品少妇黑人巨大在线播放 | 中文字幕熟女人妻在线| 国产精品久久久久久av不卡| 秋霞在线观看毛片| 女的被弄到高潮叫床怎么办| 97超碰精品成人国产| 午夜福利在线观看免费完整高清在 | 大又大粗又爽又黄少妇毛片口| 看免费成人av毛片| 不卡一级毛片| 久久精品夜夜夜夜夜久久蜜豆| 嫩草影院精品99| 日本一二三区视频观看| 极品教师在线视频| 亚洲天堂国产精品一区在线| 国产乱人偷精品视频| 国产免费男女视频| 欧美日本亚洲视频在线播放| 国产一区二区亚洲精品在线观看| 国产一区亚洲一区在线观看| 亚洲av熟女| 国产精品久久久久久久久免| 一个人看视频在线观看www免费| 我的老师免费观看完整版| 搡老岳熟女国产| 国产黄色小视频在线观看| 久99久视频精品免费| 久久久精品大字幕| 91久久精品电影网| 综合色丁香网| 如何舔出高潮| 九九在线视频观看精品| 免费高清视频大片| 国产真实乱freesex| 国产久久久一区二区三区| 国产精品1区2区在线观看.| 亚洲自偷自拍三级| 国产美女午夜福利| 成人精品一区二区免费| 日韩av不卡免费在线播放| 久久6这里有精品| 乱码一卡2卡4卡精品| 国产极品精品免费视频能看的| 色在线成人网| 男女之事视频高清在线观看| 亚洲三级黄色毛片| 免费无遮挡裸体视频| 欧美三级亚洲精品| 久久久精品94久久精品| 欧美极品一区二区三区四区| 人妻夜夜爽99麻豆av| 国产高清视频在线观看网站| 狂野欧美白嫩少妇大欣赏| 日韩,欧美,国产一区二区三区 | 成年免费大片在线观看| 亚洲最大成人中文| av免费在线看不卡| 99久久精品国产国产毛片| 极品教师在线视频| 免费一级毛片在线播放高清视频| 日韩,欧美,国产一区二区三区 | 国产私拍福利视频在线观看| 我要看日韩黄色一级片| 日韩av在线大香蕉| 最近最新中文字幕大全电影3| 国产午夜福利久久久久久| 免费av毛片视频| 91久久精品国产一区二区成人| 啦啦啦啦在线视频资源| 亚洲人成网站在线观看播放| 亚洲,欧美,日韩| 亚洲精品一区av在线观看| 免费大片18禁| 精品99又大又爽又粗少妇毛片| 亚洲精品一卡2卡三卡4卡5卡| 少妇的逼好多水| 少妇人妻精品综合一区二区 | 夜夜爽天天搞| 国产v大片淫在线免费观看| 欧美最黄视频在线播放免费| 伦精品一区二区三区| 日韩一本色道免费dvd| 久久久久久久久大av| 亚洲最大成人av| 美女cb高潮喷水在线观看| 欧美高清性xxxxhd video| a级一级毛片免费在线观看| av.在线天堂| 国内揄拍国产精品人妻在线| 国产精品精品国产色婷婷| 国产成人影院久久av| 欧美国产日韩亚洲一区| 亚洲性久久影院| 嫩草影视91久久| 免费观看人在逋| 大又大粗又爽又黄少妇毛片口| av在线观看视频网站免费| 日日摸夜夜添夜夜爱| 国产v大片淫在线免费观看| 国产毛片a区久久久久| 免费不卡的大黄色大毛片视频在线观看 | 国产伦精品一区二区三区视频9| 别揉我奶头~嗯~啊~动态视频| 老熟妇乱子伦视频在线观看| 免费不卡的大黄色大毛片视频在线观看 | 久久久久久国产a免费观看| 如何舔出高潮| 国产免费一级a男人的天堂| 免费搜索国产男女视频| 看片在线看免费视频| 亚洲18禁久久av| 午夜福利成人在线免费观看| 人妻夜夜爽99麻豆av| 超碰av人人做人人爽久久| 亚洲在线自拍视频| 成人三级黄色视频| 午夜爱爱视频在线播放| 成人亚洲欧美一区二区av| 国产国拍精品亚洲av在线观看| 国产单亲对白刺激| 亚洲电影在线观看av| 美女xxoo啪啪120秒动态图| 高清毛片免费看| 又粗又爽又猛毛片免费看| 亚洲国产精品成人综合色| 精品99又大又爽又粗少妇毛片| 日韩人妻高清精品专区| 一级毛片我不卡| 久久亚洲国产成人精品v| 菩萨蛮人人尽说江南好唐韦庄 | 亚洲欧美日韩高清在线视频| 亚洲精品一区av在线观看| 卡戴珊不雅视频在线播放| 小蜜桃在线观看免费完整版高清| 日本五十路高清| 国产高清视频在线播放一区| 亚洲av一区综合| 国产大屁股一区二区在线视频| 久久欧美精品欧美久久欧美| 99国产精品一区二区蜜桃av| 国产 一区 欧美 日韩| 日本五十路高清| 午夜老司机福利剧场| 日韩在线高清观看一区二区三区| 日本 av在线| 99热6这里只有精品| 小说图片视频综合网站| 露出奶头的视频| 亚洲第一电影网av| 国内少妇人妻偷人精品xxx网站| av视频在线观看入口| 精品一区二区三区av网在线观看| 午夜影院日韩av| 99久久精品国产国产毛片| 伦精品一区二区三区| 亚洲熟妇中文字幕五十中出| 日韩三级伦理在线观看| 欧美在线一区亚洲| 看片在线看免费视频| www.色视频.com| 亚洲人与动物交配视频| 黄色日韩在线| 亚洲国产欧美人成| 亚洲国产精品久久男人天堂| 亚洲激情五月婷婷啪啪| 亚洲婷婷狠狠爱综合网| 午夜免费男女啪啪视频观看 | 熟女人妻精品中文字幕| 伦理电影大哥的女人| 麻豆国产97在线/欧美| 内地一区二区视频在线| 日韩一本色道免费dvd| 97热精品久久久久久| 欧美日本视频| 十八禁网站免费在线| 观看免费一级毛片| 亚洲av.av天堂| 亚洲图色成人| 欧美日本亚洲视频在线播放| 国产精品久久视频播放| 伦精品一区二区三区| 女生性感内裤真人,穿戴方法视频| 级片在线观看| 国产不卡一卡二| 国产亚洲欧美98| 亚洲成人久久性| 久久久久国内视频| 伊人久久精品亚洲午夜| a级毛片a级免费在线| 日本一本二区三区精品| 国产 一区精品| 美女 人体艺术 gogo| 精品熟女少妇av免费看| 一区二区三区四区激情视频 | 免费黄网站久久成人精品| 婷婷精品国产亚洲av在线| 国产亚洲av嫩草精品影院| 日本熟妇午夜| a级毛片免费高清观看在线播放| 色尼玛亚洲综合影院| 国产精品福利在线免费观看| 一本一本综合久久| 国产黄片美女视频| 中国国产av一级| 欧美最黄视频在线播放免费| www.色视频.com| 久久草成人影院| 久久欧美精品欧美久久欧美| 一本一本综合久久| 亚洲专区国产一区二区| 校园人妻丝袜中文字幕| 波多野结衣巨乳人妻| 国产av不卡久久| 国产色爽女视频免费观看| 九九久久精品国产亚洲av麻豆| 最新在线观看一区二区三区| 日本免费一区二区三区高清不卡| 最近手机中文字幕大全| 三级经典国产精品| 在线观看美女被高潮喷水网站| 日日摸夜夜添夜夜添小说| 国产精品av视频在线免费观看| 性欧美人与动物交配| 又粗又爽又猛毛片免费看| 给我免费播放毛片高清在线观看| 国语自产精品视频在线第100页| 一夜夜www| 中国美白少妇内射xxxbb| 亚洲av免费在线观看| 免费黄网站久久成人精品| 亚洲自拍偷在线| 国产中年淑女户外野战色| 人妻夜夜爽99麻豆av| 俺也久久电影网| .国产精品久久| 亚洲av熟女| 久久精品国产亚洲av涩爱 | 国产私拍福利视频在线观看| 欧美另类亚洲清纯唯美| 午夜福利18| 桃色一区二区三区在线观看| 在线观看av片永久免费下载| 国产精品嫩草影院av在线观看| 九九在线视频观看精品| 日韩av在线大香蕉| 国产探花极品一区二区| 最近视频中文字幕2019在线8| 国产伦精品一区二区三区四那| 亚洲国产欧洲综合997久久,| 国产又黄又爽又无遮挡在线| 国产蜜桃级精品一区二区三区| 亚洲av不卡在线观看| 午夜影院日韩av| 久久人人爽人人片av| 12—13女人毛片做爰片一| 男人和女人高潮做爰伦理| 夜夜看夜夜爽夜夜摸| 一级毛片我不卡| 亚洲成人av在线免费| 国产精品久久视频播放| 色综合色国产| 亚洲av熟女| 成人高潮视频无遮挡免费网站| 国产黄色小视频在线观看| 亚洲性久久影院| 深爱激情五月婷婷| 91狼人影院| 综合色丁香网| 一个人看视频在线观看www免费| 成人漫画全彩无遮挡| av在线亚洲专区| 校园人妻丝袜中文字幕| 一个人看视频在线观看www免费| 国产精品女同一区二区软件| 亚洲中文日韩欧美视频| 久久久久久大精品| 小蜜桃在线观看免费完整版高清| 一级毛片电影观看 | 色综合色国产| 少妇猛男粗大的猛烈进出视频 | 一夜夜www| 久久久久国产网址| 两个人视频免费观看高清| 国内精品一区二区在线观看| av在线播放精品| 老熟妇乱子伦视频在线观看| 国产精品久久久久久av不卡| 日本成人三级电影网站| 一本久久中文字幕| 国产精品一区二区性色av| 乱系列少妇在线播放| 男人舔奶头视频| 麻豆精品久久久久久蜜桃| av天堂在线播放| 国产v大片淫在线免费观看| 少妇被粗大猛烈的视频|