郭 振,張玉潔,蘇 晨,徐金安
(北京交通大學 計算機與信息技術學院,北京 100044)
中文分詞、詞性標注和句法分析是中文自然語言處理的3大基礎任務,是一個中文句子被具體的自然語言處理應用(如機器翻譯系統)使用之前,必須經過的處理步驟。以往的研究大都將中文分詞、詞性標注和句法分析看成獨立的任務,任務的輸入是人工標注的標準語料。但是單任務模型在實際應用中存在以下缺陷。
1) 任務間的錯誤傳遞。例如,在實際應用中,中文分詞任務的輸出直接作為詞性標注任務的輸入。此時,中文分詞的錯誤會在詞性標注任務中被放大,嚴重影響詞性標注的精度。
2) 多層次特征無法獲取。例如,某些詞性標注歧義需要全局的句法信息才能得到消解,而傳統的詞性標注模型無法獲取這些信息。
將多個任務融合到一個模型中同時處理的聯合模型,是解決上述問題的一個有效方案。聯合模型成為近年來研究的熱點,許多有效的聯合模型被提出來: 中文分詞與詞性標注聯合模型[1-2];詞性標注與依存句法分析聯合模型[3-4];中文分詞、詞性標注和基于詞語的依存句法分析聯合模型[5];中文分詞、詞性標注和短語結構句法分析聯合模型[6]。上述研究顯示聯合模型能使各任務的性能都得到不同程度的提高。
中文分詞任務的輸入是字符序列,而詞性標注與句法結構分析的輸入是詞序列,解決好字符處理與詞語處理之間的沖突是中文分詞、詞性標注和句法結構分析聯合模型的關鍵。Hatori[5]假設詞語內部字符之間有類似于句子中詞語之間的依存關系,解碼過程中每當一個詞語構詞成功后就假設詞語內部之間的結構關系也建立完畢,從而在處理框架上統一了中文分詞、詞性標注和依存句法分析任務。但Hatori[5]并沒有真正利用詞語內部之間的結構信息對聯合模型進行改善。Zhang[6]認為構成詞語的字符之間具有實際的語義結構,并對賓州中文樹庫CTB5的所有詞語進行了結構標注,在此基礎上實現了基于字符的中文分詞、 詞性標注和短語結構句法分析聯合模型。
聯合模型的優(yōu)點是可以同步處理多項任務,使各任務的中間結果可以相互利用,性能得到相互促進。然而用于聯合模型的訓練語料必須是在依存結構上經過人工標注的語料。而目前深加工的語料規(guī)模有限,難以滿足訓練高性能模型的需求。與此同時,大規(guī)模的生語料卻相對容易獲得,其中蘊含的知識也將有助于聯合模型性能的提升。在以往的中文分詞、詞性標注和依存句法分析等單任務研究中,研究人員已經驗證了利用生語料的半監(jiān)督方法對各項任務的輔助作用[7-11]。如何從大規(guī)模生語料中抽取有價值的知識,融入到更復雜的聯合模型中,是一個值得研究的新課題。
針對以上問題,本文做出了以下貢獻:
? 將Zhang[6]標注的詞語內部結構轉化為依存結構,將傳統的基于詞語的依存句法樹擴展成了基于字符的依存句法樹,在此基礎上采用增量轉移策略實現了真正意義上的基于字符的中文分詞、詞性標注和依存句法分析聯合模型。
? 參考中文分詞的序列標注思想,將中文分詞的轉移策略擴展為4種動作: Shfit_S、Shift_B、Shift_M和Shift_E。該擴展同時能夠將以往中文分詞研究中豐富而成熟的特征融入聯合模型。
? 從大規(guī)模生語料中分別抽取了字符串層面的n-gram特征和結構層面的依存子樹特征融入到聯合模型中,首次實現了半監(jiān)督的中文分詞、詞性標注和依存句法分析聯合模型。
? 在CTB5的實驗結果顯示,本文的模型在中文分詞、詞性標注和依存分析任務上的F1值分別達到了98.31%、94.84%和81.71%,較單任務模型的分步處理結果分別提升了0.92%、1.77%和3.95%。其中,分詞和詞性標注在目前公布的結果中取得了最好成績。
本文剩余部分組織結構如下: 第2節(jié)介紹基于字符的中文分詞、詞性標注和依存句法分析聯合模型;第3節(jié)介紹適用于聯合模型的n-gram特征和依存子樹特征的抽取和使用方法;第4節(jié)介紹評測實驗;第5節(jié)對本文工作進行總結。
柱搜索和全局訓練模型被應用于基于轉移策略的自然語言處理框架,使得該框架在各項自然語言處理任務上取得了與其它經典模型同一水平的精度,并且保持了簡單高效易于擴展的優(yōu)勢[12]。本文利用Zhang[6]對CTB5的詞語內部結構的標注信息,將基于詞的依存句法樹擴展成了基于字符的依存句法樹。采用轉移策略,實現了真正意義上的基于字符的中文分詞、詞性標注和依存句法分析聯合模型?;谛蛄袠俗⑺枷耄匦略O計了聯合模型里中文分詞部分的轉移策略。該設計同時能夠將以往中文分詞研究中豐富而成熟的特征融入聯合模型。模型用平均感知機算法進行全局訓練,訓練過程中采用參數提前更新策略[13]。訓練和解碼過程采用柱搜索算法實現。
構成中文詞語的漢字與構成英文單詞的字母不同,單獨的英文字母不能承載任何語義信息,而漢字屬于表意文字,單獨的漢字也承載了特定的語義信息。與詞語通過相互影響產生語義修飾關系構成句子類似,構成詞語的漢字之間也有特定的語義結構。例如,“理發(fā)店”一詞中,“理”和“發(fā)”通過動賓關系構成“理發(fā)”,“理發(fā)”作為定語修飾“店”構成詞語“理發(fā)店”。這種漢字之間通過發(fā)生修飾關系構成詞語的方式與詞語構成句子的方式頗為類似。
Zhang[6]對賓州中文樹庫的所有詞語進行了結構標注如圖1b和圖1d所示?!發(fā)”、“r”和“c”分別表示左邊部分為右邊部分的支配者,右邊部分為左邊部分的支配者以及左右兩部分為并列關系。本文根據Zhang[6]的標注信息將圖1b和圖1d的結構轉換為圖1c和圖1e中的依存結構,轉換時對于“c”我們選取右邊部分為頭節(jié)點。通過這種處理我們將圖1a所示的基于詞語的依存句法樹轉換成了圖1f所示的基于字符的依存句法樹。
圖1 詞語內部結構以及基于字符的依存句法樹
基于字符的依存句法樹比基于詞語的依存句法樹更適用于基于轉移策略的中文分詞、詞性標注和依存句法分析聯合模型。基于轉移策略的聯合模型將句子的分析過程分解為若干轉移動作,為了減少搜索消耗,對于經歷相同轉移動作次數的候選結果,只保留模型評分較高的前N個結果。因此,模型要求經歷相同轉移動作次數的候選結果之間是可比的,即要求一個句子的所有候選結果從模型分析的初始狀態(tài)到終止狀態(tài),恰好經歷相同次數的轉移動作。否則需要模型為此設計專門的中間結果對齊方案[5,14]?;谵D移策略的聯合模型將一個依存弧的建立設定為一個轉移動作,而基于詞的依存句法樹中依存弧的個數隨著分詞結果的變化而變化,使得經歷相同轉移動作次數的候選結果之間無法進行合理的競爭?;谧值囊来婢浞渲幸来婊〉膫€數是固定的,即句子的字符數減1,直接使上述難題得到解決。
另一方面,詞語的內部結構信息有助于聯合模型性能的提高。以中文分詞為例,一個候選切分詞語的內部結構越穩(wěn)定合理,那么它真正成為詞語的可能性越大。Zhang[6]的研究證明無論是根據特定規(guī)則強制構建的詞語內部結構,還是人工標注的真實的詞語內部結構,對于短語結構句法樹的分析都有一定的輔助意義。Li[15]的研究表明,即使只使用詞語的部分內部結構,也能提高中文依存句法分析的性能。
基于轉移策略的模型對輸入句子從左到右進行處理,每次執(zhí)行一個設定的轉移動作,將句子從當前狀態(tài)Ti轉移到下一個狀態(tài)Ti+1。一個狀態(tài)T包含一個棧S={…S1,S0}和一個隊列Q={Q0,Q1…},分別用來記錄已經分析完成的部分結果,即依存子樹,以及將要分析的字符。一個句子的初始狀態(tài)S為空,Q為句中所有字符;終止狀態(tài)S為一棵完整的依存句法樹,其中包含了中文分詞與詞性標注的結果,Q為空。
為了將中文分詞、詞性標注和基于字符的依存句法分析3大任務融合到一個轉移系統中,并且為了更加便捷的將以往單任務研究中成熟而豐富的特征加入到新的聯合模型中,本文在前人研究的基礎上重新設計了以下轉移動作。
1) 中文分詞和詞性標注轉移動作
① SHIFT-B(t): 將隊列Q的首元素作為非單字詞的首字符移進棧頂,并給予詞性t。
② SHIFT-M: 將隊列Q的首元素作為非單字詞的除首尾字符之外的字符移進棧頂。
③ SHIFT-E: 將隊列Q的首元素作為非單字詞的尾字符移進棧頂。
④ SHIFT-S(t): 將隊列Q的首元素作為單字詞移進棧頂,并給予詞性t。
通過以上設計,基于轉移策略的中文分詞方法,統一到了將中文分詞任務看作序列標注任務的處理框架下,同時使得以往基于序列標注思想的中文分詞研究成果可以方便合理地融入到新的聯合模型里。本文第3節(jié)提出的半監(jiān)督的聯合模型正是這一設計的有效利用,并且取得了顯著效果。
2) 詞語內部依存結構轉移動作
① REDUCE-SUBLEFT: 棧S頂部的兩個子樹S1和S0出棧,建立依存關系S1S0(表示S1依存于S0),將新形成的依存子樹的根節(jié)點(即S0)入棧。執(zhí)行此動作的前提是子樹S1和子樹S0所包含的字符均屬于同一個詞語。
② REDUCE-SUBRIGHT: 棧S頂部的兩個子樹S1和S0出棧,建立依存關系S1S0(表示S0依存于S1),將新形成的依存子樹的根節(jié)點(即S1)入棧。執(zhí)行此動作的前提是子樹S1和子樹S0所包含的字符均屬于同一個詞語。
詞語內部依存關系的建立跟詞語之間依存關系的建立類似,不同的是發(fā)生關系的元素類型不同,前者是字符,后者是詞語。
3) 詞語之間依存結構轉移動作
① REDUCE-LEFT: 棧S頂部的兩個子樹S1和S0出棧,建立依存關系S1S0,將新形成的依存子樹的根節(jié)點(即S0)入棧。執(zhí)行此動作的前提是S1節(jié)點字符所屬的詞語和S0節(jié)點字符所屬的詞語是兩個不同的詞語,并且構詞和詞內依存結構分析均已完成。
② REDUCE-RIGHT: 棧S頂部的兩個子樹S1和S0出棧,建立依存關系S1S0,將新形成的依存子樹的根節(jié)點(即S1)入棧。執(zhí)行此動作的前提是S1節(jié)點字符所屬的詞語和S0節(jié)點字符所屬的詞語是兩個不同的詞語,并且構詞和詞內依存結構分析均已完成。
基于以上轉移策略,一個字符數為N的句子,需要經過2N-1次狀態(tài)轉移即可完成從初始狀態(tài)到終止狀態(tài)的分析。
本文使用的特征模板如表1所示。表1中的特征分為結構特征和序列特征兩大類,分別表示依存子樹的句法結構信息和中文分詞與詞性標注的上下文序列信息。句法結構信息包括基于詞語的結構信息和基于字符的結構信息。
表1 基于字符的中文分詞、詞性標注與依存句法分析聯合模型的特征模板
表1中的特征模板參考了Hatori[5]的研究,本文對特征的使用階段和使用方式進行了調整,以適用于2.2節(jié)所述的模型。P01-P20主要抽取句法結構特征,在不同的轉移動作中使用時,P01-P20中的w會根據當時的環(huán)境選擇代表一個完整的詞或是一個詞的一部分。W01-W20是主要用來決定當前字符以什么方式參與詞語的構成。T01-T05被用來預測最新進入棧頂的詞語的詞性,只在SHIFT-S(t)和SHIFT-B(t)階段使用。S01-S07是本文新加入的基于字符的詞語內部結構特征,與P01-P20一起輔助詞語內部句法結構的分析。
半監(jiān)督的模型訓練方法由于語料易得、方法簡便高效等特點,廣泛應用于各項自然語言處理任務。尤其在人工標注語料較少或專業(yè)領域資源匱乏的任務上,獲得了顯著效果。面對聯合模型,半監(jiān)督的方法遇到了新的機遇和挑戰(zhàn)。對于中文分詞、詞性標注和依存句法分析聯合模型,訓練語料必須是經過人工中文分詞標注、詞性標注和基于字的依存句法結構標注的語料。而經過這樣深層次人工標注的語料有限,難以滿足訓練高性能模型的需求。與此同時,不經過任何標注的完全生語料和只有部分標注信息的半生語料更容易獲取,其中蘊含著豐富的信息可以用來提高聯合模型的性能。由于聯合模型中各任務的結果可以相互促進,使得生語料的加入可以同時促進多個任務性能的提升,這是單任務模型無法比擬的。但是如何將不同程度的生語料融入更加復雜的聯合模型,是一個新的課題和挑戰(zhàn),需要專門研究。
本文從大規(guī)模生語料中抽取具有代表性的n-gram字符串特征和依存子樹結構特征,研究生語料特征在聯合模型中的使用方法,首次實現了基于字符的半監(jiān)督中文分詞、詞性標注和依存句法分析聯合模型,取得了顯著的實驗效果。圖2為半監(jiān)督聯合模型的框架。
圖2 半監(jiān)督的基于字符的中文分詞、詞性標注和依存句法分析聯合模型框架
本小節(jié)介紹用于聯合模型的n-gram特征的抽取與使用。本文將Wang[8]對完全生語料的處理方案移植到具有分詞標注的語料上來,并根據抽取的信息為聯合模型產生新的特征。
對于給定分詞結果的一個句子S=C0C1…Cn,首先根據字符在詞語中的位置對其進行標注,可以得到對應的標注序列T=T0T1…Tn。本文采用傳統的四詞位標注集[16]。然后,從句子中抽取Ci、CiCi+1、Ci-1CiCi+1等不同長度的n-gram字符串,用g表示。對于一個特定的g如CiCi+1,抽取與其相關的不同長度的標注串如Ti、TiTi+1、Ti+1等,用seg表示。這樣就得到了一系列不同的(g,seg)。接下來,統計每種(g,seg)在語料中的出現頻度f(g,seg),就得到了一系列{g,seg,f(g,seg)}。然后,通過下面的方法將(g,seg)映射到不同的標簽: 出現頻度前10%的(g,seg),標簽為H;出現頻度前10%~30%的(g,seg),標簽為M;出現頻度小于30%的(g,seg),標簽為L。在此之前,先將出現頻度小于3的(g,seg)去掉,本文認為這些(g,seg)的出現頻度過低,不具有有效的統計意義。這樣,就獲得了一個{g,seg,label}列表,新的n-gram特征就是基于這份列表產生的。
當聯合模型執(zhí)行與中文分詞有關的轉移動作時,即某個字符將要被移進分析狀態(tài)的棧頂時,抽取與該字符相關的n-gram字符串g,如果g存在于上文從生語料中抽取的列表中,就將對應的seg與label連接起來,形成新的特征加入到模型中,即 n-gram 特征。沿用Wang的做法,本文只采用 bi-gram 特征,在信息抽取和特征生成階段,只關注bi-gram CiCi+1的相關信息,其中Ci為當前要處理的字符。
依存子樹特征是指,從經過自動依存句法分析的生語料中抽取特定的依存子樹,生成適用于有監(jiān)督訓練模型的特征。具有2個節(jié)點的依存子樹和具有3個節(jié)點的依存子樹使用最為廣泛[10]。本文從生語料中抽取具有2個節(jié)點的依存子樹生成用于聯合模型的依存子樹特征。
首先對大規(guī)模生語料進行自動依存句法分析。本文采用被廣泛使用的單任務依存句法分析器,基于圖模型的開源依存句法分析工具MSTParser*http://mstparser.sourceforge.net。為了節(jié)約大規(guī)模生語料的預處理時間,MSTParser的訓練和解碼采用一階模型,模型的訓練語料與聯合模型的訓練語料相同。然后,從經過處理的大規(guī)模生語料中抽取具有2個節(jié)點的依存子樹,即詞語依存對: W1-W2-R/L。其中,詞語W1和W2的順序與它們在原句子中的順序保持一致,R和L分別表示右依存弧和左依存弧,即W2依存于W1和W1依存于W2。統計所有依存子樹W1-W2-R/L出現的頻度f(W1-W2-R/L),得到一系列{ W1-W2-R/L,f(W1-W2-R/L)}。接下來,采用與3.1節(jié)類似的方法將(W1-W2-R/L)映射到不同的標簽: 出現頻度前10%的W1-W2-R/L,標簽為H;出現頻度前10%~30%的W1-W2-R/L,標簽為M;出現頻度小于30%的W1-W2-R/L,標簽為L。在此之前,需要先將出現頻度小于3的W1-W2-R/L去掉,理由如3.1所述。
當聯合模型對當前狀態(tài)的前兩個棧頂元素進行依存關系決策時,為其生成兩種依存子樹W1-W2-R和W1-W2-L,通過查詢上文獲得的依存子樹信息表,獲得相應的頻度標簽,將依存子樹的依存弧方向和頻度標簽連接起來形成新的特征加入到聯合模型中,例如,“R-H”和“L-M”。
標注語料采用賓州中文樹庫CTB5,語料劃分方案為: 訓練集1—270篇、400—931篇和1 001—1 151篇;開發(fā)集301—325篇;測試集271—300篇[6]。訓練集用于聯合模型訓練,開發(fā)集用于調參,測試集用于評測。用PennMalt*http://w3.msi.vxu.se/~nivre/research/Penn2Malt.html將短語結構樹轉換為依存結構樹。使用經過分詞標注的《人民日報》(1998年上半年)的數據作為具有部分標注信息的語料*http://www.icl.pku.edu.,用于n-gram特征和依存子樹特征的抽取。用基于條件隨機場的詞性標注模型對其進行詞性標注,用基于圖的依存句法分析模型對其進行依存句法分析。
對中文分詞、詞性標注和依存句法分析均采用準確率、召回率、綜合性能指標F1值進行評測。對于依存句法分析,只有當具有依存關系的兩個詞語均被系統召回,并且依存弧的方向正確時,這個依存關系才被作為正確結果。遵循慣例,評測時與標點符號相關的依存關系不予考慮。
根據第2節(jié)和第3節(jié)提出的方案,我們實現了一個基于字符的中文分詞、詞性標注和依存句法聯合模型和3個半監(jiān)督的聯合模型。為了與單任務模型和部分任務的聯合模型對比,實現了兩套系統,并把它們作為Baseline。細節(jié)如下:
? SegTagDep: 本文提出的基于字符的中文分詞、詞性標注和依存句法分析聯合模型。
? SegTagDep+2-gram: 在SegTagDep中加入3.1節(jié)描述的2-gram特征。
? SegTagDep+ subtree: 在SegTagDep中加入3.2節(jié)描述的依存子樹特征。
? SegTagDep+2-gram+subtree: 在SegTagDep中同時加入3.1節(jié)和3.2節(jié)中描述的2-gram特征和依存子樹特征。
? CRF+MSTP: 基于條件隨機場的中文分詞和詞性標注系統,使用開源工具CRF++*http://crfpp.sourceforge.net/,特征模板與Wang(2011)[8]一致。基于圖模型的中文依存句法分析[17],采用開源工具MSTParser,訓練和解碼采用二階模型。
? SegTag+MSTP: 采用Zhang(2010)[1]的中文分詞和詞性標注聯合模型。去除特殊規(guī)則處理,以保持與本文提出的聯合模型一致。依存句法分析依然采用上面的MSTParser。
表3列出了上面6個系統的評測結果F1值。表中第一行為本文提出的聯合模型的性能??梢钥闯?,聯合模型在各項任務上均取得了好于基線系統的結果,其中在詞性標注和依存分析任務上的F1值,比僅在分詞與詞性標注任務上聯合的基線系統提升了0.68%和1.66%。我們推斷,詞性標注性能的提升得益于句法特征的加入,使僅靠字符串特征無法消解的詞性歧義得到解決;同時依存句法分析的性能,也隨著更多正確詞性被召回獲得了提升。值得注意的是,聯合模型的分詞結果與最好的基線系統持平,我們分析主要因素是,目前系統的分詞精度已經很高,分詞性能的提高受限于標注語料的知識規(guī)模。我們隨后提出的半監(jiān)督模型通過使用更多的非全標注語料驗證了這一點。
表3各模型在中文分詞、詞性標注和依存句法分析任務上的性能
模型中文分詞詞性標注依存句法分析SegTagDep97.5293.9379.55SegTagDep+2?gram98.3894.6380.78SegTagDep+subtree97.7494.2580.40SegTagDep+2?gram+subtree98.3194.8481.71CRF+MSTP97.3993.0777.76SegTag+MSTP97.5193.2577.89Hatori(2012)98.2694.64———
下面觀察生語料特征的加入對聯合模型的影響。從表3的結果可以看出,從生語料中抽取的字符串層面的2-gram特征和結構層面的依存子樹特征,都使聯合模型在各項任務上的性能獲得了不同程度的提高。2-gram特征的加入使聯合模型在中文分詞、詞性標注和依存句法分析的F1值分別提高了0.86%、0.7%和1.23%。依存子樹特征的加入使聯合模型在中文分詞、詞性標注和依存句法分析的F1值分別獲得了0.22%、0.32%和0.85%的提升。由此我們認識到,由于聯合模型中各任務的中間結果以特征形式及時反饋給其他任務,使得一個任務性能的提高會促進其它任務性能的提高,這使得來自生語料的特征信息在聯合模型中獲得的增益比在單任務模型中獲得的增益更大。同時使用2-gram特征和依存子樹的聯合模型取得了在各任務上最好的性能: 中文分詞達到98.31%,詞性標注達到94.84%,依存句法分析達到81.71%,使聯合模型在各項任務上分別獲得了0.79%、0.91%和2.16%的性能提升, 較單任務模型的分步處理結果分別提升了0.92%、1.77%和3.95%。
目前有關聯合模型的研究報告來自Hatori[5],為了對比,我們將其評測結果列于表3最后一行。Hatori[5]的聯合模型中加入了豐富的外部詞典特征??梢钥闯觯覀兊哪P驮谥形姆衷~和詞性標注任務上的性能優(yōu)于Hatori[5]的性能。由于Hatori[5]并沒有給出在本數據集上的依存句法測試結果,所以無法與其直接進行比較。
表4列出了前人在中文分詞與詞性標注研究上獲得的經典結果和本文獲得的最好結果?!癒ruengkrai09”是Kruengkrai[2]實現的錯誤驅動模型;“Zhang10”是Zhang[1]采用轉移策略實現的中文分詞與詞性標注聯合模型,并在訓練與解碼階段對英文字符和阿拉伯數字采用了特殊的規(guī)則處理;“Sun11”是Sun[18]的融合多個不同層次模型的處理方法,并且使用了詞典信息;“Wang11”是Wang[8]基于CRF實現的加入大規(guī)模生語料的半監(jiān)督模型;“Hatori12”是Hatori[5]實現的中文分詞、詞性標注與基于詞語的依存句法分析聯合模型,并且加入了豐富的外部詞典特征;“Zhang13”是Zhang[6]實現的基于字符的中文分詞、詞性標注與短語結構句法分析聯合模型??梢钥闯?,本文的模型在中文分詞和詞性標注上取得了最佳的結果,顯示了更大優(yōu)勢。
表4 與以往中文分詞與詞性標注經典研究報告結果的比較
在本文投稿之后ACL發(fā)表了同樣架構下的中文分詞、詞性標注和依存句法分析聯合模型,在各項任務上的精度為97.84%、94.33%和82.14%[19]。本文的模型在依存句法分析的精度上略低于此文,我們將提高本文聯合模型的精度作為今后工作的重點。
本文利用詞語內部結構信息,將基于詞語的依存句法樹擴展成了基于字符的依存句法樹,采用轉移策略提出并實現了真正意義上的基于字符的中文分詞、詞性標注和依存句法分析聯合模型。在中文分詞與詞性標注部分,將序列標注思想與轉移策略相結合,設計了4詞位狀態(tài)轉移方案,使得以往中文分詞的研究成果可以便捷地移植到聯合模型中來。從大規(guī)模生語料中抽取字符串層次的2-gram特征和結構層次的依存子樹特征,融入到新的聯合模型中,首次實現了基于字符的半監(jiān)督中文分詞、詞性標注和依存句法分析聯合模型。實驗結果顯示,半監(jiān)督的聯合模型在各項任務上的性能均優(yōu)于單任務模型和不同程度的聯合模型,在中文分詞、詞性標注和依存句法分析方面F1值分別達到了98.31%、94.84%和81.71%,較單任務模型的分步處理結果分別提升了0.92%、1.77%和3.95%。作為今后的工作,我們一方面要進一步提高本文聯合模型在中文依存句法分析任務上的精度,另一方面要優(yōu)化模型實現方案,提高速度。
致謝本文工作得到了中國科學院智能信息處理重點實驗室、中國科學院計算技術研究所的部分資助。
[1] Zhang Y, Clark S. A fast decoder for joint word segmentation and POS-tagging using a single discriminative model[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 843-852.
[2] Kruengkrai C, Uchimoto K, Kazama J, et al. An error-driven word-character hybrid model for joint Chinese word segmentation and POS tagging[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 513-521.
[3] Hatori J, Matsuzaki T, Miyao Y, et al. Incremental Joint POS Tagging and Dependency Parsing in Chinese[C]//Proceedings of the IJCNLP. 2011: 1216-1224.
[4] Li Z, Zhang M, Che W, et al. Joint models for Chinese POS tagging and dependency parsing[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 1180-1191.
[5] Hatori J, Matsuzaki T, Miyao Y, et al. Incremental joint approach to word segmentation, pos tagging, and dependency parsing in chinese[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 1045-1053.
[6] Zhang M, Zhang Y, Che W, et al. Chinese parsing exploiting characters[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013:125-134.
[7] Guo Z, Zhang Y, Su C, et al. Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation[C]//Proceedings of the NLPCC 2012.
[8] Wang Y, Jun'ichi Kazama Y T, Tsuruoka Y, et al. Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data[C]//Proceedings of the IJCNLP. 2011: 309-317.
[9] Koo T, Carreras X, Collins M. Simple semi-supervised dependency parsing[C]//Proceedings of ACL/HLT. 2008:595 603.
[10] Chen W, Kazama J, Uchimoto K, et al. Improving dependency parsing with subtrees from auto-parsed data[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 570-579.
[11] Chen W, Kazama J, Torisawa K. Bitext dependency parsing with bilingual subtree constraints[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 21-29.
[12] Zhang Y, Nivre J. Analyzing the Effect of Global Learning and Beam-Search on Transition-Based Dependency Parsing[C]//Proceedings of the COLING (Posters). 2012: 1391-1400.
[13] Collins M, Roark B. Incremental parsing with the perceptron algorithm[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 111.
[14] Zhu M, Zhang Y, Chen W, et al. Fast and Accurate Shift-Reduce Constituent Parsing[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013: 434-443.
[15] Li Z, Zhou G. Unified dependency parsing of Chinese morphological and syntactic structures[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 1445-1454.
[16] Zhao H, Huang C N, Li M, et al. Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC. 2006, 20: 87-94.
[17] McDonald R, Crammer K, Pereira F. Online large-margin training of dependency parsers[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 91-98.
[18] Sun W. A stacked sub-word model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1385-1394.
[19] Zhang M, Zhang Y, Che W, et al. Character-Level Chinese Dependency Parsing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 1326 1336.