烏 蘭,達胡白乙拉,關曉炟,周 強
(1. 內蒙古大學 蒙古學學院,內蒙古 呼和浩特 010021;2. 中國科學院自動化研究所,北京 100190;3. 清華大學信息技術研究院,北京 100084)
20世紀80年代開始,蒙古語基于語料庫的信息處理研究一直在進行。目前完成了字、詞處理階段的基本任務,步入句子處理階段。句法分析在自然語言信息處理當中處于非常關鍵的位置,它能為篇章處理、語義分析提供有效的幫助。句法分析和樹庫的建設有互相推進的作用,樹庫作為標準數(shù)據(jù)評價自動分析器的處理質量,為理論語言學研究提供客觀的真實文本標注數(shù)據(jù),而自動句法分析為建設大規(guī)模樹庫提供了可能性。
在基于短語結構語法分析句子和建設樹庫方面,英語、漢語等一些語言的研究取得了可喜的成果。幾個典型的句法標注語料庫有美國的PTB[1],德國的Tiger[1],西班牙語有UAM[1],還有美國濱州大學的漢語樹庫CTB[1]和清華大學漢語樹庫TCT[2]等。蒙古語短語樹庫標注體系[3]跟清華TCT有相似點,TCT選擇了大規(guī)模的包含新聞、學術、文學、應用4大體裁的平衡語料文本作為加工對象。它覆蓋了漢語“字/詞→塊→句→段”等各個層次的句法單元,形成漢語句子最為詳細的句法信息描述。它設計了雙標記集的描述體系: 一是成分標記集,二是關系標記集。
蒙古語短語結構樹可以表示句子較全面的句法信息,包括從詞、短語到句子的句法單位。詞與詞之間的搭配和同現(xiàn),短語的內部結構和功能分類等,都可以在短語結構中得以體現(xiàn)。
因此我們選擇建設短語結構樹庫來盡可能地反映蒙古語句子組織信息情況,以期盡可能詳細地描述蒙古語句子的句法組合信息。
蒙古語短語結構類型和結構內部關系的識別判定是蒙古語句法分析的一項重要內容,也是蒙古語語料庫多級加工處理的一個重要環(huán)節(jié)。蒙古語句法分析研究大多屬于基于舉例法的句法研究,近期面向信息處理的句法研究也較少見,可以分為有基于短語結構語法分析和基于依存語法分析兩種?;诙陶Z結構的句法研究有內蒙古大學所作的對語料庫短語標注切分研究[4-7];基于依存語法的句法研究有內蒙古大學所作的依存句法分析研究[8],依存句法與短語結構句法是兩種不同體系的研究方法,因此做蒙古語短語結構句法分析器是很有必要。目前這些研究的目標基本統(tǒng)一,通過不同視角對蒙古語句子結構進行分析研究,試圖探索蒙古語句子的組合方式和層次結構特征,對句法有一個較清晰的認識,為進一步的計算機處理構繪一定的基礎框架。因此本文的蒙古語短語結構樹的自動識別研究能為以后構建大規(guī)模的蒙古語樹庫積累經(jīng)驗,并將會促進計算機模仿人理解和使用蒙古語的心理過程,為計算機理解蒙古語提供一個行之有效的環(huán)節(jié)。它還有利于蒙古語句子的結構和性能研究。就應用來說,它在訓練基于短語結構的機器翻譯、信息檢索、信息抽取、問答系統(tǒng)、自動校對等各種應用系統(tǒng)中有著不可缺少的作用和意義。
蒙古語是黏著性語言,詞一般可以分解為詞根(詞干)和詞綴兩個部分,有的詞根可以單獨使用,詞干上加接構詞詞綴可以派生新詞,在派生詞上再接續(xù)構詞詞綴或構形詞綴還可以構成新詞或增添語法意義。蒙古語中較長的多音節(jié)詞一般都是幾個構詞詞綴和構形詞綴依次相加的結果[9]。它富有形態(tài)變化。靜詞類有格、領屬、數(shù)范疇的形態(tài)變化。動詞類有式、體、態(tài)等范疇變化和連接形、兼役形變化。句子中詞與詞的句法關系是通過這些形態(tài)變化來表達的。在《信息技術-信息處理用蒙古文詞語標記集》[10](GB/T 26235-2010)(下面簡稱《國標》)把蒙古語的構形附加成分分為數(shù)范疇、格范疇、領屬范疇、形容詞級范疇、數(shù)詞變化形式、祈使式、陳述式、副動詞、形動詞、名動詞、態(tài)范疇、體范疇、附屬等13大類。在句子中這些構形附加成分的出現(xiàn)如例子:
[]LeNIN/Nt1(列寧) IRE/Ve2+JEI/Fs11(來過了)(列寧來過了)。
ABV/Ne1(父親)JOBSIYERE/Ve1+BE/Fs14(同意了)(父親同意了)。
這些句子里的動作是通過動詞陳述式表示過去時的詞綴“JEI,BE”來表示這個行為已經(jīng)完成了。
蒙古語形態(tài)變化豐富,例如,“ABV/Ne1 JOBSIYERE/Ve1+N_E/Fs21”“ABV/Ne1 JOBSIYERE/Ve1+HU/Ft12”“ABV/Ne1 JOBSIYERE/Ve1+JU/Fn1” “ABV/Ne1 JOBSIYERE/Ve1+GSEN/Ft11”(爸爸同意),以上4個短語是通過不同的構形附加成分來表達“爸爸同意”這個行為。是在動詞詞根“JOBSIYERE”上加不同的詞綴“N_E”、“HU”、“JU”、“GSEN”來表達“爸爸同意”這個行為,在不同的語境里分別使用,但基本語義不會發(fā)生變化。在短語結構分析當中無論它的動詞有多少變化,它就是體述關系的短語。
在蒙古語的構形附加成分中“格”表示名詞和其他詞的關系以及它在短語和句子中的功能。蒙古語的“格”通過在靜詞之后接續(xù)某種詞綴來表示[11]。例如,在蒙古語句子中有時名詞和名詞會發(fā)生關系,例如,“M0NGG0L=HELEN/NT-U/Fc11HICIYEL/Ne1(蒙古語課程)”,這個短語中的兩個名詞是所屬關系,因此在兩個名詞之間加入蒙古語的“屬格”,即“U/Fc11”,相當于漢語的“的”;除此之外,名詞與動詞也可能會發(fā)生關系,例如,“VSV/Ne2-BAR/Fc51 VHIYA/Ve1+GSAN/Ft11(用水洗)”,此時就要在名詞后面加“工具格”,即“BAR/Fc51”。在《國標》里把蒙古語的“格”分為主格、屬格、與格、賓格、從格、工具格、共同格、聯(lián)合格、定格等9種。蒙古語的“格”短語在句子中可以充當主語、定語、賓語和狀語等句子成分。在蒙古語短語結構句法樹庫里,短語結構內部關系的賓述關系、體述關系、狀述關系、定體關系的內容跟“格”有很大的關聯(lián)。這樣一來,“格”對蒙古語短語結構句法樹庫的影響是可想而知的。
兩種格之間的歧義問題是自動分析器的一個難點。例如,短語結構分析句子的時候,蒙古語的間接賓語與狀語有的時候很難區(qū)分。靜詞的工具格有的時候構成間接賓語,有的時候構成狀語。在個別情況下,同樣一個形式有時可以表示賓語也可以表示狀語。例如,“M0RI/Ne1-BAR/Fc51 YABV/Ve2+N_A/Fs21(騎馬走)”中是賓語,“SVRGAGVLI/Ne1-BAR/Fc51 T0G0RI/Ve1+Y_A/Fb11(校園里逛)”是狀語。兩個短語都是“名詞-工具格 動詞”形式,但是句子中充當成分卻不一樣。還有些傳統(tǒng)語法學論著明確指出成分句的主語可以以賓格形式存在。這意味著賓述關系和體述關系之間一定會產(chǎn)生同形歧義問題[12]。 蒙古語主格是零形式,特別是在體述關系、定體關系里出現(xiàn)的頻率較高,因此只能依靠“格”來辨別是不夠的,還需要詞性、語義等信息。這樣一來,這些歧義對句法分析器分析短語內部關系帶來很多困擾。在辨別上文提到的兩個短語句子成分的時候,我們依靠大腦的語言知識和理解能力,但是計算機處理方式是形式化,類似于上文提到的短語就很難辨別出來。
蒙古語的語序比較靈活,但是中心詞的位置基本上是固定的(除了特殊句型以外),處在后部分,蒙古語的句子結構是主賓謂(SOV)形式。這使分析器產(chǎn)生短語結構類型有了基本的理論依據(jù)。例如,把“名詞—動詞”、“動詞—動詞”、“副詞—動詞”、“摹擬詞—動詞”等以動詞為中心詞的短語稱之為動詞短語。例如,“YEHE/Ac-BER/Fc41 HI/Ve1+JU/Fn1(大量做)”是動詞短語,因為“HI/Ve1+JU/Fn1(做)”是中心詞,處在短語的后部分,它的詞性是動詞。
虛詞在對句子分析中也占有自己的位置,例如,用后置詞、時位詞、連接詞等來連接兩個詞或者短語。有些內部關系通常通過一些虛詞后它的特征會很明顯,我們可以通過這些虛詞來確定短語內部關系,例如它含有“BOGED/MORTEGEN/BA/B0LVN/,/、”等詞或符號的時候是聯(lián)合關系。
產(chǎn)生短語結構樹的時候,第一步工作是進行固定短語標注工作,我們使用固定短語標注系統(tǒng)和結合人工校對,用“=”號連接。標注語料實例如下,“EHE 0R0N”要用“=”符號連接起來,是“EHE=0R0N”(“祖國”的意思)形式。有些固定短語還會被漏掉,因此需要人工校對和加以修改。實例: “HOMON TOROLHITEN”->“HOMON=TOROLHITEN”(人類)。
在此基礎上,我們要進行詞法標注。2010年內蒙古大學與中國科學院合作研制了基于統(tǒng)計的詞法分析器-Mglex分析器。它能標注出蒙古語詞干(詞根)詞性信息和構形附加成分的相關信息,準確率達97.7%。單個詞上標注的格式為“詞根(詞干)/詞性標記+詞綴/詞類標記” 。例如,單個詞根ABV/Ne1,詞根+連寫詞綴AHI/Ve2+GVL/Fe11+BA/Fs14;
“_”: 蒙古語中分開寫的元音,例如,“OGERECILE/Ve1+N_E/Fs21”中“_E”是分開寫的元音,與‘N’一起才看成是一個音節(jié)。
“+”: 在連寫詞綴(附加成分)前面標注,“YABV/Ve2+N_A/Fs21”中“N_A”前面有加號,是在說明它與前面“YABV”的連寫詞綴。
“-”: 靜詞類格范疇,領屬范疇,復數(shù)范疇的分寫詞綴前面標注此符號。例如,“ABV/Ne1-YIN/Fc11”中,“YIN”是前一個詞“ABV”的分寫詞綴。
“=”: 用這個符號連接的詞有固定短語,也有專有名詞。例如,YASV=CINAR/Yn(質量);DVMDADV=VLVS/NT(中國)
“[]” :人名前面用這個符號。例如,[]WeN=JIYA=BVV/Nt1(溫家寶)
“][” :地名前面用這個符號。例如,][TAYIWAN/Nt2(臺灣)
Mglex分析器目前還沒有固定短語詞法標注的功能。所以對固定短語詞性進行了人工標注,參考了德·青格樂圖等人研制的《現(xiàn)代蒙古語固定短語語法信息詞典》標注形式是用“=”號連接的詞后面有個斜線再寫詞性。蒙古語固定短語分為復合詞(Y)、習用語(X)、成語(K)、固定詞(J)、名詞術語(NT)等5大類,再把復合詞分為名詞性復合詞(Yn)、形容詞性復合詞(Ya)、代詞性復合詞(Yr)、時位詞性復合詞(Yo)、動詞性復合詞(Yv)、副詞性復合詞(Yd)等6種;習用語分為名詞性習用語(Xn)、形容詞性習用語(Xa)、動詞性習用語(Xv)等3種;成語分為名詞性成語(Kn)和動詞性成語(Kv)。實例如下,“HODEGE=T0SH0N/Yn-V/Fc12”(農(nóng)村的),這里“Yn”是表示名詞性復合詞。
蒙古語短語結構樹庫的標記集是參考了蒙古語傳統(tǒng)語法學中關于詞組類型和詞組內部關系的分類及命名方法(表1,表2)。例如,在蒙古語里中心詞處在詞組的最后部分,即中心詞的詞性就是詞組的詞性[13]。詞組內部關系分為體述關系、定體關系、賓述關系、狀述關系、聯(lián)合關系和輔助關系等[13]。蒙古語傳統(tǒng)語法上大部分著作認為詞組是實詞與實詞組合的,我們認為詞組是短語的一部分,短語可以是實詞與實詞,虛詞與虛詞,實詞與虛詞之間都可以組合,即短語包含詞組。
表1 蒙古語短語結構類型標記
表2 蒙古語短語結構內部關系標記
在同一層面上采用二分的形式。順序為: 從大到小,從左到右,一步一步分析。每部分采用對稱的大括弧,在閉弧后緊跟相應的短語標記。
例如,0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21 ./Wp1
第一步分為《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》和《./Wp1》兩部分;
第二步把《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》部分分為《0RCIL/Ne2 AJV=AHVI/Ne2-YI/Fc31》和《YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》兩部分來分析;
第三步把《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31》部分分為《0RCIL/Ne2》和《AJV=AHVI/Yn-YI/Fc31》兩部分來分析;
第四步把《YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》部分分為《YEHE/Ac-BER/Fc51》和《HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》兩部分來分析。
分析出來的句子: {{{0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31}Np2d{YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21}VP2b}VP4t./Wp1}S5,如圖1所示。
圖1 短語樹形結構圖
“大力發(fā)展循環(huán)經(jīng)濟”短語樹形結構如圖1所示。S5意為詞數(shù)有5個的句子;VP4t意為動詞短語、詞數(shù)為4、賓述關系;Wp1意為標點符號;NP2d意為名詞性短語、詞數(shù)為2、定體關系;VP2b意為動詞性短語、詞數(shù)為2、狀述關系;Ne2是不可數(shù)名詞,對應的詞是“0RCIL”;Yn是名詞性復合詞,由Ne2(對應的詞是AJV)和Ne2-Fc31(對應的詞是AHVI-YI,AHVI是詞,YI是它的附加成分)組成;Ac-Fc51對應的詞是YEHE-BER,這里YEHE是詞,BER是附加成分;Ve2+Fe11+Zv1+Fs21是指Ve2為詞根加了3個詞綴Fe11、Zv1、 Fs21的一個動詞。
在有20萬詞級的標注詞類的蒙古語短語樹庫語料上進行短語結構分析。樹庫語料有20 201條句子,句子詞數(shù)最少的有2個詞,最多的有76個詞。語料選取于“100萬詞級現(xiàn)代蒙古語語料庫”和一些政府文件材料。對訓練集19201條句子進行12種短語結構類型和8種短語結構內部關系的統(tǒng)計如表3所示。
表3 各結構類型出現(xiàn)頻次比例
從表3可以看出蒙古語短語樹庫語料各結構類型中,動詞短語(VP)出現(xiàn)的頻次最高,占全部結構類型的49.8%,其次是名詞短語(NP)和形容詞短語各占39.7%和4.4%。出現(xiàn)頻次最低的是情態(tài)詞短語(HP),占0.014%。
從表4可以看出蒙古語短語樹庫語料各關系類型中,定體關系(d)出現(xiàn)的頻次最高,占全部關系類型的30.6%。復指關系(j)出現(xiàn)的頻次最低,占全部關系類型的0.4%。
表4 各關系類型在語料庫中出現(xiàn)頻次
從表5中我們能看出蒙古語短語樹庫分布特點,橫看全部定體關系(d)里名詞短語(NP)的定體關系占90.32%,并且在名詞短語里與其他各內部關系相比,定體關系占69.5%。因此定體關系主要出現(xiàn)在名詞短語里。在全部狀述關系(b)和賓述關系(t)里動詞短語(VP)中的狀述關系和賓述關系各占94.09%和95.27%。因此,狀述關系和賓述關系主要是在動詞短語里出現(xiàn)。體述關系在動詞短語里出現(xiàn)的頻次最高,占81.8%,在名詞短語里占的比例為10.5%,因此體述關系很大一部分是出現(xiàn)在動詞短語里。情態(tài)詞短語在短語類型中占的比例是最少并且內部關系只出現(xiàn)了輔助關系(s)。再看聯(lián)合關系(h),名詞短語、動詞短語、形容詞短語中出現(xiàn)的頻次都比較高,各占34.3%、53.3%、8.4%。復指關系(j)在名詞短語中出現(xiàn)的頻次最高,占83.3%,代詞短語中占11.6%,這樣我們就能知道復指關系大部分情況下是在名詞短語和代詞短語中出現(xiàn)。從表格整體上來看,名詞短語、動詞短語、代詞短語、形容詞短語等類型出現(xiàn)的頻率高則它們的各內部關系出現(xiàn)的頻率也高,因此在蒙古語短語樹庫中實詞性的短語占的比例高。
表5 各關系類型在不同結構類型中出現(xiàn)頻次比例
本節(jié)介紹蒙古語自動分析器的分析方法。分析器采用“移近—歸約”[14]的確定性方法,它是將分析過程看成是一步步作用于輸入句子之上的分析動作的序列。分析的輸入為已經(jīng)分詞并帶有詞性標注的句子,分析過程主要的數(shù)據(jù)結構為一個棧(S)和一個隊列(Q),輸入的<詞,詞性>對按順序存儲于隊列中,棧中存放分析過程中每一步產(chǎn)生的部分句法樹,對于每一個分析步驟,其狀態(tài)由當前棧和隊列中的內容表示。本文采用SVM分類器對當前的狀態(tài)做出動作決策。
其分析動作主要是建立詞和詞之間的關系。動作模式分為兩類。第一為“移進(shift)”動作,代表從隊列中取出第一個元素并將其壓入棧頂;第二類“規(guī)約(reduce)”動作,代表連續(xù)出棧兩次,將棧頂?shù)膬蓚€元素合并為一個新節(jié)點,兩個元素分別作為新節(jié)點的左右孩子,按照規(guī)約產(chǎn)生新節(jié)點的標記類型,對規(guī)約進行分類。由于分析動作只有“移近(Shift)”和“規(guī)約(Reduce)”兩種類別,可訓練出關于分析動作的分類器。在分析過程中,分類器可用來預測分析動作。
特征主要是圍繞兩個焦點節(jié)點選取,焦點節(jié)點是指,在當前狀態(tài)下棧中的第一個和第二個節(jié)點,其可能為葉子節(jié)點,也可能為分析過程中產(chǎn)生的句法子樹。每當采用一個分析動作時,就會得到一個新的狀態(tài)。在訓練階段,特征及其對應的分析動作組成訓練數(shù)據(jù);在分析階段,由分類器在獲得的特征的基礎上做出分析動作決策。當隊列為空,且棧中全部節(jié)點規(guī)約到一個根節(jié)點下時,分析過程結束。
設S為棧,Q為隊列,i, j為節(jié)點序號,k為后綴序號,則所選特征如表6所示。
表6 蒙語分析器特征模板
本文中i取值為{1, 2, 3},j取值為1,k取值為{1, 2}。
樹庫語料中訓練集為19 201條句子,測試集為1 000條句子。圖2是訓練集句子長度折線圖,句子長度為2個詞到69個詞的分布圖。最高點在e8(8個詞),接著句子越長出現(xiàn)的頻次越低。圖3測試集句子長度折線圖,句子長度為6個詞到76個詞的分布圖。最高點在e8,接著句子越長出現(xiàn)的頻次越低。對比圖2和圖3,它們句長特點很相似,所以測試集是適合進行實驗的語料。
圖2 訓練集句子長度折線圖
圖3 測試集句子長度折線圖
自動分析測試集1000條句子,并統(tǒng)計了結構類型出現(xiàn)頻次。表格7中結構類型出現(xiàn)最多的是動詞短語(VP),占52.55%,其次是名詞短語和形容詞短語,各占41.52%和2.5%。語氣詞短語(SP)和量詞短語(QP)出現(xiàn)頻次最少,各占0.033%。測試集里沒有出現(xiàn)情態(tài)詞短語和副詞短語。對表3和表7進行對比,我們能看出它們在短語主要結構類型上形成相似的分布特點。
表7 自動分析測試集的各結構類型出現(xiàn)頻次比例
分析器性能的評價采用常規(guī)的評價指標,及準確率(P)、召回率(R),和F值(F),假設分析結果中正確的短語個數(shù)為A,測試集中標準的短語數(shù)量為B,分析結果中的短語數(shù)量為C,則P=A/C, R=A/B, F=2PR/(P+R)。其中,一個短語分析正確的判斷依據(jù)為: 當且僅當短語的成分標記及邊界劃分均正確。
目前分析器的效果:
B: 9802
C: 9942
A: 6175
precision: 0.621102
recall: 0.629973
f-measure: 0.625506
表9里出現(xiàn)的“xx”不是內部關系標記,而是在分析規(guī)范里規(guī)定的GP、TP、OP這3個類型的內部關系不標注情況,對原語料進行統(tǒng)計的時候我們就把這3種類型的內部關系暫時用“xx”代替統(tǒng)計出來了。
對測試集1 000條句子進行自動分析,表8是對自動分析測試集的各關系類型在不同結構類型中出現(xiàn)的頻次統(tǒng)計。表8和表9進行對比,動詞短語和名詞短語短語總數(shù)所占比例較高,情態(tài)詞短語、語氣詞短語所占比例最低等數(shù)據(jù)統(tǒng)計情況上我們得出分析器能較好的產(chǎn)生短語樹結構。在識別內部關系方面名詞短語的定體關系、輔助關系等方面分析器有較好的效果。識別定體關系達94%,輔助關系達91.7%??偫P系出現(xiàn)錯誤最多的是在后置詞短語里,在人工標注的時候,后置詞短語不標注內部關系,但在分析器里凡是結構類型都有標注內部關系,因此表8中后置詞短語里出現(xiàn)了80次的總括關系和41次的體述關系。這種情況對分析器的正確分析內部關系有一定的影響。識別聯(lián)合關系也是比較差的,特別是在靜詞性短語里。狀述關系和賓述關系涉及到歧義問題,分析器分析錯誤出現(xiàn)較多。體述關系多以主格形式出現(xiàn),主格沒有具體的形式格符號,因此體述關系的識別也是有較大的困難。
表9 原語料測試集的各關系類型在不同結構類型中出現(xiàn)頻次比例
在面向人的傳統(tǒng)語法中,短語內部關系的辨別也是有一定的難度,尤其在歧義部分。測試分析器的測試集是1 000條句子,句子詞數(shù)最少的有6個詞,最多的有76個詞。句子平均長度為10.777。從測試結果上來看,詞數(shù)越多的句子自動分析出現(xiàn)的錯誤越多。分析器標注形式是括號相對應方式,分析出來的標注形式如下:
[VP-s[VP-u[NP-d[NP-d Ed-UN/Fc11=JASAG/Yn-VN/Fc11 H0RW_A=T0HIRAGVLVL/Yn]EJEMDE/Ve1+L/L-I/Fc31][VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]] ./Wp1](更進一步加強財政宏觀政策。)
[VP-s[VP-u[NP-d DALAI=TANGGIS/Yn-VN/Fc11 EHI=BAYALIG/Yn-I/Fc31][VP-u[NP-d JUI/Ne2 J0HISTAI/Ax][VP-h[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]HAMAGALA/Ve1+N_A/F1]]]./Wp1](合理開發(fā)和保護海洋資源。)
自動分析“更進一步加強財政宏觀政策”,在內部關系標注上出現(xiàn)錯誤。在整個句子中前半部分[VP-u[NP-d[NP-d Ed-UN/Fc11=JASAG/Yn-VN/Fc11 H0RW_A=T0HIRAGVLVL/Yn]EJEMDE/Ve1+L/L-I/Fc31]和后半部分[VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]]是賓述關系(t),而不是體述關系(u).因為“EJEMDE/Ve1+L/L-I/Fc31”有賓格“I/Fc31”,這是在說前半部分和后半部分是直接的賓述關系。 在[VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]]后半部分里,“CINGGADH_A/Ve1+BA/F4”(加強)是中心詞,前面的“VLAM/Dx NIGE/Mu ALHVM/Ne1(更進一步)”是修飾加強的程度。它們之間的關系應該是狀述關系(b),而自動分析的句子里出現(xiàn)的是體述關系(u)。
自動分析“合理開發(fā)和保護海洋資源”,在結構類型和內部關系標注上都出現(xiàn)了錯誤。前半部分[VP-u[NP-d DALAI=TANGGIS/Yn-VN/Fc11 EHI=BAYALIG/Yn-I/Fc31]和后半部分[VP-u[NP-d JUI/Ne2 J0HISTAI/Ax][VP-h[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]HAMAGALA/Ve1+N_A/F1]]]有賓格“I/Fc31”,這是在說前半部分和后半部分是直接的賓述關系。在[VP-u[NP-d JUI/Ne2 J0HISTAI/Ax]部分里,結構類型分析錯誤,“JUI/Ne2 J0HISTAI/Ax”應該是形容詞性短語(AP),而不是名詞性短語。在[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]部分里,“BA”是輔助前面的動詞性短語“NEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12”,所以它的結構類型也是動詞性短語,而不是名詞性短語。
除了識別短語結構上出現(xiàn)一些錯誤以外,識別內部關系方面的錯誤也比較多。例如,分析動詞短語的狀述關系和賓述關系的能力各達到68.43%和60.4%;體述關系在語料里出現(xiàn)了283次,自動分析器分析出來的句子的體述關系有1 296次,顯然分析器對短語結構內部關系的識別方面需要很大的空間去研究和改進。
蒙古語短語樹庫自動分析是蒙古語的句子處理層面上的重點之一。從人工標注和自動分析情況看,標記集所包含的短語結構類型和內部關系類型是合理的,該標記集標注的樹庫包含了豐富的句法信息。在此基礎上研制的蒙古語自動句法分析器在一定程度上解決了短語結構人工分析的問題。分析器能準確的產(chǎn)生樹庫結構,這對蒙古語的句法分析方面也是個進步,但對短語內部關系方面的處理還沒有取得較好的效果,因此在接下來的研究中分析錯誤句子的同時還應該總結出錯誤點,為內部關系的進一步研究提供更多的理論依據(jù)。
[1] 王躍龍,姬東鴻.漢語樹庫綜述[J].當代語言學.2009(1): 47-55.
[2] 周強.漢語樹庫標注體系[J].中文信息學報.2004(4): 2-7.
[3] 達胡白乙拉.現(xiàn)代蒙古語句法結構樹庫的建設[J].內蒙古大學學報.2011(6): 18-30.
[4] 華沙寶.蒙古語短語標注策略[J].中央民族大學學報.哲學社會科學版.2003(5): 98-100.
[5] 達胡白乙拉.面向信息處理的蒙古語名詞短語結構研究[D].內蒙古大學碩士學位論文.2002.
[6] 吉仁花.面向信息處理的蒙古語形容詞短語結構規(guī)則研究[D]. 內蒙古大學碩士學位論文.2004.
[7] 德·青格樂圖.現(xiàn)代蒙古語固定短語語法信息詞典詳解[M].呼和浩特: 內蒙古教育出版社,2005.
[8] 斯·老格勞.現(xiàn)代蒙古語依存句法自動分析研究[D].內蒙古大學博士學位論文.2011.
[9] 德力格爾瑪,高蓮花,其木格.蒙古語與漢語句法結構對比研究[M].北京: 民族出版社,2013.
[10] 中國電子標準化研究所、內蒙古大學等.信息技術-信息處理用蒙古文 詞 語 標 記 集 (GB/T 26235—2010)[C].
[11] 包滿亮.蒙古語構形詞綴研究[D].中央民族大學博士學位論文.2007.
[12] 達胡白乙拉.蒙古語基本動詞短語自動識別研究[J].內蒙古大學博士學位論文.2005.
[13] 清格爾泰.現(xiàn)代蒙古語語法(修訂版)[M].呼和浩特: 內蒙古人民出版社,1999.
[14] 馬驥,朱慕華,肖桐,等.面向移進歸約句法分析器的單模型系統(tǒng)整合算法[J].中文信息學報.2012(3).