林 麗
(解放軍外國語學院,河南 洛陽 471003)
越南是中國的重要鄰國,在當前信息呈海量爆炸型增長的背景下,針對越南語的海量信息處理也日益凸顯其重要性。其中,網(wǎng)絡新聞方面的需求尤為突出。如何有效利用現(xiàn)代語言學和信息技術(shù)發(fā)展成果深入研究越南語網(wǎng)絡新聞文本的知識表示、知識獲取對于及時、準確地追蹤和發(fā)現(xiàn)信息具有重要意義,是一個值得關(guān)注和投入的課題。
目前制約自然語言信息處理發(fā)展的重要“瓶頸”之一就是計算機對自然語言的語義理解。自然語言的語義分析和內(nèi)容信息的理解,離不開語義知識庫的支持,它是幫助計算機了解人類語言的一個媒介和手段,也是讓計算機逐漸智能起來的物質(zhì)前提。可以說,詞匯語義知識庫是自然語言信息處理領(lǐng)域中的核心工程之一。不論是使用基于規(guī)則的方法還是基于統(tǒng)計的方法,信息提取和檢索、詞義排歧、機器翻譯、自動文摘、自動問答系統(tǒng)的研究終究都離不開詞匯語義知識資源基礎(chǔ)上的語義分析。
在目前的研究條件下,越南語—漢語機器翻譯難度非常大。這一方面由于機器翻譯理論發(fā)源于歐美,而作為源語的越南語屬于意合型語言,缺乏形式化標記,難以實現(xiàn)高精度的句法語義分析,另一方面,越南也缺乏相關(guān)理論和實踐上的積累,可以借鑒的資源很少。相比之下,信息抽取可以說是自然語言理解技術(shù)和實際應用相折中的產(chǎn)物,其目標是對文本的有限理解,只關(guān)心特定領(lǐng)域,特定類型的信息。事實上,對海量文本進行信息挖掘離不開高質(zhì)量的事件內(nèi)容分析技術(shù),而這些技術(shù)的開發(fā)又需要高質(zhì)量的事件語義標注資源支持?!按笠?guī)模”、“覆蓋面廣”的語義知識庫若能夠描述一種(或多種)語言的全部詞語,覆蓋普遍的語義領(lǐng)域固然十分理想。然而,適用于普遍領(lǐng)域的語義知識庫構(gòu)建還存在著大量的基礎(chǔ)問題需要解決,試圖將這樣的通用詞典直接應用于實用系統(tǒng),似乎還欠成熟。相比之下,針對某些特定領(lǐng)域展開細致深入的探索研究,用以解決社會需要解決的實際問題,在一定程度上更具現(xiàn)實意義。
本文的研究目標是結(jié)合越南語語言特點進行框架語義研究,構(gòu)建一個具有一定規(guī)模的越南語南海新聞領(lǐng)域框架語義知識庫,為信息抽取,尤其是事件抽取提供事件語義資源,同時也為今后完整地建構(gòu)越南語軍事領(lǐng)域框架語義知識庫和進行越南語-漢語機器翻譯研發(fā)奠定基礎(chǔ)。
本研究以框架語義學為理論基礎(chǔ),以框架語義學理論指導下的FrameNet和我國山西大學、上海師范大學等機構(gòu)合力共建的漢語框架網(wǎng)絡(Chinese FrameNet,CFN)為重要參考,以框架語義分析方法為研究手段,以越南語軍事新聞語料庫為研究范圍,目標為探索越南語框架語義分析方法、構(gòu)建越南語南海新聞框架語義知識庫、服務于越南語—漢語信息處理,尤其是針對越南語南海新聞文本的信息抽取。
具體研究目標是系統(tǒng)研究越南語南海新聞動詞詞元,建立“詞元庫”;借鑒先賢研究成果,對詞元進行語義分類,構(gòu)擬出領(lǐng)域框架體系;細致描寫各框架通用核心框架元素和通用非核心框架元素,建立領(lǐng)域“框架元素庫”;在系統(tǒng)描寫的基礎(chǔ)上,開發(fā)例句輔助標注工具,對真實文本語料進行框架語義標注,構(gòu)建例句庫;研究各類語義框架的句法實現(xiàn)規(guī)律和規(guī)則;并在此基礎(chǔ)上進行具體應用探索。技術(shù)路線如圖1所示。
越南語框架語義知識庫構(gòu)建部分是工作的重點,過程具體如下:
(1) 采集目標詞元。對領(lǐng)域語料進行詞頻統(tǒng)計,將語料中出現(xiàn)的高頻動詞抽取出來作為“待選詞元集”;
(2) 通過領(lǐng)域?qū)<业膶忛啠瑢Υx詞元進行歸類,擬構(gòu)出大致的框架體系,然后擴充各個框架的詞元集合;
圖1 越南語框架語義知識庫技術(shù)路線圖
(3) 我們根據(jù)特定語義框架的場景并結(jié)合實際語料,參照FrameNet中相應的框架式所設(shè)立的框架元素,在分析越南語句法語義結(jié)構(gòu)的基礎(chǔ)上,為每一個框架確定核心框架元素和非核心框架元素并進行詳細地描寫;
(4) 從語料庫中抽取包含該詞元的句子,并按照其義項選擇句子加以示例;對所選的句子進行框架元素標注;
(5) 匯總框架元素標注結(jié)果,顯示每個詞元在組合上的可能性,即“配價描述”。
現(xiàn)階段,我們并不致力于描述越南語南海新聞語料中所有出現(xiàn)的詞語,而是以滿足當前應用需要為準,按照詞頻和領(lǐng)域?qū)<抑R優(yōu)先的原則,先期進行實驗。之后當擴大語料范圍時,再相應地增加新的詞語描述。
由于我們開展的研究面向新的語種、新的領(lǐng)域,考慮到時間和人力的局限,將在已建成的“越南語軍事新聞語料庫”(規(guī)模: 99M,約13 500篇)中抽取出數(shù)量相對有限、重要性突出、時效性強的“南海新聞語料庫”(目前規(guī)模: 4.28M,899篇)作為研究的對象和語料來源。主要來源為越南國防網(wǎng)*http://quocphong.vn/、越南人民軍隊網(wǎng)*http://www.qdnd.vn/qdndsite/vi-VN/43/Default.aspx、越土報網(wǎng)*http://www.baodatviet.vn/、BBC越南新聞*http://www.bbc.co.uk/vietnamese/等。
我們對899篇越南語南海新聞分詞后進行詞頻統(tǒng)計,得到17 870個詞項,從中選取高頻(10次以上)動詞855個作為“待選詞元集”。經(jīng)過領(lǐng)域?qū)<业膶忛喓螅瑓⒄諠h語南海新聞語料庫對待選詞元進行了釋義。統(tǒng)計結(jié)果如表1所示。
表1 越南語南海新聞語料庫高頻動詞詞表(節(jié)選)
續(xù)表
語義框架是對場景類型的圖式呈現(xiàn),F(xiàn)rameNet中的框架選取主要依據(jù)語料庫內(nèi)容。新的框架通常是從已有框架中的多義詞的其他意義衍生出的。就某一領(lǐng)域而言,概念較為零散、缺乏系統(tǒng)全面性。
可以說,語義分類和框架體系的構(gòu)建都不是一蹴而就的,而是一個“之”字形的探索過程。隨著我們對待選詞元的分類和分析不斷深入,框架體系也會面臨一系列的合并、壓縮、調(diào)整,最終才可能形成一個較為完整和合理的領(lǐng)域框架體系。
圖2 越南語框架語義知識庫框架構(gòu)建界面
框架元素描寫分為“名稱”、“縮寫”和“說明”三個部分?!懊Q”用漢語描述、“縮寫”盡量使用和FrameNet一致的英文表達,“說明”為越南語釋義。這種描寫方式既保證了研究的通用性,也拓展了其實用性。
例句標注以框架庫為基礎(chǔ),給定一個詞元,自動從語料庫中抽取出相應例句,切換到該詞元所屬框架,分框架元素(Frame Elements, FE)、短語類型(Phrase Type, PT)和句法功能(Grammatical function, GF)三個層次進行標注,同時關(guān)注未登錄命名實體的識別和標注。例句標注界面如圖3所示。
以例句(1)為例,標注結(jié)果如下:
圖3 越南語框架語義標注界面
俄羅斯即將將首艘隱形潛艇交付給越南。
英文標簽標注結(jié)果:
其中: del表示deliverer;tgt表示target;goa表示goal。
中文標簽標注結(jié)果:
從標注結(jié)果來看,其信息模式抽象程度還是比較高的。我們計劃在手工標注的例句達到一定的規(guī)模以后,把基于規(guī)則的方法和機器學習的方法結(jié)合起來嘗試對真實文本進行語義角色的自動標注。
框架網(wǎng)絡資源包含了大量的詞匯搭配信息,其中標注的例句可以顯示句法語義聯(lián)系方面的信息。配價模式統(tǒng)計需要在完成一定規(guī)模的例句之后才能實現(xiàn)。具體的配價模式統(tǒng)計表以例句(1)為例展示如下:
表2 例句(1)配價模式統(tǒng)計表
但事實上,框架網(wǎng)絡項目的中心工作不是關(guān)注語義合成原則本身,而是關(guān)注為了信息抽取而在框架網(wǎng)絡語料運用的相關(guān)項目中發(fā)展出來的原則(Mohit and Narayanan, 2003)。Fillmore(2004)指出,核心依存圖(Kernel Dependency Graphs,KDGs)就是從框架語義資源中抽取出來的新的資源,是FrameNet服務于信息抽取的有力工具。通過抽取句子中最凸現(xiàn)的核心依存圖,能夠發(fā)現(xiàn)其所在篇章段落的語義線索。在特定文件中得到確認的KDGs能夠作為一種標志以顯示該文件特定段落的主題事件及其基本主張。
KDGs由多個詞項的結(jié)構(gòu)化的串構(gòu)成,每個這樣的串都包含一個“控制項”(governor)(如動詞短語的核心動詞)以及它的所有“依存項”(dependents)的詞匯核心,每個依存項的詞匯核心在其相對于控制項的語義角色方面都做了標注。用“槽-填充項”(slot-filler)的術(shù)語講就是,一個KDG的核心喚起一個以分支標簽命名的“槽”的結(jié)構(gòu),而這些“槽”的“填充項”就是依存項的詞匯核心。
以例句(2)The puppy drank the milk(小狗喝奶)為例,所屬框架Ingestion(攝取)的核心依存圖如圖4所示*該例引自俞士汶,黃居仁(2005)46頁。。
圖4 Ingestion(攝取)框架核心依存圖示例
事件抽取(Event extraction, EE)是信息抽取領(lǐng)域一個重要的研究方向。下面分別以簡單句和復雜句為例討論框架語義標注在越南語南海新聞事件抽取中的應用。
簡單句即一個句子只包含一個目標詞。如例句(3)。
2012年,俄羅斯賣出了150億美元的武器。
英文標簽標注結(jié)果:
其中: slr表示seller; tgt表示target;Mny表示money;Gds表示Goods。
中文標簽標注結(jié)果:
抽取流程如下:
(1) 選定觸發(fā)詞為: < tgt= bán >;
(2) 構(gòu)建信息模式: < slr >
(3) 硬性約束條件: 信息模式中< slr >和< Gds >框架元素為必有,< Mny >框架元素為可有;
(4) 根據(jù)框架層級和關(guān)系以及框架元素,人工建立抽取規(guī)則如下:
{ Type=出售者: < slr >;Type=交易金額: < Mny >;Type=貨物: < Gds > }< slr >< tgt= bán >< Mny >< Gds >。
復雜句中的目標詞超過1個。如例句(4)所示。
根據(jù)目前的例句標注設(shè)置,一個例句中只能按照一個目標詞的框架元素、短語類型及語法功能進行標注,對于多個目標詞同時存在的情況,受空間維度的限制,只能分多個句子分別進行標注。由于框架網(wǎng)絡可以生成核心依存圖,這使得復雜句中的語義關(guān)系變得“有據(jù)可循”。標注流程如下: 首先識別出句中的目標詞,并確定其所屬的語義框架。處理結(jié)果如下:
例(4)生成的核心依存圖如圖5所示。在該圖中,目標詞被表示為黃色背景的節(jié)點及其依存項。節(jié)點由.
抽取規(guī)則如下:
(4) { (Type=賣方: < Seller >);Type=商品: < Goods >;Type=買方: < Buyer > }(< Seller >) < tgt= bán >< Goods > cho < Buyer >;
圖5 越南語復雜句的核心依存示意圖
針對越南語軍事新聞的框架語義研究有著客觀的迫切需求,但礙于相關(guān)研究的滯后,目前尚無較有規(guī)模和體系的成果。本文在總結(jié)越南相關(guān)研究現(xiàn)狀的基礎(chǔ)上嘗試構(gòu)建越南語框架語義知識庫,運用框架語義標注方法抽取特定事件信息,初步探索了框架語義分析方法在越南語文本中的應用。
目前,越南語框架語義知識庫尚處于起步階段,已構(gòu)建框架16個,手工標注例句約500句。本研究的理論基礎(chǔ)相對扎實,但實踐方面各項資源準備尚不夠充分,尤其是越南語框架語義標注的規(guī)模還遠遠不夠。因此,我們所希冀的結(jié)果是我們在理論方法上的探索能有所裨益,實踐方面將繼續(xù)加大力度進行拓展,以期為今后的自動標注和機器學習打下較為厚實的基礎(chǔ)。
[5] 周嶺順. 漢語移動域框架語義分析[M]. 北京: 社會文獻出版社,2012.
[6] 郭丹丹,劉偉. 漢語框架網(wǎng)絡數(shù)據(jù)庫例句輔助標注系統(tǒng)的設(shè)計與實現(xiàn)[J]. 科技情報開發(fā)與經(jīng)濟,2010, 032: 98-102.
[7] 俞士汶,黃居仁. 計算語言學前瞻[M].北京: 商務印書館,2005: 9.
[8] 劉開瑛. 漢語框架語義網(wǎng)構(gòu)建及其應用技術(shù)研究[J]. 中文信息學報, 2011,25(6) : 46-52.
[9] Mohit, Behrang, Srini Narayanan. Semantic extraction with wide-coverage lexical resources[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: companion volume of the Proceedings of HLT-NAACL 2003—short papers-Volume 2. Association for Computational Linguistics[C], 2003: 64-66.
[10] Fillmore, Charles J., Josef Ruppenhofer, Collin F. Baker. Framenet and representing the link between semantic and syntactic relations[C]//Proceedings of Frontiers in linguistics 1, 2004:19-59.
[11] Fillmore, Charles J., Christopher R. Johnson, et al. Background to framenet[J]. International journal of lexicography, 2003, 16.3: 235-250.
[12] Ruppenhofer, Josef, et al. FrameNet II: Extended theory and practice[DB/OL]. 2006. https://framenet.icsi.berkeley.edu/fndrupal/the_book