劉洪超,詹衛(wèi)東, 2
(1. 北京大學 中文系,北京 100871;2. 北京大學 中國語言學研究中心/北京大學計算語言學教育部重點實驗室,北京 100871 )
構式語法(Construction Grammar)已經(jīng)提出近三十年[1-2],不過,在信息處理領域,短語結構語法由于描寫強類推性(遞歸性)結構的優(yōu)勢,應用較多,而構式語法受到的關注則較少。盡管短語結構語法與構式語法在一些基本問題上存在分歧,比如短語結構語法強調對語言單位采取層層二分的結構模式,而構式語法則強調語言結構的整體性,更多地關注語言結構作為一個整體在語言中的使用,但這二者在描寫語言時其實是可以互補的。從這個視角出發(fā),用于信息處理的組合規(guī)則知識將包含兩部分,即短語結構規(guī)則和構式規(guī)則,前者針對通用的“常規(guī)組合”,后者針對類推性弱的“非常規(guī)組合”。兩者需要分別建庫。本文提出構建《現(xiàn)代漢語構式知識庫》(以下簡稱《構式庫》)的設想并做了初步的探索[3-4]。
這樣的構式知識庫要充分描寫構式的內部句法語義特征,如某個構式的內部成分有哪些要求;還要描寫構式的外部句法語義特征,包括句法功能和構式義。要建立能夠較為自然地對構式進行釋義的釋義模板。從操作和應用角度說,釋義模板可以簡單地看作是一種句式(形式)變換。原則上,構式X的釋義模板Y應是更易于用短語結構規(guī)則系統(tǒng)來加以分析的常規(guī)組合,對非常規(guī)組合X進行釋義的過程,就是將X進行形式變換為Y的過程。
為此,本文設計了《構式庫》的數(shù)據(jù)庫框架,并為其中的字段值制訂了填寫規(guī)范。下文將以“A+一+X,B+一+Y”構式的具體知識歸納與釋義為例,說明這方面的初步工作。需要注意的是,“A+一+X,B+一+Y”不是“一形一義”配對的“狹義構式”,而是“一形多義”的“格式”,或者說這個格式對應了多個同形(或可能同源)的“廣義構式”。如果僅僅在格式這個層面進行句法語義信息的描寫,就無法對其對應的多個構式進行判定和釋義。如文獻[5]將“A+一+X,B+一+Y”的“結構意義”分為“從量的角度、從空間的角度、從時間的角度”,其中從量的角度看,格式的意義可以分為“數(shù)量”和“程度量”,但在文獻[5]中,這些意義都沒有對應的判定條件,只有有限的幾個例子。另外以往有關該格式內部意義的劃分,有一定的隨意性。如文獻[6],先從“量”的角度考察“A+一+X,B+一+Y”的格式義,認為整個格式表示的都是“變量”和“增量”。但事實上,有的“A+一+X,B+一+Y”構式并不完全是“量”的含義,或者說強調的并不是“量”,如“走一陣,歇一陣”,構式義是“交替”;“量”只是其中組成成分的意義。
本文的研究對象主要指A、B都是謂詞性結構的“A+一+X,B+一+Y”,例如,
例1青一塊,紫一塊
輕一下,重一下
走一陣,歇一陣
見一個,殺一個
泡一次,淡一次
省一點,是一點
本文從CCL語料庫[7]中收集了1 120個符合“A一X,B一Y”模式特征的實例,其中有的是熟語,如“做一天和尚,撞一天鐘”等,這類例子的凝固性高,可以直接收入詞典。剩余的例子首先可以分為兩類,即只有簡單的邏輯關系義的和在邏輯關系義基礎上產(chǎn)生了新的引申意義的。后者又可以細分為交錯交替構式義和主觀量構式義。圖1是“A+一+X,B+一+Y”根據(jù)意義差別所做的層級分類。
圖1 “A+一+X,B+一+Y”層級分類體系
為簡化起見,圖中直接將“A一X,B一Y”分為3個大類,然后每類再細分小類,共有10個小類。
下面對各小類的具體特點進行說明。
(一) 邏輯關系義“A+一+X,B+一+Y”。這一類例子前后兩個語塊“A一X”和“B一Y”之間有類似于復句的分句之間的邏輯關系,具體包括:
(1) 并列關系
例2左宗棠不大相信,“就這么看一眼、放一槍,就能聽得出來?”
例2中“看一眼”跟“放一槍”之間是并列關系,即邏輯上的“AND”關系。
(2) 選擇關系
例3早一天晚一天都行。
例3中“早一天”跟“晚一天”之間是選擇關系,即邏輯上的“OR”關系。
(3) 連貫關系
例4報靶員湊著靶看一會兒,大喊一聲。
例4中“看一會兒”跟“大喊一聲”有時間上的先后關系,在邏輯上的“AND”關系基礎上,增加了事件時間的先后順序關系。一般把這樣的情形稱為事件之間有連貫關系。顯然,連貫關系跟普通并列關系的區(qū)別并不大。
(4) 轉折關系
例5廠長與縣長打官司,贏一次,輸一輩子。
例5中“贏一次”跟“輸一輩子”在邏輯上的“AND”關系基礎上,增加了轉折的意味,即兩個事件之間有“BUT”關系,相當于復句的兩個分句之間可以添加轉折關系標記連詞“但是”。
(5) 因果倚變關系
例6這種清茶泡一次,淡一次。
例6中“泡一次”跟“淡一次”之間有邏輯上的因果(倚變)關系,“泡茶”的次數(shù)增多,造成的結果是“茶變淡”。這類構式實例有的可以添加表達倚變關系的復句連詞“越……越……”,如“越泡越淡”。
值得注意的是,有的例子中“A一X”和“B一Y”之間的關系比較接近倚變關系,但卻沒有事理上的因果關系,因而不大能添加“越……越……”標記。例如:
例7喬家這座老宅,說不定就要頂給別人了,睡一天少一天。
例8我只好起來坐在她的身旁,拉著她的手,目不轉睛地看著她……就是這樣,也是看一眼少一眼,拉一會兒少一會兒了。
這些例子的共性是表達時間越來越少。而在這個時間變少的過程中,凸顯的事件是A,也即用于A事件的時間越來越少。從表面形式上看,例7中的“A一X”和“B一X”之間并沒有直接的因果倚變關系,即不是“睡”造成“少”,也不是“看”造成“少”,因此,例7中的“A一X,B一Y”如果變換為“越睡越少”“越看越少”,是比較別扭的。
(二) 交替交錯義“A+一+X,B+一+Y”。交替交錯是指兩個(或兩個以上)事物交錯分布,并不斷延伸;或者是指兩個(或兩個以上)事件輪流出現(xiàn),并不斷循環(huán)。具體包括:
(6) 事物交錯義
例9“深一叢,淺一叢”,表示“(花草)一叢深的,一叢淺的……”交錯分布在某個空間。
(7) 狀態(tài)交替義
例10“青一陣,紅一陣”,表示“青、紅”兩個狀態(tài)在時間上不斷交替出現(xiàn)。
(8) 動作行為交替義
例11“讀一句,哭一陣”,表示“讀、哭”兩個動作在時間上不斷交替出現(xiàn)。
(三) 主觀量義“A+一+X,B+一+Y”。根據(jù)文獻[8],主觀量是指帶有主觀評價的量,可以分為主觀大量和主觀小量,主觀量大小的判斷在于說話人所選擇的參照物的不同,而不在于量的客觀值的大小?!癆+一+X,B+一+Y”構式的主觀量義具體包含兩種情況:
(9) 周遍大量
例12……賈寶玉,幾乎見一個愛一個。
“見一個愛一個”可以引申出“見兩個愛兩個……見N個愛N個”的意思,這里的“A一個”和“B一個”對舉,其中的“一個”是遍歷整個集合的操作,最終推衍出“愛所有的對象”的意思,本文將這種意義稱之為“周遍大量”。大量的主觀義是由周遍全集(全量)推衍出來的。
(10) 讓步小量
例13經(jīng)營者只能追求短期效益,賺一點,是一點。
這類構式形式上有一個特點,就是B只能是“是、算”這兩個詞(比如“逃走一個算一個”)。這類“A一X,B一Y”中的后半部分“B一Y”從字面上看跟前面的“一X”是重復的冗余信息,如“一個是一個”“一個算一個”,相當于邏輯上的“同語重復”,因而整體構式的語義衍生出主觀量的意義,表示“一個雖然量少,但畢竟勝過沒有”,本文把這種構式義概括為“讓步小量”,其實這類構式還可進一步引申出要“盡量實現(xiàn)A事件”的意思,比如例13“賺一點是一點”意味著“要盡量去賺(錢)”,“逃走一個算一個”意味著“要盡量逃走”。因為現(xiàn)實是說話人認為A事件的實現(xiàn)量少,因而要盡量去擴大A事件的量。
值得注意的是,主觀量義帶有明顯的主觀色彩,因而容易發(fā)生界限不清的問題。如果“A一X,B一Y”中的B不是“是、算”這兩個詞,那么表主觀量義只能是周遍大量。但當B是“是、算”時,并不總是表讓步小量,也有可能表周遍大量。例如,
例14我們做出的每一個決策,定了的每一項工作,都要落實到人,限期完成,切實做到抓一項是一項,抓一項成一項。
例15雖然他發(fā)表的小小說數(shù)量不算很多,但寫一篇是一篇,幾乎篇篇博得讀者好評。
例14中的“抓一項是一項”表達的是周遍大量義,一方面它可以引申出“抓兩項是兩項,抓N項是N項”的表達,另一方面它的下文有“抓一項成一項”,這是典型的周遍大量義。例15中的“寫一篇是一篇”也表達的是周遍大量義,它的下文“篇篇博得讀者好評”顯式地表達了周遍整個集合的含義。這里的“寫一篇是一篇”相當于“寫一篇文章,就是一篇好文章”,所以前后兩個“一篇”所指涉的外延對象是相同的,但內涵是不同的,這樣的“A一X,B一Y”,盡管也符合“一個是一個”這樣的形式特點,表面上看兩個表量成分用“是/算”連接,是同語重復,但實際上,兩個表量成分指涉的實體對象的內涵并不一樣。
當構式形式為“A一X,是/算一Y”時,僅從構式內部成分看,既有可能表示讓步小量,也有可能表示周遍大量,是有歧義的,具體表達哪種意思,要根據(jù)上下文語境來判定。
本文對“A+一+X,B+一+Y”格式的內部分類是在共時層面根據(jù)意義差異做出的劃分,按照語言發(fā)展的一般規(guī)律,這些表達不同意義范疇而同時又選用了相同的形式范疇的構式之間應該有演化關系。上面從a—j的小類順序,大致反映了我們對各小類之間意義引申關系的一種假設,但限于篇幅和目前的研究深度,尚未從歷時角度求證,對此擬另文討論。
“A+一+X,B+一+Y”各個下位類的不同主要體現(xiàn)在以下幾點。
(一) A、B、X、Y的句法類。前兩者都是謂詞或謂詞性結構,但是各個下位類的A、B具體句法類并不相同;后兩者都是量詞,有的是專用量詞,有的是借用量詞,但是量詞的不同對判定下位類也有作用,量詞可以分為名量詞、動量詞和時量詞。本文對A、B、X、Y句法類別的判定主要依據(jù)文獻[9]。
(二) A、B的語義類。語義類包括兩部分,一部分是A、B在詞典中的概念語義類;此外,還指A、B在{狀態(tài)|動作|變化}這3個語義類的區(qū)別上。兩者不同,前者主要是根據(jù)A、B的概念義進行的分類,后者主要是根據(jù)A、B的句法表現(xiàn)進行的分類。前者的信息主要依據(jù)北京大學《現(xiàn)代漢語語義詞典》[10]; 后者是根據(jù)文獻[11]提出的有關動詞過程結構的形式標準進行的判斷。下表給出了根據(jù)過程結構對動詞劃分的小類以及相應的判別標準。
表1 文獻[11]給出的動詞過程結構類型表
文獻[11]指出,從Va到Ve實際上是動詞從表示狀態(tài)到動作再到變化(或結果)的一個連續(xù)統(tǒng),具體如圖2所示。
圖2 文獻[11]給出的過程結構連續(xù)統(tǒng)和典型類
上面的形式判別標準不僅僅適用于動詞,還適用于動結式等動詞性結構, 據(jù)此可以對本文收集的1 000多個構式實例中的A、B的動詞(或動詞性結構)過程結構進行判斷。
(三) “一+X”“一+Y”之間的關系。兩者是否同指也是各個下位類的重要特征之一。
上文從語義角度歸納了“A+一+X,B+一+Y”構式的十個小類。其中表示邏輯關系的前4個小類(a-d)構式整體義跟其組成部分的語義比較接近,本文不再展開討論,下面給出e—j 6個小類的釋義模板及具體判定條件(表2)。
表2 “A+一+X,B+一+Y”各下位類釋義模板及判定條件
本文設計的《構式庫》包括兩個部分: (1)描寫抽象構式的句法語義信息及釋義模板的基礎信息庫;(2)對收集到的例子進行詳細的句法語義信息標注的實例庫。
本文構建了一個構式描寫體系,分為項、組塊和構式整體3級。下面簡要介紹。
(一) 項,構式的基本組成單位。項包括了常項和變項,前者指構式中不變的部分,如“A+一+X,B+一+Y”中的“一”;變項指構式中可被替換的部分,如“A+一+X,B+一+Y”中的A、B、X、Y,變項可以是語素、詞、短語等各個句法結構。常項和變項統(tǒng)一排序,從左開始,序號依此為1、2、3等。構式庫中對項描寫主要包括“序位”、“句法范疇”、“語義范疇”、“可替換度”等。
(二) 組塊,是由項與項構成的,介于構式和項之間的單位。構式分為多組塊式和單組塊式,單組塊式的特征是組塊中的各項之間要么是句法關系,要么是論元關系;多組塊的特征是各組塊之間有邏輯關系。如“A+一+X,B+一+Y”是一個多組塊式,有前后兩個組塊,以逗號隔開。對組塊的描寫主要包括了“是否多組塊式”、“組塊間關系”等。
(三) 構式整體,本文取狹義上的定義,即構式是指整體義無法從部分義推導出的形式-意義配對體。對構式整體的描寫包括了“構式形式”、“義項”、“句法信息”、“語義信息”、“語用信息”等。
構式庫中描寫構式基礎信息的主要內容包括“基本信息、變項信息、常項信息、項間關系、句法信息、語義信息、語用信息、參考文獻”等8個大項,具體示例可訪問文獻[4]提供的網(wǎng)址查閱,限于篇幅,這里就不展開說明了。
下面以事物交錯義“A+一+X,B+一+Y”為例,說明構式庫填寫的情況:
構式庫目前還在建設的初期,圖3中列出的不少知識點目前還沒有填值,比如“語用范疇”“可替換度”等信息目前還是空缺狀態(tài)。
對于“A+一+X,B+一+Y”來說,實例庫中包含了本文收集的表示主觀量義和交錯交替義的473個例子及其句法語義信息標注,這里給出部分例子的具體信息。
圖3 事物交錯義“A+一+X,B+一+Y”條目部分內容
IDvp1q1原形vp2q2原形vp1_semanticvp2_semanticq1q2vp1_過程vp2_過程1走一陣陣歇一陣陣身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=個人時時雙限結構?4雙限結構?42走一陣陣歇一會兒會兒身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=個人時時雙限結構?4雙限結構?43走一陣陣停一陣陣身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=人時時雙限結構?4雙限結構?34走一陣陣跑一陣陣身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=人|動物時時雙限結構?4雙限結構?45走一陣陣打一陣槍陣身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=人時時雙限結構?4雙限結構?56走一會兒會兒坐一會兒會兒身體活動,配價數(shù)=1,主體=人|動物身體活動,配價數(shù)=1,主體=人時時雙限結構?4雙限結構?3圖4 “A+一+X,B+一+Y”實例庫示例
在實例庫中A、B、X、Y進一步實例化,用“vp1、vp2、q1、q2”(vp表示謂詞性短語,q代表量詞)等對其進行指稱。對每個實例,庫中目前根據(jù)已有的知識庫資源(如北京大學《現(xiàn)代漢語語義詞典》、《現(xiàn)代漢語語法信息詞典》等)標注了vp1,vp2的語義類、論元結構(配價)信息以及動詞過程結構信息,q1,q2的小類(名量、動量、時量等)。以方便在更大規(guī)模數(shù)據(jù)基礎上對收集到的構式進行更深入研究。
本文簡要介紹了《構式庫》的初步工作。目前該庫已經(jīng)收集了超過1 000個構式[4],這些構式都是通過語言學研究文獻和查詢真實語料庫獲得的。針對每個具體的構式,還需要進一步廣泛收集實例,分析其構成成分的特點,歸納約束條件,根據(jù)表義功能不同劃分小類,總結釋義模板。就語言學本體研究而言,探討構式形成的機制也是非常值得研究的課題。
本文以“A+一+X,B+一+Y”構式的知識描述為例,給出了該構式的6個小類的判定條件和釋義模板。希望通過本文的介紹,引起中文信息處理學界更多人對構式語法的研究興趣,共同來探討如何更有效地將漢語構式語法的理論研究成果轉化為形式化的計算機可用的語言知識資源。
[1] Goldberg A. Constructions: A Construction Grammar Approach to Argument Structure[M].Chicago: University of Chicago Press, 1995.
[2] Goldberg A. Constructions at work: The Nature of Generalization in Language[M]. Oxford:Oxford University Press, 2006.
[3] 詹衛(wèi)東. 現(xiàn)代漢語構式知識庫的構建與應用——以涉量構式為例[R],日本中國語學會第63回全國大會(2013.10.26-27,東京外國語大學),東京: 東京外國語大學,2013,10:26-27.
[4] 現(xiàn)代漢語構式知識庫[DB/OL].http://ccl.pku.edu.cn/ccgd,2013.
[5] 吳姝俐. 現(xiàn)代漢語“A一量B一量”對舉結構及其相關問題研究[D]. 廣州: 暨南大學碩士學位論文. 2007.
[6] 竇玉榮. 現(xiàn)代漢語“A一X,B一Y”對舉格式考察[D]. 北京: 北京語言大學碩士學位論文, 2008.
[7] 北京大學中國語言學研究中心(CCL)語料庫[DB/OL].http://ccl.pku.edu.cn:8080/ccl_corpus
[8] 陳小荷. 主觀量問題初探-兼談副詞“就”、“才”、“都”[J]. 世界漢語教學, 1994(4):18-24.
[9] 俞士汶等. 現(xiàn)代漢語語法信息詞典詳解(第二版)[M]. 北京: 清華大學出版社, 2003.
[10] 王惠,詹衛(wèi)東,俞士汶.現(xiàn)代漢語語義詞典規(guī)格說明書[J]. Journal of Chinese Language and Computing,2003,13(02): 159-176.
[11] 郭銳. 漢語動詞的過程結構[J]. 中國語文,1993(6):410-419.
[12] 詹衛(wèi)東. 面向中文信息處理的現(xiàn)代漢語短語結構規(guī)則研究[D]. 北京: 北京大學博士學位論文, 1999.