李 源 劉鳳嬌 劉劍鋒 翟宏森 楊夢川
(華中師范大學(xué)計算機學(xué)院 武漢 430079)
隨著信息化社會的發(fā)展,中文信息處理成為推動搜索引擎、人工智能等技術(shù)的重要工具,因此,大力研究中文信息處理技術(shù)的發(fā)展成為人們關(guān)注的焦點。在對復(fù)句進行研究的過程中,分詞、詞性標注等技術(shù)已經(jīng)相對成熟,極具代表性的是中科院的分詞系統(tǒng)ICTCLAS、哈工大與科大訊飛聯(lián)合推出的語言云平臺等。目前,國內(nèi)的研究重點是復(fù)句的語義、依存關(guān)系、層次關(guān)系等。如魯松、羅進軍等對復(fù)句層次關(guān)系的探討,吳鋒文、舒江波、胡金柱等發(fā)表的基于規(guī)則的漢語復(fù)句層次關(guān)系自動識別研究,以及吳鋒文提出的三分句可識別關(guān)系詞隱現(xiàn)形式。這些對復(fù)句層次關(guān)系等方面的研究不僅能加深對復(fù)句內(nèi)部聯(lián)結(jié)規(guī)則的認識,同時,對復(fù)句信息工程的縱深化發(fā)展也起到至關(guān)重要的推動作用[1]。
本文的主要工作是借助哈工大的語言云平臺以及華中師范大學(xué)的CCCS語料庫,對三分句二重復(fù)句進行分詞、詞性標注以及復(fù)句內(nèi)標記隱現(xiàn)模式進行確定,從而通過構(gòu)建的標記隱現(xiàn)規(guī)則庫獲得該復(fù)句的層次結(jié)構(gòu)。
復(fù)句關(guān)系詞是“復(fù)句中用來聯(lián)結(jié)分句標明關(guān)系的詞語”(邢福義,2001:26)。它作為復(fù)句內(nèi)部關(guān)系的標志,在復(fù)句中有著特殊的地位和作用。特別是,對有標復(fù)句而言,關(guān)系詞語的正確提取、標記和搭配是進行復(fù)句層次劃分的重要依據(jù)[2~4],另外,關(guān)系詞語的類別也暗含了關(guān)系詞所在分句的語義類型。因此,在進行三分句復(fù)句層次識別過程中可以利用復(fù)句關(guān)系詞語在句法和語義方面的標志作用,將關(guān)系詞語的句法語義信息、搭配規(guī)則以及分句間的語義依存關(guān)系提供給計算機,讓計算機在這些信息的支持下來識別和判斷有標復(fù)句的層次關(guān)系。通過關(guān)系詞庫的建立和關(guān)系詞的搭配規(guī)則的研究可以發(fā)現(xiàn),對于全標復(fù)句,可以直接利用關(guān)系詞搭配規(guī)則進行復(fù)句層次劃分。所以,在復(fù)句缺標的情況下,可以想方設(shè)法將所缺標記進行有效補全進而轉(zhuǎn)化為全標復(fù)句,再進行復(fù)句層次劃分。
在對復(fù)句進行層次關(guān)系的識別過程中,首先要對復(fù)句進行預(yù)處理,包含分詞、詞性標注、關(guān)系詞標注、分句等;其中,關(guān)系詞的正確標注和分句的正確獲取是有效識別有標復(fù)句層次關(guān)系的重要依據(jù)。因此,在預(yù)處理過程中,關(guān)系詞的正確標注是做好有標復(fù)句層次關(guān)系識別的重要前提。
關(guān)系詞的正確標注是提高復(fù)句層次劃分正確率的重要保障,然而,由于漢語表達方式的千變?nèi)f化以及復(fù)句的結(jié)構(gòu)多樣性,在使用計算機對復(fù)句的關(guān)系詞進行標注的過程中會面臨很多困難。目前,存在兩個最主要的問題:一是關(guān)系詞隱現(xiàn);二是偽關(guān)系詞的標注[5]。
例1、如果有人說小高已經(jīng)在喜歡她了,1)所以才會留下來。2)小高是死也不會承認的。3)(古龍《英雄無淚》)
例2、只/要一斤,多的不要。
圖1 (例2)句法分析圖
在例1中分句3)缺標即關(guān)系詞隱現(xiàn),根據(jù)關(guān)系詞的搭配規(guī)則以及已有的語義信息可以在分句3)中添加關(guān)系詞“要不然”、“否則”等。通過哈工大語言云平臺對例2進行詞性標注和依存句法分析可以發(fā)現(xiàn),“只要”會出現(xiàn)分詞錯誤,因此導(dǎo)致計算機在關(guān)系詞標注時將兩個詞“只”和“要”錯誤地標注成關(guān)系詞“只要”。
根據(jù)《漢語復(fù)句研究》(邢福義著)中對復(fù)句的定義可知,復(fù)句是分句的復(fù)合。復(fù)句與單句的本質(zhì)區(qū)別在于復(fù)句中的分句是相對獨立的,每個分句都有“句”的性質(zhì)和地位,每個分句都不做彼此的成分。因此,正確獲取分句也是保證正確進行復(fù)句層次劃分的重要前提。通過對華中師范大學(xué)CCCS語料庫的觀察發(fā)現(xiàn),逗號、分號和冒號是常用的復(fù)句句中標點符號。但是,冒號一般表示解釋、說明的意思,因此,在句子中具有統(tǒng)領(lǐng)作用,而分號在一般復(fù)句中也存在標識層次的作用。所以,本文重點使用依存句法(COO依存關(guān)系)和句中標點符號(逗號)來進行分句的獲?。?~7]。
依存語法是通過分析語言單位內(nèi)成分之間的依存關(guān)系來揭示其句法結(jié)構(gòu),該語法直接描述詞語之間的關(guān)系。每對詞之間構(gòu)成依存關(guān)系對,其中,依存對中的一個詞為核心,亦稱支配詞,另一個詞為依存詞,亦稱從屬詞,所有受支配的成分都是以某種依存關(guān)系從屬于其支配詞[8]。那么,直觀來講,依存句法就是分析識別句子中的“主謂賓”、“定狀補”這些語法成分,并分析各成分之間的關(guān)系[9]。
計算語言學(xué)家Robinson總結(jié)了一組語法的4條公理:
1)一個句子中只有一個獨立成分不依存于其他任何成分;2)句子的其他成分都必須依存于某一成分;3)任何一個成分都不能依存于兩個或兩個以上的其他成分;
4)如果成分A直接依存于成分B,而成分C位于A和B之間,則C依存于A或者B,或者依存于A和B之間的某一成分[10]。
在復(fù)句中,逗號是出現(xiàn)頻率最高的句中標點符號(表示一句話沒有結(jié)束),所以在確定分句的過程中,可以根據(jù)句中逗號對有標復(fù)句進行初步的分句切割并編號。但是由于在漢語中,使用逗號分開的部分不一定都能單獨成為一個分句,它可能是其他分隔部分的句子成分,此時就不能夠進行分句,因此單獨使用逗號劃分出分句是不準確的[11]。
例3、1986年,廠工會改選,由于肖醫(yī)生群眾基礎(chǔ)好,威信高,被選為廠工會主席?!堕L江日報》1989年02月10日02版次
經(jīng)過哈工大語言云平臺對該有標復(fù)句進行依存句法分析,分析結(jié)果如下:
根據(jù)圖2可以看出,例3通過逗號初步分句的結(jié)果是:1)1986年;2)廠工會改選;3)由于肖醫(yī)生群眾基礎(chǔ)好;4)威信高;5)被選為廠工會主席。但是經(jīng)過依存句法分析可以知道,1)、2)兩部分中所含的成分之間存在ADV關(guān)系(狀中結(jié)構(gòu)),并非COO關(guān)系(并列關(guān)系),因而不可以分句,即1)、2)同屬一個分句。3)、4)、5)三部分中的成分也沒有存在COO(并列關(guān)系),只有ADV關(guān)系,因此,3)、4)、5)同屬一個分句。而在2)中的“改選”和5)中的“選”存在COO關(guān)系,所以該復(fù)句由兩個分句構(gòu)成。雖然此處出現(xiàn)的是COO關(guān)系,但是并不意味是并列,該復(fù)句是一個因果類的復(fù)句。
圖2 (例3)分析結(jié)果
例4、當時,除了皇帝,沒有人敢狩獵駱馬和穿著駱馬毛制的衣服,否則將受到死刑懲處?!堕L江日報》1988年11月15日04版次
經(jīng)過哈工大語言云平臺對該有標復(fù)句進行依存句法分析,分析結(jié)果如下:
根據(jù)逗號對例4進行初步分句的結(jié)果是:1)當時;2)除了皇帝;3)沒有人敢狩獵駱馬和穿著駱馬毛制的衣服;4)否則將受到死刑懲處。但是經(jīng)過依存句法分析可以知道,1)、2)、3)三部分存在的是ADV關(guān)系(狀中結(jié)構(gòu)),構(gòu)成依存關(guān)系,因而不可以分句,即1)、2)、3)同屬一個分句。4)和前面三個部分存在COO(并列關(guān)系),因此,4)單獨成為一個分句。同時,該復(fù)句是一個轉(zhuǎn)折類的復(fù)句。
圖3 (例4)句法分析結(jié)果
從3.2中的實驗結(jié)果可以看出,單純地用句中逗號進行分句的獲取是不準確的,所以在分句獲取的過程中可以借助依存關(guān)系進行偽分句的去除。當然,這種獲取分句的方式的正確率在很大程度上要取決于依存句法的正確分析。因此,在依存句法分析錯誤的情況下,為了提高分句獲取的正確率,保證后續(xù)復(fù)句層析分析的正確性,可以采取人工過濾偽分句。
通過對三分句的二重復(fù)句進行研究發(fā)現(xiàn),由三個分句構(gòu)成的二重復(fù)句存在著兩種句法關(guān)聯(lián)模式,即1-2型關(guān)聯(lián)模式和2-1關(guān)聯(lián)模式,這兩種關(guān)聯(lián)模式如圖4、圖5所示[11]。
圖5 2-1型
從圖示中可以看出這兩種關(guān)聯(lián)模式在結(jié)構(gòu)上具有不同的組合順序,1-2型,是S2、S3兩個分句先進行組合構(gòu)成一個層次,最后整體與S1構(gòu)成一個新的層次;2-1型是S1、S2兩個分句先進行組合構(gòu)成一個層次,最后整體與S3構(gòu)成一個新的層次。
對于一個給定的三分句有標復(fù)句,它的標記隱現(xiàn)模式是由各分句的標記隱現(xiàn)情況共同組成。設(shè)三個分句的標記形式分別為C1_TYPE、C2_TYPE、C3_TYPE,則整個復(fù)句的標記隱現(xiàn)模式為(C1_TYPE ,C2_TYPE,C3_TYPE),其中這三者的值 可 為 kb、Ri_fore、Ri_back、Rj_fore、Rj_back、Ri_back+Rj_fore及Ri_fore+Rj_fore中的某一個。
每個字段的含義如下:
1)R:表示關(guān)系標記(關(guān)系詞);
2)i/j:表示關(guān)系詞的語義類別為S(i)或S(j);
3)_:主要作用是將關(guān)系詞的語義類別和配位進行分隔;
4)fore/back:表示關(guān)系詞分別為前配位、后配位,即前呼標或后應(yīng)標。
5)kb:與(1)~(4)不同時存在,表示該分句中不存在準關(guān)系詞,即為空標。
如Ri_fore表示標記R的語義類別為S(i),句法配位為X(fore)。kb表示此分句中標記缺省,即空標。
如圖8所示為構(gòu)建的標記隱現(xiàn)規(guī)則庫[12~13](部分數(shù)據(jù)),其中C1_TYPE、C2_TYPE、C3_TYPE分別表示三個分句中的標記隱現(xiàn)形式,RESULT_TYPE為對應(yīng)的復(fù)句層次結(jié)構(gòu)類型。
圖6 三句式二重有標復(fù)句的標記隱現(xiàn)規(guī)則庫
本文選取CCCS語料庫中1000條三分句有標復(fù)句作為層次分析的測試用例,為了方便說明,本文列舉了充盈態(tài)1-2類型的三分句有標復(fù)句、充盈態(tài)2-1類型的三分句有標復(fù)句。對此進行開放性測試,層次關(guān)系分析,得到的實驗結(jié)果如下所示。
例5釣魚一坐就是幾個小時,既能增強體質(zhì),又能培養(yǎng)耐力。
圖7 例5層次結(jié)構(gòu)類型結(jié)果
例6“電熱褥”不僅能驅(qū)寒解乏,消除潮氣,而且還是理想的家用醫(yī)療器具。
圖8 例6層次結(jié)構(gòu)分析結(jié)果
表1 實驗結(jié)果
漢語表達方式的千變?nèi)f化決定了復(fù)句層次關(guān)系的識別將是一個復(fù)雜的工程,而對復(fù)句的各種研究的落腳點都要歸于對復(fù)句內(nèi)關(guān)系詞的研究上去。復(fù)句內(nèi)標記隱現(xiàn)模式的正確獲取是做好層次識別的關(guān)鍵。因此,復(fù)句的層次關(guān)系識別和復(fù)句的標記是相輔相成的兩部分,對復(fù)句的層次關(guān)系的識別離不開對關(guān)系詞的正確標注,在后續(xù)的研究過程中,要做好對復(fù)句中標記隱現(xiàn)情況的研究。
[1]吳鋒文.漢語復(fù)句信息處理研究二十年[J].中文信息學(xué)報,2015,29(1):13-18.WU Fengwen.The twenty years of Chinese language infor?mation processing research[J].Chinese information jour?nal,2015,29(1):13-18.
[2]胡金柱,吳鋒文,李瓊,等.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué),2010(2):133-142.HU Jinzhu,WU Fengwen,LI Qiong,et al.The construc?tion and use of Chinese sentence relationship[J].Lan?guage science,2010(2):133-142.
[3]吳鋒文.基于關(guān)系標記的漢語復(fù)句分類研究[J].漢語學(xué)報,2011(3):63-73,96.WU Fengwen.The classification of Chinese sentence based on relation markers[J].Journal of Chinese,2011(3):63-73,96.
[4]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機工程與科學(xué),2009,31(10):90-93.HU Jinzhu,SHU Jin,YAO Shuangyun,et al.The reach of word extraction algorithm about Chinese information pro?cessing[J].computer engineering and science,2009,31(10):90-93.
[5]吳鋒文.關(guān)系標記對漢語復(fù)句層次關(guān)系識別的影響[J].渭南師范學(xué)院學(xué)報,2014,29(9):68-73.WU Fengwen.The relation markers'influence on the rec?ognition of compound sentences[J].Journal of Weinan Teachers University,2014,29(9):68-73.
[6]秦存鋼.影響分句確認的因素[J].泰安教育學(xué)院學(xué)報岱宗學(xué)刊,2002(3):36-40.QIN Cungang.The factors which affecting the confirming of clauses[J].Journal of Tai'an Institute of education Da?izong journal,2002(3):36-40.
[7]朱文獻.分號與復(fù)句的層次[J].閱讀與寫作,1998(4):29-30.ZHU Wenxian.Levels of compound sentences with a semi?colon[J].reading and writing,1998(4):29-30.
[8]葉林沿.基于依存關(guān)系樹的復(fù)句句法特征自動選?。跠].武漢:華中師范大學(xué),2014.YE Linyan.The automatically select of sentence syntactic based on dependency relation'tree[D].Wuhan:Central China Normal University,2014.
[9]袁文宜.依存語法概述[J].科技情報開發(fā)與經(jīng)濟,2010(18):152-154.YUAN Yi.Overview of dependency grammar[J].Science and technology information development and economy,2010(18):152-154.
[10]石翠.依存句法分析研究綜述[J].智能計算機與應(yīng)用,2013,3(6):47-49.SHI Cui.Review of dependency parsing[J].Intelligent computer and application,2013,3(6):47-49.
[11]劉劍鋒.基于搭配關(guān)系的有標復(fù)句層次關(guān)系分析[D].武漢:華中師范大學(xué),2015.LIU Jianfeng.The hierarchy analysis based on colloca?tion tag compound sentence[D].Wuhan:Central China Normal University,2015.
[12]吳鋒文.面向信息處理的“一標三句式”復(fù)句層次關(guān)系判定[J].北方論叢,2012(1):64-68.WU Fengwen.The determination about relationship of layer for information processing“one standard of three clauses”[J].The North journal,2012(1):64-68.
[13]吳鋒文.面向信息處理的“二標三句式”復(fù)句層次關(guān)系判定[J].信陽師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),2012,32(1):88-93.WU Fengwen.The determination about relationship of layer for information processing“two standards of three clauses”[J].Journal of Xinyang Normal University(Phi?losophy and Social Sciences Edition),2012,32(1):88-93.