吳 鋒 文
(信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)
【語言文化與文學(xué)研究】
面向信息處理的非分句語段的類型及其特征
吳 鋒 文
(信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)
復(fù)句句法語義關(guān)系判定對漢語復(fù)句信息工程和自然語言理解具有重要意義,而非分句的出現(xiàn),影響著漢語復(fù)句句法語義關(guān)系判定的準(zhǔn)確率。在界定非分句的基礎(chǔ)上,探討了分句的判別標(biāo)準(zhǔn)以及非分句的結(jié)構(gòu)功能類型及其特征,以期加強(qiáng)復(fù)句句法語義關(guān)系判定的預(yù)處理,為最終實(shí)現(xiàn)漢語復(fù)句信息處理服務(wù)。
復(fù)句信息處理;復(fù)句;分句;非分句語段
漢語復(fù)句句法語義關(guān)系判定,是計(jì)算語言學(xué)句法分析的重要議題,也是中文信息處理的基礎(chǔ)性課題。計(jì)算機(jī)對復(fù)句進(jìn)行自動句法分析,其核心內(nèi)容就是對分句之間的層次構(gòu)造和語義關(guān)系進(jìn)行判定,而這種判定分析是以關(guān)系詞的正確標(biāo)注和分句的確定為基礎(chǔ)[1]。例如:
(1)①這種應(yīng)用創(chuàng)新的結(jié)果,②不僅能提高企業(yè)的勞動生產(chǎn)效率,③而且還能增強(qiáng)企業(yè)對市場的反應(yīng)能力,④并使企業(yè)贏得或保持競爭優(yōu)勢。(《人民日報》1996-07-06)
(2)①由于工作的需要,②我雖然讀過一些語言學(xué)方面的書籍,③但自知在語言學(xué)家跟前仍是一個門外漢,④所以不敢妄評。(轉(zhuǎn)引自李晉霞2003)
例(1)語段①“這種應(yīng)用創(chuàng)新的結(jié)果”不是分句,而是后面②—④分句的主語,也是整個復(fù)句的話題;例(2)語段①“由于工作的需要”不是分句,而是介詞“由于”引導(dǎo)的事由性狀語成分,②—④三句才是分句。
計(jì)算機(jī)對復(fù)句進(jìn)行句法語義關(guān)系識別,是以語段*這里所說的“語段”, 其含義不同于語言單位“語段”。邢福義、吳振國主編的《語言學(xué)概論》(2002)中,語段是指由語義上有相互聯(lián)系的若干句子,圍繞一個語義中心組織起來的句子的組合,又稱句群、句組、句段、語篇、篇章或超句體;本文“語段”是以復(fù)句為考察背景的,是指位于復(fù)句中兩個書讀符號之間的語言片段,這種語言片段可能是分句,也可能是短語,文中統(tǒng)稱為“語段”。為單位進(jìn)行的。對從復(fù)句中提取出來的某個語段,是否為一個分句,計(jì)算機(jī)首先需要進(jìn)行正確判定。只有正確地標(biāo)注了關(guān)系詞、排除了非分句,計(jì)算機(jī)對有標(biāo)復(fù)句的自動句法分析才能順利進(jìn)行。但諸如上例(1)—(2)的非分句語段,成為漢語復(fù)句自動句法分析的難點(diǎn),影響著漢語復(fù)句句法語義關(guān)系判定的進(jìn)展。
學(xué)界以漢語復(fù)句為背景,探討有關(guān)非分句語段識別和分句的判定的成果不多,僅見李瓊(2008,2012)、俞小娟(2009)和洪鹿平(2008)。李瓊(2008)對非分句從結(jié)構(gòu)形式方面進(jìn)行了分析考察,歸納了復(fù)句中四種類型的短語語段[2];洪鹿平(2008)通過分割逗號功能來得出復(fù)句的分句集[3];胡金柱、俞小娟(2008)采用聚類分析的思想識別復(fù)句中的非分句語段,取得一定進(jìn)展[4]。計(jì)算語言學(xué)領(lǐng)域有關(guān)短語邊界的判定研究,如名詞短語[5]、介詞短語,[6][7]以及搜索引擎日志中名、動組配結(jié)構(gòu)的識別等[8],也為非分句的識別提供了參考。為順應(yīng)中文信息處理發(fā)展需求,推動漢語復(fù)句信息處理的進(jìn)一步發(fā)展,本文擬將系統(tǒng)研究漢語復(fù)句中的非分句語段的類型及其特征,為漢語復(fù)句的計(jì)算機(jī)識別奠定基礎(chǔ)。
所謂“非分句”,是對于復(fù)句的直接構(gòu)件單位——分句而言的,它是出現(xiàn)在復(fù)句中的一些缺乏表述性和相對獨(dú)立性的語段形式,也可稱之為短語字段*“非分句”這一稱謂并非語言學(xué)上的嚴(yán)格術(shù)語,本文僅用于指稱復(fù)句中缺乏分句地位的各種語段形式,以區(qū)別于一般的短語。。如前所述,計(jì)算機(jī)處理復(fù)句的層次關(guān)系,首先必須準(zhǔn)確判定復(fù)句中分句的數(shù)目,由于復(fù)句中出現(xiàn)的語段不是分句就是非分句,因而對復(fù)句分句的確定一般可采用逆向思維來判定,即通過對非分句語段的識別來間接完成,非分句文中用符號(【】/ffj)標(biāo)示。例如:
(3)只要團(tuán)結(jié)奮斗,扎實(shí)工作,【我們今天所做的一切】/ffj,就一定能夠起到歷史性的作用。(《長江日報》1986-12-15)
(4)【發(fā)達(dá)國家各種經(jīng)濟(jì)貿(mào)易集團(tuán)的成立和發(fā)展】/ffj,雖然擴(kuò)大了地區(qū)內(nèi)部貿(mào)易自由化,但是【對于地區(qū)外的國家來說】/ffj,則是擴(kuò)大了關(guān)稅和非關(guān)稅壁壘的適用范圍。(《人民日報》1990-04-14)
(5)【在經(jīng)濟(jì)改革與結(jié)構(gòu)調(diào)整過程中】/ffj,如果缺乏政府強(qiáng)有力的宏觀調(diào)控,如果沒有公共行政管理部門的高效率工作,經(jīng)濟(jì)活動就很難有序進(jìn)行,實(shí)現(xiàn)經(jīng)濟(jì)持續(xù)增長和可持續(xù)發(fā)展的努力就會遇到障礙。(《人民日報》1996-04-25)
例(3)中“我們今天所做的一切”句法上是“VP+的+NP”結(jié)構(gòu),它是一個短語語段,充當(dāng)后面分句“就一定能夠起到歷史性的作用”的主語,被包含在“X就能夠起到歷史性的作用”這個小句里頭。例(4)中有兩個短語字段:“發(fā)達(dá)國家各種經(jīng)濟(jì)貿(mào)易集團(tuán)的成立和發(fā)展”是“VP+的+NP”結(jié)構(gòu),充當(dāng)后面分句的主語;“但是對于地區(qū)外的國家來說”在句法上是一個包含有關(guān)系詞“但是”的介賓結(jié)構(gòu)“對于X來說”,它充當(dāng)后面分句的狀語。例(5)中“在經(jīng)濟(jì)改革與結(jié)構(gòu)調(diào)整過程中”是介賓結(jié)構(gòu)“在X中”置于句首充當(dāng)整個復(fù)句的狀語。
復(fù)句關(guān)系層次識別過程中,首先要做的就是將這些短語語段排除在外,才能正確地確定參與復(fù)句層次組合的分句的個數(shù)。而非分句的排除,則涉及對復(fù)句中分句的認(rèn)定、對具有明顯形式標(biāo)志的短語的直接肯定等兩個方面。下面我們具體論述之。
究竟什么樣的語段才算是復(fù)句中的分句?關(guān)于這一問題,學(xué)界目前看法并不一致。究其原因,與學(xué)界對“句子”的認(rèn)識有密切關(guān)系。下面我們先分析學(xué)界對 “句子”的界定。
在漢語學(xué)界,關(guān)于什么是“句子”,人們很難給出一個精確的、形式化的定義。黎錦熙《新著國語文法》(1992)在界定句子時,以意義為標(biāo)準(zhǔn),認(rèn)為“能夠表示思想中一個完全意思的,叫作‘句子’,通稱‘句’”[9]15。趙元任則認(rèn)為,句子是最大的語法分析上最重要的語言單位,并將“句子”建立在“整句”和“零句”這兩個概念之上,“句子可以從結(jié)構(gòu)上分為整句和零句。整句有主語、謂語兩部分,是連續(xù)化語流中最常見的句型。零句沒有主語—謂語形式,它最常見于對話以及說話和行為參雜的場合”[10]42。朱德熙(1982)則將句子定義為“前后都有停頓并且?guī)е欢ǖ木湔{(diào)表示相對完整的意義的語言形式”[11]21。
上述前賢對“句子”的界定經(jīng)歷了從黎錦熙的單純以意義為標(biāo)準(zhǔn),到趙元任以結(jié)構(gòu)為標(biāo)準(zhǔn),直至朱德熙以結(jié)構(gòu)和意義為雙重標(biāo)準(zhǔn)的一系列變化。學(xué)者雖對漢語“句子”這一概念很難給出一個清晰的界定,但就句子外延及分類看,都一致認(rèn)同漢語句子從結(jié)構(gòu)上可以分為單句和復(fù)句,在這一點(diǎn)上則是有共識的。
至于單句、復(fù)句的劃界問題,或者說如何判定一個句子是屬于單句還是復(fù)句,學(xué)界仍然存有分歧[12]。呂叔湘《漢語語法分析問題》(1979)明確指出:“單句復(fù)句的劃分是講漢語語法叫人撓頭的問題之一。”[13]郭中平(1957)曾列舉了黎錦熙、王力、呂叔湘、語法小組、張志公五家所持的看法以及分歧[14]。例如:
(6)襲人進(jìn)來,見這光景,知是梳洗過了。
(7)他們愛祖國,愛人民,愛和平,愛正義。
(8)他一扔下糞筐就往回跑。
(9)關(guān)于各項(xiàng)具體政策,中央曾有所指示。
表1 單、復(fù)句分析分歧示例表
提及上述各家的分歧,主要是為了說明“句子”概念界定的模糊性以及句子判定標(biāo)準(zhǔn)的差異性。當(dāng)然,本文主要目的在于如何排除非分句并確定復(fù)句中分句的個數(shù),為有標(biāo)復(fù)句的層次關(guān)系識別服務(wù),而無意于對單、復(fù)句的糾葛問題作過多討論。
從本文研究目的出發(fā),對分句的判定原則,擬將借鑒邢福義的“小句中樞”說和復(fù)句三分理論體系。邢福義(1995)認(rèn)為,小句是“最小的具有表述性和獨(dú)立性的語法單位”[15]26。所謂具有表述性,是指能夠表明說話人的一個意指,體現(xiàn)一個特定的意圖;所謂具有獨(dú)立性,是指一個小句不被包含在另一個小句之中。他還進(jìn)一步指出,小句的外延既指單句,也指結(jié)構(gòu)上大致和小句相當(dāng)?shù)姆志?,即?fù)句中分句化的小句。這種分句化的小句,它們既相互獨(dú)立,又相互依存。一方面,每個分句都有句的性質(zhì)和地位,甲分句不是乙分句里的一個成分,乙分句也不是加分句里的一個成分;另一方面,甲分句和乙分句互有關(guān)系,處于一定關(guān)系之中;并且往往由特定的關(guān)系詞語聯(lián)結(jié)起來;分句間由于相互依賴而可以省略某個成分。
根據(jù)“小句中樞說”理論,從中文信息處理角度判定復(fù)句中某個語段是否為分句必須依據(jù)以下三條標(biāo)準(zhǔn):
其一,結(jié)構(gòu)標(biāo)準(zhǔn):復(fù)句中某個語段為分句當(dāng)且僅當(dāng)該語段不能在句法上充當(dāng)其相鄰語段的句法成分,如不能充當(dāng)主語、狀語、定語*當(dāng)句中的某一個語段形式是主謂結(jié)構(gòu)且有相對獨(dú)立的表述性,即使從句法上看它也能作前面分句中謂語的賓語,本文仍將其視作一個分句。例如“我看見臺上坐滿了人,臺下也坐滿了人”中的“臺下也坐滿了人”在句法上也是前面“看見”的內(nèi)容,因而在句法上可以充當(dāng)賓語,但我們認(rèn)為“臺下也坐滿了人”具有相對獨(dú)立的表述性,可視為一個分句來處理,而且符合目前計(jì)算機(jī)處理語言的水平。。
其二,語義標(biāo)準(zhǔn):某個語段為分句當(dāng)且僅當(dāng)該語段能夠表達(dá)一個相對完整的意義;某個語段必須與其相鄰的語段存在邏輯上的語義關(guān)系。
其三,停頓標(biāo)準(zhǔn):復(fù)句的分句與分句之間,必須有語氣停頓,表現(xiàn)在書面上就是語段之間使用逗號隔開。這條標(biāo)準(zhǔn)有助于確認(rèn)某些包含有搭配型關(guān)系標(biāo)記的緊縮結(jié)構(gòu)。例如:
(10)①因?yàn)槲覜]有把握,②只要他的刀在手,③我無論做什么都沒有把握。(古龍《多情劍客無情劍》)
根據(jù)停頓標(biāo)準(zhǔn),我們可以確定例(10)語段③是一個含關(guān)系標(biāo)記“無論……都”的緊縮結(jié)構(gòu)。
研究表明,漢語復(fù)句中的非分句語段類型多樣,形式各異。對非分句語段進(jìn)行歸類整合,既有助于從整體上弄清非分句語段在復(fù)句中的分布概況,也有利于弄清每類非分句語段的結(jié)構(gòu)特點(diǎn),從而針對非分句自身的不同構(gòu)成特征采取不同的識別策略。
李瓊(2008)從結(jié)構(gòu)形式方面分析考察非分句的分布情況,歸納了復(fù)句中四種類型的短語語段。本文認(rèn)為,復(fù)句中非分句語段可以從不同的角度進(jìn)行分類:從有無形式標(biāo)記看,可分為明顯形式標(biāo)記語段和非明顯形式標(biāo)記語段;從句法功能看,有狀語性語段、主語性語段、小句作賓語語段等;從語義功能看,又可分為介賓、時間、地點(diǎn)、范圍、憑借等狀語語段和話題性語段;從非分句語段的句序位置看,還可分為句首語段和句中語段;從非分句中是否有關(guān)系標(biāo)記的角度,又可分為含關(guān)系標(biāo)記型語段和不含關(guān)系標(biāo)記型語段。
據(jù)上所述,以句法功能和表義特點(diǎn)相結(jié)合的雙重視點(diǎn)考察,復(fù)句中的非分句語段主要有四種情況:
(一)狀語性語段:由表時間、地點(diǎn)、范圍、憑借等非必有論元充當(dāng)句子的狀語成分,一般居于句首獨(dú)立成語段。例如:
(11)【19世紀(jì)中葉】/ffj,由于物理學(xué)發(fā)展了,人們開始用光譜分析、光度測量和照相術(shù)等方法研究天體。(摘自2014年深圳市事業(yè)單位職員招考試題)
(12)【在政治體制改革方面】/ffj,雖然各國的側(cè)重點(diǎn)有所不同,但大都認(rèn)為權(quán)利高度集中的體制必須改變,以逐步擴(kuò)大地方和企業(yè)的權(quán)限。(《人民日報》1987-12-22)
(13)【只要人家是憑著自己的才干和智慧】/ffj,干出名堂來的,都是值得稱道的。(《長江日報》1993-04-20)
例(11)—(13)都是狀語性語段。例(11)中“19世紀(jì)中葉”是表時間的體詞性短語作句首狀語,例(12)中“在政治體制改革中”是表范圍的介賓短語居于句首作狀語,例(13)句首語段“憑著自己的才干和智慧”在語義上是后面語段“干出名堂來”的憑借,它和后面的語段“干出名堂來的”共同組成一個完整的小句。
(二)體詞性主語語段:是由體詞性成分充當(dāng)整個復(fù)句或復(fù)句的某個分句的主語成分。它具體又可分為兩類:
其一,復(fù)句各個分句的主語,其語義指稱對象具有一致性,而將主語置于句首獨(dú)立為短語語段,使各分句共享同一個主語。例如:
(14)【道歉的魅力】/ffj,不是來自花言巧語,而是來自真誠,來自心靈的溝通和感情的交流,來自為糾正過失而采取的實(shí)實(shí)在在的行動。(《人民日報》1997-11-03)
(15)【笑】/ffj,就像是香水,不但能令自己芬芳,也能令別人快樂。(古龍《多情劍客無情劍》)
(16)【發(fā)達(dá)國家?guī)椭l(fā)展中國家實(shí)現(xiàn)可持續(xù)發(fā)展的努力】/ffj,既是對人類共同利益的貢獻(xiàn),同時也是對自身利益的一種投資。(《人民日報》1992-05-21)
例(14)—(16)的句首語段都是各自復(fù)句的主語。例(14)中句首語段“道歉的魅力”是后面四個分句的主語,由于這幾個分句的主語相同,出于語言經(jīng)濟(jì)原則的考慮,將這個共同的主語“道歉的魅力”置于句首并以逗號斷開,從而形成短語語段,在句法上作整個復(fù)句的主語,這種共享的主語相當(dāng)于語用平面的話題;例(15)—(16)類似。
其二,復(fù)句中某個分句被逗號停頓離析為幾個語段,從而使得不含謂語部分的一些語段成為非分句。例如:
(17)不管時代的潮流和社會的風(fēng)尚怎樣,【人總可以憑著自己高貴的品質(zhì)】/ffj,走自己正確的道路。(《長江日報》1982-02-15)(主狀語段)
→不管時代的潮流和社會的風(fēng)尚怎樣,人總可以憑著自己高貴的品質(zhì)走自己正確的道路。
(18)【因?yàn)槿魏稳秉c(diǎn)和錯誤】/ffj,都是對人民不利的,因此也就對黨不利。(《劉少奇選集》上卷第350頁)
→因?yàn)槿魏稳秉c(diǎn)和錯誤都是對人民不利的,因此也就對黨不利。
例(17)—(18)劃線部分都是由于分句被停頓離析,使得主語或主語和狀語部分成為一個主狀(主語)短語片段,跟后面謂語部分用逗號隔開了。例(17)是由三個語段構(gòu)成的兩個分句,其中第二個分句被停頓離析為兩個語段:“人總可以憑著自己高貴的品質(zhì)” 是由“主語+情態(tài)動詞‘可以’+【+憑借義】狀語成分”充當(dāng)?shù)闹鳡钫Z段成分,“走自己正確的道路”是謂語語段成分,因而第二個語段不是分句而是短語語段;例(18)第一個語段“因?yàn)槿魏稳秉c(diǎn)和錯誤”和第二個語段“因?yàn)槿魏稳秉c(diǎn)和錯誤都是對人民不利的”合在一起才能表達(dá)一個完整意思,因而“因?yàn)槿魏稳秉c(diǎn)和錯誤”并非分句而是主語語段。
(三)嵌套結(jié)構(gòu)語段:復(fù)句中某個分句的句法成分包含嵌套結(jié)構(gòu),嵌套結(jié)構(gòu)被逗號停頓斷開,從而形成非分句語段。這種嵌套結(jié)構(gòu)具體有兩種類型:
其一,分句的某個成分由復(fù)句形式充當(dāng),復(fù)句形式之間由逗號隔開形成非分句語段。
朱德熙《語法講義》指出,有的時候單句內(nèi)部可以包含復(fù)句的形式[11]21,也就是說,單句的某個句法成分比較復(fù)雜,可以容納復(fù)句結(jié)構(gòu)。與此類似,分句的某個句法成分比較復(fù)雜,可以容納復(fù)句結(jié)構(gòu),從而出現(xiàn)非分句語段。例如:
(19)熊貓兒瞧著他,瞧著【他雖然柔和,但卻永不屈服】/ffj的目光,瞧著他那永遠(yuǎn)不會在任何折磨下消失的微笑……(古龍《武林外史》)
(20)由于不了解武裝斗爭在中國革命中的重要性,因而犯了【不重視軍隊(duì)工作,不學(xué)習(xí)軍事知識】/ffj的錯誤。(《劉少奇選集》上卷第342頁)
(21)阿飛覺得心里一陣絞痛,他從來未嘗過這種【既不是愁,也不是苦,既不是甜,也不是酸】/ffj的滋味。(古龍《多情劍客無情劍》)
例(19)—(21)都在復(fù)句的某一分句中包含了復(fù)句形式。例(19)中賓語“目光”的修飾語嵌套了一個復(fù)句形式“他雖然柔和,但卻永不屈服”,“瞧著他雖然柔和”和“但卻永不屈服的目光”兩個都是語段,它們共同構(gòu)成一個完整的分句。例(20)第二分句“犯了……錯誤”中嵌套了一個無標(biāo)并列關(guān)系的復(fù)句形式“不重視軍隊(duì)工作,不學(xué)習(xí)軍事理論”充當(dāng)“錯誤”的限定性定語,顯然,語段“因而犯了不重視軍隊(duì)工作”“不學(xué)習(xí)軍事知識的錯誤”都不是分句。例(21)第二個分句“他從未嘗過……的滋味”中嵌套了兩個并列性復(fù)句形式“既不是愁,也不是苦,既不是甜,也不是酸”充當(dāng)“滋味”的限定性定語,自然不再是分句。
其二,分句的某個成分是并列結(jié)構(gòu),并列結(jié)構(gòu)之間由逗號隔開而形成非分句語段。例如:
(22)①魏、晉時代,口哨盛行,②【不但民間百姓,而且文人墨客、達(dá)官貴人,甚至婦女】/ffj都喜愛吹口哨。(《長江日報》1993-01-09)
(23)我贊美白楊樹,就因?yàn)樗坏笳髁吮狈降霓r(nóng)民,尤其象征了今天我們民族解放斗爭中所不可缺少的【質(zhì)樸,堅(jiān)強(qiáng),以及力求上進(jìn)】/ffj的精神。(茅盾《白楊禮贊》)
例(22)包含5個語段,卻只有2個分句的復(fù)句,分句②的主語由并列性結(jié)構(gòu)“不但民間百姓,而且文人墨客、達(dá)官貴人,甚至婦女”充當(dāng),其中的“不但民間百姓”“而且文人墨客、達(dá)官貴人”都不是分句。例(23)是包含5個語段,卻只有3個分句的復(fù)句,分句③“象征了……的精神”由于并列結(jié)構(gòu)充當(dāng)定語而被停頓隔開為三個語段,賓語“所不可缺少的精神”的限定性定語“質(zhì)樸,堅(jiān)強(qiáng),以及力求上進(jìn)”是一個并列結(jié)構(gòu),這三個語段都失去了分句的資格。
(四)功能詞語段:句子里的某些表語氣的副詞、表示分句間關(guān)系的標(biāo)記詞被逗號停頓斷開,從而成為一個功能詞語段,在句中輔助表達(dá)某種功能。例如:
(24)【誠然】/ffj,一個企業(yè)固然要抓產(chǎn)品質(zhì)量,但如果質(zhì)量好的產(chǎn)品不對路,其價值不能實(shí)現(xiàn),又有何用?*在ccsc復(fù)句語料庫中,包含“誠然”的復(fù)句有667條,“誠然”既可居于句中,又可居于句首,獨(dú)立為短語語段的有529條,也就是說在自然語流中,“誠然”獨(dú)立為短語語段的概率高達(dá)79.3%。(《長江日報》1997-02-14)
(25)【如果】/ffj,一個男人認(rèn)為自己只要招招手女人就會跟他一輩子,而且一輩子都會等著他再招第二次了,那么這個男人就難免會遇到一些不愉快的事。(古龍《七星龍王》)
(26)【一方面】/ffj,盡可能地保存自己的力量,【另一方面】/ffj,盡可能地消滅敵人的力量。(毛澤東《抗日游擊戰(zhàn)爭的戰(zhàn)略問題》)
例(24)-(26)中的副詞成分和關(guān)系標(biāo)記被停頓斷開成為一個語段,這種形式的語段在句法上隸屬于后面的分句。例(24)中副詞成分“誠然”被獨(dú)立斷開,它在句法上隸屬于后面分句“一個企業(yè)固然要抓產(chǎn)品質(zhì)量”;例(25)句首的關(guān)系標(biāo)記“如果”被停頓斷開成為一個語段,它在句法上被后面的一、二分句標(biāo)記共享,管轄一、二分句,構(gòu)成“如果……那么”關(guān)系搭配標(biāo)示分句間的存在“假設(shè)—結(jié)果”關(guān)系;例(26)中關(guān)系搭配“一方面……另一方面”被停頓斷開,它們分別隸屬于各自后面的分句,標(biāo)示分句間存在邏輯上的并列關(guān)系。
本文將復(fù)句中經(jīng)常出現(xiàn)的一些非分句語段整合歸納分為4大類、6小類,因?yàn)樽匀徽Z言處理工程實(shí)踐中這6小類非分句語段的識別難度不一樣,因而對復(fù)句層次關(guān)系識別的影響度也不一樣。比較而言,狀語性語段、體詞性主語語段和功能詞語段比較容易識別,因?yàn)闋钫Z性語段表時間、地點(diǎn)、范圍、憑借等,一般有明顯的形式標(biāo)記,可以采用規(guī)則的方法來識別;體詞性主語語段是體詞性的,一般不包含動詞性成分,而功能詞語段由表語氣的副詞或關(guān)系標(biāo)記形成,也不包含動詞,這兩類非分句語段可以采用基于詞性標(biāo)注信息的方法來識別,目前的準(zhǔn)確度也較為理想。真正難的是嵌套結(jié)構(gòu)語段,這類語段一般是由某個分句句法成分的嵌套而形成,結(jié)構(gòu)比較復(fù)雜,既缺少可供利用的形式標(biāo)記,還常常伴隨有動詞出現(xiàn),因而識別難度極大,很容易被錯誤判斷為分句,從而給復(fù)句層次關(guān)系識別造成困難,因而有關(guān)嵌套結(jié)構(gòu)型語段將是下一階段非分句識別研究工作的重點(diǎn)。
[1] 胡金柱,吳鋒文,李瓊.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué),2010,(2):133-142.
[2] 李瓊.漢語復(fù)句書讀前后語言片段的非分句識別[D].武漢:華中師范大學(xué)博士學(xué)位論文,2008.
[3] 洪鹿平.漢語復(fù)句關(guān)系自動判定研究[D].南京:南京師范大學(xué)碩士學(xué)位論文,2008.
[4] 胡金柱,俞小娟,李瓊.基于規(guī)則庫和聚類分析的復(fù)句短語字段的自動識別研究[J].華中師范大學(xué)學(xué)報(自然科學(xué)版),2008,(2):190-194.
[5] 李業(yè)剛,黃河燕,史樹敏. 基于雙語協(xié)同訓(xùn)練的最大名詞短語識別研究[J].軟件學(xué)報,2015,(7):1615-1625.
[6] 干俊偉,黃德根. 漢語介詞短語的自動識別[J].中文信息學(xué)報,2005,(4):17-23.
[7] 盧朝華,黃廣君,郭志兵. 基于最大熵的漢語介詞短語識別研究[J].通信技術(shù),2010,(5):181-183.
[8] 鄭麗,呂學(xué)強(qiáng).搜索引擎日志中“N+V+N”、“V+N+N”型短語識別[J].計(jì)算機(jī)工程與應(yīng)用,2013,(6):143-147.
[9] 黎錦熙.新著國語文法[M].北京:商務(wù)印書館,1992.
[10] 趙元任.北京口語語法[M].北京:商務(wù)印書館,1972.
[11] 朱德熙.漢語語法講義[M].北京:商務(wù)印書館, 1982.
[12] 吳鋒文.新時期以來漢語復(fù)句基礎(chǔ)研究綜觀[J].信陽師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),2013,(1):78-84.
[13] 呂叔湘. 漢語語法分析問題[M].北京:商務(wù)印書館,1979.
[14] 郭中平.單復(fù)句的劃界問題[J].中國語文,1957.
[15] 邢福義.漢語復(fù)句研究[M].北京:商務(wù)印書館,2001.
【責(zé)任編輯 朱正平】
The Characteristics and Types of Non-Clause Based on Information Processing
WU Feng-wen
(College of Liberal Arts, Xinyang Normal University, Xinyang 464000, China)
Identifying syntactic and semantic relationships of compound sentences has great significance to Chinese information engineering and natural language processing, but non-clauses which often exist in compound sentences bring a bad effect on identifying accuracy of syntactic and semantic relationships of compound sentences. This paper defines what to be non-clauses, discusses the standard of identifying clauses and describes the types and characteristics of non-clauses. And then this paper aims how to strength pretreatment on syntactic and semantic relationships of compound sentences, finally realizes how to serve Chinese information processing.
information processing; compound sentences; clause; non-clause
H146
A
1009-5128(2017)03-0064-06
2016-12-07
國家社科基金青年項(xiàng)目:面向信息處理的漢語復(fù)句句法語義關(guān)系判定研究(14CYY035);教育部人文社科基金青年項(xiàng)目:漢語有標(biāo)復(fù)句層次關(guān)系自動識別研究(12YJC740110);河南省高校青年骨干教師資助計(jì)劃:而向信息處理的漢語有標(biāo)復(fù)句句法語義問題研究(2015GGJS-143);信陽師范學(xué)院“南湖學(xué)者”青年項(xiàng)目
吳鋒文(1981—),男,湖北麻城人,信陽師范學(xué)院文學(xué)院副教授,碩士生導(dǎo)師,文學(xué)博士,主要從事現(xiàn)代漢語語法、中文信息處理研究。