摘 要:中國文化博大精深,漢字的發(fā)展在中國更是有著幾千年的輝煌歷史。在歷史的發(fā)展進(jìn)程中,以漢字形成的中文篇章往往以句間語義關(guān)系的復(fù)雜性,更加具有豐富的內(nèi)涵。篇章句間關(guān)系作為中文篇章語義分析的重要內(nèi)容,具有自身的特點,通過對中文篇章句間關(guān)系層次化語義關(guān)系進(jìn)行合理分析,能夠有效對句間關(guān)系進(jìn)行理解描述。本文從中文篇章級句間語義關(guān)系及語料標(biāo)注角度出發(fā),提出幾點自身的見解。
關(guān)鍵詞:中文篇章級語義分析;句間關(guān)系;語料標(biāo)注
近年來,隨著中文在世界的影響力逐漸加強(qiáng),語言文化的研究熱潮逐漸興起,而中文篇章級句間語義的強(qiáng)大,給現(xiàn)代自動化系統(tǒng)中的自動分析及問答、文本質(zhì)量及內(nèi)容評價帶來諸多的不便。對于篇章級句間語義關(guān)系及標(biāo)注是語義分析的重要內(nèi)容,本文通過中文篇章級句間關(guān)系的語義分析方法,簡單分析并介紹中文的語義關(guān)系的含義,通過對于中文篇章語義關(guān)系及標(biāo)注中存在的問題,提出了自己的建議。
一、 篇章級句間語義關(guān)系的含義
在中文篇章級句間語義關(guān)系及標(biāo)注上,首先應(yīng)明確篇章級句間語義關(guān)系的含義。首先,篇章的組成并不是簡單的詞組及句子間的簡單羅列,它更強(qiáng)調(diào)一種邏輯思維性。在我們?nèi)粘=佑|到的篇章中,都是通過將一定的信息進(jìn)行整合后按照結(jié)構(gòu)進(jìn)行密切組織。通常,將一定的信息按照不同的組織結(jié)構(gòu)進(jìn)行組織,往往會產(chǎn)生不同的語義。例如,對于句子:“那個小女孩跑了起來,結(jié)果那只狗跟上叫了起來。”“那只狗跟上叫了起來,結(jié)果那個小女孩跑了?!痹谶@段話中,前者強(qiáng)調(diào)小女孩的跑動引起了狗跟上并叫了起來,而后者強(qiáng)調(diào)是狗跟上并叫了起來,所以小女孩才會跑掉。從語義關(guān)系來看,兩者所體現(xiàn)的主體含義并不相同,由此可見句子間的組織結(jié)構(gòu)影響著邏輯上的語義關(guān)系。
二、 面向中文的篇章級句間語義關(guān)系
(一) 語義單元的切分
通常在理解整個篇章時,需要把握每個組成篇章的句子的含義。而要充分理解一句話、一個句子的含義,就需要將句子分解為更小的語義單元,在充分理解每個詞組、詞語的含義上,理解一段話,最終通過了解各個句子的含義結(jié)合篇章的整體結(jié)構(gòu),理解篇章的整體思想及所要表達(dá)的主旨含義。因此,對于基礎(chǔ)的把握即對于基本語義單元的理解就格外重要。中文基本的語義單元從組成上來看可分為以下幾種:中文單詞;由詞組組成的短語;由短語連成的從句;進(jìn)而組成的完整的句子;最終通過文本塊組成全部的篇章。
(二) 語義樹的構(gòu)建
國內(nèi)對于基本語義單元的分析通常通過語義樹來實現(xiàn)。從語義樹來看,動詞短語組成了最基本的語義單元,當(dāng)簡單從句中僅包含一個基本的語義單元時,這個簡單從句同樣可以作為一個語義單元。當(dāng)基本的語義單元組合在一起時,同樣可以生成一個語義單元。而從每個句子至少包含一個語義單元來看,篇章級的句間關(guān)系往往就存在于語義單元間,當(dāng)然,整個關(guān)系是在相同層次的語義單元作用下形成的。
三、 基于篇章級語義標(biāo)注的分析及解決對策
(一) 語義標(biāo)注中存在的問題
1. 信息及內(nèi)容的缺失
目前,中文本身所表達(dá)的語義是非常豐富的,從語義的組成來看,其組織方式靈活多樣,同英文不同,相似關(guān)系的詞組間可表達(dá)出豐富多彩的含義。因而在對于計算機(jī)標(biāo)注過程中,會出現(xiàn)諸多困難。首先便是句法成分問題導(dǎo)致的信息缺失。在日常的語義中,中文篇章中往往存在較多的短句,這些短句雖不完整,但所隱藏的含義卻是可以通過人工標(biāo)注進(jìn)行理解及感悟,而基于計算機(jī)的角色標(biāo)注卻無法完成。這些短句雖不完整,但卻有著完整的語義,在現(xiàn)代的計算機(jī)高速發(fā)展下,是否將這些元素參與到篇章構(gòu)成中值得去思考。
2. 歧義關(guān)系的存在
中文語義關(guān)系是復(fù)雜的,這也導(dǎo)致組成中文篇章的復(fù)雜性,語義表達(dá)方式上的豐富多樣性,注定了其具有歧義性的特點。中文篇章中存在較多的歧義語義,舉例來說,“××唱片公司自成立以來,僅占整個唱片公司市場份額的0.05%,目前僅有一少部分群體購買該公司的唱片”。前面的一句更多的是闡述的事實。而“目前僅有一少部分群體購買該公司的唱片”更多的是介于“解釋說明”及更進(jìn)一步的“遞進(jìn)關(guān)系”之上,帶有一定的歧義關(guān)系。而如何解決這一問題更值得研究學(xué)者的思考。
3. 句法與語義關(guān)系是否屬于篇章級句間關(guān)系并不明確
在中文篇章中,通常會包含多個分句,這些分局作為多個語義的組成,往往具有并列的屬性,對行文的開展具有良好的推動及促進(jìn)作用。在計算機(jī)的語義標(biāo)注中,往往會出現(xiàn)對于句法的模糊概念,即無法通過篇章句間關(guān)系進(jìn)行有效處理。
(二) 篇章級語義標(biāo)注的解決對策
1. 加強(qiáng)中文篇章句間語料關(guān)系標(biāo)注及語料庫的構(gòu)建
語料關(guān)系及語料庫構(gòu)建更像是一個大的數(shù)據(jù)庫,而通過這一數(shù)據(jù)庫的建設(shè),可以豐富中文篇章語料標(biāo)注中的數(shù)據(jù)分析,當(dāng)出現(xiàn)類似的語料關(guān)系或語料關(guān)系相近時,通過語料關(guān)系庫中的標(biāo)注組合,實現(xiàn)語料關(guān)系的自動識別及構(gòu)建。
2. 加大學(xué)術(shù)研究力度,實現(xiàn)語義分析器的設(shè)計與實現(xiàn)
例如,句子:“【快樂是人的本性】,【但是】,【【我們要想一直快樂】,【一定要保持樂觀的心態(tài)】】”。這段句子中,由3個基本的語義單元組成,通過這三個語義單元的相互邏輯關(guān)系,加上【但是】這一轉(zhuǎn)折關(guān)系,組成了整體的句子,而“【【我們要想一直快樂】,【一定要保持樂觀的心態(tài)】】”這一語義單元又由兩個基本語義單元組成。通過語義單元的遞推關(guān)系,往往能夠更好地理解句間語義關(guān)系,進(jìn)而用遞推的方式理解整個篇章。通過加大學(xué)術(shù)上的科研力度,創(chuàng)建語義分析器,可實現(xiàn)語義的自動標(biāo)注。
3. 構(gòu)建中文篇章句間關(guān)系類型及句間關(guān)系元素的自動識別法
構(gòu)建中文篇章句間關(guān)系類型及句間關(guān)系元素的自動識別法是一個漫長的過程。例如,針對句法及語義關(guān)系可以通過添加相應(yīng)的句法關(guān)系類別。又如,對于中文短句,允許其作為整體元素進(jìn)行出現(xiàn),近而判斷語義的完整性,還可以通過建立多級語義關(guān)系嵌套方式實現(xiàn)句間關(guān)系元素的自動識別。
四、 結(jié)語
中文篇章級句間語義關(guān)系及標(biāo)注具有一定的復(fù)雜性,其研究與發(fā)展存在一定的艱難性,不過在充分把握篇章級句間語義關(guān)系的基礎(chǔ)上,合理看待篇章語義標(biāo)注上的難題,定能引導(dǎo)中文篇章級句間語義關(guān)系及標(biāo)注走向成功。
參考文獻(xiàn):
[1]姬建輝.中文篇章級句間關(guān)系分析[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[2]張牧宇,秦兵,劉挺.中文篇章級句間語義關(guān)系體系及標(biāo)注[J].中文信息學(xué)報,2014,28(2):28-36.
作者簡介:
李雨欣,遼寧省朝陽市,遼寧省朝陽市第二高級中學(xué)。