周紅照,侯明午,侯 敏,滕永林
(中國(guó)傳媒大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究有聲媒體中心,北京100024)
比較句是人們?cè)u(píng)價(jià)兩個(gè)或兩個(gè)以上事物之間優(yōu)劣或異同的一種常用表達(dá)方式。利用計(jì)算機(jī)自動(dòng)識(shí)別論壇、貼吧、微博、電子商務(wù)網(wǎng)站上用戶評(píng)論等領(lǐng)域的比較句,并進(jìn)一步抽取“比較主體、比較基準(zhǔn)、比較點(diǎn)、比較結(jié)果”四要素,具有現(xiàn)實(shí)實(shí)用價(jià)值,例如,可以幫助企業(yè)了解其產(chǎn)品相較于同類產(chǎn)品的優(yōu)勢(shì)與不足,更好地改進(jìn)生產(chǎn);可以為消費(fèi)者的購(gòu)物選則提供參考;可以獲取公眾對(duì)影視劇、文學(xué)作品等的對(duì)比評(píng)價(jià)信息。
現(xiàn)代漢語(yǔ)表示比較的基本方式有三種:一是通過(guò)“比、不如、優(yōu)于”等比較詞,二是通過(guò)“沒(méi)有…好,和…一樣,跟…沒(méi)法比”等比較表達(dá)式,三是通過(guò)分句(句子)對(duì)舉或間接言語(yǔ)行為等方式(例如,H180在天上,索尼的在地下),句子只要具備以上任一特征,即可判定為比較句。比較詞和比較表達(dá)式可以合稱為比較標(biāo)記(M)。由于第三種情況是通過(guò)意合的方式表示比較,缺乏形式化的標(biāo)記,本文暫不做討論。
作為一個(gè)范疇,比較具有四個(gè)要素:(1)比較主體,指在相比較的幾個(gè)事物中,說(shuō)話人所論述的話題和焦點(diǎn);(2)比較基準(zhǔn),指對(duì)比較主體做出評(píng)價(jià)時(shí)所依據(jù)的參照對(duì)象;(3)比較點(diǎn),指比較主體與比較基準(zhǔn)進(jìn)行比較的屬性;(4)比較結(jié)果,指說(shuō)話人對(duì)比較主體做出的評(píng)價(jià)。[1]例如,“索尼耳機(jī)比蘋果耳機(jī)音質(zhì)好”,比較主體是“索尼耳機(jī)”,比較基準(zhǔn)是“蘋果耳機(jī)”,比較點(diǎn)是“音質(zhì)”,比較結(jié)果是“好”。在比較句中,比較四要素以比較標(biāo)記為軸心展開分布,形成如下五元組:C(s)= <M,(X),(Y),(A),R>,其中,比較標(biāo)記M、比較結(jié)果R必定出現(xiàn),而比較主體X、比較基準(zhǔn)Y、比較點(diǎn)A可隱可現(xiàn),但一般來(lái)說(shuō),三者中至少出現(xiàn)一個(gè)。比較標(biāo)記的不同以及五元組出現(xiàn)的位置、次序、個(gè)數(shù)不同,就構(gòu)成不同的比較句類型。
關(guān)于比較句的次范疇,語(yǔ)言學(xué)界尚存在一些爭(zhēng)議,爭(zhēng)議最大的是差比句的外延大小。和許多學(xué)者一樣,我們主張從語(yǔ)義的角度對(duì)比較句進(jìn)行分類,我們基本認(rèn)同黃小江[1]所做的分類,但從比較要素抽取的工程角度出發(fā),對(duì)其做了以下兩點(diǎn)調(diào)整:(1)將“極比”從“差比”范疇下獨(dú)立出來(lái),上升為與平比、差比相并列的范疇;(2)將“差比”范疇下的“不同”次范疇歸入“平比”范疇。因“不同”指的是說(shuō)話者認(rèn)為事物之間存在差異,但并沒(méi)有就孰好孰壞、孰優(yōu)孰劣進(jìn)行評(píng)價(jià),例如,“大陸和香港政治制度不同”,說(shuō)話人對(duì)各個(gè)事物的情感傾向性是相同的,都是中性,這符合平比句比較主體、比較基準(zhǔn)情感傾向一致的特征。表1顯示了比較句的次范疇。
表1 比較句次范疇
語(yǔ)言信息處理界以觀點(diǎn)挖掘?yàn)槟繕?biāo),對(duì)漢語(yǔ)比較句的識(shí)別與要素抽取做了一些研究。從已發(fā)表的成果看,大都采用“兩步走”的策略,第一步是從比較句、非比較句的混合文本中識(shí)別比較句,第二步是在第一步的基礎(chǔ)上抽取比較句的四要素。我們認(rèn)為,比較句和比較要素之間是一種“你中有我,我中有你”的共生關(guān)系,若一個(gè)句子是比較句,則至少具有五元組中三個(gè)比較元素;若一個(gè)句子具備了比較五元組中三個(gè)或三個(gè)以上的比較元素,則該句子必定為比較句,兩者互為充分必要條件。因此將比較句識(shí)別與比較要素抽取兩個(gè)任務(wù)合而為一不僅是可能的,也是必要的,有助于同步提高兩個(gè)任務(wù)的準(zhǔn)確率。
比較句識(shí)別的方法目前主要有兩種:一是基于特征詞,吸收了語(yǔ)言學(xué)界對(duì)現(xiàn)代漢語(yǔ)比較詞的歸納(如文獻(xiàn)[2-5]),二是基于類序列規(guī)則(CSR),借鑒了語(yǔ)言學(xué)界對(duì)現(xiàn)代漢語(yǔ)比較句式的研究成果(如文獻(xiàn)[6-13]),同時(shí),通過(guò)觀察、分析真實(shí)語(yǔ)料,對(duì)原有內(nèi)容進(jìn)行了補(bǔ)充、修正。比較要素的抽取目前采用的方法有,在詞、詞性、位置組成的Baseline特征中融入語(yǔ)義、領(lǐng)域知識(shí)及啟發(fā)式規(guī)則特征,訓(xùn)練條件隨機(jī)場(chǎng)(CRF)模型進(jìn)行抽?。?4];采用CRF與規(guī)則相結(jié)合的方法抽取比較主體和比較基準(zhǔn),利用領(lǐng)域?qū)傩栽~典和情感詞典識(shí)別比較點(diǎn)和比較結(jié)果[15]。這些方法取得了一定效果,但也存在著不足:(1)有些句子并不是通過(guò)特征詞,而是通過(guò)比較表達(dá)式來(lái)表示比較,特征詞方法無(wú)法覆蓋這類情況;(2)句子中雖然有特征詞,但句子未必是比較句,例如,“差不多、最”分別是表示平比、極比時(shí)常用到的詞,但在句子“用了一天,發(fā)現(xiàn)信號(hào)很不錯(cuò)?!?,“好進(jìn)行無(wú)線安全設(shè)置,防蹭網(wǎng)。”中,并不表示比較;(3)序列的長(zhǎng)度難以確定。窗口過(guò)小不足以提取有意義的特征,窗口過(guò)大會(huì)出現(xiàn)很多噪聲;(4)對(duì)比較句的語(yǔ)言特點(diǎn)研究得不夠充分,規(guī)則需要細(xì)化、補(bǔ)充;(5)表示比較結(jié)果的詞除了是情感詞,還可以是大、小、高、低等兩重性的詞,或是由普通詞組合構(gòu)成的情感短語(yǔ),例如,“有所提高、不能抗衡、沒(méi)什么優(yōu)勢(shì)、有比較大的差距”,對(duì)于這兩種情況當(dāng)前的研究涉及得比較少。我們認(rèn)為,根據(jù)比較句識(shí)別與要素抽取的實(shí)用化目的以及漢語(yǔ)比較句的語(yǔ)言特點(diǎn),基于語(yǔ)義分類來(lái)構(gòu)建詞典和規(guī)則庫(kù),采用詞典與規(guī)則相結(jié)合的方法,可以彌補(bǔ)上面提到的幾點(diǎn)不足。
第四屆中文傾向性評(píng)測(cè)(COAE2012)設(shè)置了比較句識(shí)別與比較要素抽取的評(píng)測(cè)任務(wù),具體包含兩個(gè)子任務(wù):(1)從給定句子集合中,識(shí)別出哪些句子是比較句;(2)從識(shí)別出的比較句中,抽取出相應(yīng)的比較實(shí)體、實(shí)體要素以及相應(yīng)的情感傾向性。測(cè)試語(yǔ)料是電子、汽車領(lǐng)域的用戶評(píng)論。為順利完成這些任務(wù),需要構(gòu)建的詞典資源除了一般的分詞詞典,還應(yīng)包括:領(lǐng)域詞典、情感詞典、比較標(biāo)記詞典。
從應(yīng)用角度來(lái)說(shuō),企業(yè)和消費(fèi)者想要獲取的信息是用戶對(duì)產(chǎn)品及其屬性的評(píng)價(jià),不是其他內(nèi)容的評(píng)價(jià),如果單純依靠詞性、詞性序列、位置等特征,不加入領(lǐng)域知識(shí),難免會(huì)引入噪聲,因此,建立專門的領(lǐng)域詞典是非常必要的。
根據(jù)語(yǔ)義內(nèi)容的不同,領(lǐng)域詞典由兩部下位詞典構(gòu)成:
(1)產(chǎn)品名詞典。產(chǎn)品名在比較句中主要承擔(dān)比較主體和比較基準(zhǔn)這兩種要素。通過(guò)學(xué)習(xí)訓(xùn)練語(yǔ)料,我們總結(jié)出了八類不同特征的產(chǎn)品名:①品牌名,例如,微軟、蘋果、奧迪;②型號(hào),例如,A780、5230、MX360;③品牌與型號(hào)的組合,例如,sonyEX088、諾基亞1280、沃爾沃S80;④產(chǎn)品類別名(有時(shí)可帶修飾語(yǔ)),例如,鼠標(biāo)、原裝耳機(jī)、有線鼠標(biāo)、4缸發(fā)動(dòng)機(jī);⑤品牌與產(chǎn)品類別的組合,例如,飛利浦耳機(jī)、IBM筆記本、伊蘭特車;⑥型號(hào)與產(chǎn)品類別的組合,例如,HD2硬件、E804耳機(jī)、小康K系;⑦普通名詞,例如,圖片、實(shí)體店、山寨貨、國(guó)際大品牌;⑧指代性詞語(yǔ),例如,這款、其他、這個(gè)。在此基礎(chǔ)上我們又借助網(wǎng)絡(luò)資源,把從網(wǎng)上搜集來(lái)的汽車、電子兩個(gè)領(lǐng)域的產(chǎn)品名和產(chǎn)品屬性名加入詞典。同時(shí),將測(cè)試語(yǔ)料中用上述兩種方法沒(méi)有獲得的產(chǎn)品名和產(chǎn)品屬性名用人工的方式錄入詞典。
(2)產(chǎn)品屬性詞典。產(chǎn)品屬性詞在比較句中主要承擔(dān)比較點(diǎn)這個(gè)要素,指的是附著于產(chǎn)品實(shí)體,表示產(chǎn)品某一部分或某方面性質(zhì)、特征或功能的詞。例如,外觀、價(jià)格、質(zhì)量、機(jī)身、座椅。(注:個(gè)別詞語(yǔ)兼有產(chǎn)品名、產(chǎn)品屬性兩種語(yǔ)義特征。)
在比較句,尤其是差比、極比句中,比較結(jié)果這一要素主要由情感因子承擔(dān)。記錄情感因子的詞典叫情感詞典。其中不僅要收錄情感詞,也要收錄由普通詞組合構(gòu)成的情感短語(yǔ),例如,“不夠格、占地方、有點(diǎn)兒卡、根本沒(méi)法用、更具性價(jià)比”,這些短語(yǔ)中的詞單個(gè)拆開來(lái)看,是不具有情感傾向的,但組合在一起之后,就成為構(gòu)成觀點(diǎn)句的情感因子。根據(jù)語(yǔ)料特點(diǎn),情感詞典中還收錄了一些帶有明顯感情色彩的新詞語(yǔ)、網(wǎng)絡(luò)詞語(yǔ)以及口語(yǔ)詞,例如,“給力、坑爹、超贊、欠抽、不咋地、杠杠的”。情感詞典中的詞語(yǔ)根據(jù)語(yǔ)義極性分為正面、負(fù)面兩類。正面的標(biāo)記為po,取值在0和1之間,負(fù)面的標(biāo)記為ne,取值在-1和0之間。
這部詞典主要收錄不同類別比較句,主要是平比和極比句中的比較標(biāo)記。例如,極比句標(biāo)記“最佳、最差、首屈一指、無(wú)與倫比”,平比句標(biāo)記“不相上下、可以媲美、一樣、差不多、沒(méi)啥區(qū)別”等。收錄的原則是詞典與規(guī)則的互動(dòng):如果該類詞語(yǔ)數(shù)量多,不便于在規(guī)則中枚舉,就收錄在標(biāo)記詞典中,給出特定標(biāo)記,方便規(guī)則的撰寫;如果該類詞語(yǔ)數(shù)量比較少,可以在規(guī)則中枚舉,就不收錄,直接在規(guī)則中寫出。
不同的比較范疇,比較要素的抽取方法是不同的;同一范疇下的次范疇(即不同比較標(biāo)記的比較句),比較要素的抽取方法也存在差異;即便是針對(duì)某一特定標(biāo)記的比較句,由于比較主體、比較基準(zhǔn)、比較點(diǎn)三要素的隱現(xiàn)情況不同、數(shù)量不同、位置關(guān)系不同,規(guī)則的描述也相應(yīng)不同。因此,我們?cè)趯?duì)漢語(yǔ)比較句進(jìn)行語(yǔ)義分類的基礎(chǔ)上,構(gòu)建起比較句識(shí)別與比較要素抽取規(guī)則庫(kù)。
4.1.1 比較一級(jí)范疇
4.1.1.1 平比
平比指的是被比較對(duì)象的屬性相同或近似,或不同但沒(méi)有高下之分。平比句中,被比較對(duì)象數(shù)量≥2,屬性數(shù)量≥1。因此至少需要抽取兩組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果1>,<比較基準(zhǔn),比較點(diǎn),比較結(jié)果2>;且比較結(jié)果2=比較結(jié)果1。
4.1.1.2 差比
差比指的是被比較對(duì)象的屬性有高下、優(yōu)劣之分。差比句中,被比較對(duì)象數(shù)量≥2,屬性數(shù)量≥1。因此至少需要抽取兩組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果1>,<比較基準(zhǔn),比較點(diǎn),比較結(jié)果2>;且比較結(jié)果2= -(比較結(jié)果1)。
4.1.1.3 極比
極比指的是比較對(duì)象的屬性在某范圍內(nèi)是最優(yōu)或最劣的。其比較基準(zhǔn)往往是隱含的,例如,奔馳S是舒適性最好的車。因此極比句只需提取一組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果>。
4.1.2 比較二級(jí)范疇
差比、平比、極比由不同的下位范疇構(gòu)成,由于不同類型的比較標(biāo)記有著相應(yīng)的句法和語(yǔ)義結(jié)構(gòu),規(guī)則模式也就不一樣。
4.1.2.1 差比
相較于平比句和極比句,差比句的表達(dá)方式最為復(fù)雜多樣,其中使用率較高的比較標(biāo)記以及比較模式有以下六種:
(1)X比 Y vl;(vl為情感標(biāo)記,下同)
(2)X 沒(méi)(有)Y vl;
(3)X和 Y相比vl;
(4)相對(duì)于 X,Y vl;
(5)X不如|優(yōu)于Y;
(6)X和Y沒(méi)法比。
其中(1)~(4)比較模式中比較標(biāo)記與情感因子是分離的,比較結(jié)果,即比較要素的情感極性由情感因子決定;(5)~(6)中比較標(biāo)記與情感因子是重合的,比較標(biāo)記就蘊(yùn)含了比較結(jié)果,兩個(gè)比較元素由同一個(gè)詞來(lái)充當(dāng)。值得注意的是一些比較標(biāo)記代表的是一個(gè)詞簇,例如,“不如”代表的詞簇有:不如|比不上|比不了|比不過(guò)|趕不上|敵不過(guò)|遜于|輸于|次于|遜色于|落后于等;“沒(méi)法比”代表的詞簇有:沒(méi)法比|沒(méi)的比|沒(méi)有的比|不能比|無(wú)法相比|差遠(yuǎn)了|有差距|差很多|差太多|差多了|差了點(diǎn)|差距很大|差距好大|有很大的出入|有很大差距|不能相提并論|有一定差距|不是一個(gè)檔次|不在一個(gè)檔次|不能抗衡|相差甚遠(yuǎn)等。
4.1.2.2 平比
平比有兩個(gè)下位范疇:范疇1表示相同或近似;范疇2表示不同。根據(jù)比較標(biāo)記不同,范疇1主要包括2個(gè)模式:
(1)X(和)Y 差不多;(其中“和”可以省略)
(2)X 和 Y 都vl。
其中(1)評(píng)價(jià)主體和評(píng)價(jià)基準(zhǔn)的情感極性都是中性的;(2)評(píng)價(jià)主體和評(píng)價(jià)基準(zhǔn)都有或褒或貶的情感極性,而且相同。另外,比較標(biāo)記“差不多”也代表一個(gè)較大的詞簇:一個(gè)樣|沒(méi)差別|有一拼|沒(méi)差距|基本一致|完全一致|完全一樣|一模一樣|基本一樣|十分相像|沒(méi)啥區(qū)別|有得一拼|毫不遜色|差距不大|差別不大|相差不大|一個(gè)檔次|一個(gè)感覺(jué)|沒(méi)什么區(qū)別|沒(méi)什么差別|沒(méi)多大區(qū)別|沒(méi)多大差別|無(wú)大的差別|沒(méi)什么出入|基本上一樣|沒(méi)有太大區(qū)別|基本木有區(qū)別|沒(méi)有什么區(qū)別|沒(méi)有什么差別|沒(méi)有什么兩樣|差距幾乎沒(méi)有|差不到哪里去|沒(méi)有不同的地方|完全是一回事|看不出有什么差別|看不出有多大差別等。
范疇2也包括兩個(gè)比較模式:
(6)X和Y不同;
(7)X不同于 Y。
需要注意的是,在實(shí)際話語(yǔ)中,范疇2經(jīng)常會(huì)在語(yǔ)義上進(jìn)一步延展,使句子由平比句轉(zhuǎn)化為差比句,例如,捷達(dá)和桑塔納的價(jià)格不同,捷達(dá)要便宜一些。
比較標(biāo)記“不同”也代表一個(gè)詞簇:不同|不一樣|不太一樣|有區(qū)別|有差別|有所不同|略有不同|略有區(qū)別|略有差別|有點(diǎn)差異|差別好大|區(qū)別好大|截然不同|大不相同等。
4.1.2.3 極比
關(guān)于極比,最常用的比較模式是:
(1)X 最vl
(2)X首屈一指|無(wú)與倫比|第一|佼佼者|無(wú)人能敵。
4.1.3 比較三級(jí)范疇
即便是某一具體的比較標(biāo)記,由于比較主體、比較基準(zhǔn)、比較點(diǎn)三個(gè)要素隱現(xiàn)不同、出現(xiàn)數(shù)量不同、位置關(guān)系不同,也需要用不同的規(guī)則形式進(jìn)行描述。
以“比字句”為例。比較五元素的排列組合可以有七種形式,根據(jù)復(fù)雜層級(jí),由低到高排列如下(X代表比較主體,Y代表比較基準(zhǔn),A代表比較點(diǎn),R代表比較結(jié)果):
(1)比+Y+R (只出現(xiàn)1個(gè),只能是Y)
(2)X+比+Y+R;
(3)A+比+Y+R;
(4)比+Y+A+R;
(5)X+A+比+Y+R;
(6)A+X+比+Y+R;
(7)X+比+Y+A+R。
其中,X、Y、A的具體個(gè)數(shù)可以是一個(gè),也可以是兩個(gè)或兩個(gè)以上,例如,(2)可以擴(kuò)展為X1+X2+比+Y1+Y2+R。此外,如果“比”字前面出現(xiàn)“不、不可能”等否定詞,比較主體的情感極性要變?yōu)樨?fù)的R,比較基準(zhǔn)的情感極性變?yōu)檎腞。
每一個(gè)比較二級(jí)范疇都包含這樣或多或少的一組規(guī)則。
本系統(tǒng)的規(guī)則庫(kù)包括兩個(gè)子庫(kù):一個(gè)是短語(yǔ)及句子規(guī)則庫(kù),主要解決句子情感度的計(jì)算問(wèn)題,另一個(gè)是比較句識(shí)別與比較要素提取規(guī)則庫(kù),專門解決比較句識(shí)別及比較要素抽取問(wèn)題。本文主要介紹的是后者。
比較句識(shí)別與比較要素提取規(guī)則庫(kù)是上述漢語(yǔ)比較句語(yǔ)義分類體系的映射,包含“規(guī)則群-規(guī)則簇-規(guī)則”三個(gè)層級(jí),分別映射“比較一級(jí)范疇-比較二級(jí)范疇-比較三級(jí)范疇”。具體來(lái)說(shuō),規(guī)則庫(kù)包含差比、平比、極比三個(gè)規(guī)則群,每一個(gè)規(guī)則群又包含許多規(guī)則簇,例如,差比規(guī)則群包含“X比Yvl”“X不如/優(yōu)于Y”“X和Y沒(méi)法比”等規(guī)則簇,每一規(guī)則簇又包含數(shù)量不等的規(guī)則。規(guī)則庫(kù)的功能是將比較句識(shí)別與比較要素抽取合而為一完成。規(guī)則的簡(jiǎn)化形式如下例所示:
其中,“=”左部表示匹配條件,“=”右部表示識(shí)別及提取結(jié)果。規(guī)則左部中的“+”表示項(xiàng)與項(xiàng)之間的分隔,“*/nq”表示句子中出現(xiàn)的任意產(chǎn)品名,斜線前的“*”表示任意具體詞語(yǔ),是變量,斜線后的“nq”是產(chǎn)品名的標(biāo)記;“和”與“沒(méi)法比”是比較標(biāo)記,規(guī)則左部的含義是:句子中如果有一個(gè)產(chǎn)品名,后跟一個(gè)“和”,再后跟一個(gè)產(chǎn)品名,后面是“沒(méi)法比”,那么匹配成功,就可以執(zhí)行等號(hào)右部的操作。規(guī)則右部的[B,c]表示滿足規(guī)則左部匹配條件的句子為比較句,且是差比句;N1[bs]表示規(guī)則左部的第1項(xiàng)為比較主體;N3[bo]表示規(guī)則左部的第3項(xiàng)為比較基準(zhǔn);最后的bs:-1表示給比較主體的情感傾向賦值“-1”。當(dāng)然,在具體的規(guī)則中,我們還設(shè)置了“或”“非”“可有可無(wú)”“任意越過(guò)”等函數(shù),以增強(qiáng)規(guī)則的概括力和解釋力。
規(guī)則庫(kù)中的規(guī)則不是雜亂無(wú)章的,應(yīng)遵循先后次序,基本的順序原則是:具有包含關(guān)系的規(guī)則簇,包含規(guī)則簇在前,被包含規(guī)則簇在后;同一規(guī)則簇下的規(guī)則,否定性質(zhì)的在前,肯定性質(zhì)的在后,約束條件多的在前,約束條件少的在后,特殊情況的在前,共性的在后,以保證獲得最大限度的匹配。
基于上述詞典與規(guī)則,我們構(gòu)建了比較句識(shí)別與比較要素提取系統(tǒng)CUCsas。系統(tǒng)工作流程如圖1所示。
運(yùn)行這個(gè)詞典規(guī)則相結(jié)合的比較句識(shí)別與比較要素抽取系統(tǒng)CUCsas,以第四屆中文傾向性評(píng)測(cè)(COAE2012)發(fā)布的汽車、電子兩個(gè)領(lǐng)域的測(cè)試語(yǔ)料為對(duì)象,進(jìn)行比較句識(shí)別與比較要素抽取實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果(也是評(píng)測(cè)結(jié)果)如表2所示。
表2 CUCsas系統(tǒng)比較句識(shí)別與比較要素抽取結(jié)果
圖1 CUCsas系統(tǒng)工作流程圖
上述成績(jī)?cè)谒袇⒃u(píng)隊(duì)伍提交的結(jié)果中,比較句識(shí)別獲得最好成績(jī)(平均成績(jī)的微平均F值為0.768 6),比較要素抽取all精確匹配、all相互覆蓋也均獲得最好成績(jī)(平均成績(jī)的微平均F值分別為0.215 2、0.289 4)。系統(tǒng)比較句識(shí)別的準(zhǔn)確率、召回率均達(dá)到90%以上,但比較要素抽取的準(zhǔn)確率、召回率僅為40%左右,還遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)用化的要求。
我們對(duì)系統(tǒng)處理錯(cuò)誤的句子進(jìn)行了分析和歸納,產(chǎn)生錯(cuò)誤主要有以下幾個(gè)原因。
(1)規(guī)則的方法還有盲區(qū)。通過(guò)意合方式表示比較的句子,例如,“捷達(dá)賣6萬(wàn)元,派利奧之流就得賣三萬(wàn)元?!边@樣的句子既不包含比較詞,也不包含比較表達(dá)式,缺乏形式化標(biāo)記,無(wú)法編寫規(guī)則。
(2)領(lǐng)域詞典和情感詞典不完善。有些情感詞語(yǔ)和領(lǐng)域詞語(yǔ)是漏收,也有些產(chǎn)品名和產(chǎn)品屬性名因過(guò)于簡(jiǎn)省而沒(méi)有收錄。例如,“Mazda3是口碑很好的新型號(hào),目前的6不如3?!比绻?、3放入產(chǎn)品名詞典,會(huì)引入噪聲。權(quán)衡之下,不收,利大于弊。
(3)比較要素抽取錯(cuò)誤的原因很多。1)語(yǔ)言的復(fù)雜性所導(dǎo)致。當(dāng)一個(gè)句子中出現(xiàn)多個(gè)產(chǎn)品名,且不都是比較要素時(shí),規(guī)則處理起來(lái)就顯得捉襟見肘。例如,“這款音箱的音質(zhì)真的不怎么樣,插在電腦上聽音樂(lè)感覺(jué)不如在電腦上帶耳機(jī)用的音質(zhì)好!”系統(tǒng)錯(cuò)誤地把距離比較標(biāo)記“不如”最近的產(chǎn)品名——它前面的“電腦”和它后面的“電腦”分別抽取為比較主體、比較基準(zhǔn)。2)規(guī)則的約束條件和先后順序安排還有一定問(wèn)題,致使包含多個(gè)比較分句的句子處理不當(dāng),比較要素抽取錯(cuò)誤。
(4)情感極性判斷錯(cuò)誤的原因也是多方面的。1)特殊搭配導(dǎo)致極性反轉(zhuǎn),例如,“帕薩特的故障遠(yuǎn)高于中華。”其中“高于”和“故障”搭配時(shí),極性應(yīng)反轉(zhuǎn),由正變負(fù);2)有些句子可以與規(guī)則庫(kù)中的多條規(guī)則匹配,最先匹配到的規(guī)則并不符合句子實(shí)際情況,例如,“同君威2.5比,M6_2.0差一點(diǎn)。”該句最先匹配的是比字句規(guī)則,實(shí)際應(yīng)該匹配“同……比”規(guī)則;3)匹配到的情感詞并不是比較結(jié)果詞,例如,“我以前買那些工業(yè)包裝的SONY都要比這些垃圾要好得多?!毕到y(tǒng)把“垃圾(ne)”認(rèn)作比較結(jié)果詞,但實(shí)際的比較結(jié)果詞是“好得多(po)”。最不應(yīng)該的是,由于我們的粗心,把一條極比規(guī)則右部的比較結(jié)果項(xiàng)的序號(hào)寫錯(cuò)了,應(yīng)該是N7,寫成了N5,導(dǎo)致該規(guī)則匹配到的23個(gè)句子的比較主體的極性全部錯(cuò)誤。
上述有些問(wèn)題可以通過(guò)完善詞典,修改、增添規(guī)則,調(diào)整規(guī)則庫(kù)中規(guī)則的順序加以解決。但有些問(wèn)題,如語(yǔ)言復(fù)雜性導(dǎo)致的抽取錯(cuò)誤、一個(gè)比較句包含多個(gè)比較分句等情況,我們目前還沒(méi)有找到兩全的解決方案,只能是抓大放小,把語(yǔ)言中一般性問(wèn)題、大概率問(wèn)題的解決放在首位。
基于詞義聚類與比較句的語(yǔ)義分類,運(yùn)用詞典與規(guī)則的方法,我們構(gòu)建了比較句識(shí)別與比較要素抽取系統(tǒng)CUCsas,在第四屆中文傾向性評(píng)測(cè)(COAE2012)中取得了較好的成績(jī)。一個(gè)重要的原因是對(duì)語(yǔ)言的研究做得比較細(xì)致,例如,從比較要素抽取的角度對(duì)比較句的分類方式做出調(diào)整;依據(jù)比較句與比較要素是一種“你中有我,我中有你”的共生關(guān)系,將兩個(gè)任務(wù)合二為一完成;基于不同語(yǔ)義類型構(gòu)建了漢語(yǔ)比較句語(yǔ)義分類體系;對(duì)情感詞、領(lǐng)域詞進(jìn)行了較為微觀的分析。我們認(rèn)為,無(wú)論采用選取特征訓(xùn)練模型的方法,還是采用詞典規(guī)則的方法,都應(yīng)該注重對(duì)語(yǔ)言的研究,把語(yǔ)言的客觀規(guī)律與具體的語(yǔ)言工程有機(jī)結(jié)合起來(lái)。系統(tǒng)的不足還有很多,除了上面已談到的外,目前領(lǐng)域詞典的建立主要還是靠手工搜集和輸入,下一步應(yīng)探討如何采用機(jī)器學(xué)習(xí)的方法提高效率。
[1]黃小江,萬(wàn)小軍,楊建武,等.漢語(yǔ)比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008,22(5):30-38.
[2]尚平.比較句系統(tǒng)研究綜述[J].語(yǔ)言文字應(yīng)用,2006,(S2):77-80.
[3]車競(jìng).現(xiàn)代漢語(yǔ)比較句論略[J].湖北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,25(3):60-65.
[4]賀又寧.現(xiàn)代漢語(yǔ)比較句的結(jié)構(gòu)特色與語(yǔ)用制約試析[J].貴州大學(xué)學(xué)報(bào)(社科版),2001,19(3):70-74.
[5]鄧?guó)P民.漢語(yǔ)比較標(biāo)記和差比句語(yǔ)序類型[J].漢語(yǔ)學(xué)習(xí),2012,(2):36-44.
[6]劉穎.現(xiàn)代漢語(yǔ)中幾種表示相同比較的句式[J].安徽師范大學(xué)學(xué)報(bào)(人文社科版),2000,28(3):436-440.
[7]又寧.現(xiàn)代漢語(yǔ)中兩種主要的比較句的分析[J].語(yǔ)文研究,1995,(3):5-10.
[8]陳珺,周小兵.比較句語(yǔ)法項(xiàng)目的選取和排序[J].語(yǔ)言教學(xué)與研究,2005,(2):22-33.
[9]何元建.現(xiàn)代漢語(yǔ)比較句式的句法結(jié)構(gòu)[J].漢語(yǔ)學(xué)習(xí),2010,(5):11-19.
[10]賀又寧.現(xiàn)代漢語(yǔ)比較句的投射規(guī)律[J].貴族師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2000,(1):120-122.
[11]許國(guó)萍.“比”字句研究綜述[J].漢語(yǔ)學(xué)習(xí),1996,(6):28-31.
[12]任海波.現(xiàn)代漢語(yǔ)“比”字句結(jié)論項(xiàng)的類型[J].語(yǔ)言教學(xué)與研究,1987,(4):91-103.
[13]李艷,孫斐.沒(méi)有型比較句的比較結(jié)果研究[J].濱州學(xué)院學(xué)報(bào),2007,23(2):32-36.
[14]宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽?。跩].中文信息學(xué)報(bào),2009,23(2):102-107.
[15]黃高輝,姚天昉,劉全升.基于CRF算法的漢語(yǔ)比較句識(shí)別和關(guān)系抽?。跩].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2061-2064.