袁毓林
(北京大學(xué) 中文系中國語言學(xué)研究中心教育部計(jì)算語言學(xué)重點(diǎn)實(shí)驗(yàn)室,北京100871)
本文主要討論如何建設(shè)合適的漢語語義知識庫,從而為文本語義的計(jì)算機(jī)自動(dòng)分析提供可靠的基礎(chǔ)。重點(diǎn)研究的內(nèi)容是:如何描寫漢語名詞、動(dòng)詞、形容詞等實(shí)詞的語義結(jié)構(gòu)以及其間的關(guān)聯(lián)關(guān)系,為名詞和動(dòng)詞、形容詞設(shè)計(jì)出前后一致、互相照應(yīng)的語義表示框架,形成完整的漢語語義知識體系,并且轉(zhuǎn)化為結(jié)構(gòu)合理、使用方便的漢語語義知識庫。
對于上述問題,我們采用的技術(shù)路線是:以生成詞庫論(generative lexicon theory)和論元結(jié)構(gòu)理論(the theory of argument structure)為指導(dǎo)[1-2],充分研究漢語常用的名詞、動(dòng)詞、形容詞的物性結(jié)構(gòu)(qualia structure)和論元結(jié)構(gòu)(argument structure),揭示它們之間的搭配連接和選擇限制關(guān)系[3-5];還要刻畫漢語常用名詞、動(dòng)詞、形容詞的情感評價(jià)色彩(semantic orientation and sentiment polarity),最終形成完整的漢語語義知識體系,并且轉(zhuǎn)化為具有可擴(kuò)展性的、面向?qū)ο螅╫bject orientation)的語義知識數(shù)據(jù)庫。從而為計(jì)算機(jī)自動(dòng)分析文本的語義提供充分的語義知識資源。
對于漢語名詞的語義結(jié)構(gòu),我們主要采用生成詞庫論的物性結(jié)構(gòu)的描寫框架,從形式角色(formal role)、構(gòu)成角色(constitutive role)、施成角色(agentive role)和功用角色(telic role)等多個(gè)方面,說明名詞所指謂的事物的性質(zhì)及其跟相關(guān)事物、事件的關(guān)系;這種概念層面上的事物或事件關(guān)系,最終在語言層面上表現(xiàn)為詞語(名詞跟名詞、動(dòng)詞、形容詞等)之間的搭配關(guān)系(即選擇限制關(guān)系)。在物性角色的數(shù)量和類型上,我們根據(jù)漢語名詞在真實(shí)文本中的詞語搭配情況,突破了文獻(xiàn)[1]的上述四種,擴(kuò)展到下列十種。
(1)形式(formal,簡寫為FOR):用以反映名詞的分類屬性、語義類型和本體層級特征(semantic classes and ontological plane)。例如,“水”是“有形物質(zhì)、液體”、“醫(yī)生”是“人、身份、職業(yè)”,等等;
(2)構(gòu)成(constitutive,簡寫為 CON):用以反映名詞所指的事物的結(jié)構(gòu)屬性,包括:構(gòu)成狀態(tài)、組成成分、在更大的范圍內(nèi)構(gòu)成或組成哪些事物、跟其他事物的關(guān)系,也包括物體的大?。╩agnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。例如,“樹”的構(gòu)成是“比較高大的植物,有軀干、枝條和葉子;可以根據(jù)所結(jié)的果子、來源、用途、形狀、特征等下列屬性進(jìn)行分類:果(子)、蘋果、梨、橘(子)、柑桔、油棕、落葉、常青、相思、圣誕、癢癢、糖槭、庭院、道路……;也可以根據(jù)下列顏色進(jìn)行分類:綠色、白色、黃色、黑色、紅色、褐色……”等等;
(3)單位(unit,簡寫為UNI):用以反映名詞所指事物的計(jì)量單位,也即跟名詞相應(yīng)的量詞;例如,“張[紙]、雙[筷子]、斤[白酒]、點(diǎn)兒[事情]、口袋[面粉]、[看三]次[電影]、[三]天[時(shí)間]”,等等;
(4)評價(jià)(evaluation,簡寫為EVA):用以反映人們對名詞所指事物的主觀評價(jià)、情感色彩。例如,對“月亮”的評價(jià)有“潔白、皎潔、明亮、明朗、朦朧、圓圓、圓潤、彎彎”,對“媽媽”的評價(jià)有“偉大、英雄、勇敢、慈祥、慈愛、無私”等等;
(5)施成(agentive,簡寫為AGE):用以反映名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關(guān)系等。例如,“抽屜”的施成是“制作、做”等等,“細(xì)菌”的施成是“滋生、培養(yǎng)、繁殖、感染(上)”等等;
(6)材料(material,簡寫為 MAT):用以反映創(chuàng)造名詞所指的事物所用的材料。例如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等,“書”的材料是“帛、竹、紙草、羊皮、竹皮、樹葉、紙版、電子”等等;
(7)功用(telic,簡寫為 TEL):用以反映名詞所指的事物的用途和功能。例如,“抽屜”的功用是“盛(東西)、放(衣物)、裝(文件)、擱(雜物)、藏(東西)”等等,“醫(yī)生”的功用是“治病、治療疾病”等等;
(8)行為(action,簡寫為ACT):用以反映名詞所指的事物的慣常性的動(dòng)作、行為、活動(dòng)。例如,“細(xì)菌”的行為是“繁殖、生長、死亡、吞噬、傳播、散布、感染、侵染、進(jìn)入、侵入、分解、腐蝕”等等,“媽媽”的行為是“生孩子、撫養(yǎng)孩子、照顧小孩、養(yǎng)育小孩、教育孩子”等等;
(9)處置(handle,簡寫為 HAN):用以反映人或其他事物對名詞所指的事物的慣常性的動(dòng)作、行為、影響。例如,對“眼淚”的處置是“抹、含著、噙著、忍著、充滿、擦、彈”等等,對“意見”的處置是“轉(zhuǎn)達(dá)、轉(zhuǎn)告、聽到、理解、諒解、接受、無視、不理會(huì)”等等。
(10)定位(orientation,簡寫為 ORI):人或其他事物跟名詞所指的處所、時(shí)間等的位置、方向關(guān)系。例如,對“前線”的定位是“在、到、位于”等等,對“今天”的定位是“在、到、從、過了”等等。
除了描寫名詞在語義上的各種物性角色之外,還要描寫名詞跟其物性角色在句法上的組配關(guān)系,形成完整的關(guān)于名詞的句法-語義接口知識。例如,
食品shípǐn〈名詞,積極〉商店出售的經(jīng)過加工制作的食物。
〔1〕物性角色:
形式FOR:有形物質(zhì)、商品、可攝入物、食物;
構(gòu)成CON:食品有營養(yǎng)、熱量等構(gòu)成因素;可以根據(jù)來源、功能、加工或包裝方式、期限等屬性進(jìn)行分類:魚類、肉類、禽類、雞肉、奶(類)、植物性、動(dòng)物性、副、糖類、舶來、保健、營養(yǎng)、藥用、方便、快餐、應(yīng)急、生、熟、生鮮、腌制、熏制、強(qiáng)化、膨化、冷凍、速凍、罐頭、罐裝、聽裝、袋裝、酸性、綠色、環(huán)保、有機(jī)、轉(zhuǎn)基因、風(fēng)味、清真、嬰兒、老人、動(dòng)物、軍隊(duì)、野戰(zhàn)、節(jié)日、過期、隔夜、污染,等等;
單位UNI:集合:批、包、種、部分,等等;度量:噸、公斤,等等;不定:點(diǎn)兒、些,等等;容器:箱、口袋、桌子、屋子、籃子,等等;
評價(jià)EVA:新鮮、變質(zhì)、腐敗、美味、珍貴、廉價(jià)、傳統(tǒng)、新穎、特殊、精細(xì)、高級、優(yōu)質(zhì)、變質(zhì)、短缺、豐富(多樣)、充足、匱乏,等等;
施成AGE:加工、制作,等等;
功用TEL:吃、吞食、享用、品嘗、消費(fèi),等等;
處置HAN:出售、購買、存放、冷藏、包裝、運(yùn)輸、分發(fā)、給……消毒,等等。
〔2〕句法格式:
S1:__+ 有/的 +CON
如:~有營養(yǎng)|~有熱量|~的營養(yǎng)|~的熱量
S2:Num+ UNI+ __
如:一批~|一包~|一種~|一部分~|一噸~|一點(diǎn)兒~|一些~|
一箱~|一口袋~|一桌子~|一屋子~|一籃子~
S3:EVA +(的+)__
如:新鮮(的)~|變質(zhì)(的)~|腐敗(的)~|美味(的)~|珍貴(的)~|廉價(jià)(的)~|傳統(tǒng)~|新穎(的)~|特殊~|精細(xì)~|高級~|優(yōu)質(zhì)~
S4:__+EVA
如:~(嚴(yán)重)短缺|~豐富(多樣)|~充足|~匱乏
S5:AGE+ __
如:加工~|制作~|做~
S6:TEL+ __
如:吃~|吞食~|下咽~|享用~|品味~|嘗~|品嘗~
S7:HAN + __
如:出售~|賣~|銷售~|買~|購買~|存放~|冷藏~|包裝~|運(yùn)輸~
價(jià)格jiàɡé〈名詞,中性〉商品價(jià)值的貨幣表現(xiàn)。比如,一件衣服賣五十元人民幣,五十元就是衣服的價(jià)格;你花了多少錢買某種東西,你所花的錢的數(shù)量就是這種東西的價(jià)格。
〔1〕物性角色:
形式FOR:抽象屬性、經(jīng)濟(jì)領(lǐng)域、商品屬性;
構(gòu)成CON:價(jià)格跟商品(x)、價(jià)值、貨幣數(shù)量和貨幣單位及貨幣幣種(y)等概念密切相關(guān);價(jià)格(屬性名詞)是一種屬性名稱,依附于某種商品(宿主名稱),貨幣數(shù)量和貨幣單位(數(shù)量詞)是價(jià)格這種屬性的值;可以根據(jù)價(jià)格的宿主進(jìn)行分類:商品、消費(fèi)品、工業(yè)品、原材料、糧食、棉花、油料、農(nóng)產(chǎn)品、能源、石油、黃金、白銀、建筑材料、藥品、土地、農(nóng)資、旅游、消費(fèi)、醫(yī)療、現(xiàn)貨、期貨、股票、債券,等等;可以根據(jù)價(jià)格的屬性進(jìn)行分類:市場、掛牌、平均、批發(fā)、零售、指令性,等等;
單位UNI:集合:種、類、部分,等等;不定:些,等等;
評價(jià)EVA:是y,高、低、貴、昂貴、不菲、過高、便宜、低廉、偏低、優(yōu)惠、合理,等等;
施成AGE:確定、決定,等等;
功用TEL:反映價(jià)值,等等;
行為ACT:變化、波動(dòng)、異動(dòng)、上漲、大漲、猛漲、暴漲、下降、跌落、大跌、狂跌、反彈、回穩(wěn)、(趨于)穩(wěn)定、偏離價(jià)值、與價(jià)值相背離,等等;
處置HAN:監(jiān)督、監(jiān)測、調(diào)整、控制、調(diào)控、限制、改變、提高、降低、計(jì)算、核定、公布,等等。
〔2〕句法格式:
S1:x+ 的 + __+EVA
如:一桶石油的~是120美元|一斤大米的~是12元(人民幣)|蔬菜的~很貴|農(nóng)產(chǎn)品的~十分低廉
S2:Num+ UNI+ __
如:一種~|一類~|一部分~|一些~
S3:AGE+ __
如:確定~|決定~
S4:(x+的 +)(這種+)__+ TEL
如:~反映價(jià)值|~沒有反映價(jià)值|黃金的~反映了它的價(jià)值|鐵礦石的這種~已經(jīng)充分地反映了它的價(jià)值
S5:__+ ACT
如:~變化|~波動(dòng)|~異動(dòng)|~上漲|~大漲|~猛漲|~暴漲|~下降|~跌落|
~大跌|~狂跌|~反彈|~回穩(wěn)|~(趨于)穩(wěn)定|~偏離價(jià)值|~與價(jià)值相背離
S6:HAN + __
如:監(jiān)督~|監(jiān)測~|調(diào)整~|控制~|調(diào)控~|限制~|改變~|提高~|降低~|計(jì)算~|核定~|公布~|分析~|研究~
這樣,通過物性角色,我們在概念層面上刻畫了名詞所指的事物的基本屬性及其跟相關(guān)事物或事件的關(guān)系;通過句法格式,我們刻畫了名詞跟相關(guān)的名詞、動(dòng)詞和形容詞的選擇限制和搭配關(guān)系。最終,通過名詞的物性結(jié)構(gòu)的描述框架,形成了比較完整的關(guān)于名詞的句法—語義接口的知識。因此,這種物性結(jié)構(gòu)的描述框架,可以看作是對名詞的句法、語義知識的一種簡略的概念建模和語言建模。目前,我們已經(jīng)對常用的1 000多個(gè)名詞進(jìn)行了物性結(jié)構(gòu)框架描述。接下來,將對漢語水平考試詞匯表中的4 000多個(gè)名詞進(jìn)行描寫。
對于漢語動(dòng)詞、形容詞等謂詞的語義結(jié)構(gòu),我們主要采用論元結(jié)構(gòu)的描寫框架,對常用的6 000多個(gè)動(dòng)詞和3 000多個(gè)形容詞的常用義項(xiàng),分別建立格式一致的語義角色框架及其句法實(shí)現(xiàn)形式(即句法格式)。內(nèi)容包括:(i)角色集合:每個(gè)謂詞在某個(gè)義項(xiàng)下其各個(gè)論元的語義角色集合;(ii)句法格式:該謂詞跟受其支配的這些論元角色在句子中的句法配置方式。其中,動(dòng)詞的論元角色首先分為必有論元和非必有論元兩種,前者是構(gòu)成意思相對完整的句子所不可缺少的,后者則用以擴(kuò)充句子的意思,幫助形成意思相對復(fù)雜的句子。必有論元分為主體論元和客體論元兩種,前者主要作主語,后者主要作賓語。主體論元細(xì)化為施事、感事、經(jīng)事、致事、主事等語義角色,客體論元細(xì)化為受事、與事、結(jié)果、對象、系事等語義角色。非必有論元從語義上分為依憑論元、環(huán)境論元和關(guān)涉論元三種,它們主要作狀語。其中,依憑論元細(xì)化為工具、材料、方式、原因、目的等語義角色,環(huán)境論元細(xì)化為時(shí)間、處所、源點(diǎn)、終點(diǎn)、路徑等語義角色,關(guān)涉論元細(xì)化為量幅、范圍等語義角色??偣矠閯?dòng)詞設(shè)立了22種語義角色[3,5]??紤]到這種抽象的語義角色的定義難以適應(yīng)到具體某個(gè)動(dòng)詞的某種論元,我們采用個(gè)例化的語義角色描述方法;即根據(jù)每一個(gè)謂詞的特定的意義(或用法),對其所有的語義角色進(jìn)行具體的語義描寫。例如:
吃chī<體賓動(dòng)詞,中性> 進(jìn)食;把食物等放到嘴里咀嚼并吞咽下去。
〔1〕語義角色:
施事A:吃東西的人或動(dòng)物;
受事P:施事所吃的東西;
與事D:施事吃他東西的人;
工具I:吃東西所用的器具,如“碗、筷子”等;
方式M:吃東西的方式或某種伙食標(biāo)準(zhǔn);
處所L:吃東西的地點(diǎn);
終點(diǎn)GO:受事被吃后所到的地方,一般是“肚子(中)、嘴(里)”等身體部位。
〔2〕句法格式:
S1:A+ __+P
如:弟弟~了一個(gè)蘋果。︱咱們~烤鴨吧。
S2:P+ A+ __
如:蘋果我~了。︱蛋糕大家都~了。
S3:A+ __+D+P
如:他~了小李一個(gè)蘋果。︱弟弟~了我一包巧克力。
S4:A+ 用I+ __+P
如:長工們都用大碗~飯。︱他正用刀叉~牛排呢。
S5:I+(A +)__+P
如:這副刀叉~牛排。︱這個(gè)碗我~面條。
S6:A + __+I(xiàn)/M
如:男人們~大碗,孩子們~小碗。︱他一直~小灶。︱工人們都~包伙。
S7:A+ 在L+ __+P
如:學(xué)生們都在食堂~午飯。︱他們在全聚德~晚飯。
S8:P+A+ 在L+ __
如:午飯他在食堂~。︱早飯孩子們都在家里~。
S9:P+ A+ __+L
如:午飯他~食堂。︱晚飯?jiān)蹅儭^子吧。
S10:A+ 把P+ __了
如:你快把面條~了。︱弟弟把整塊蛋糕都~了。
S11:A+ 把P+ __+(到/在)GO
如:犯人把紙團(tuán)~到肚子里了。︱小猴子已經(jīng)把果仁~到嘴里了。
S12:P+ 被A+ __了
如:面條被他~了。︱生日蛋糕被鄰居的孩子~了。
S13:P+ 被A+ __+(到)GO
如:孫悟空被鐵扇公主~肚子里了。︱果仁已經(jīng)被小猴子~到嘴里了。
制作zhìzuò〈體賓動(dòng)詞,中性〉把原材料做成成品。
〔1〕語義角色:
施事A:把原材料做成成品的人;
結(jié)果R:施事所制作的成品;
材料MA:施事制作成品所用的材料。
〔2〕句法格式:
S1:A + (用 MA + )__+ R
如:那個(gè)公司~了大量制冷發(fā)動(dòng)機(jī)。|美國大學(xué)生米勒~了能模擬原始大氣的儀器。|先人用石頭~勞動(dòng)工具。|古人常用云母片~屏風(fēng)。
S2:A+ 把R/MA+ __+ 出來/成R
如:小劉趕夜把專輯~出來了。|人們把葡萄~成葡萄酒。|師傅把這塊木頭~成了一個(gè)小凳子。
S3:MA+ 可以 + __+ 成R
如:梨的果實(shí)營養(yǎng)豐富,除鮮食外,還可以~梨脯、梨汁、梨膏、梨酒等。|這種木材可以~成高級家具、樂器和工藝品。
S4:MA+ 被(A)+ 用來+__+R
如:葡萄被用來~酒。|玉被人們用來~藝術(shù)品。
對于形容詞的各種論元,我們根據(jù)它們跟形容詞在意義上的不同的關(guān)系,區(qū)分為下列9種不同的語義角色:主事、感事、范圍、與事、量幅、對象、系事、原因、目的,等等[5]。對于形容詞的語義角色,我們也采用個(gè)例化的語義角色描述方法。例如,
貴guì<形容詞,消極> 價(jià)格高;價(jià)值大。跟“賤”相對。
〔1〕語義角色:
主事TH:具有價(jià)格高、價(jià)值大這種屬性的物品;
范圍RA:主事表現(xiàn)出貴這種屬性的具體方面,一般是價(jià)格、價(jià)值等;
與事D:主事跟它在貴這種屬性上進(jìn)行比較的參照物;
量幅EXT:主事和與事在貴這種屬性上的差別所達(dá)到的程度或幅度。
〔2〕句法格式:
S1:TH +(RA+)__
如:這些儀器非?!?。|友誼商店的化妝品價(jià)格很~。
S2:TH+(RA+)比D+__(+ EXT)
如:這些儀器價(jià)格比那些儀器~。|這臺電腦比那臺電腦~三千元。
S3:__+的+RA
如:(很)~的價(jià)錢|(這么)~的價(jià)格
S3:(RA+)+__+的+TH
如:(這么)~的書|(價(jià)格)很~的一塊手表
S4:(RA+)比D+__+(EXT+)的+ TH
如:(價(jià)格)比這本書還~的書|比那個(gè)項(xiàng)鏈還~三百塊錢的戒指
謂詞的這種句法、語義描述體系,具體地刻畫了動(dòng)詞、形容詞在語義結(jié)構(gòu)和句法組配方面的特點(diǎn)。這種個(gè)例化的語義角色知識是一種非常重要的資源,特別有利于計(jì)算機(jī)理解語句的基本的命題意義,并調(diào)用這種知識來進(jìn)行有關(guān)的自動(dòng)推理。這種把動(dòng)詞的語義角色及其句法組配相結(jié)合的描述方式,充分地表示了謂詞的論元結(jié)構(gòu)和語義角色關(guān)系的各種重要的信息。通過這種謂詞的論元結(jié)構(gòu)的描述框架,形成了比較完整的關(guān)于動(dòng)詞、形容詞的句法—語義接口的知識;也可以看作是對動(dòng)詞和形容詞的句法、語義知識的一種簡略的概念建模和語言建模??梢姡@種語義描寫體系比WordNet更加注重詞語之間的組合性語義關(guān)系[6],比FrameNet更加注重各 別 詞 項(xiàng) 的 語 義 結(jié) 構(gòu) 特 點(diǎn)[7-8],比 PropBank 和VerbNet更加注重語義角色的細(xì)致劃分[9-10]。
語言不僅有傳遞事實(shí)性信息的功能,而且還有表示情感性評價(jià)的功能。對于同樣一件事情,可以用積極性詞語進(jìn)行正面肯定,也可以用消極性詞語進(jìn)行負(fù)面否定。例如,對于同樣一輛城市越野車,喜歡它的人會(huì)說它“馬力大、結(jié)實(shí)耐用”,而討厭它的人會(huì)說它“油耗大、粗重笨拙”;對于同樣一款手機(jī),喜歡它的人會(huì)說它“功能齊全、性價(jià)比好”,而討厭它的人會(huì)說它“功能多余、價(jià)格昂貴”。這種正面評價(jià)和褒揚(yáng)背后的會(huì)話蘊(yùn)含(conversational implicature)可能是推薦聽話人購買這種產(chǎn)品,而那種負(fù)面評價(jià)和貶斥背后的會(huì)話蘊(yùn)含可能是勸阻聽話人購買這種產(chǎn)品。也就是說,人們不僅用語言來報(bào)道有關(guān)事實(shí),而且還通過滲透在話語中的情感傾向和評價(jià)色彩來影響聽話人的思想、感情和行動(dòng),勸說他人相信某種情況、甚至做說話人所希望的事情。從上面的例子可見,這種文本的情感傾向和評價(jià)色彩往往通過具有不同的情感評價(jià)色彩的詞匯來實(shí)現(xiàn)的。因此,我們首先要研究詞語的情感評價(jià)色彩。
對于漢語常用名詞、動(dòng)詞、形容詞的情感評價(jià)色彩,我們擬采用5點(diǎn)式量表的方式,把詞語的情感評價(jià)色彩分為5級:褒義(+2)、積極(+1)、中性(0)、消極(-1)、貶義(-2)。這樣,可以克服情感評價(jià)色彩劃分粒度過于粗糲的弊病,更好地反映人們對于事物情感評價(jià)的連續(xù)性和梯度性。例如,
褒義詞(+2):好事、碩果、好人、殲滅、豪飲、頌揚(yáng)、勇猛、圓滿、高級
積極詞(+1):婚事、成果、人民、擊斃、小酌、推薦、激烈、圓通、上游
中性詞(0):事情、結(jié)果、人們、殺死、喝酒、宣傳、猛烈、變通、中間
消極詞(-1):事件、后果、閑人、殺害、貪杯、宣揚(yáng)、兇猛、圓滑、下游
貶義詞(-2):事故、惡果、壞人、屠殺、酗酒、吹捧、兇惡、油滑、低級
其中,中性詞是在情感傾向和評價(jià)色彩上比較客觀的詞語,其他四種是在情感傾向和評價(jià)色彩上比較主觀的詞語;褒義詞和積極詞是在情感傾向和評價(jià)色彩上比較正面的詞語,貶義詞和消極詞是在情感傾向和評價(jià)色彩上比較負(fù)面的詞語;褒義詞在情感傾向和評價(jià)色彩上的正面性比積極詞更強(qiáng),貶義詞在情感傾向和評價(jià)色彩上的負(fù)面性比消極詞更強(qiáng)??梢?,這種5級體系可以根據(jù)應(yīng)用的需要,方便地映射到正負(fù)(或褒貶)二值的情感極性空間。
此外,還要研究當(dāng)這些情感色彩不同的詞語跟“很、非常、太、過于、偏、稍微、不過、僅僅、不”等程度、范圍和否定副詞、“而已、罷了”等語氣詞組合以后,在情感的極性(正面vs.反面)和強(qiáng)度(增強(qiáng)vs.減弱)方面的變化。
對于詞語的情感傾向類型,首先我們兼顧漢語傳統(tǒng)的“七情”(喜、怒、哀、懼、愛、惡、欲)等通俗分類,參照情緒心理學(xué)對于人類情緒體驗(yàn)(emotional experience)的分類,再聯(lián)系相關(guān)情感詞語在句法、語義上表現(xiàn)出來的對立和互補(bǔ)特點(diǎn),把情緒體驗(yàn)類詞語分為6大類和若干小類:
快樂:高興、興奮、愉快、激動(dòng)、喜悅、歡喜、寬慰、安心、平靜
喜好:喜歡、喜愛、欲求、信任、相信、尊敬、贊揚(yáng)、歌頌、推薦
悲哀:悲傷、失望、憂愁、哀愁、煩惱、郁悶、憂郁、內(nèi)疚、后悔
驚恐:吃驚、驚訝、驚奇、慌張、驚慌、恐懼、害羞、焦慮、不安
憤怒:氣憤、氣惱、憤慨、惱火、發(fā)火、生氣、發(fā)怒、不滿、泄憤
厭惡:討厭、嫌棄、反感、懷疑、嫉妒、憤恨、批評、指責(zé)、貶斥
下一步,我們打算借鑒人格心理學(xué)對于個(gè)人所特有的行為模式的分類(例如,外向、熱情、活潑,利他、風(fēng)趣,公正、拘謹(jǐn)、克制,敏感、神經(jīng)質(zhì),直率、開放,等等),研究人格(personality)評價(jià)詞語的情感傾向。最后,研究用于對人和事物的其他方面進(jìn)行評價(jià)的詞語的情感傾向。
上文關(guān)于名詞、動(dòng)詞和形容詞的物性結(jié)構(gòu)和論元結(jié)構(gòu)及其情感評價(jià)的知識可以關(guān)聯(lián)起來,形成以名詞為中心的相關(guān)語義知識的互動(dòng)和推導(dǎo)。例如,名詞“食品”的施成角色是動(dòng)詞“制作”等、功用角色是動(dòng)詞“吃”等,這是從名詞出發(fā)看名詞和動(dòng)詞的語義關(guān)聯(lián);反過來,從動(dòng)詞出發(fā)看動(dòng)詞和名詞的語義關(guān)聯(lián),名詞“食品”是動(dòng)詞“制作”等的結(jié)果角色、是動(dòng)詞“吃”等的受事角色。同樣,名詞“食品”的構(gòu)成角色是名詞“價(jià)格”等、“食品”和“價(jià)格”的評價(jià)角色都是形容詞“貴”等;反過來看,一價(jià)名詞“價(jià)格”的主體角色是名詞“食品”等,形容詞“貴”的主事角色是“食品”等名詞,范圍角色(表示一種屬性、維度)是名詞“價(jià)格”等。從中可以發(fā)現(xiàn),形容詞“貴”既可以先評價(jià)范圍角色“價(jià)格”等,再間接地評價(jià)“食品”等主體角色;也可以跳過范圍角色“價(jià)格”等,直接評價(jià)“食品”等主體角色。在后面這種情況下,主事名詞直接跟評價(jià)形容詞組合,范圍名詞隱藏起來了。在文本的情感分析中,這種藏在后面的范圍名詞被稱為“隱特征”(implicit feature)。這種隱特征的語義理解,對于人來說不成問題;但是,對于計(jì)算機(jī)而言就有理解障礙①這一點(diǎn),承北京大學(xué)計(jì)算語言學(xué)研究所王厚峰教授告知,謹(jǐn)此謝忱。?,F(xiàn)在,我們通過對形容詞的論元結(jié)構(gòu)和名詞的物性結(jié)構(gòu)的刻畫,揭示“食品—(價(jià)格)—貴”之間的語義關(guān)聯(lián),從而為計(jì)算機(jī)理解名詞—形容詞之間的語義關(guān)系,提供一種有效的知識表示。
圖1 以“食品”為檢索核心語義關(guān)聯(lián)
下面是“制作/吃—食品—價(jià)格—貴”等幾個(gè)相關(guān)的名詞、動(dòng)詞和形容詞的物性結(jié)構(gòu)和論元結(jié)構(gòu)及其語義關(guān)聯(lián)的圖示(圖1)。這樣,在調(diào)查大規(guī)模真實(shí)文本語料的基礎(chǔ)上,通過對名詞、動(dòng)詞和形容詞等實(shí)詞的物性結(jié)構(gòu)和論元結(jié)構(gòu)的精心設(shè)計(jì)和合理描述,可以把事物和跟事物相關(guān)的事件的有關(guān)世界知識及其語言表達(dá)形式表示出來。再輔之以指針鏈接和知識圖譜(knowledge graph)等數(shù)據(jù)表示技術(shù)和拉近—推遠(yuǎn)(zoom-in and zoom-out)等便捷的呈現(xiàn)手段,可以有效地把相關(guān)的名詞、動(dòng)詞和形容詞的語義關(guān)聯(lián)起來,并且形成以名詞(實(shí)體)為檢索核心的、面向?qū)ο螅╫bject orientation)的語義知識庫。
一般來說,名詞涉及時(shí)間、地點(diǎn)、人物、事物等實(shí)體指稱意義,動(dòng)詞、形容詞涉及性狀、行為、聯(lián)系等關(guān)系意義,并且許多名詞、動(dòng)詞和形容詞還有情感評價(jià)意義。我們的研究一方面要區(qū)分詞語的所指、概念和評價(jià)意義,另一方面又要借助名詞的物性結(jié)構(gòu)和動(dòng)詞(包括形容詞)的論元結(jié)構(gòu)的描寫框架,把這些不同的意義整合和連接起來。顯然,這種融合了相關(guān)百科知識的綜合性語義知識,對于計(jì)算機(jī)歧義消解是十分重要的;它使得本來人可以意會(huì)、但是難以精確地表示(以便機(jī)器調(diào)用)的知識,得到了明確的表示,并且具備了完整的描述體系。例如,一個(gè)經(jīng)典的歧義例子“魯迅的書”,對于人來說,可以輕易地解讀出它至少有兩種意義:(a)‘魯迅[擁有]的書’(b)‘魯迅[寫]的書’。對于機(jī)器來說,(a)這種意義或許可以通過語義解釋規(guī)則——“NP1+的+NP2”表示‘NP1+擁有+的+NP2’,當(dāng)NP1表示人或機(jī)構(gòu)、NP2表示物品時(shí)——來表示和獲?。坏牵╞)這種意義就不容易表示和處理?,F(xiàn)在,有了專有名詞“魯迅”的所指意義和普通名詞“作家、書”等的物性結(jié)構(gòu)知識:
作家zuòjiā〈名詞,積極〉從事文學(xué)創(chuàng)作有成就的人。
〔1〕物性角色:
形式FOR:人、身份、職業(yè)、文化人;
構(gòu)成CON:作家可以根據(jù)其所創(chuàng)作的作品的體裁、題材、發(fā)表園地等進(jìn)行分類:小說、散文、戲劇、專欄、影視、網(wǎng)絡(luò),等等;可以根據(jù)其國籍、地區(qū)、語種、人種(或膚色)等進(jìn)行分類:中國、外國、英國、法語,等等;可以根據(jù)其時(shí)代、性別、年齡和身份、職業(yè)等進(jìn)行分類:古代、現(xiàn)代、男、美女、青年、專業(yè)、業(yè)余、軍人,等等;可以根據(jù)其流派或思想傾向進(jìn)行分類:古典派、現(xiàn)代派、現(xiàn)實(shí)主義、浪漫主義、后現(xiàn)代主義、左翼、右派、學(xué)院派,等等;
評價(jià)EVA:偉大、著名、知名、成名、杰出、優(yōu)秀、代表(性)、先鋒、新銳、重要、(第)一流、二流、三流、不入流,等等;
施成AGE:當(dāng)、做、成為,等等;
功用TEL:寫(書、文章、作品等)、創(chuàng)作(小說、詩歌等文學(xué)作品),等等;
〔2〕句法格式:
S1:CON + __
如:小說~|散文~|戲劇~|專欄~|影視~|網(wǎng)絡(luò)~|中國~|外國~|英國~|法語~|古代~|現(xiàn)代~|男~|美女~|青年~|軍人~|古典派~|現(xiàn)代派~|現(xiàn)實(shí)主義~|浪漫主義~|后現(xiàn)代主義~
S2:EVA +(的+)__
如:著名~|知名~|偉大的~|杰出的~|優(yōu)秀(的)~|先鋒~|新銳~|重要(的)~|(第)一流(的)~|二流~|三流~|不入流的~
S3:AGE+ __
如:當(dāng)~|做~|成為~
S4:__+ TEL
如:~寫(書、文章、作品)|~創(chuàng)作(小說、詩歌等文學(xué)作品)
書shū〈名詞,中性〉裝訂成冊的印刷品。
〔1〕物性角色:
形式FOR:人造物、印刷品、文化用品;
構(gòu)成CON:一般由紙張、文字、圖畫,內(nèi)容、信息等物質(zhì)和文化因素組成;可以根據(jù)科目、內(nèi)容或功能進(jìn)行分類:語文、數(shù)學(xué)、歷史、地理、化學(xué)、物理、生物、外語、必讀、參考,等等;也可以根據(jù)顏色進(jìn)行分類:白色、黃色、綠色、棕色,等等;
評價(jià)EVA:大、小、好、壞、新、舊、破、淫、普通、特殊,等等;
施成AGE:寫、印、印刷、出、出版,等等;
材料MAT:帛、竹、紙草、羊皮、竹皮、樹葉、木板、紙版、電子,等等;
功用TEL:讀、念、看,等等;
處置 HAN:買、賣、收藏、拿、借、還、扔、撕、燒、焚、啃、瀏覽,等等。
〔2〕句法格式:
S1:__(上/中)+ 的 +CON
如:~的紙張|~(上)的文字|~(上)的圖畫|~的內(nèi)容|~中的信息
S2:CON +(的+)__
如:語文~|數(shù)學(xué)~|歷史~|地理~|化學(xué)~|物理~|生物~|外語~|必讀~|參考~|彩色(的)~|紅色(的)~|褐色(的)~
S3:EVA +__
如:大~|小~|好~|壞~|新~|舊~|破~|淫~|普通~|特殊~
S4:AGE+ __
如:寫~|印~|印刷~|出~|出版~|制作~
S5:MAT +(AGE +)(的+)__
如:帛/竹/紙草/羊皮/竹皮/樹葉/木板(制作/印刷)(的)~|紙版/電子~
S6:TEL+ __
如:讀~|念~|看~
S7:HAN + __
如:買~|賣~|收藏~|拿~|借~|還~|撕~|燒~|焚~|啃~|瀏覽~
在一定的語義解釋規(guī)則的指引和約束下,通過調(diào)用專有名詞“魯迅”的百科知識,得到他的身份(或職業(yè))是作家;再調(diào)用普通名詞“作家”的物性結(jié)構(gòu)知識,得到其功能角色是“寫(書)”;再調(diào)用普通名詞“書”的物性結(jié)構(gòu)知識,得到其施成角色是“寫”;最后通過某種特征加權(quán)機(jī)制,就可以為“魯迅的書”獲得“寫”這個(gè)隱含的釋義動(dòng)詞(implicit paraphrasing verb)。最終,不僅完成了歧義結(jié)構(gòu)的識別,而且獲得了歧義結(jié)構(gòu)的多種語義解讀。
可見,這種多層次的語義知識體系對于信息抽取、內(nèi)容計(jì)算、輿情分析、產(chǎn)品評論觀點(diǎn)挖掘等多種自然語言處理和應(yīng)用任務(wù),都具有重要的資源支撐作用。
[1]Pustejovsky J.The Generative Lexicon [M].Cambridge,Massachusetts:The MIT Press,1995.
[2]Grimshaw J.Argument Structure[M].Cambridge,Massachusetts:MIT Press,1990.
[3]袁毓林.語義角色的精細(xì)等級及其在信息處理中的應(yīng)用[J].中文信息學(xué)報(bào),2007,21(4):10-20.
[4]袁毓林.語義資源建設(shè)的最新趨勢和長遠(yuǎn)目標(biāo)——通過影射對比、走向統(tǒng)一聯(lián)合、實(shí)現(xiàn)自動(dòng)推理[J].中文信息學(xué)報(bào),2008,22(3):3-15.
[5]袁毓林.漢語配價(jià)語法研究[M].北京:商務(wù)印書館,2010.
[6]Fellbaum Christiane (ed.)WordNet:An Electronic Lexical Database [M].Cambridge,Mssachusetts:MIT Press,1998.
[7]Baker Collin F,Charles J Fillmore,John B Lowe.The Berkeley FrameNet Project [C]// Proceedings of COLING/ACL.Montreal,Canada,1998:86-90.
[8]Baker Collin F,Hiroaki Sato.The FrameNet data and software[C]//Proceedings of ACL.Sapporo,Japan,2003:161-164.
[9]Gildea D,Jurafsky D.Automatic Labeling of Semantic Roles[J].Computational Linguistics,2002,28(3):245-288.
[10]Palmer M,Gildea D,Kingsbury P.The Proposition Bank:A Corpus Annotated with Semantic Roles[J],Computational Linguistics,2005,31(1):71-105.