摘要:詞匯傾向性計算是自然語言處理研究領域的一個新的熱點。詞語傾向性的判定是意見挖掘的基礎和重要環(huán)節(jié)。本文基于本體概念提出了一種詞匯語義傾向性計算的方法。實驗表明,本文的方法在漢語常用詞中的效果較好,詞頻加權后的判別率更高,具有一定的實用價值。
關鍵詞:本體語義傾向中文信息處理
0 引言
詞匯語義傾向性是近年來中文信息抽取領域研究中一個新的研究方向,它是一門交叉學科,涉及到信息檢索與計算語言學的領域,所產生的研究點來自意見挖掘。意見挖掘并不是針對文檔所談及的話題進行研究,而是對文檔表達的傾向性觀點,即肯定或否定的意見進行研究。
意見挖掘任務分為以下幾步:一是對文檔中的主觀性詞語或短語進行識別,二是對其進行傾向性的判定。三是結合其傾向性與句子結構來分析,獲得句子的對傾向性。四是獲得段落或篇章的傾向性。
詞匯傾向性是意見挖掘的基礎環(huán)節(jié),目前已經受到研究人員的廣泛關注。
基于HowNet與基于同義詞詞林的詞匯語義傾向性分析法是目前已有的中文詞語語義傾向性分析法中最主要的兩類。
如復旦大學的朱嫣嵐等獲得新詞傾向性的方法是,在手工選定少量的基準詞后,利用HowNet來對新詞和基準詞的相似度進行計算。上海交大的婁德成等獲得新詞語義傾向性的方法是,通過手工進行HowNet包含的所有詞條的傾向性標注,并且由一定量的極性詞語組成種子集合最終形成褒貶詞語詞典,將不包含在詞典中的所有新詞進行新詞與種子集合中詞語的互信息計算。[1]北京大學的路斌等使用同義詞詞林,把種子詞匯擴展到更大的褒貶義詞集合。另外還有的進行詞語語義傾向性研究的方法是使用機器學習統(tǒng)計等。
現(xiàn)有的相關研究都取得了好的成果。但是,大部分的詞語都是具有唯一傾向性,只有少數(shù)的詞語在不同的語言環(huán)境中具有多傾向性。本文的主要內容就是建立本體詞庫在一定程度上分析這種情況。
1 本體詞匯構建
以本體為基礎組織的信息,可以通過各種知識表示方法如“產生式表示”“框架表示”“元組”等將其整合到知識庫中,該知識庫的特點是既可以對常識和領域知識進行存儲和處理,又可以進行詞語分類方面的處理。除此之外,有本次建立的詞匯還可以在Web環(huán)境下分布并保證唯一性、一致性、高效性,實現(xiàn)準確和高效的搜索。傳統(tǒng)的詞匯語義傾向計算缺乏實體之間的聯(lián)系,在知識表示方面存在不足。本體技術的引入,闡明了實體之間的聯(lián)系,有利于分析一些多傾向性詞的極性。
現(xiàn)今,本體在許多領域得到了廣泛應用,它在構件語義Web、語義理解、數(shù)據(jù)挖掘等方法有很重要的意義。本體是對研究對象在向量空間上的研究,將研究對象劃分后建立相對的元組,然后再進行分類研究。
在構建本體詞匯庫時,通過查找褒貶詞典來對詞庫進行擴種,按同義詞詞典進行語義群的分類,同一群內的詞語不能有不同的傾向性。
如昂揚、奮發(fā)、高昂、振奮為一個同義詞群,傾向性為褒義。敗北、鎩羽、失敗、失利、戰(zhàn)敗是一個同義詞群,傾向性為貶義。當處理的詞語不在褒貶義詞典內時,通過同義詞詞典查找其同義詞群,以同義詞群的傾向性作為該詞的傾向性,當褒貶義詞典內沒有要處理的詞語時,應通過同義詞詞典查找,該詞的傾向性與其同義詞群的傾向性相同,最終確定錄入本次詞匯中。
在傾向性研究中,本體旨在解決特征詞匯的細粒度劃分,以此為基礎解決話題傾向性細粒度劃分,以此為基礎來解決詞匯傾向性細粒度劃分。詞匯本體[2]是話題語料中的特征詞劃分的依據(jù),為此必須收件建立詞匯本體?;诨靖拍詈徒巧拍罱⒈倔w[3]。正面詞匯分為喜、樂、贊、真、善、美;負面詞匯分為怒、哀、驚、假、惡、丑。以(P,V)二元組來描述詞匯本體中詞匯的極性(polarity)、傾向性程度(value)屬性(-1≤value≤1),正面詞匯值為證,負面詞匯值為負。例如,“暴怒”的屬性為(負面,-0.91),根據(jù)其上面概念可以確定詞匯的種類為“怒”。除此之外,還可以用詞性、高頻左右搭配詞、近義詞、反義詞等屬性來解釋詞匯本體中的概念和實例。這樣構件的本體詞匯就給出了詞匯傾向性的細粒度。
2 詞匯的語義傾向性計算
我們?yōu)槊總€詞匯都賦予一個語義傾向的度量值[4]。與基準詞語義關聯(lián)的緊密程度決定了度量值的大小?;鶞试~是一些具有代表性的褒貶詞。與褒義基準詞聯(lián)系緊密,它的褒義傾向就較明顯,反之,它的貶義傾向就比較強烈。
在上面設想的基礎上,所設計的方法如下:
假設由一個褒義詞和一個貶義詞組成一對基準詞,而這樣的基準側在文體詞庫中有k對,用k_l來表示褒義基準詞,k_m表示貶義基準詞,V(w)表示詞匯w的語義傾向值,,以0作為默認的閾值以0作為默認的閾值,最終傾向值大于閾值的為褒義,小于閾值的為貶義。V(w)數(shù)值的大小代表詞w的褒貶強烈程度。
詞w的語義傾向值計算公式如下:
V(w)=■Similarity(k_l,w)-■Similarity(k_m,w)
公式中Similarity(k,w)的計算是檢測詞與基準詞之間的傾向值。
3 實驗
實驗采用的測試集100個隨機從網絡文章中抽取的含有主觀評價性的文本。文章通過本校中文系同學手工獲取,包括經濟、政治、體育、娛樂等各個類型,相關度小是選取時注意的要點,從而保證了測試集的覆蓋范圍,測試結果也會更準確,更能體現(xiàn)實驗方法的普遍性。
挑選出測試并人工標注其中的主觀性詞語,將文本依次輸入系統(tǒng),自己計算并標注其中的主觀詞,將兩者進行比較,比較結果如表1所示
實驗結果顯示,部分貶義詞被判定為褒義,造成貶義詞的詞語判定召回率較低。
例如:我覺得自己的行為太單純幼稚,女孩兒的眼神清澈又單純。而一個單純?yōu)橘H義詞,第二個單純?yōu)榘x詞。因此,在不同的語言環(huán)境下,他們的褒貶不同就造成了上面方法的計算偏差。同樣,這也是本文后續(xù)的一個研究重點。
4 結論
本文采用了基于基準詞和本體詞庫的方法來進行語義傾向性的計算。該方法擴充了基準詞判定的范圍,并使用具體數(shù)值來表示詞匯語義的傾向程度。在對詞匯語義進行傾向性計算時,并沒有考慮到詞語所在的語言環(huán)境,這也是導致判定結果的一個重要原因。因此,考慮詞匯語言環(huán)境的傾向性分析將是本文下一步考慮的工作和研究點。
參考文獻:
[1]婁德成,姚天昉.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006,26(11):2622-2625.
[2]冉婕,謝樹云,黃吉亞.一種基于本體的概念相似度計算基于應用[J].微計算機信息,2012,28(2):50-52.
[3]崔其文,解福.改進的領域本體概念語義相似度計算方法[J].計算機應用與軟件,2012,29(2):173-174.
[4]李藝紅,蔣秀鳳.中文句子傾向性分析[J].福州大學學報(自然科學版),2010,38(4):504-508.
[5]朱嫣嵐,閩錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20.
基金項目:寧夏大學科學研究基金資助項目(項目編號:ZR1122)。
作者簡介:
鄧箴,女,(1984-),河南三門峽人,助教,碩士,計算機應用技術,主要研究方向:數(shù)據(jù)挖掘、信息抽取、人工智能。