朱洪濤
(中國傳媒大學(xué)文學(xué)院,北京 100000)
媒體語料中“簡單”一詞的情感傾向性調(diào)查研究
朱洪濤
(中國傳媒大學(xué)文學(xué)院,北京 100000)
隨著網(wǎng)絡(luò)用戶的增多和網(wǎng)絡(luò)數(shù)據(jù)的膨脹,以及信息抽取技術(shù)的迅速發(fā)展,獲取海量的評價數(shù)據(jù)成為可能。利用機(jī)器自動識別微博、論壇等領(lǐng)域的用于評價信息,并進(jìn)行情感傾向性分析,具有現(xiàn)實(shí)應(yīng)用價值。[1]在此背景下,漢語傾向性自動分析成為了研究的熱點(diǎn),但是無論是基于詞典和規(guī)則的方法還是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,都將大部分精力投入到宏觀的語言現(xiàn)象的考察以及方法本身的建構(gòu)和完善中,基于語言本體對特定語言單位的深入挖掘和研究在一定程度上有所忽視。本文使用語料庫語言學(xué)的研究方法,以《新京報(bào)》2015年的新聞為研究語料,對其中“簡單”一詞的使用情況進(jìn)行調(diào)查,從語言本體角度對其進(jìn)行義項(xiàng)標(biāo)注和句法標(biāo)注,考察其情感傾向性。希望能夠以點(diǎn)帶面,對適用于上下文相關(guān)文法的性質(zhì)形容詞的傾向性分析有所幫助。
語料;簡單;情感傾向性;分析
(一)語料的采集。
我們使用爬蟲工具對《新京報(bào)》2015年所有版面的新聞進(jìn)行了采集,采網(wǎng)址成功36,720條,采內(nèi)容成功36,720條,語料規(guī)模80.76MB,共有字符數(shù)為45,714,744。
1.提取含有“簡單”的句子。我們要研究“簡單”一詞的情感傾向性,所以要只需要抽取出含有“簡單”的句子單位,排除其他無關(guān)語料。本文使用語料處理軟件“HyConcV3.9.6”中的中文字符串檢索提取功能,以句末標(biāo)點(diǎn)為邊界,從原始語料中提取出了含有“簡單”的句子共2460個,其中“簡單”一詞出現(xiàn)的頻次為2508。
2.對含有“簡單”的句子(下稱“樣本語料”)進(jìn)行分詞標(biāo)注。通過整體地觀察語料,我們發(fā)現(xiàn)“簡單”一詞的極性判定需要依據(jù)上下文語境,即孤立地看“簡單”這個詞并不能判斷其情感傾向性,另外,現(xiàn)在的情感傾向性分析系統(tǒng)中有相當(dāng)一部分是基于詞典和規(guī)則的方法,在撰寫規(guī)則時普遍會用到詞性、語義等信息,因此我們有必要對語料進(jìn)行分詞標(biāo)注。我們使用CUCBst系統(tǒng)對樣本語料進(jìn)行分詞標(biāo)注。CUCBst系統(tǒng)是中國傳媒大學(xué)開發(fā)的文本切分標(biāo)注系統(tǒng),該系統(tǒng)是一個基于規(guī)則的詞法分析系統(tǒng),整體準(zhǔn)確率超過97%,長期應(yīng)用于新聞?wù)Z料的切分標(biāo)注并取得了非常令人滿意的效果。經(jīng)過統(tǒng)計(jì),樣本語料中共有93,432個詞,“簡單/a”即“簡單”作為形容詞出現(xiàn)2,472次,“簡簡單單/aa”即“簡單”的重疊形式出現(xiàn)12次,“簡單化/v”即“簡單”的動詞變體出現(xiàn)24次。(在后續(xù)的統(tǒng)計(jì)分析當(dāng)中,“簡單化/v”將不包括在內(nèi)。)
3.義項(xiàng)標(biāo)注。進(jìn)行情感傾向性自動分析,需要標(biāo)注好的訓(xùn)練語料。一個詞往往有幾個意義,每個不同的意義都可以看做是一個義項(xiàng)。本文在第六版《現(xiàn)代漢語詞典》對“簡單”一詞的釋義基礎(chǔ)上,結(jié)合真實(shí)語料自身情況,對樣本語料中的句子進(jìn)行標(biāo)注。
4.傾向性標(biāo)注。傾向性的判定需要較深層次的語義理解,而這一部分準(zhǔn)備工作對機(jī)器來說是具有較高難度的,因此,我們需要對樣本語料中“簡單”的傾向性進(jìn)行人工標(biāo)注,褒義標(biāo)為1,貶義標(biāo)為-1,中性標(biāo)為0。經(jīng)過標(biāo)注形成的標(biāo)準(zhǔn)集可以作為我們總結(jié)規(guī)律、制定規(guī)則的重要依據(jù)。
5.句法成分標(biāo)注。進(jìn)行句法成分標(biāo)注,對探索“簡單”一詞的情感傾向性的價值在于為其提供了另一個本體語言學(xué)的分析角度。我們可以做一個假設(shè),即“簡單”一詞充當(dāng)某一類句法成分可能與其情感傾向性有直接相關(guān)關(guān)系,當(dāng)然這也需要后續(xù)的統(tǒng)計(jì)研究。
經(jīng)過統(tǒng)計(jì),在傾向性標(biāo)注中,正向評價是最多的,占到了59.90%,負(fù)面評價較少,占到了25.60%;中性評價最少,占到了14.5%。在義項(xiàng)標(biāo)注中,義項(xiàng)1,即“結(jié)構(gòu)單純;頭緒少;容易理解、使用或處理”是最多的,占到了89.37%,義項(xiàng)2“(經(jīng)歷、能力等)平凡(多用于否定式)”和義項(xiàng)3(草率;不細(xì)致)都非常少,分別占到了2.42%和8.21%;在句法成分標(biāo)注中,定語、謂語(中心語)最多,分別占到了35.75%和38.16%,狀語較少,占到了23.19%,補(bǔ)語最少,占到了2.90%。
最后,完善合同條款,明確對方服務(wù)標(biāo)準(zhǔn)和要求,如服務(wù)時間、開機(jī)率、服務(wù)季報(bào)及重大維修專項(xiàng)報(bào)告等;付款實(shí)行分期季付或半年付,且先服務(wù)后付款,尤其是最后一期付款前,維保服務(wù)提供方應(yīng)完成整機(jī)主要參數(shù)指標(biāo)情況比照,并由醫(yī)院對維保服務(wù)成效確認(rèn)后才可進(jìn)行支付。
(一)傾向性在不同義項(xiàng)中的分布情況。
經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),義項(xiàng)1中各種傾向性分布相對均衡,而義項(xiàng)2與義項(xiàng)3中義項(xiàng)分布差異較大。有些詞語單獨(dú)來看不具有,或者不能確定其傾向性,但與特定詞類或某些特殊詞語組合后,就變得具有確定的傾向性。[2]因此,依據(jù)缺省原則,我們可以考察義項(xiàng)2和義項(xiàng)3的具體語料,來分析上下文語境,尋找規(guī)律編寫規(guī)則。如以下幾個句子:
①所以我想顧香蘭也一樣,她不會是個簡單的人,人生經(jīng)歷越多就越不簡單。
②在父親去世前,我一直以為我的人生會很簡單,找份工作結(jié)婚生子,建立屬于自己的家庭。
③戴文勝:“優(yōu)質(zhì)校”不是簡單復(fù)制
④劉強(qiáng)還透露,懋源地產(chǎn)在西三環(huán)推出的“臺系”新品豪宅釣云臺,并非是對紅璽臺的簡單復(fù)制。
⑤中國社科院教授李順德認(rèn)為,需要從各個方面進(jìn)行比較準(zhǔn)確了解后,方能判斷,不能簡單憑借對比圖就下結(jié)論。
句①、句②中“簡單”對應(yīng)的是義項(xiàng)2:“(經(jīng)歷、能力等)平凡(多用于否定式)”,句子中的“簡單”一般前后會出現(xiàn)“人生”“經(jīng)歷”“能力”“閱歷”等詞,所以我們可以編寫如下規(guī)則:
人生|經(jīng)歷|能力|閱歷/% + #[*/!w] + 簡單/% = #3:-0.5
簡單/% + #[*/!w] +人生|經(jīng)歷|能力|閱歷/% = #1:-0.5
這里對規(guī)則元符號進(jìn)行簡單說明:“=”連接規(guī)則項(xiàng)序列和匹配結(jié)果?!?”左部,“+”表示各規(guī)則項(xiàng)的連接,每一個規(guī)則項(xiàng)以“/”分隔詞條和詞性,“|”是析取符,表示“或”,“!”表示“非”,“*”表示任意詞條,“%”表示任意詞性,“#”表示越過任意規(guī)則項(xiàng),其后的“[]”中表示越過的條件?!?”右部,“:”連接匹配項(xiàng)和傾向性分值,“#N”(N〉0&NZ)為匹配項(xiàng),表示規(guī)則左部對應(yīng)位置的規(guī)則項(xiàng)。
句③、句④、句⑤中“簡單”對應(yīng)的是義項(xiàng)3:“草率;不細(xì)致”,句子中的“簡單”上下文語境比較復(fù)雜,但比較肯定的是當(dāng)其后出現(xiàn)“下結(jié)論” “做決定”“推斷”“揣測”等詞時,是一種負(fù)面評價,所以我們可以編寫如下規(guī)則:
簡單/% + #0:3[*/!w] + */v + #0:3[*/!w] +結(jié)論|決定|決策/% = #1:-0.5
簡單/% + #[*/!w] + 推斷|揣測/% = #1:-0.5
(二)傾向性在不同句法成分中的分布情況。
經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),“簡單”一詞的情感傾向性在不同句法成分中分布相對均衡,沒有出現(xiàn)缺省情況,進(jìn)一步考察語料發(fā)現(xiàn)從句法成分角度進(jìn)行分析對我們編寫規(guī)則暫時起不到什么幫助,但是我們還是了解到了“簡單”在使用中的一些具體情況,例如:做定語、狀語時無傾向性的比例較高,作謂語時正向評價比例較高,做補(bǔ)語的情況較少,評價分布也比較均衡。
另外,通過再次分析語料,我們還是能夠發(fā)現(xiàn)一系列規(guī)律,例如:前有否定詞的情況下“簡單”作為負(fù)面評價的比例高,前有程度副詞的情況下“簡單”作為正向評價的比例高。此外,還有一部分比較明確的語言規(guī)律我們也可以總結(jié)成如下規(guī)則:
簡單/% + #0:1 + 粗暴|幼稚|邏輯|說教|套用|思維/% = #1:-0.5
頭腦|邏輯|腦子|大腦|思維|思想|% + #0:3 + 簡單/% = #3:-0.5
簡單/% + #0:1 + 方便|明了|生動|明快|清晰|好用|實(shí)用|靈便|樸素/% = #1:0.5
語料庫的方法具有很廣泛的適用性和很高的實(shí)用價值,將這種方法應(yīng)用于傾向性分析研究,可以有效提高研究的科學(xué)性和準(zhǔn)確性。本文通過對“簡單”一詞的使用調(diào)查,得出了以下結(jié)論:
1.性質(zhì)形容詞的使用具有多樣化特征,在有些情況下可以作為評價詞,但不能一概而論。2.單純從語言本體的角度,如分析義項(xiàng)或者句法成分很難滿足傾向分析的要求。3.基于詞典和規(guī)則的方法具有一定的局限性。(1)規(guī)則的編寫效率比較低,需要充分的語言學(xué)知識;(2)提高系統(tǒng)準(zhǔn)確率要求增加規(guī)則,而規(guī)則的增多則會降低系統(tǒng)的運(yùn)行速度;(3)深層語義或言外之意是很難用形式語言來描述的。
另外,本文的研究也存在一些缺陷,如語料規(guī)模較小導(dǎo)致樣本中涵蓋的語言現(xiàn)象不夠全面,人工標(biāo)注語義、傾向性、句法信息存在一定的主觀性。總之,語料庫方法更廣泛、更合理、更有效的運(yùn)用以及傾向性分析研究的進(jìn)一步發(fā)展任重而道遠(yuǎn)。
[1]周紅照.基于句法語義的評價對象抽取與極性判定[D].北京:中國傳媒大學(xué),2014.
[2]周紅照,侯明午,顏彭莉,張葉青,侯敏,滕永林.語義特征在評價對象抽取與極性判定中的作用[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50 (1):93-99.
G250.72
A
1671-864X(2016)07-0204-02
朱洪濤,中國傳媒大學(xué)文學(xué)院語言學(xué)及應(yīng)用語言學(xué)專業(yè)在讀碩士研究生。