陳昕悅
(蘇州大學(xué) 傳媒學(xué)院,江蘇 蘇州 215123)
情感分析(Sentiment Analysis)也稱為意見挖掘,是一個(gè)分析人們對(duì)產(chǎn)品、服務(wù)、組織、個(gè)人、事件,還有主題和屬性等實(shí)體的觀點(diǎn)、情感、評(píng)價(jià)、態(tài)度、情緒的研究領(lǐng)域。1997年,MIT媒體實(shí)驗(yàn)室的Picard教授最早提出了情感計(jì)算(affective computing)的概念,她指出情感計(jì)算是與情感相關(guān)并來源于情感或能夠?qū)η楦惺┘佑绊懙挠?jì)算。雖然語言學(xué)和自然語言處理(NLP)歷史悠久,但在2000年之前人們很少進(jìn)行情感認(rèn)知計(jì)算方面的研究。從2006年開始,情感分析研究進(jìn)入快速增長(zhǎng)期并逐漸成為學(xué)術(shù)研究熱點(diǎn),后來的學(xué)者將情感分析研究繼續(xù)細(xì)分為情感識(shí)別、情感表示、情感建模、情感交互四個(gè)方面。
社交媒體(Social Media)是指互聯(lián)網(wǎng)上基于用戶關(guān)系的內(nèi)容生產(chǎn)與交換的一種新興媒介。社交媒體上的信息由Web2.0平臺(tái)產(chǎn)生,一般是在200個(gè)字符以內(nèi)的網(wǎng)絡(luò)文本。微博博文如新浪微博和Twitter博文,即時(shí)通信如QQ和微信消息,網(wǎng)絡(luò)評(píng)論如京東和攜程評(píng)論等。報(bào)告顯示,新浪微博每秒發(fā)帖量在2500條以上,Twitter每秒發(fā)帖量甚至達(dá)到14300條,匯集成了一座巨大的意見圖書館,具有極高的研究?jī)r(jià)值。
本文將從興趣挖掘、輿情分析和人工智能三個(gè)角度深入探討情感認(rèn)知計(jì)算在移動(dòng)互聯(lián)網(wǎng)社交媒體中的應(yīng)用,同時(shí)也著眼于社交媒體這一新的媒介和隨之而來的網(wǎng)絡(luò)新詞、流行語給情感認(rèn)知計(jì)算帶來的新挑戰(zhàn)。
隨著移動(dòng)互聯(lián)網(wǎng)的興起和社交媒體的普及,在這個(gè)偉大的Web2.0時(shí)代,每個(gè)人都是發(fā)聲者和信息員。在商人和行業(yè)專家的眼中,人們的情感和言論是一座金礦,而情感認(rèn)知計(jì)算就是其中的鑰匙??茖W(xué)家也借助各種各樣的模型來研究人們大量、快速、多變的意見,其中最著名的模型之一叫作Plutchik’s情緒心理模型。心理學(xué)家羅伯特·普魯契克關(guān)于情緒的心理進(jìn)化理論是對(duì)一般情緒反應(yīng)最具影響力的分類方法之一,他認(rèn)為有八種主要的情緒——憤怒、恐懼、悲傷、厭惡、驚訝、期待、信任和快樂。后人也將這一模型應(yīng)用于情感認(rèn)知計(jì)算之中。通過情感認(rèn)知計(jì)算,商家能結(jié)合用戶個(gè)人的意見數(shù)據(jù)判斷他們的情感和興趣偏好,從而推薦商品,更能判斷群體面對(duì)某一產(chǎn)品的情感和興趣,從而預(yù)判行業(yè)的未來。這兩點(diǎn)在某些領(lǐng)域已經(jīng)有了廣泛且成功的應(yīng)用。
隨著社交媒體(如評(píng)論、博客、微博、社交網(wǎng)站)的爆炸性增長(zhǎng),這些媒體內(nèi)容成為越來越多的個(gè)人和組織作出決策的依據(jù)?,F(xiàn)在人們不再局限于向朋友和家人征求意見,因?yàn)樵诰W(wǎng)絡(luò)公共論壇上有許多用戶的評(píng)論和討論。近年來,我們見證了社交媒體對(duì)輿情產(chǎn)生的深刻影響。根據(jù)人們?cè)赥witter上發(fā)表的評(píng)論,媒體甚至可以預(yù)測(cè)美國大選的最終結(jié)果。因此,社交媒體、情感分析也與政治輿情緊密結(jié)合在一起。
比如一些學(xué)者對(duì)埃博拉病毒蔓延時(shí)期的輿情研究,及時(shí)發(fā)現(xiàn)了謠言,覺察到人們的恐慌情緒,從而采取行動(dòng)遏制謠言,穩(wěn)定了局勢(shì)。他們以新浪微博埃博拉熱點(diǎn)話題為數(shù)據(jù)源,建立了微博輿情傳播態(tài)勢(shì)模型,在用編程和網(wǎng)絡(luò)爬蟲的方式獲取數(shù)據(jù)的基礎(chǔ)上,使用SPSS進(jìn)行統(tǒng)計(jì)分析,基于實(shí)證研究結(jié)論,從實(shí)踐角度提出相應(yīng)的網(wǎng)絡(luò)輿情引導(dǎo)和管控策略,為新媒體環(huán)境下的網(wǎng)絡(luò)輿情傳播研究提供了新的研究視角和分析方法,在實(shí)踐層面對(duì)加強(qiáng)新媒體環(huán)境下微博輿情引導(dǎo)和管控具有重要意義。
另外,情感認(rèn)知計(jì)算對(duì)相關(guān)學(xué)科也有一定的促進(jìn)作用,如機(jī)器學(xué)習(xí)以及最近幾年大熱的人工智能。微軟亞洲互聯(lián)網(wǎng)工程院在2014年5月29日發(fā)布一款人工智能伴侶虛擬機(jī)器人,并取名“微軟小冰”?!拔④浶”奔狭水?dāng)時(shí)我國近7億網(wǎng)民多年來積累的、全部公開的文獻(xiàn)記錄,憑借微軟在大數(shù)據(jù)、自然語義分析、機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的技術(shù)積累,精煉為幾千萬條真實(shí)而有趣的語料庫(此后每天凈增0.7%),通過理解對(duì)話的語境與語義,實(shí)現(xiàn)了超越簡(jiǎn)單人機(jī)問答的自然交互。自然人機(jī)交互就是讓機(jī)器變得更自然,學(xué)習(xí)人的溝通方式以及語音、手勢(shì)、表情、觸摸等交流方式,這些技術(shù)是移動(dòng)互聯(lián)網(wǎng)快速成長(zhǎng)的基礎(chǔ)。“微軟小冰”更容易理解人的思想和意圖,這種人工智能和以前的AI概念不同。它更多的是通過云計(jì)算、大數(shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)等技術(shù),讓機(jī)器逐漸具備一種基于數(shù)據(jù)相關(guān)性產(chǎn)生的基本智能。
“小冰是一個(gè)聊天機(jī)器人,但不僅僅是一個(gè)聊天機(jī)器人”微軟全球執(zhí)行副總裁沈向洋表示,“聊天只是用戶的一個(gè)體驗(yàn),但我們?cè)O(shè)計(jì)產(chǎn)品理念的真正核心在于打造一個(gè)情感計(jì)算框架,同時(shí)擁有許多生存空間、輔助設(shè)備及相關(guān)設(shè)備,令小冰能夠與人類在任何地點(diǎn)及場(chǎng)景進(jìn)行交流”。新媒體時(shí)代,“微軟小冰”引發(fā)了新一輪人工智能熱潮。和過去單純強(qiáng)調(diào)效率和有用的工具型人工智能不同,“小冰們”更強(qiáng)調(diào)情感連接,這一改變終將重新定義人和人、人和機(jī)器之間的關(guān)系。
但不可否認(rèn)的是,在社交網(wǎng)絡(luò)中的數(shù)據(jù)與傳統(tǒng)的文本數(shù)據(jù)有很大區(qū)別,這給情感認(rèn)知計(jì)算帶來了很大的難度。以新浪微博為例,它有文本短(只有140個(gè)字)、噪聲大、非正規(guī)等特點(diǎn)。
最大的困難在于語言的不規(guī)范。微博中大量出現(xiàn)錯(cuò)字、別字組成的詞匯,如“臥槽”等,還有網(wǎng)絡(luò)新詞“蛋碎”“么么噠”。另外,在不同的語言環(huán)境中同一個(gè)詞的意思會(huì)發(fā)生變化,如“杯具”(悲劇,帶有負(fù)向的情感傾向性),“油菜花”(有才華,正向的情感傾向性)等。這些不規(guī)范的詞組導(dǎo)致基于傳統(tǒng)長(zhǎng)文本訓(xùn)練出的詞典在社交網(wǎng)絡(luò)中并不適用。但是在微博中有大量的文本表情符號(hào),如微博自帶的GIF表情圖片以及從日本傳入的顏文字。這些表情符號(hào)不同于文字或者一般符號(hào),在認(rèn)知上人們更傾向于將它看作一張圖片。這一特點(diǎn)使得人們?cè)诒磉_(dá)情緒的時(shí)候更傾向于加入這些符號(hào),以表達(dá)一種更強(qiáng)的額外情緒。但是傳統(tǒng)的文本情緒分析方法并沒有抓住這一特點(diǎn)。所以,社交網(wǎng)絡(luò)環(huán)境下語料的特點(diǎn)使得傳統(tǒng)的構(gòu)造情感詞典方法并不適用。而結(jié)合社交網(wǎng)絡(luò)短文本自身的特點(diǎn),訓(xùn)練出新的社交網(wǎng)絡(luò)的情感詞典成為一個(gè)急需解決的問題。本文首先論證了在新浪微博中表情符號(hào)可以作為情緒分類的依據(jù),然后利用表情符號(hào)這一社交網(wǎng)絡(luò)短文本中特有的特征作為標(biāo)志,采用跨媒體共現(xiàn)的思想生成了一個(gè)面對(duì)社交網(wǎng)絡(luò)的情緒詞典。
或許一些學(xué)者提出的利用情感表情符號(hào)來提取文本情感詞典的方法有一定的可行性。未來將結(jié)合短文本論文的語料特征,完善網(wǎng)絡(luò)新詞的自動(dòng)化擴(kuò)充以及短文本情緒分類工作,建立新的網(wǎng)絡(luò)情感認(rèn)知分析數(shù)據(jù)庫也是大勢(shì)所趨,但做好社交媒體中的情感認(rèn)知與計(jì)算仍然任重而道遠(yuǎn)。
筆者列出來的興趣挖掘、輿情分析和人工智能只是情感認(rèn)知計(jì)算在移動(dòng)互聯(lián)網(wǎng)社交媒體中應(yīng)用的冰山一角,前仆后繼的科學(xué)家和研究者也致力于攻克社交媒體給情感認(rèn)知計(jì)算帶來的新挑戰(zhàn)??偠灾?,筆者認(rèn)為情感認(rèn)知計(jì)算是未來相關(guān)領(lǐng)域值得研究的一個(gè)課題,并對(duì)它的發(fā)展保持樂觀的態(tài)度。與此同時(shí),人們也應(yīng)該謹(jǐn)慎使用這一技術(shù),不可成為技術(shù)的奴隸,也需警惕不能越過法律和道德的底線。
[1]黃發(fā)良,馮時(shí),王大玲,于戈.基于多特征融合的微博主題情感挖掘[J].計(jì)算機(jī)學(xué)報(bào),2017,40(04):872-888.
[2]馬秉楠,黃永峰,鄧北星.基于表情符的社交網(wǎng)絡(luò)情緒詞典構(gòu)造[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(05):1129-1133.