劉 飛,王 浩,許小可
(大連民族大學(xué)信息與通信工程學(xué)院,遼寧 大連 116600)
表情符號(圖文字,Emoji)的形式發(fā)源于上世紀(jì)90年代的日本,它是日常生活中各個方面的二維視覺體現(xiàn),滿足了網(wǎng)絡(luò)用戶在文本對話中肢體語言和面部表情的需要。Emoji在2009年正式加入統(tǒng)一編碼系統(tǒng)后廣受歡迎,幾乎應(yīng)用于所有的社交媒體平臺中。emoji引入iOS不到半年時間,在Instagram中的使用率從0%快速增長到20%,目前約40%的帖子中含有emoji[1]。2015年牛津詞典將選入“年度詞匯”,表明表情的使用更加日常化。表情符號在線上交流中不僅可以用作情緒的表達(dá)(如,或),還可以裝飾信息內(nèi)容(如,或),或者代替語句中的詞語(如,或)。Riordan等發(fā)現(xiàn)情緒表達(dá)類的面部表情得到了廣泛研究,而非面部表情則很少,非面部表情符號同樣可以傳遞情感并消除信息歧義[2]。Emoji就是網(wǎng)絡(luò)上的肢體語言,在面對面交流的時候,人們會結(jié)合一個人的語調(diào)、表情、動作等非語言信息來領(lǐng)會對方的意圖,而這些重要信息在網(wǎng)絡(luò)通訊中都被抹去了,emoji在一定程度上彌補(bǔ)了這種損失,讓溝通更順暢、更高效。Tauch等研究表明,表情符號起到了放大消息的作用,只有在某些情況下,它才充當(dāng)消息的修飾符[3]。
隨著表情符號的使用越來越多,人們有必要關(guān)注它的使用特征及差異。Illendula等發(fā)現(xiàn)推特中存在大量表情符號共現(xiàn)現(xiàn)象,并以此構(gòu)建了表情共現(xiàn)網(wǎng)絡(luò)[4]。用戶對某些表情使用頻率較高,Lu等發(fā)現(xiàn)是全球許多國家用戶最為喜歡的表情,使用頻率達(dá)到總表情使用數(shù)的15%,而第二位的則下降至6%,用戶使用的表情類別和頻率為識別和理解不同文化提供了寶貴信息[5]。Oleszkiewicz等進(jìn)一步觀察表情符號使用模式和個性之間的關(guān)系,發(fā)現(xiàn)外向性、親和性和情緒穩(wěn)定性與表情的總體數(shù)量呈線性正相關(guān)關(guān)系[6]。雖然emoji表情符號多為生活中真實(shí)場景或常見情緒的簡單視覺體現(xiàn),但用戶對emoji的理解和使用往往會因?yàn)槲幕町?、年齡差異和受教育背景差異等有所不同,不同社交平臺上的表情符號呈現(xiàn)也有所不同[7]。Cho等研究表明,使用表情符號而不是詞語可能會在線上交流中引入歧義,因?yàn)楸砬榉柕暮x是不確定的,受語境和文化背景的影響。然而,也正是這種不確定性和可塑性,使得表情符號迅速在全球社交媒體流行[8]。盡管對于表情符號所起的作用及意義還有待進(jìn)一步研究,但目前對表情符號的研究已經(jīng)覆蓋了很多領(lǐng)域,包括人類對表情符號的情緒感知[9],表情符號對人際關(guān)系的影響[10]以及表情符號對在線教育和醫(yī)療健康的影響[11-12]。此外,對表情符號的使用行為研究有助于學(xué)者們更充分地進(jìn)行自然語言處理,也可以幫助開發(fā)人員進(jìn)行用戶畫像和用戶分類,更準(zhǔn)確地推斷用戶的狀態(tài)、心情和喜好,從而提供個性化服務(wù),優(yōu)化用戶體驗(yàn)[13-14]。
微博是一個基于用戶間簡短實(shí)時信息共享的廣播式社交媒體,其中的博文大多以短文本的形式出現(xiàn)。同其他主流社交媒體一樣,微博中的表情使用現(xiàn)象也非常普遍,包括emoji以及許多第三方的表情包。很多用戶喜歡在同一條微博中使用多個表情來表達(dá)自己的情緒或強(qiáng)調(diào)博文中的某些詞句。鑒于表情符號在社交媒體中的使用日益增加,網(wǎng)絡(luò)用戶的表情使用偏好和表情在表達(dá)中起到的作用值得進(jìn)一步研究。本研究首先統(tǒng)計了微博中不同表情的使用頻次,得出了微博量和表情使用隨事件發(fā)展的演變情況,之后分析了用戶在單條微博中關(guān)聯(lián)使用多個表情的偏好。在此基礎(chǔ)上,依據(jù)表情符號所表達(dá)的情感對微博中的高頻表情進(jìn)行分類,統(tǒng)計了不同類別表情的連用情況以及不同情感文本中的表情連用現(xiàn)象。最后探究了群體高頻表情的出現(xiàn)以及個體表情關(guān)聯(lián)使用現(xiàn)象的成因。
此次研究通過新浪微博平臺采集了2018年8月27日到9月2日“昆山反殺案”話題下的相關(guān)微博,覆蓋了從事件發(fā)生初期到審判結(jié)果公示,再到輿論趨于平靜這3個階段,歷時8天。數(shù)據(jù)包含了該話題下的微博內(nèi)容、轉(zhuǎn)發(fā)關(guān)系以及用戶的基本信息,涉及了1 183 171位用戶的1 800 958條微博。這些微博中含有297 197個表情,含表情率達(dá)11%。在含有表情的144 263條微博中,有28.3%的微博有表情連用現(xiàn)象。在這些有表情連用現(xiàn)象的微博中,38%的微博內(nèi)容為純表情,即除了表情外沒有任何文本內(nèi)容。有103 822條微博中出現(xiàn)了“文本+表情”的組合使用,其中25 326條(24.4%)有單表情連用現(xiàn)象。
Emoji相較于其他網(wǎng)絡(luò)表情來說,是一套較為完善的表情系統(tǒng),但很少有人會去了解或使用整套表情。為了解微博用戶的表情使用偏好以及眾多表情的使用情況,本文統(tǒng)計了數(shù)據(jù)中每個不同表情的使用頻次,如圖1所示。圖中可以發(fā)現(xiàn),表情的使用頻次呈雙峰分布,且在橫坐標(biāo)100附近出現(xiàn)了明顯的拐點(diǎn),表明在2 898個不同表情中,用戶使用較多的表情,即高頻表情,僅有100個左右,其余表情的使用次數(shù)較少。分析發(fā)現(xiàn),這100個高頻表情皆為微博平臺自帶的表情(見表2),而大量第三方表情包的使用量顯著少于微博自帶表情,因而出現(xiàn)了兩套不同的“表情系統(tǒng)”及其各自的高頻表情。此外,微博用戶對其中10個左右的表情有明顯的使用偏好,其中使用最多的3個表情為,和,占表情總使用量的28%,可見大多用戶對該事件持支持鼓勵的態(tài)度。
圖1 表情使用頻次分布以及使用量前十的表情Fig.1 Frequency distribution of emojis and top 10 emoijs
話題微博下的表情符號使用頻次存在差異,這種差異類似于文章中詞頻差異。很多社會科學(xué)分布現(xiàn)象都符合齊夫定律的設(shè)定,如單詞的出現(xiàn)頻率、網(wǎng)頁的訪問頻率和城市人口等。尤其在語言系統(tǒng)中,齊夫定律在字符或單詞的等級和使用頻率之間建立聯(lián)系,不僅適用于語料全體,也適用于單獨(dú)一篇文章。表情符號作為一種特殊的語言符號,其使用頻次及規(guī)律值得我們深入研究。本文對話題微博數(shù)據(jù)中的表情符號進(jìn)行統(tǒng)計分析,用f表示表情使用頻次,r表示根據(jù)f降序排列的表情等級序號,如頻次最高的表情符號等級為1,頻次次之的表情符號等級為2。表情等級和頻次的乘積呈現(xiàn)為一個常數(shù),這里的常數(shù)并非恒量,而是圍繞一個中心值上下波動。由于頻次f和等級r的數(shù)值相差較大,因此對f與r值分別取對數(shù)并求積,計算結(jié)果如表1所示。可以看出,頻次f與表情等級r的乘積較為平穩(wěn),基本圍繞一個常數(shù)上下波動,而從圖1a也可已看出,前100個表情的頻次和等級對數(shù)關(guān)系基本呈一條直線,符合齊夫分布規(guī)律的設(shè)定,可見,高頻表情的頻次分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律。
表1 齊夫定律統(tǒng)計數(shù)據(jù)Tab.1 Statistics of Zipf’s law
特定話題下的微博表情使用量呈長尾分布,特定微博下的轉(zhuǎn)發(fā)微博中也同樣如此。本文選取了轉(zhuǎn)發(fā)量最大的6條原創(chuàng)微博,分別統(tǒng)計了其轉(zhuǎn)發(fā)微博中的表情使用情況,如圖2所示。轉(zhuǎn)發(fā)量較多的原創(chuàng)微博多為官方媒體發(fā)起的對事件看法的投票或?qū)κ录M(jìn)展的實(shí)時報道,如“殺人者是否正當(dāng)防衛(wèi)”的投票以及事件結(jié)果“于海明的行為屬于正當(dāng)防衛(wèi),不負(fù)刑事責(zé)任”的公示。不同的人對同一條微博內(nèi)容會有不同的看法,從圖2橫坐標(biāo)可以看出這些微博的轉(zhuǎn)發(fā)微博中出現(xiàn)了近百種甚至多達(dá)四百多種不同的表情。大量使用的少量表情則代表了大多數(shù)群眾對該微博該事件的態(tài)度和看法是一致的。
圖2 特定微博下的表情使用頻次分布Fig.2 Frequency distribution of emojis in certain tweets
為了解表情符號在輿情表達(dá)中的作用以及二者之間的相互影響,本文統(tǒng)計了從事發(fā)到結(jié)束期間每一天的微博數(shù)和表情使用情況,得到了總使用量較多且具有代表性的10個表情隨時間發(fā)展的熱度變化。圖3顯示,除8月30日外,表情數(shù)及微博表情使用率總體上是隨微博數(shù)的趨勢變化的,隨著微博數(shù)量暴增,表情使用率也隨之增長。從圖4可以看出,昆山反殺案是一起歷時較短并具有轉(zhuǎn)折性的事件,在事件發(fā)酵初期,圖中表情使用量較少,說明網(wǎng)民對這件事的關(guān)注度較低。使用的等表情較多,多表現(xiàn)出一種圍觀和反諷的吃瓜心態(tài)。在8月29日迎來了微博數(shù)的第一次爆發(fā)式增長,隨著事件的進(jìn)展,更多的人開始發(fā)聲,也得到了更多用戶的關(guān)注,等表情的使用量開始增多,還沒有出現(xiàn)明顯的輿情趨勢。持續(xù)兩天高熱度之后微博數(shù)出現(xiàn)驟降現(xiàn)象,而隨著該事件的審判結(jié)果公示,用戶爭相發(fā)博擴(kuò)散,事件熱度再一次飆升,的大量使用表現(xiàn)出網(wǎng)民內(nèi)心的激動。此后兩天來到事件輿論的頂峰,等表情的使用量爆發(fā)式增長。網(wǎng)民大多表現(xiàn)出對此事件結(jié)果的肯定與對處理此事件的相關(guān)單位的贊揚(yáng)。至此,事件輿論接近尾聲,微博數(shù)和表情使用量逐漸趨零,最終達(dá)成了公眾對該事件的共識。可見高頻表情的演變可以大致體現(xiàn)出事件的輿情,而事件的發(fā)展也會促使一些特定高頻表情的出現(xiàn)。
圖3 微博數(shù)及表情使用情況隨時間演變圖Fig.3 The evolution of tweets and emoji usage
圖4 表情熱度隨時間演變圖Fig.4 The evolution of popular emojis
表情符號的多樣性也促使了用戶表情使用習(xí)慣的多樣性。通過分析發(fā)現(xiàn):約52.1%的用戶習(xí)慣在單條微博中使用單個表情,而其余47.9%的用戶習(xí)慣多個表情的連用。在69 095條使用多個表情的微博中,有51.5%的微博中出現(xiàn)了單表情連用現(xiàn)象,其余為不同表情的組合使用。在圖5a中,n表示連用表情的數(shù)量,例如,微博“今天天氣真好”中含有3個相同的表情符號,則n=3??梢钥闯鲇脩舾鼉A向于2~3個相同表情的連用,占總表情連用情況的80%以上,也有少量用戶會在單條微博中使用較多個相同的表情來表達(dá)自己的情感。例如,有用戶連用70個,也有用戶在單條微博中使用了76個來表達(dá)自己強(qiáng)烈的歡喜。在圖5b中,m表示單條微博中使用不同表情的數(shù)量,例如,微博“今天天氣真好”中含有2個不同的表情符號,則m=2??梢钥闯鲇脩敉瑯觾A向于2~3個不同表情的組合使用,約占87.9%,而僅有極少量用戶會在單條微博中使用多個不同表情。在單表情連用的微博中,共出現(xiàn)了332種不同表情的1 197種不同連用組合;而在不同表情組合使用的微博中出現(xiàn)了722種不同表情的26 928種不同表情組合。可見,不同情況下表情使用數(shù)量沒有太大差異,用戶普遍喜歡在單條微博中使用2~3個相同或不同表情,而表情覆蓋面及組合多樣性卻有較大差異,喜歡使用不同表情的用戶更愿意去嘗試使用“冷門”表情或者更具個性化的表情符號。
圖5 表情使用數(shù)量比例Fig.5 Ratio of emoji usage
根據(jù)劉偉朋等人的研究,目前學(xué)界普遍將表情情緒劃分為正面(高興、喜愛、驚訝)、負(fù)面(悲傷、憤怒、恐懼、厭惡)、中性和其他綜合性情緒[15]。為了研究表情關(guān)聯(lián)使用的情感特征,本文將數(shù)據(jù)集中微博用戶常用的100個表情符號分為了積極、消極、中性和其他4類,如表2所示。從表2可以看出,高頻表情多為情緒表達(dá)類的面部和肢體表情,其中積極表情在微博中的使用更加廣泛,占39.0%??梢?,微博用戶更傾向于在網(wǎng)絡(luò)上分享自己積極向上的一面。
表2 表情分類Tab.2 Classification of emojis
在此基礎(chǔ)上,統(tǒng)計了微博中連用表情的情感極性情況。顯示在43 584次單表情連用中,積極表情連用占69.8%,中性表情占15.2%,消極表情占12.1%,其他表情占2.8%。本文截取了數(shù)據(jù)中出現(xiàn)頻次最高的10種單表情連用現(xiàn)象和多表情組合使用現(xiàn)象,如表3所示。在單表情連用中,絕大多數(shù)為積極表情的連用,如、和等,這些表情的大量連用表現(xiàn)出用戶強(qiáng)烈的積極情感。在多表情組合使用中,用戶習(xí)慣連用情感極性相近的表情來加深自己所表達(dá)的情感。情感極性比較強(qiáng)的表情,連用現(xiàn)象以及重復(fù)使用現(xiàn)象更為普遍,但出現(xiàn)頻次遠(yuǎn)低于單表情連用的情況,體現(xiàn)出表情使用的多樣性和隨機(jī)性。不同于單表情或單表情連用,兩個或者多個不同表情的組合使用往往表達(dá)了多種復(fù)雜的情感。如和的組合使用表達(dá)出了該用戶的悲傷和憤怒;和的組合使用表達(dá)該用戶在稱贊的同時還帶有一絲滑稽;和的組合使用則表達(dá)出該用戶的不屑和疑惑。當(dāng)然,還有很多表意相近的表情的組合使用,如和、和以及和。
表3 高頻連用表情Tab.3 Top 10 co-occurrence emojis
常用的微博情感分類方法一般為基于機(jī)器學(xué)習(xí)進(jìn)行情感分類[16],以及基于微博文本情感強(qiáng)度的情感分類[17]。為了分析不同文本中表情使用現(xiàn)象的異同,本文采用大連理工大學(xué)信息檢索實(shí)驗(yàn)室提出的七分類法[18],將文本情緒分為“喜愛、高興、悲傷、恐懼、厭惡、驚訝和憤怒”7種類別,并添加了一個“中性”類用來標(biāo)記沒有明顯情緒特征的微博文本。使用林鴻飛等人構(gòu)建的大規(guī)模高質(zhì)量的細(xì)粒度情感字典,可以更準(zhǔn)確地對微博文本進(jìn)行情感分類。通過對微博文本jieba分詞,結(jié)合情感字典、程度副詞字典和否定詞字典與分詞后的結(jié)果進(jìn)行匹配,然后使用詞頻加權(quán)統(tǒng)計的方法確定每條微博的情感類別,最后統(tǒng)計了其文本中包含的連用表情,如表4所示。分析發(fā)現(xiàn),連用表情現(xiàn)象普遍存在于不同情感的微博文本中,此話題下的主流表情和在8種不同情感的語境中均有較多的連用現(xiàn)象。正面情感(喜愛和高興)下等相同情感極性的表情的連用現(xiàn)象更多,而負(fù)面情感(悲傷、恐懼、憤怒和厭惡)下也較少出現(xiàn)明顯表達(dá)負(fù)面情緒的表情,多連用和來表達(dá)心中的不滿情緒。悲傷語境下的和憤怒語境下的則高度吻合了對應(yīng)文本內(nèi)容表達(dá)的情感??梢姡⒉┪谋緝?nèi)容和其中的表情符號所表達(dá)的情感并非完全一致,不同用戶在使用表情時會出現(xiàn)理解上的差異。
表4 不同情感文本中連用最多的5個表情Tab.4 Top 5 co-occurrence same emojis in different emotional texts
除了主題相關(guān)性,網(wǎng)絡(luò)用戶的從眾心理也是出現(xiàn)高頻表情的重要成因。法國社會學(xué)家塔爾德在自己的著作《模仿律》中提到“模仿是基本的社會現(xiàn)象,也是人類作為社會性動物的本能。”個人在外界人群行為的影響下,從知覺、判斷和認(rèn)識上表現(xiàn)出符合于公眾輿論或多數(shù)人的行為方式即為模仿,它降低了人們的思考成本,也降低了決策風(fēng)險。當(dāng)看到別人觀點(diǎn)的評論區(qū)下面為清一色的,而自己也認(rèn)同或大致認(rèn)同該博主的觀點(diǎn),那么很多用戶都會有從眾心理來“排好隊(duì)形”,同其他用戶一樣評論。此時,這個表情的使用量就會隨著原博文的熱度升高而越來越多。當(dāng)網(wǎng)絡(luò)表情最初使用并流行開來之際,傳播者通過模仿可獲得社會認(rèn)同感,這種模仿行為和社會認(rèn)同心理是表情符號爆紅的核心因素[20]。這也符合前面提到的表情符號長尾分布,尤其在特定話題或特定微博下,這種個體的從眾心理是高頻表情出現(xiàn)的重要原因。
在現(xiàn)代修辭學(xué)中,反復(fù)是指“為了突出某個意思,強(qiáng)調(diào)某種感情,特意重復(fù)某一語言部分”。詩歌中的反復(fù)又稱“復(fù)沓”。它具有特殊的表現(xiàn)力,表現(xiàn)強(qiáng)烈的感情,強(qiáng)調(diào)主題、加強(qiáng)語氣、增強(qiáng)旋律美,起著一唱三嘆的作用。在《詩經(jīng)》中,反復(fù)可以說是運(yùn)用得最多最普遍的修辭法之一。反復(fù)的運(yùn)用與渲染氣氛、表達(dá)情感、精煉語言、意識流等有重要關(guān)聯(lián)。
本研究分析了新浪微博“昆山反殺案”話題下相關(guān)微博中的表情使用情況。通過對所有用戶表情符號的統(tǒng)計分析,發(fā)現(xiàn)微博用戶會使用大量不同的表情符號,但常用的表情僅有100個左右,特定話題以及特定微博下的表情符號使用頻次呈長尾分布。然后,統(tǒng)計了高頻表情隨事件發(fā)展的數(shù)量變化,不同時期高頻表情的變化可反映出該事件輿情的演變情況以及用戶的情緒變化。此外,針對單條微博中的表情使用情況做了進(jìn)一步分析,發(fā)現(xiàn)其中存在大量的相同表情連用現(xiàn)象以及不同表情的關(guān)聯(lián)使用現(xiàn)象。通過對100個常用表情以及有表情連用現(xiàn)象的微博文本進(jìn)行了情感分類,發(fā)現(xiàn)正面情感的表情符號在微博中的連用現(xiàn)象更多,不同情感的文本中往往有對應(yīng)情感的表情連用。主題相關(guān)性往往直接決定了部分高頻表情的出現(xiàn),人類的從眾天性也使很多網(wǎng)絡(luò)用戶傾向于模仿其他用戶的表情使用行為,進(jìn)一步促使特定表情符號的爆發(fā)增長。同語言文學(xué)中的反復(fù)現(xiàn)象類似,網(wǎng)絡(luò)用戶在單條微博中使用多個相同表情或情感相近的不同表情,往往是為了輔助表達(dá),加強(qiáng)情感。對社交媒體中用戶使用表情符號的分析是復(fù)雜在線社會系統(tǒng)中新興的研究方向,相關(guān)研究有助于了解網(wǎng)絡(luò)用戶的表情使用、習(xí)慣,以及表情符號在社交媒體中對情緒表達(dá)的影響。