陳新元,謝晟祎,張 力
(1.福州墨爾本理工職業(yè)學(xué)院 信息工程系,福建 福州 350121;2.福建農(nóng)業(yè)職業(yè)技術(shù)學(xué)院 實(shí)驗(yàn)實(shí)訓(xùn)中心,福建福州 350300;3.福州理工學(xué)院 文理學(xué)院,福建 福州 350506 )
情感是人們對(duì)某一特定事件的感覺(jué)或反應(yīng),例如高興、悲傷、生氣等.情感分析指辨別人們交流時(shí)的情緒狀態(tài),判斷和評(píng)估其態(tài)度、意見(jiàn)和情緒,目前多個(gè)行業(yè)都有相關(guān)應(yīng)用案例.一些研究按照時(shí)間線,分類型總結(jié)了該領(lǐng)域研究的思路、方法、數(shù)據(jù)集、實(shí)驗(yàn)和成果[1-3].
隨著科技和社交網(wǎng)絡(luò)的進(jìn)步,人們的交流呈現(xiàn)在線化、數(shù)字化的趨勢(shì).微博是國(guó)內(nèi)的主要社交網(wǎng)絡(luò)平臺(tái)之一,類似國(guó)外的Twitter.截至2018 年,活躍用戶數(shù)達(dá)到4.62 億(數(shù)據(jù)來(lái)源:微博數(shù)據(jù)中心《2018 用戶發(fā)展報(bào)告》),人們可以在微博上以多種形式分享觀點(diǎn)和情感,尋找志同道合的伙伴,用戶/話題推薦也成為研究的熱點(diǎn).
傳統(tǒng)的用戶推薦大多基于用戶熱度,即根據(jù)用戶粉絲數(shù)、微博回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等指標(biāo)進(jìn)行推薦[4].但本文認(rèn)為不能簡(jiǎn)單地根據(jù)影響力高低進(jìn)行排序,用戶間的情感可能相同或迥異,態(tài)度也可能是贊成、中立或反對(duì),即同意度取值不同.微博用戶影響力示意圖(如圖1),左右兩組多邊形分別表示A、B 用戶在不同話題上的影響范圍,顯然A 的影響力較大;但對(duì)于C 用戶,其與A 用戶具有一致情感的話題較少,處于A 影響力范圍的邊緣地帶,但與B 用戶在多個(gè)話題上具有相同情感.本文觀點(diǎn):C 與B 的情感一致性較高;對(duì)C 用戶而言,B 比A 更具吸引力;用戶間的相對(duì)影響力越高,越可能“傾蓋如故”,用戶推薦也越可能獲得成功.
圖1 微博用戶影響力示意圖
本文的主要工作是將融合圖片語(yǔ)義的微博情感分類結(jié)果應(yīng)用于生成用戶和話題推薦,創(chuàng)新點(diǎn)在于:1)將情感一致性和同意度因素引入用戶影響力和話題影響力的計(jì)算;2)在此基礎(chǔ)上提出新的用戶和話題推薦思路,以提高推薦結(jié)果與當(dāng)前用戶的情感匹配度.
情緒模型的定義多元化,現(xiàn)有模型大致可以分為“分類”模型和“維度”模型[5].分類情感模型,如Ekman 模型[6]、Shaver 模型[7]和Oatley 模型[8],將所有人類情感分為幾個(gè)主要類別(憤怒、厭惡、恐懼、快樂(lè)、愛(ài)等);維度情感模型的數(shù)據(jù)結(jié)構(gòu)大致包括列表、樹(shù)、輪子、立方體等,如Plutchik 模型[9],在Ekman 基本情緒的基礎(chǔ)上加入飽和度/強(qiáng)度因素,以及相鄰情緒的復(fù)合效應(yīng)、環(huán)型模型[10]、OCC 模型[11]、Loveim 模型[12],從多個(gè)維度和強(qiáng)度出發(fā)將模型細(xì)化分類,英國(guó)心理學(xué)家Parrott 設(shè)計(jì)了一種基于樹(shù)結(jié)構(gòu)的分層情緒分類模型[13].此外,Xu 等在Ekman 模型的基礎(chǔ)上提出了4 層的情緒模型[14],本文使用該模型進(jìn)行情感分類.
無(wú)論Twitter 還是微博,關(guān)于用戶影響力計(jì)算或在此基礎(chǔ)上進(jìn)行用戶推薦的研究大多是基于用戶熱度,即根據(jù)用戶粉絲數(shù)、微博回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等指標(biāo)進(jìn)行推薦[15-18],也有研究圍繞中介中心度、接近中心度和自定義的H-index 等中心性指標(biāo)開(kāi)展[19-21],或?qū)oogle 的PageRank 算法進(jìn)行修改,提出了諸如TunkRank[22]/UserRank[23]算法以發(fā)現(xiàn)人氣用戶,或通過(guò)指數(shù)、影響力分類等數(shù)學(xué)或邏輯上的方案計(jì)算用戶影響力[24-25];另一方面,關(guān)于話題推薦的研究較少,國(guó)內(nèi)如任星怡在LDA 模型的基礎(chǔ)上利用地理信息、社會(huì)關(guān)系冪律分布和概率矩陣進(jìn)行用戶興趣推薦[26]等.
本文的核心在于基于情感分類的用戶/話題影響力計(jì)算,熱門賬戶并非對(duì)所有用戶都具有相同的吸引力,傳統(tǒng)觀念的“物以類聚,人以群分”更符合社交訴求.所以本文首先進(jìn)行情感網(wǎng)絡(luò)的辨識(shí)以區(qū)分用戶群體;其次在情感模型的基礎(chǔ)上根據(jù)轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊操作等因素計(jì)算情感一致性和同意度,結(jié)合其他指標(biāo),量化判定用戶的整體情感影響力和話題影響力,用于用戶和話題推薦.
通過(guò)數(shù)據(jù)抓取、預(yù)處理和清洗等操作構(gòu)建數(shù)據(jù)集,使用Hash 算法實(shí)現(xiàn)圖片去重,根據(jù)PMI 點(diǎn)互信息迭代提取表情符號(hào)和圖片的情感信息,生成帶強(qiáng)度標(biāo)記的圖片情感詞典,連同臺(tái)灣大學(xué)中文情感極性詞典(NTUSD)、清華大學(xué)李軍中文褒貶義詞典(TSING)、知網(wǎng)詞典(HOWNET)和2014 版《網(wǎng)絡(luò)用語(yǔ)詞典》共同實(shí)現(xiàn)微博的情感分類.
在情感分類的基礎(chǔ)上,使用K-means 聚類辨析用戶群體,計(jì)算情感一致性和同意度,匯總得到用戶整體情感影響力和話題影響力.據(jù)此計(jì)算相對(duì)特定用戶的影響力,進(jìn)行用戶/話題推薦,以期獲得更好的用戶推薦效果.
本節(jié)用到的符號(hào)及其釋義見(jiàn)表1.
表1 影響力符號(hào)及釋義
續(xù)表1
文獻(xiàn)[27]中,作者基于用戶相似度的理念進(jìn)行用戶推薦,將用戶相似度細(xì)分為微博內(nèi)容、交互行為和社交關(guān)系等屬性,使用余弦公式分別計(jì)算,最后綜合多源信息總相似度;但關(guān)注領(lǐng)域/社交行為大致重疊或相似的兩名用戶,其觀點(diǎn)、看法和情感卻可能大相徑庭.Wolny 基于用戶的整體情感傾向做出用戶推薦[28],但沒(méi)有考慮兩名用戶在公共主題上的情感一致性和同意度.
本文在Sailunaz 影響力公式的基礎(chǔ)上進(jìn)行調(diào)整,保留賬戶影響力和話題影響力的定義區(qū)分,在此基礎(chǔ)上添加情感一致性和用戶同意度的乘法系數(shù)[29].情感向量一致性的計(jì)算使用余弦相似度:
即使情感一致性完全相反(positive 與negative),也保留0.3.一方面部分用戶可能希望看到不同情感的表達(dá);另一方面無(wú)法否認(rèn)對(duì)立情感產(chǎn)生共鳴的可能.ScoreAD分為5 個(gè)等級(jí),“完全同意”“贊同”“中性/模糊”“疑問(wèn)”“反對(duì)”,量化以1,0.5,0,-0.5,-1 表示.相關(guān)權(quán)重參數(shù)的計(jì)算中,將賬戶類和話題類的影響因素分別進(jìn)行兩兩匹配比較,使用AHP 匹配比較量度如圖2.
圖2 AHP 匹配比較量度
生成兩個(gè)獨(dú)立的比較矩陣,使用歸一的特征化向量生成權(quán)重系數(shù)優(yōu)先矩陣見(jiàn)表2(賬戶情感影響力參數(shù)的計(jì)算方法相同).
表2 比較矩陣與話題參數(shù)權(quán)重向量
賬戶類因素和話題類因素在與對(duì)應(yīng)的ScoreEA(A,B)和ScoreAD加權(quán)計(jì)算后,最終得出賬戶情感影響力ISA和話題影響力ISS;為減小影響力的量級(jí)差異,對(duì)影響力進(jìn)行歸一化處理,對(duì)ISA使用公式(2),MINA和MAXA分別是所有賬戶影響力的最小值和最大值,ISS同理.
ISA取值越大,該節(jié)點(diǎn)在情感網(wǎng)絡(luò)中越重要;但在進(jìn)行具體的用戶推薦時(shí),由于不同用戶之間情感傾向存在較大差異,不能簡(jiǎn)單地根據(jù)ISA或ISS進(jìn)行匹配,還需計(jì)算用戶相對(duì)影響力ISRA.
本文在微博官方話題分類的基礎(chǔ)上,根據(jù)情感模型分類設(shè)定k 值,使用主流K-means 聚類方法,根據(jù)Level3[14]的情感分類構(gòu)建情感網(wǎng)絡(luò);在候選Top 用戶池中使用雙方在公共話題轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊操作數(shù)的分值計(jì)算ISRA,再輔以數(shù)據(jù)收集和清洗階段記錄的用戶關(guān)聯(lián)度(包括無(wú)法辨別情感一致性的直接關(guān)聯(lián),雙方的地理定位和用戶標(biāo)簽匹配情況)作為乘法系數(shù)進(jìn)行微調(diào),得到最后的推薦得分,降序排列.具體算法見(jiàn)表3.
表3 用戶推薦與情感推薦算法
用戶推薦進(jìn)行至第10 步,list1返回為止;話題推薦進(jìn)行至最后一步,list4返回為止.
在進(jìn)行話題推薦時(shí),傳統(tǒng)方案往往分析用戶的歷史數(shù)據(jù),在最關(guān)心的微博類別下推薦熱度最高的話題,但這種算法擴(kuò)展能力不足,在增加用戶黏度、延長(zhǎng)用戶瀏覽時(shí)間方面效果有限.因此本文利用相對(duì)影響力篩選出與當(dāng)前用戶匹配度較高的用戶賬戶后,挑選ISS較高且不在當(dāng)前用戶常訪問(wèn)分類中的話題,若SOT 與UOT 相符,則向當(dāng)前用戶進(jìn)行推薦.
本文自建數(shù)據(jù)集收集了2019 年9—10 月182 萬(wàn)余條來(lái)自近42 萬(wàn)個(gè)賬戶歸屬于11 個(gè)不同話題的微博數(shù)據(jù)(含表情符號(hào)和圖片)、后續(xù)評(píng)論內(nèi)容和轉(zhuǎn)發(fā)數(shù)據(jù)、點(diǎn)贊操作數(shù)和收藏?cái)?shù),以及相關(guān)用戶的公開(kāi)信息.使用10 折NB 對(duì)完整文本進(jìn)行分析,平均情感分類準(zhǔn)確率為68.7%,盡管不同話題的準(zhǔn)確率存在1.5%至9%的差異,但在用戶推薦驗(yàn)證實(shí)驗(yàn)中,并未表現(xiàn)出明顯的差別,因此相關(guān)數(shù)據(jù)略.
用戶ISA及歸一化結(jié)果示例見(jiàn)表4.
為更清晰地表示用戶情感影響力,通過(guò)簡(jiǎn)單的對(duì)數(shù)處理,氣泡圖可以將微博數(shù)、粉絲數(shù)和影響力量級(jí)差異較大的不同賬戶在同一張圖片里顯示并進(jìn)行比較,示例如圖3,圖中右上方的2 個(gè)較大的圓圈是話題中擔(dān)任影響力核心的用戶.
在此基礎(chǔ)上計(jì)算賬戶相對(duì)影響力ISRA,如圖4 所示.經(jīng)過(guò)用戶關(guān)聯(lián)度、地理定位、標(biāo)簽匹配度修正的ISRA和最終排序見(jiàn)表5.
表4 ISA及歸一化結(jié)果示例
圖3 ISA氣泡圖示例
圖4 ISA網(wǎng)絡(luò)結(jié)構(gòu)示例
表5 ISRA及修正排序示例
隨機(jī)抽取某主題的用戶評(píng)論關(guān)聯(lián),其ISA網(wǎng)絡(luò)結(jié)構(gòu)示例如圖4.根據(jù)評(píng)論數(shù)可以辨識(shí)核心用戶,即周圍線條最密集的少數(shù)用戶,也可以看到,大部分發(fā)出評(píng)論的用戶持有和發(fā)微博用戶相同的情感/觀點(diǎn),只有少部分(藍(lán)色圓圈)的用戶持有異議,驗(yàn)證了在線用戶希望尋找情境相似人群的理論.
在此基礎(chǔ)上計(jì)算賬戶相對(duì)影響力ISRA,以及經(jīng)過(guò)用戶關(guān)聯(lián)度、地理定位、標(biāo)簽匹配度修正的ISRA和最終排序見(jiàn)表5.
推薦系統(tǒng)優(yōu)化:本文推薦方案在每次推薦時(shí),都需要重新進(jìn)行數(shù)據(jù)抓取并計(jì)算,延時(shí)較長(zhǎng),可達(dá)700~3 000 ms.故設(shè)計(jì)并實(shí)現(xiàn)了兩套并行的性能優(yōu)化方案:一套基于緩存和增量更新;另一套方案使用分級(jí)改進(jìn)推薦精確度的方法,使得推薦方案可以在100 ms 內(nèi)示出結(jié)果.
用戶推薦算法的驗(yàn)證使用隨機(jī)雙盲平行對(duì)照實(shí)驗(yàn),被試人群為大一至大三共3 個(gè)年級(jí)的225 名學(xué)生,均有微博使用經(jīng)驗(yàn),曾進(jìn)行過(guò)關(guān)注、轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊等操作.其中男生125 名,女生100 名,分別來(lái)自福建、江西、浙江、廣西、陜西、天津、四川、河北等11 個(gè)省、自治區(qū)或直轄市,除福建生源較多外,地域分布較為平均;大一學(xué)生為53 名,大二學(xué)生為103 名,大三學(xué)生為69 名;年齡平均值為20.12,標(biāo)準(zhǔn)差為1.33.
將樣本人群隨機(jī)分為三組,每組75 人,分別為實(shí)驗(yàn)組、對(duì)照組1(使用微博默認(rèn)的推薦算法)、對(duì)照組2(使用文獻(xiàn)[29]設(shè)計(jì)的算法).實(shí)驗(yàn)在不同日期進(jìn)行2 次,間隔1 周,每次3 組同時(shí)進(jìn)行;3 種方案為每位參與人員單獨(dú)生成Top10 推薦清單.主持實(shí)驗(yàn)的人員向受試人群介紹微博基本操作,不做其他提示,也不允許受試人員彼此交流.受試人員打開(kāi)的第1 個(gè)頁(yè)面設(shè)置為推薦清單,但并不要求用戶停留在推薦清單或其頁(yè)面;60 min 后實(shí)驗(yàn)結(jié)束,統(tǒng)計(jì)樣本人群的相關(guān)用戶關(guān)注數(shù)、微博評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊操作數(shù).
實(shí)驗(yàn)發(fā)現(xiàn),除用戶關(guān)注數(shù)外,觀察對(duì)象在瀏覽微博時(shí)的習(xí)慣差異較大,評(píng)論、轉(zhuǎn)發(fā)或點(diǎn)贊3 種操作的選擇有明顯的傾向差異,但總體強(qiáng)度較為穩(wěn)定,故使用本文公式計(jì)算以上操作的得分并累加,將結(jié)果作為推薦算法的一個(gè)獨(dú)立衡量指標(biāo).根據(jù)實(shí)驗(yàn)結(jié)果,該指標(biāo)與用戶關(guān)注數(shù)的Pearson 相關(guān)性達(dá)到0.79,兩次實(shí)驗(yàn)的重測(cè)相關(guān)系數(shù)達(dá)到0.66.用戶關(guān)注數(shù)數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表6.
用戶轉(zhuǎn)發(fā)、評(píng)論及點(diǎn)贊等操作數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表7.可見(jiàn)使用本文推薦方案后的用戶關(guān)注數(shù)、轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊操作數(shù),均有一定提高.
表6 用戶關(guān)注數(shù)統(tǒng)計(jì)
表7 轉(zhuǎn)發(fā)、評(píng)論及點(diǎn)贊等操作數(shù)據(jù)統(tǒng)計(jì)
征得被試者同意后,在135 名學(xué)生的安卓設(shè)備上安裝記錄程序,統(tǒng)計(jì)每次實(shí)驗(yàn)后1 周內(nèi)微博App在內(nèi)存中的駐留時(shí)間(以秒為單位),用以計(jì)算效標(biāo)效度,該因素受多種條件影響,波動(dòng)較大,但相關(guān)系數(shù)仍達(dá)到0.526.
獨(dú)立樣本t 檢驗(yàn)的結(jié)果表明,用戶推薦結(jié)果不存在性別差異,P 值在0.13 至0.88 之間;不存在地域差異,P 值在0.25 至0.54 之間;不存在年級(jí)差異,P 值在0.49 至0.77 之間.
傳統(tǒng)用戶/話題推薦的算法大多基于用戶熱度,忽視了用戶尋找同伴的心理需求,因而本文在情感分類結(jié)果的基礎(chǔ)上,將情感一致性和同意度因素引入ISA和ISS計(jì)算,并在此基礎(chǔ)上將用戶/話題推薦的粒度進(jìn)一步縮小至只對(duì)用戶關(guān)聯(lián)數(shù)據(jù)的匹配.小范圍雙盲實(shí)驗(yàn)驗(yàn)證了該推薦算法在用戶關(guān)注數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊操作數(shù)等結(jié)果指標(biāo)上相較以往算法有一定改進(jìn).
今后的研究方向可能包括:推薦算法的有效性驗(yàn)證樣本容量較小,過(guò)程較簡(jiǎn)單,受試人群興趣愛(ài)好不一,可能對(duì)實(shí)驗(yàn)結(jié)果造成干擾,可嘗試大規(guī)模規(guī)范化驗(yàn)證;相反情感的影響力衡量需要深入研究;將情感一致性、同意度在時(shí)間軸上的變化納入考量;對(duì)任意話題的即時(shí)推薦算法和適應(yīng)不同粒度的推薦思路也需要改進(jìn),等等.
寧德師范學(xué)院學(xué)報(bào)(自然科學(xué)版)2021年1期