王 力
(1.中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2.富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038)
彈幕源自日本視頻分享網(wǎng)站“NICONICO”,這種大量實(shí)時(shí)產(chǎn)生的評(píng)論能夠以滑動(dòng)的方式直接顯示在視頻界面上,像射擊游戲中的彈幕,故被網(wǎng)友稱之為彈幕。隨著數(shù)字媒體技術(shù)的發(fā)展,越來(lái)越多的用戶傾向于通過(guò)這種方式觀看網(wǎng)絡(luò)視頻并發(fā)表自己的見(jiàn)解。這種互動(dòng)機(jī)制可有效改善平臺(tái)的用戶參與度,提高視頻的點(diǎn)播率及影響。彈幕評(píng)論中蘊(yùn)含著豐富的情感信息,特別是對(duì)于電子產(chǎn)品評(píng)測(cè)視頻的彈幕中還包含著大量的用戶痛點(diǎn)信息。這些信息一方面反映了用戶觀看時(shí)的褒貶情感,另一方面也可用于企業(yè)的決策支撐。從主題上看,彈幕網(wǎng)站及視頻傳播模式、彈幕文化以及彈幕用戶特征是當(dāng)前彈幕的研究重點(diǎn)。有很多學(xué)者都基于使用與滿足理論對(duì)彈幕進(jìn)行分析。從彈幕文化上看,學(xué)界普遍認(rèn)為亞文化、狂歡廣場(chǎng)和參與式文化是其主要特點(diǎn)。而從用戶的角度看,學(xué)者們研究圍繞著用戶使用動(dòng)機(jī)、使用習(xí)慣以及影響用戶發(fā)彈幕因素等展開(kāi)。還有學(xué)者從不同維度對(duì)彈幕語(yǔ)言進(jìn)行了分類(lèi),以上都是基于定性方法的研究。隨著計(jì)算機(jī)技術(shù)的發(fā)展,統(tǒng)計(jì)學(xué)、人工智能方法被慢慢應(yīng)用到了彈幕文本分析領(lǐng)域,很多學(xué)者也意識(shí)到,彈幕中隱含著大量顯性和隱性的知識(shí)。使用定量方法可以完成更深層次的研究。早期的彈幕文本研究借助于短文本情感分析方法,研究成果也普遍應(yīng)用于視頻檢索。
隨著深度學(xué)習(xí)的發(fā)展,一部分學(xué)者將神經(jīng)網(wǎng)絡(luò)引入到彈幕的研究中。莊須強(qiáng)對(duì)LSTM深度學(xué)習(xí)模型進(jìn)行改進(jìn),將主題集中度和情感強(qiáng)度相結(jié)合定義為視頻片段重要性評(píng)分,從而構(gòu)建SIS-LSTM模型,應(yīng)用于彈幕評(píng)論的情感分析。梁晨將彈幕評(píng)論和視頻評(píng)論分別做情感分析并將結(jié)果進(jìn)行對(duì)比,探究對(duì)網(wǎng)絡(luò)視頻流行度的影響差異。王瑞東利用多模態(tài)情感分析方法實(shí)現(xiàn)視頻片段情感分類(lèi)。葉健通過(guò)爬取事件型彈幕數(shù)據(jù),用CNN進(jìn)行情感分類(lèi),從而得到輿情分析結(jié)果。鄧楊利用主題模型分析彈幕情感因子,并根據(jù)視頻片段之間的情感依賴關(guān)系推薦視頻的情感片段。洪慶分析彈幕內(nèi)容之間的相似性,從而推斷用戶之間的關(guān)系。邱全磊構(gòu)建了彈幕表情和語(yǔ)氣詞詞典,提出了一種基于該詞典的情感計(jì)算方法。
從現(xiàn)有研究中可以發(fā)現(xiàn),缺乏對(duì)特定領(lǐng)域彈幕特點(diǎn)的定量化研究;在彈幕的情感分析研究中,使用的多為基于情感詞典的方法或采用簡(jiǎn)單的情感分析模型。針對(duì)這兩個(gè)問(wèn)題,該文使用定量化的手段分析電子產(chǎn)品評(píng)測(cè)視頻彈幕文本特征,在此基礎(chǔ)上提出BILSTM-CNN-ATT情感分析模型并進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型在電子產(chǎn)品評(píng)測(cè)視頻的彈幕評(píng)論中具有良好的情感分析效果。
統(tǒng)計(jì)分析方法是對(duì)研究對(duì)象的規(guī)模、速度、范圍等數(shù)量關(guān)系進(jìn)行分析和研究,以此揭示事物間的關(guān)系、變化和發(fā)展。在統(tǒng)計(jì)學(xué)中,當(dāng)衡量?jī)蓚€(gè)變量的相關(guān)關(guān)系時(shí),通常采用皮爾遜相關(guān)系數(shù)法。皮爾遜相關(guān)系數(shù)的大小可以反映兩個(gè)變量間線性相關(guān)程度的強(qiáng)弱,當(dāng)皮爾遜相關(guān)系數(shù)越接近1時(shí),說(shuō)明兩個(gè)變量間線性相關(guān)程度越大。
詞向量是以深度神經(jīng)網(wǎng)絡(luò)技術(shù)和全網(wǎng)海量?jī)?yōu)質(zhì)數(shù)據(jù)為基礎(chǔ),讓文本的計(jì)算通過(guò)詞語(yǔ)的向量化來(lái)實(shí)現(xiàn),從而可以很好地描述詞語(yǔ)間的關(guān)系,是自然語(yǔ)言處理中非常重要的一個(gè)環(huán)節(jié)。目前詞向量表示法包括早期的獨(dú)熱表示、TF-IDF等,以及分布式表示法,如Word2Vec、ELMo等。Word2Vec是一個(gè)具有隱含層的神經(jīng)網(wǎng)絡(luò),該模型將詞表達(dá)為固定維數(shù)的詞向量。模型框架根據(jù)不同的輸入和輸出,又可以分為skip-gram和CBOW模型。如果將一個(gè)詞作為輸入來(lái)預(yù)測(cè)這個(gè)詞的上下文,則為skip-gram模型。反之,輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,而輸出就是這特定的一個(gè)詞的詞向量,則是CBOW模型。和CBOW模型相比,skip-gram調(diào)整的詞向量相對(duì)更加準(zhǔn)確。
深度學(xué)習(xí)是一種復(fù)雜的機(jī)器學(xué)習(xí)算法,其模型是一種具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。它通過(guò)將低層特征進(jìn)行組合形成更加抽象的高層特征表示屬性類(lèi)別和特征,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。在搜索技術(shù)、機(jī)器翻譯、語(yǔ)音和圖像識(shí)別等相關(guān)領(lǐng)域都取得了卓越成果。深度學(xué)習(xí)中包括多種簡(jiǎn)單或復(fù)雜的模型,適用于解決不同類(lèi)型的問(wèn)題。
1.3.1 BILSTM(雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型)
LSTM的全稱是Long Short-Term Memory,它是RNN的一種衍生網(wǎng)絡(luò)模型。它通過(guò)引入特別設(shè)計(jì)的記憶結(jié)構(gòu)和單元,有效緩解了RNN中描述長(zhǎng)距離文本依存關(guān)系中面臨的梯度消失問(wèn)題。LSTM由于其設(shè)計(jì)的特點(diǎn),非常適合用于對(duì)時(shí)序數(shù)據(jù)的建模。但一個(gè)詞在文中,既有上文又有下文,LSTM雖解決了上文語(yǔ)義依賴的問(wèn)題卻忽略了下文。研究人員提出了BILSTM(雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型)彌補(bǔ)了深度學(xué)習(xí)中下文信息的缺失,它是由一個(gè)正向LSTM和一個(gè)反向LSTM疊加而成,具備良好的神經(jīng)網(wǎng)絡(luò)擬合非線性的能力,可更好地捕捉上下文的信息。
1.3.2 CNN(卷積神經(jīng)網(wǎng)絡(luò))
卷積神經(jīng)網(wǎng)絡(luò)是一種以圖像識(shí)別為中心在多個(gè)領(lǐng)域都得到廣泛應(yīng)用的深度學(xué)習(xí)方法。由輸入層(input layer)、卷積層(convolution layer)、池化層(pooling layer)、全連接層(fully connected layer)和輸出層(output layer)組成。其中,卷積層是該模型的核心,卷積核用于提取內(nèi)部特征。池化層的作用是減小卷積層產(chǎn)生的特征圖尺寸。全連接層則是將之前提取到的特征綜合起來(lái),用于后續(xù)輸出計(jì)算。
1.3.3 ATTENTION(注意力機(jī)制)
注意力機(jī)制是模仿人識(shí)別物體時(shí)的注意力焦點(diǎn)的數(shù)學(xué)模型。其核心目標(biāo)是從眾多信息中選出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。注意力機(jī)制可以通過(guò)結(jié)構(gòu)化選取輸入的子集,降低數(shù)據(jù)維度,進(jìn)而提高計(jì)算機(jī)處理效率和輸出質(zhì)量,適合于推理多種不同模態(tài)數(shù)據(jù)之間的相互映射關(guān)系。
該文提出的彈幕特征發(fā)現(xiàn)及情感分析模型研究框架如圖1所示。
圖1 研究框架示意圖
該部分主要功能是用統(tǒng)計(jì)分析方法挖掘彈幕文本的自身特征,并利用圖表等可視化方式進(jìn)行結(jié)果展示。計(jì)算彈幕文本長(zhǎng)度和數(shù)量的皮爾遜相關(guān)指數(shù),分析出二者之間的相關(guān)性。將彈幕文本長(zhǎng)度和數(shù)量之間的皮爾遜相關(guān)系數(shù)定義為這兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:
(1)
通常情況下,通過(guò)以下相關(guān)系數(shù)取值范圍(見(jiàn)表1)判斷變量的相關(guān)強(qiáng)度。
表1 相關(guān)關(guān)系
將每條彈幕評(píng)論文本的長(zhǎng)度記為X
,彈幕數(shù)量記為Y
,按照公式(1)先分別計(jì)算兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差,二者的比值即為皮爾遜相關(guān)指數(shù),對(duì)照表1分析兩個(gè)變量之間的相關(guān)強(qiáng)度。綜合統(tǒng)計(jì)分析結(jié)果,得到彈幕文本特征相關(guān)結(jié)論。W
={w
(1),w
(2),…,w
(t
),…,w
(n
)},以第t
個(gè)詞為中心詞,經(jīng)skip-gram模型處理后,用V
(w
(t
))表示文本數(shù)據(jù)中心詞w
(t
),用Content(w
(t
))表示中心詞w
(t
)上下文的詞向量,詞向量記為(V
(w
(t
)),Content(w
(t
)))。skip-gram模型如圖2所示。圖2 skip-gram模型
該部分是本實(shí)驗(yàn)的主體,由BILSTM(雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型)、CNN(卷積神經(jīng)網(wǎng)絡(luò)模型)和ATTENTION(注意力機(jī)制)組合而成。前模型的輸出為后模型的輸入,過(guò)程中輸入輸出的維度保持不變。利用BILSTM和CNN充分采集彈幕文本語(yǔ)義全局特征和局部特征,利用注意力機(jī)制提取更深層次的特征向量,最后通過(guò)softmax層輸出。具體如圖3所示。
該部分通過(guò)結(jié)合數(shù)量計(jì)算及可視化的方法得到視頻中彈幕的情感走向,從而更全面地了解彈幕的情感變化信息。即處在一個(gè)區(qū)間內(nèi)的所有正向情感-負(fù)向情感的絕對(duì)值,再除以該區(qū)間的所有彈幕數(shù)量。情感計(jì)算的公式為:
(2)
其中,N
為某個(gè)時(shí)間區(qū)間內(nèi)彈幕的數(shù)量。圖3 BILSTM-CNN-ATT模型示意圖
文中的數(shù)據(jù)采集方法為,在bilibili網(wǎng)站以“華為p30”為搜索關(guān)鍵詞,以“最多彈幕”、“10-30分鐘”、“數(shù)碼區(qū)”為篩選條件,選擇排名前100的視頻分別對(duì)彈幕和視頻評(píng)論進(jìn)行爬取。共有彈幕9萬(wàn)2千余條。
3.2.1 彈幕文本長(zhǎng)度特征
隨機(jī)選取10個(gè)視頻,統(tǒng)計(jì)彈幕長(zhǎng)度分布情況(見(jiàn)圖4)。實(shí)驗(yàn)結(jié)果表明視頻彈幕的長(zhǎng)度具有一致性,多數(shù)集中在1~15之間。分布較穩(wěn)定,且以不多于15字的短文本為主。對(duì)彈幕長(zhǎng)度和數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算皮爾遜系數(shù)為-0.680 981 3,說(shuō)明彈幕長(zhǎng)度和彈幕數(shù)量呈負(fù)相關(guān)關(guān)系,即彈幕長(zhǎng)度越長(zhǎng),彈幕數(shù)量越少。
圖4 彈幕長(zhǎng)度分布示意圖
3.2.2 彈幕文本時(shí)間特征
隨機(jī)選擇四個(gè)彈幕數(shù)量較高的視頻,其彈幕在視頻中出現(xiàn)的時(shí)間如圖5所示(注:時(shí)間間隔為1秒)。從圖中可以觀察到,彈幕的出現(xiàn)時(shí)間具有陣發(fā)性,在標(biāo)號(hào)av-50661583視頻中表現(xiàn)尤為顯著。
圖5 彈幕出現(xiàn)頻率示意圖
3.3.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理
實(shí)驗(yàn)數(shù)據(jù)是將采集到的9萬(wàn)2千余條彈幕數(shù)據(jù)通過(guò)哈工大LTP進(jìn)行分詞,并去除停用詞。通過(guò)Word2Vec中的skip-gram模式對(duì)詞進(jìn)行向量表示。接著使用已經(jīng)標(biāo)注好的50余萬(wàn)電商評(píng)論構(gòu)建詞向量,挑出其中正向、負(fù)向評(píng)論各1萬(wàn)余條作為短文本情感分類(lèi)器的訓(xùn)練語(yǔ)料庫(kù)。
3.3.2 實(shí)驗(yàn)平臺(tái)
本次實(shí)驗(yàn)所使用的計(jì)算機(jī)配置如下:處理器為英特爾酷睿 CPU i5-8400,CPU頻率為2.80 Hz,內(nèi)存為24.00 GB;操作系統(tǒng)為Windows 10(64-bit);程序設(shè)計(jì)語(yǔ)言為Python 2.8.0。
3.3.3 評(píng)價(jià)指標(biāo)
文中采用準(zhǔn)確率(precision)、召回率(recall)以及F值作為實(shí)驗(yàn)結(jié)果好壞的評(píng)價(jià)指標(biāo),具體定義如下:
(3)
(4)
(5)
其中,TP為預(yù)測(cè)是正面情感,實(shí)際也是正面情感的彈幕數(shù)量;FP為預(yù)測(cè)是正面情感,實(shí)際卻是負(fù)面情感的彈幕數(shù);FN為預(yù)測(cè)是負(fù)面情感,實(shí)際卻是正面情感的彈幕數(shù)量。
3.3.4 實(shí)驗(yàn)結(jié)果及分析
文中采用的是在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)融合的基礎(chǔ)上增加了注意力機(jī)制的深度學(xué)習(xí)情感分析模型。在對(duì)數(shù)據(jù)預(yù)處理的前提下,將處理好的彈幕數(shù)據(jù)輸入到訓(xùn)練好的情感分析模型中。為進(jìn)一步驗(yàn)證該模型的有效性,文中進(jìn)行了9組對(duì)比實(shí)驗(yàn),包括CNN、LSTM、LSTM-CNN、LSTM-ATT、LSTM-CNN-ATT、BI-LSTM、BILSTM-CNN、BILSTM-ATT和BILSTM-CNN-ATT。實(shí)驗(yàn)結(jié)果如表2所示,包括precision、recall和F值。從表2可以發(fā)現(xiàn),BILSTM適于處理彈幕這種時(shí)間序列數(shù)據(jù),有效捕捉彈幕的全局特征。CNN模型可彌補(bǔ)局部特征不足的缺陷。在BILSTM-CNN融合模型的基礎(chǔ)上引入注意力機(jī)制可有效捕捉句子中的詞,優(yōu)化情感分析任務(wù),從而得到更好的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于BILSTM-CNN-ATT的模型可很好地對(duì)電子產(chǎn)品評(píng)測(cè)彈幕進(jìn)行情感分類(lèi)。
表2 9種深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果比較
基于本實(shí)驗(yàn)構(gòu)建的模型和實(shí)驗(yàn)數(shù)據(jù),以視頻av48982400為例,繪制了該視頻的情感走向圖(見(jiàn)圖6)。從圖中可以發(fā)現(xiàn),該視頻用戶彈幕評(píng)論整體呈正向情感,在關(guān)鍵節(jié)點(diǎn)具有較強(qiáng)烈的負(fù)面情感。
圖6 彈幕情感傾向示意圖
對(duì)彈幕做定量研究可得到更客觀全面的結(jié)論。統(tǒng)計(jì)方法可以發(fā)現(xiàn)不同變量之間的相關(guān)關(guān)系。深度學(xué)習(xí)模型可得到較精準(zhǔn)的彈幕評(píng)論情感分析結(jié)果。該文首先統(tǒng)計(jì)了電子產(chǎn)品評(píng)測(cè)視頻的彈幕評(píng)論長(zhǎng)度,并計(jì)算了彈幕長(zhǎng)度和彈幕數(shù)量之間的皮爾遜指數(shù),實(shí)驗(yàn)結(jié)果表明這兩個(gè)變量之間呈負(fù)相關(guān)關(guān)系。接著提出了BILSTM-CNN-ATT情感分析模型,該模型通過(guò)BILSTM和CNN充分采集彈幕文本語(yǔ)義全局特征和局部特征,接著利用注意力機(jī)制提取更深層次的特征向量。為進(jìn)一步驗(yàn)證模型有效性,該文進(jìn)行了9組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明在電子產(chǎn)品評(píng)測(cè)視頻的彈幕評(píng)論情感分析任務(wù)中,和別的模型相比,該模型可提供更好的支撐。不足之處在于,該方案僅適用于電子產(chǎn)品評(píng)測(cè)視頻的彈幕評(píng)論,對(duì)于其他類(lèi)別的彈幕知識(shí)挖掘任務(wù)效果還不得而知。未來(lái)的工作中,可嘗試將該方案應(yīng)用于其他類(lèi)別的實(shí)驗(yàn)數(shù)據(jù)上,并針對(duì)實(shí)驗(yàn)結(jié)果提出相應(yīng)的改進(jìn)方案。