• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    直播網(wǎng)站在線彈幕情感分析

    2022-05-26 08:56:16陳朝明
    軟件導(dǎo)刊 2022年5期
    關(guān)鍵詞:彈幕語料詞典

    陳朝明

    (中南民族大學(xué)計算機(jī)科學(xué)學(xué)院,湖北武漢 430027)

    0 引言

    近年來,隨著在線影音平臺的興起,網(wǎng)絡(luò)直播成為一種影像娛樂的流行模式。直播與其他各種傳統(tǒng)影視的最大區(qū)別在于,觀眾能隨時通過彈幕文本和視頻主播之間進(jìn)行實時交互,主播也同樣可以根據(jù)其受眾的直播需求進(jìn)行實時反饋——通過彈幕及時地調(diào)整自己的直播節(jié)目動態(tài)內(nèi)容并更好地通過直播取悅其受眾,以獲得更多關(guān)注。其中,演出或主持直播的主角一般稱之為“主播”或是“實況主”。彈幕則指一種用戶觀看直播的評論方式。這些評論文本從屏幕上呈現(xiàn)一閃而過的視覺效果,看上去如高速飛行的子彈一般,因而人們將其稱之為彈幕[1]。

    在對文本的情感分析中,傳統(tǒng)方法大多是基于對情感知識的認(rèn)知構(gòu)建一個情感詞典,然后以這些情感詞典為主要工具進(jìn)行分類。國內(nèi)外研究者在情感分析的研究和應(yīng)用上已取得突破性進(jìn)展,但對于彈幕文本情感分析的深入研究卻較少。最早提出情感分析字典的whissell[2],他們先招募了148 名受試者,首先使用5 個附加單詞,其中包括描述一個數(shù)學(xué)術(shù)語、物理科學(xué)術(shù)語、電視技術(shù)術(shù)語、報紙技術(shù)術(shù)語和生物學(xué)等術(shù)語,然后與其他情感詞典頻次度最高的情感字詞互相匹。Kim 等[3]利用同義詞、近義詞的關(guān)系,將一批人工標(biāo)注的初始種子情感詞作為基礎(chǔ),將與種子詞同義詞語的情感傾向設(shè)置為相同,與種子詞反義相反則設(shè)置為對應(yīng)的情感極性。上文提出的情感詞典都比較基礎(chǔ),即只對使用最為廣泛的詞如“漂亮”“好”“不行”等進(jìn)行了收集整理?;A(chǔ)情感詞典鎖覆蓋的文本有限,無法結(jié)合語境、語義分析,在情感分類性能上存在不足。有一些年份比較久遠(yuǎn)的情感詞典應(yīng)用到具有新含義情感詞的語料中時,由于受到語境遷移影響從而導(dǎo)致分類效果較差。

    在文檔和句子層次上,目前研究主要集中在基于機(jī)器學(xué)習(xí)的情感分類方法上。這種方法將預(yù)先標(biāo)記數(shù)據(jù)的情感極性作為訓(xùn)練數(shù)據(jù)[4]。根據(jù)訓(xùn)練數(shù)據(jù),對情感分類模型進(jìn)行訓(xùn)練,優(yōu)化分類精度,然后對文本進(jìn)行情感極性分類。謝鐵等[5]利用深度遞歸神經(jīng)網(wǎng)絡(luò)算法獲取句子語義信息,并引入漢語“情感訓(xùn)練樹圖數(shù)據(jù)庫”作為訓(xùn)練數(shù)據(jù),找到詞語中的情感信息;Appel 等[6]提出一種結(jié)構(gòu)混合式的句子級情感分析方法,在已有情感詞典的基礎(chǔ)上,利用自然語言處理技術(shù)對情感詞典進(jìn)行增強(qiáng),并利用模糊集估計句子的語義方向、極性和強(qiáng)度,為情感計算提供了基礎(chǔ)。這兩種方法都忽略了句子間的依存關(guān)系;Abbasi 等[7]提出一種基于語言學(xué)規(guī)則的多文本語義特征選取方法,該選取方法不但考慮了語義信息,還利用語法特征之間的相互關(guān)系,可以有效去除文本中的雜質(zhì)、無關(guān)信息和其他冗余的語義特征;黨蕾等[8]首先分析不同語法之間的相關(guān)性,然后根據(jù)語法結(jié)構(gòu)提取距離因子,并對否定模式匹配后的句子極性算法進(jìn)行改進(jìn),最后提高了句子級情感分析的準(zhǔn)確性。在分析相關(guān)基礎(chǔ)知識和語義特征的基礎(chǔ)上,Shi 等[9]提出基于隨機(jī)條件的情感信息聯(lián)合識別模型,并給出一個關(guān)于詞語情感強(qiáng)度的計算公式。他們提出的模型對于彈幕這樣的短文本評論語言適用性較差。

    盡管國內(nèi)外研究者對傳統(tǒng)文本的情感分析進(jìn)行了大量深入研究,已取得較為成熟的成果[10],但對彈幕情感的研究與分析并不多。并且,由于彈幕獨特的在線實時、語言簡略與互聯(lián)網(wǎng)化特征,現(xiàn)有方法難以直接用于彈幕情感分析。因此,采用新的方法對直播彈幕的情感進(jìn)行分析具有非常重要的實際意義與應(yīng)用價值[11]。

    已有研究中尚沒有對彈幕的特征進(jìn)行研究,也缺乏對彈幕領(lǐng)域情感詞典的完善。針對該問題,本文做了如下工作:提出一個基于改進(jìn)SVM 算法的情感分析模型;在收集處理直播網(wǎng)站在線彈幕文本后構(gòu)建一個彈幕文本語料庫,結(jié)合現(xiàn)有情感詞典構(gòu)建一個彈幕專屬情感詞典,在對優(yōu)化模型進(jìn)行實驗后實現(xiàn)分類性能提高;考慮了彈幕中能表達(dá)情感的各項特征[12]。

    1 情感分析流程

    情感強(qiáng)度評價是對情感極性的判斷,將判斷結(jié)果細(xì)分為強(qiáng)、中、弱等不同程度。文本情感分析一般過程如下:①從互聯(lián)網(wǎng)上收集和整理原始語料庫數(shù)據(jù),首先對數(shù)據(jù)進(jìn)行清理,去除非文本數(shù)據(jù),然后對文本進(jìn)行預(yù)處理[13];②根據(jù)不同的算法,對預(yù)處理后的文本數(shù)據(jù)進(jìn)行情感極性判斷和情感強(qiáng)度評價;③將情感分析過程的結(jié)果應(yīng)用到事物評價、企業(yè)經(jīng)營、政府監(jiān)管等相關(guān)領(lǐng)域,實現(xiàn)研究的意義和價值[14]。

    彈幕情感分析流程如圖1 所示,首先從直播平臺收集和整理原始語料庫數(shù)據(jù),對原始彈幕數(shù)據(jù)進(jìn)行清理,去除非文本數(shù)據(jù)形成彈幕語料庫[15],然后對文本進(jìn)行預(yù)處理。通過對語料進(jìn)行特征提取,構(gòu)建彈幕情感詞典[16]。

    Fig.1 Flow of bullet screen sentiment analysis圖1 彈幕情感分析流程

    2 彈幕數(shù)據(jù)情感分析模型

    2.1 系統(tǒng)模型

    如圖2 所示,系統(tǒng)模型由語料庫、特征工程、分類器組成。首先,原始數(shù)據(jù)由直播網(wǎng)站后臺獲取,分別經(jīng)過分詞、停用詞進(jìn)行處理,將其進(jìn)行人工分類后組成的語料庫;然后,通過特征工程提取每個W特征,轉(zhuǎn)化為,其中x為W提取的各項特征,y為W的分類結(jié)果(包含正向和負(fù)向);再經(jīng)過本文改進(jìn)的分類器進(jìn)行分類得到S{W1,W2,...,Wn},通過輸出數(shù)據(jù)優(yōu)化分類器使分類器得到更好的性能評價指標(biāo)P。因此,該模型的核心問題可以描述為:

    2.2 數(shù)據(jù)預(yù)處理

    本文選取虎牙直播網(wǎng)站的彈幕數(shù)據(jù)作為本文的語料數(shù)據(jù)來源。通過虎牙直播網(wǎng)站開放接口,使用Python 接收后臺數(shù)據(jù),并將所需直播間的彈幕文本保存在本地中。本文以虎牙的官方直播間——《英雄聯(lián)盟賽事》(https://www.huya.com/lpl)為主要數(shù)據(jù)獲取對象。經(jīng)過一段時間的實時彈幕獲取,累計得到61萬條文本。

    Fig.2 System model圖2 系統(tǒng)模型

    由于彈幕的口語化嚴(yán)重,彈幕文本往往包含大量與情感表達(dá)無關(guān)的文字。為了保證后續(xù)情感分析結(jié)果的有效性,需要進(jìn)行嚴(yán)格的文本預(yù)處理操作,以保證文本數(shù)據(jù)的標(biāo)準(zhǔn)化。對彈幕文本的預(yù)處理包括以下幾個步驟:過濾無意義文本、情感極性標(biāo)注、文本分詞和去除停止詞[17]。

    在對彈幕文本進(jìn)行分詞處理后,出現(xiàn)了大量的無意義詞。這些詞在各種漢語文本中都很豐富,但并不參與文本意義的表達(dá),這些詞被稱為停止詞。停止詞指在語篇中頻繁出現(xiàn)但對語義研究毫無意義的詞,如“和”“德”“在”“然后”,以及一些使用過于頻繁的詞,如“我”“就”“啊”“把”。此外,作為網(wǎng)絡(luò)文本,彈幕還包含一些英文、數(shù)字、表情符號和特殊符號。彈幕的口語化現(xiàn)象嚴(yán)重,因此去除停止詞也是文本預(yù)處理的一個重要步驟。本文將收集所有的停止詞,形成停止詞列表。分詞后匹配停止詞列表,過濾文本,避免分詞后過多干擾。使用for 循環(huán)遍歷seg_str,通過if 語句判斷該詞是否存在于停止詞列表中,將該詞后面的停止詞移到seg 列表的內(nèi)容中[18]。

    2.3 情感特征構(gòu)造

    在考慮特征構(gòu)造時,本文選取幾種常見的情感特征。通過組合這些特征得到最優(yōu)分類效果。其中,詞向量化是最基礎(chǔ)的工作,標(biāo)記了每個詞在訓(xùn)練文檔中的空間特征,在后文的實驗中稱為word 特征[19];情感詞典則依據(jù)情感詞進(jìn)行分類,在實驗中稱為pos(詞性)特征;依存句法分析則通過綜合算法判斷句子的情感特性,叫作dep(句法)特征。

    針對直播彈幕情感詞典缺乏的不足,為了構(gòu)造一個彈幕領(lǐng)域性詞典,本文在大連理工信息檢索研究室情感詞匯本體(Dalian University of Technology Sentiment Ontology,DUTSO)的基礎(chǔ)上,通過增加彈幕專屬情感詞的方式,構(gòu)建新的情感分析詞典。獲取新的情感詞首先要將文本數(shù)據(jù)進(jìn)行預(yù)處理,目前的預(yù)處理工作一般包含數(shù)據(jù)清洗、停用詞處理、分詞、詞性標(biāo)注、詞頻統(tǒng)計等。情感詞匯如表1所示。

    在評論語言中,情感詞和評價目標(biāo)詞之間通常存在某種修飾關(guān)系,這種修飾關(guān)系可以通過依存分析找到。依存分析通過分析詞與詞之間的依存關(guān)系,揭示句子的句法結(jié)構(gòu)。在依存句法理論中,句法結(jié)構(gòu)實質(zhì)上包含了詞與詞之間的依存(修飾)關(guān)系。依存關(guān)系可以分為不同的類型以表達(dá)句子中兩個詞之間的特定句法關(guān)系,并且用于連接主導(dǎo)詞和從屬詞。采用依存句法描述句子的好處在于不需要理解單詞本身的意思,而是通過所承載的語法關(guān)系表達(dá)單詞,而且其數(shù)量遠(yuǎn)遠(yuǎn)少于單詞數(shù)量[20]。同時,一個句子中的核心動詞是支配其他成分的中心成分,它不受自身支配,并作為句子的根節(jié)點,這樣的詞在依存關(guān)系中被記錄為“根”。當(dāng)然,非正式不完整句子中可能沒有動詞。此時,形容詞或名詞也可能成為根節(jié)點。并且,依賴于根節(jié)點,其他組件之間也存在依賴關(guān)系。除詞匯本身特征外,還需組合的情感特征如表2所示。

    Table 1 Emotional vocabulary表1 情感詞匯

    Table 2 Emotional characteristics explanation表2 情感特征示意表

    基于依存語法的方法是利用依賴語法分析提取文本的主干,然后利用其他分類方法對其進(jìn)行分類。該方法提取的主文本大多包含明顯的情感詞和情感對象,文本中沒有明顯情感詞的部分往往被忽略,但這些被忽略的部分也可能表達(dá)情感。因此,從提高文本預(yù)期利用率的角度出發(fā),考慮了其他部分的影響:利用句法依存關(guān)系提取評論句中的短語,并在此基礎(chǔ)上進(jìn)行分句[21],提取出可能表達(dá)意見的句子部分,并利用訓(xùn)練好的監(jiān)督分類模型識別意見類別類別。

    2.4 基于改進(jìn)SVM 算法的情感分類

    彈幕文本經(jīng)過特征提取,得到了一個高維空間的向量矩陣,這些數(shù)據(jù)的分類依賴于有效的分類器。在對比多個機(jī)器學(xué)習(xí)方法后,本文選取支持向量機(jī)(Support Vector Machine,SVM)算法構(gòu)建情感分類的分類器[22]。SVM 算法在面向本文所提彈幕語料庫這種數(shù)據(jù)量不大的樣本時仍然有效。其分類準(zhǔn)確率高、泛化能力強(qiáng)。假設(shè)彈幕文本訓(xùn)練資料為:

    樣本空間中任一個樣本點到超平面(ω,b)的距離可寫為:

    SVM 的優(yōu)化目標(biāo)是使r最大。正向分類滿足wTx+b>=1,負(fù)向分類滿足wTx+b<=-1。將這兩類可整理如下:

    分類問題即滿足上式條件的優(yōu)化問題,總結(jié)為:

    將情感分類模型轉(zhuǎn)化為無限制經(jīng)驗損失最小化問題,考慮到誤差問題引入Hinge Loss,l(ω,(x,y))。最小化問題的定義函數(shù)如下:

    其中,l(ω,(x,y))如下:

    使用隨機(jī)梯度下降求解目標(biāo)函數(shù)。

    為了平衡泛化與學(xué)習(xí),提高內(nèi)核函數(shù)的自適應(yīng)性,引入分類處理因子與梯度下降因子對SVM 進(jìn)行算法改進(jìn)[23]。用Smooth Loss 替換Hinge Loss,即將式l(ω,(x,y))轉(zhuǎn)化為,將問題進(jìn)一步轉(zhuǎn)化為超平面下的無約束平滑優(yōu)化問題。

    隨機(jī)選取超平面空間下的一個訓(xùn)練樣本it,其中i為某一情感特征,a為樣本活躍度即迭代次數(shù)。將式(8)轉(zhuǎn)化為式(9)。

    進(jìn)行子梯度求解,如下:

    可以看到,引入了分類處理因子與梯度下降因子后,可以得到一個降低了泛化誤差的預(yù)測器。本文將通過實驗對改進(jìn)SVM 后的情感分類模型進(jìn)行效果驗證。

    3 實驗

    3.1 實驗環(huán)境

    為了驗證本文方法的有效性,采用Pycharm 工具在Windows 平臺實現(xiàn)本文提出的彈幕情感分析算法。實驗環(huán)境如表3所示。

    Table 3 Experimental environment表3 實驗環(huán)境

    實驗所使用的語料庫為本文獲取的虎牙后臺彈幕數(shù)據(jù),這些經(jīng)過上述處理步驟,即過濾無意義文本、情感極性標(biāo)注、文本分詞和去除停止詞。原始彈幕總共有61 萬條,經(jīng)過第一步處理還有11 萬條,再從11 萬條彈幕中隨機(jī)抽取1 萬條進(jìn)行標(biāo)注,其中有明確情感傾向的數(shù)據(jù)形成數(shù)據(jù)集DTDS,部分?jǐn)?shù)據(jù)如圖3 所示。其中,有1 250 個正向語料和1 250個負(fù)向語料,共計2 500條語料。

    Fig.3 Processed corpus圖3 處理后的語料

    3.2 不同模型實驗比較

    為了比較模型好壞,實驗中加入最大熵、未改進(jìn)的SVM 算法和樸素貝葉斯算法作為比較,這3 種算法均為SKlearn 工具包提供的基本分類算法。本實驗的評價標(biāo)準(zhǔn)為準(zhǔn)確率、召回率和F1值[24]。

    實驗設(shè)置了5 組分組實驗,其中每組由250 個正向語料和250 個負(fù)向語料,4 組增量實驗各組分別由150 對、300對、450 對和600 對正負(fù)語料構(gòu)成。4 種算法實驗結(jié)果如表4所示。

    通過對比可以看出,本文提出的改進(jìn)SVM 分類器模型比未改進(jìn)模型的評價指標(biāo)(精確率、召回率、F1 值)分別高3.8%、2.3%與1.1%,而傳統(tǒng)SVM 又比樸素貝葉斯算法和最大熵算法模型高3.7%、5.3%與4.5%和5.7%、5%、5.4%。這充分表明,通過增加彈幕詞典及改進(jìn)特征組合,能有效提升在線彈幕情感分析的準(zhǔn)確性和有效性[25]。

    3.3 特征組合對性能的影響

    在機(jī)器學(xué)習(xí)分類器的訓(xùn)練算法確定為SVM 后,接下來需要選擇一定的特征組合方法,并對組合的特征進(jìn)行篩選。本文將彈幕文本特征分成單詞(word)、詞性(pos)與句法(dep),按照word、word+pos、word+dep、word+pos +dep 4 種特征組合進(jìn)行實驗,分析精確率、召回率與F1 值。不同特征組合的性能如圖4所示。

    Table 4 Comparison of experimental results of each method表4 各方法實驗結(jié)果比較

    Fig.4 Experimental results of different feature combinations in improved SVM algorithm圖4 不同特征組合在改進(jìn)SVM算法下的實驗結(jié)果

    從圖4 可以看出,加入了特征組合后,實驗效果均比單一word 特征性能更優(yōu)。僅考慮word 特征時,精確率、召回率與F1 值分別為61.47%、65.26% 與67.13%,通過增加詞性(pos),精確率與召回率分別提升到66.97%、73.41%。這充分說明特征項的增加對模型性能有顯著影響,尤其是在彈幕文本中,由于文本短以及口語化,詞性與文本情感具有明顯相關(guān)性。

    word+dep 的特征組合性能要優(yōu)于word+pos 的特征組合,精確率、召回率與F1值分別提升到70.85%、71.47%、77.93%,這表明了句子特征對于彈幕文本的有效性。其主要原因在于,彈幕具有文本短及表達(dá)簡潔的特征,僅從詞性與單詞的角度分析還不夠。而將3 組特征進(jìn)行全部結(jié)合的word+pos+dep 效果最好。word+pos+dep 在評價指標(biāo)(精確率、召回率、F1 值)上與word+pos 相比分別高4.2%、0.2%、30.9%,與word+dep 特征組合的性能相比高0.4%、2.2%與9%,其中word 特征,也即直接將語料轉(zhuǎn)化為詞向量的性能時最差,這一結(jié)果意味著短語類別分類更依賴于詞和詞之間的依存句法關(guān)系,這也驗證了本文基于改進(jìn)SVM 算法融合4項情感特征的情感分析模型的有效性。

    4 結(jié)語

    情感分析作為近年來自然語言處理的熱點之一,在熱點分析、輿情監(jiān)測和自動答疑等方面具有廣闊的應(yīng)用前景。彈幕作為一種新興的應(yīng)用,具有篇幅短、用詞口語化、網(wǎng)絡(luò)詞語和符號較多等特點,給傳統(tǒng)情感分析方法帶來了挑戰(zhàn)。本文著眼于彈幕文本情感分析,對直播彈幕與情感分析相關(guān)技術(shù)進(jìn)行了深入分析,同時分析出用戶對直播內(nèi)容的喜好程度,提高彈幕情感分析準(zhǔn)確性。

    本文針對彈幕語料庫缺乏、語言簡略及互聯(lián)網(wǎng)化特征,構(gòu)建了彈幕專屬情感詞典;針對直播彈幕語言的特性,提出了一種基于改進(jìn)SVM 的情感分析模型。通過引入分類處理因子與梯度下降因子,降低了預(yù)測器的泛化誤差。在此基礎(chǔ)上,提出了詞向量、情感詞、否定詞和標(biāo)點符號等多種融合特征的方法。通過實驗優(yōu)化調(diào)整模型參數(shù),得到適合直播彈幕的特征組合,提高了分類準(zhǔn)確度[27]。實驗結(jié)果表明,本文提出的方法在精確率、F1 值及召回率性能上更優(yōu)。同時,本文研究也存在一些不足:本文只使用了虎牙直播的彈幕文本作為實驗數(shù)據(jù),由于直播內(nèi)容的多樣性,可能不能完全說明本文情感分析模型的穩(wěn)定性和魯棒性。并且,本文提出的情感分析模型基于情感分類中的二分類方法,通過分類結(jié)果計算單位時間的情感。在實際應(yīng)用中,情感具有多樣復(fù)雜的特征,對彈幕文本進(jìn)行更加細(xì)分的多分類情感分析是下一步研究方向。

    猜你喜歡
    彈幕語料詞典
    彈幕
    HOLLOW COMFORT
    漢語世界(2021年2期)2021-04-13 02:36:18
    “彈幕”防御大師
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    一大撥彈幕正在向你襲來……
    評《現(xiàn)代漢語詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    雷波县| 金湖县| 萝北县| 铁岭市| 嘉祥县| 武鸣县| 湟中县| 扶余县| 富锦市| 桐柏县| 达孜县| 河曲县| 三河市| 从江县| 海口市| 湾仔区| 会同县| 开化县| 留坝县| 柳河县| 开封市| 综艺| 昌都县| 贵德县| 监利县| 苍山县| 察隅县| 临夏县| 屏山县| 汉中市| 宜章县| 山东| 太谷县| 年辖:市辖区| 高平市| 渭南市| 临湘市| 宁河县| 南开区| 延寿县| 弋阳县|