◆湯世松 練麗萍 賀成龍 梁增玉 李惠柯 劉蟄 高峰
(1.南京萊斯網(wǎng)信技術(shù)研究院有限公司 江蘇 210000;2.中電科新型智慧城市研究院有限公司 廣東 518000)
近年來,隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,我國(guó)網(wǎng)民人數(shù)日益增加,截止到2020 年3 月,我國(guó)的網(wǎng)民總數(shù)已經(jīng)突破9 億。諸如微信、微博等社交媒體的快速發(fā)展,使得網(wǎng)民在輿論事件中的參與度越來越高,對(duì)海量的輿情信息進(jìn)行情感傾向分析,能夠更好發(fā)現(xiàn)輿情,篩選輿情,為網(wǎng)絡(luò)輿情業(yè)務(wù)提供最基礎(chǔ)的分析能力[1-4]。
目前的情感分類分為基于情感知識(shí)的方法和基于特征學(xué)習(xí)的分類方法[5]?;谇楦兄R(shí)的方法主要是通過一些情感詞典或領(lǐng)域詞典的結(jié)合,輔以程度副詞、否定詞等形成規(guī)則,經(jīng)過規(guī)則命中和權(quán)值計(jì)算來判斷文本的極性,如圖1 所示。此類方法優(yōu)點(diǎn)是不需要標(biāo)注數(shù)據(jù),簡(jiǎn)單直觀,缺點(diǎn)是過于依賴于詞典的構(gòu)建和判斷規(guī)則的質(zhì)量,詞典的準(zhǔn)確性、全面性、新穎性直接影響到了判斷的準(zhǔn)確性。
圖1 基于情感知識(shí)的分類方法
基于特征學(xué)習(xí)的分類方法主要是使用有監(jiān)督的方法,包括機(jī)器學(xué)習(xí)和深度學(xué)習(xí),通過選取大量有意義的特征來完成文本表示,即將字符串類型的文本轉(zhuǎn)換為在數(shù)學(xué)上處理起來更為方便的向量,并最終實(shí)現(xiàn)下列分類任務(wù)。如圖2 所示。
圖2 基于特征學(xué)習(xí)的分類方法
文本表示分為離散表示和分布式表示。離散表示方法包括one-hot、TF-IDF、n-gram 等,該種表示雖然能夠進(jìn)行詞語或者文本的向量表示,進(jìn)而用模型進(jìn)行情感分析,但其不能表示詞語間的相似程度或者詞語間的類比關(guān)系,同時(shí)該種表示往往存在著數(shù)據(jù)稀疏,向量的維度過高等問題。相較于離散表示,分布式表示具有連續(xù)、低維、稠密等優(yōu)點(diǎn),同時(shí)能夠很好表達(dá)詞與詞之間的距離關(guān)系,以word2vec為代表的該類表示方法就是將詞表征為實(shí)數(shù)值向量的一種高效的算法模型,為文本數(shù)據(jù)實(shí)現(xiàn)了字詞級(jí)別更深層次的特征表示。
近年來,計(jì)算機(jī)硬件水平的不斷提升推動(dòng)了深度學(xué)習(xí)的再次興起,尤其是注意力和記憶力機(jī)制成功應(yīng)用于各類自然語言處理任務(wù),使得基于深度學(xué)習(xí)的情感分析方法能夠取得最優(yōu)的效果。該方法最大的優(yōu)勢(shì)就是不依賴人工定義特征,神經(jīng)網(wǎng)絡(luò)可以自行學(xué)習(xí)文本中蘊(yùn)含的情感信息[6]。Bert 是谷歌公司AI 團(tuán)隊(duì)在2018 年10 月發(fā)布的一種基于深度學(xué)習(xí)的新的語言表示模型,全稱為 Bidirectional Encoder Representation from Transformers,意為基于轉(zhuǎn)換器的雙向編碼表征模型,當(dāng)時(shí)它在11 種不同的自然語言處理(NLP)測(cè)試中創(chuàng)出最佳成績(jī),是NLP 領(lǐng)域最重要的進(jìn)展之一。
本文將 Bert 模型應(yīng)用于輿情領(lǐng)域,并構(gòu)建了一種基于Bert+Bi-LSTM 的網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)輿情領(lǐng)域數(shù)據(jù)情感分類,該網(wǎng)絡(luò)通過Bert 預(yù)訓(xùn)練模型將文本信息轉(zhuǎn)換為文本向量,作為雙向長(zhǎng)短記憶網(wǎng)絡(luò)的輸入并進(jìn)行深度學(xué)習(xí),實(shí)現(xiàn)情感二分類。根據(jù)初始近1.6 萬條系統(tǒng)中標(biāo)注的輿情數(shù)據(jù),采用近義詞反義詞替換、相似文本搜索等擴(kuò)充為2 萬余條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),通過對(duì)比實(shí)驗(yàn),驗(yàn)證了該方法的有效性。
本文使用的數(shù)據(jù)一部分是基于系統(tǒng)中人工標(biāo)注的近1.6萬條基本數(shù)據(jù),為了采用更多的數(shù)據(jù),分別通過實(shí)體替換、近義詞替換和相似文本搜索實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充。
如圖3 所示為實(shí)體、近反義詞替換流程。通過對(duì)已標(biāo)注的文本進(jìn)行分詞、實(shí)體識(shí)別及詞性分析。針對(duì)不同的實(shí)體類別(人物、地點(diǎn)、機(jī)構(gòu))從對(duì)應(yīng)的實(shí)體類別庫中找對(duì)替換的實(shí)體,生成新文本;針對(duì)不同的詞性,通過查找近反義詞庫進(jìn)行詞匯替換,生成新文本;最終通過原始文本標(biāo)簽與替換方式,確定最終生成的新文本的標(biāo)簽。為了保證標(biāo)簽的準(zhǔn)確性,會(huì)采用人工對(duì)數(shù)據(jù)做進(jìn)一步的核對(duì)。
圖3 近義詞、反義詞替換流程
表1 為所述樣例語料,原始語料為人工標(biāo)注語料,衍生語料為實(shí)體詞,近反義詞替換后的語料。
相似文本搜索是基于已知的數(shù)據(jù),從消息隊(duì)列中拉取的流式數(shù)據(jù)中,尋找和已知數(shù)據(jù)相似的文本。如圖4 所示為相似文本搜索擴(kuò)充數(shù)據(jù)流程圖。
圖4 相似文本搜索擴(kuò)充數(shù)據(jù)流程圖
采用word2vec 將已知的m 個(gè)已標(biāo)注數(shù)據(jù)進(jìn)行向量化,形成m×n維矩陣A,即:
其中,矩陣A 的每一行對(duì)應(yīng)一條已標(biāo)注數(shù)據(jù)的向量。對(duì)于消息隊(duì)列中的新數(shù)據(jù),采用word2vec 對(duì)其向量化,形成1×n 維向量B,即:
采用余弦相似度計(jì)算向量B 與矩陣A 中各橫向向量的相似度S,即:
λi代表新數(shù)據(jù)與已標(biāo)注的第i條數(shù)據(jù)的相似度,如果存在超過相似度閾值的λi,則新數(shù)據(jù)標(biāo)簽與第i個(gè)已標(biāo)注數(shù)據(jù)標(biāo)簽一致,否則,丟棄該條數(shù)據(jù)。由于采用word2vec 生成向量矩陣是采用將詞各個(gè)維度疊加求平均的方式,為保證準(zhǔn)確性,本文在相似度閾值滿足的同時(shí),會(huì)比對(duì)原文本和相似文本的長(zhǎng)度差,若文本長(zhǎng)度差超出一定的閾值,也不認(rèn)為相似。同時(shí)為了保證標(biāo)簽的準(zhǔn)確性,依舊會(huì)采用人工對(duì)數(shù)據(jù)做進(jìn)一步的核對(duì)。
表2 為根據(jù)相似文本搜索擴(kuò)充的數(shù)據(jù)示例。
表2 相似文本搜索擴(kuò)充的數(shù)據(jù)
Bert+Bi-LSTM 網(wǎng)絡(luò)模型主要有輸入層、Bert 層、Bi-LSTM 層、全連接和輸出層。輸入層將文本輸入到Bert 層,通過預(yù)訓(xùn)練模型得到包含上下文語義信息的向量表示,本文選取[CLS]作為Bi-LSTM 網(wǎng)絡(luò)的輸入端進(jìn)行深度學(xué)習(xí),Bi-LSTM 的輸出經(jīng)過兩層全連接層后輸出二維的數(shù)據(jù),最終使用Sigmoid 函數(shù)獲取最終的文本的情感類別。如圖5 所示為網(wǎng)絡(luò)模型結(jié)構(gòu)圖。
圖5 Bert+Bi-LSTM 網(wǎng)絡(luò)模型結(jié)構(gòu)圖[7]
本文采用了三種方式在同樣的數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn),分別是Bert+Bi-LSTM,Bert+LR,Word2Vec+Bi-LSTM。
對(duì)于Bert+Bi-LSTM 方式,Bert 采用的是Google 開源的與中文預(yù)練模型“chinese_L-12_H-768_A-12”,該預(yù)訓(xùn)練模型采用了12 層Transformer,Multi-head Attention 參數(shù)為12,輸出embedding 維度為768 維,本文采用的max_len 為128。在Bert+Bi-LSTM 中,Bi-LSTM第一層隱藏單元數(shù)為128,第二層為96,全連接層第一層輸出維度為32,第二層輸出維度為2。
對(duì)于Word2Vec+Bi-LSTM 方式,采用的是靜態(tài)Word2Vec 方式,維度為256,采用的是6G 的新聞?lì)愝浨閿?shù)據(jù)預(yù)先訓(xùn)練所得。Bi-LSTM層和后續(xù)的全連接層同Bert+Bi-LSTM 結(jié)構(gòu)一樣。
對(duì)于Bert+LR 方式,所用Bert 預(yù)訓(xùn)練模型同Bert+Bi-LSTM 一致,但僅使用[CLS]向量作為文本的輸入。
表3 為采用在三種不同的方式下,模型在測(cè)試集上的結(jié)果。
表3 不同方式下對(duì)比實(shí)驗(yàn)結(jié)果
通過對(duì)比Bert+Bi-LSTM和Word2Vec+Bi-LSTM兩種方式的結(jié)果,可以得出,Bert 與訓(xùn)練模型相較于Word2Vec,在文本表示方面更為優(yōu)秀。對(duì)比Bert+LR 和Bert+Bi-LSTM 結(jié)果可以得出,Bi-LSTM 在情感分類方面相較于傳統(tǒng)的LR 分類方法有一定的提升。因此,采用Bert+Bi-LSTM 的方式在情感分類方面具有良好的表現(xiàn),驗(yàn)證了本文模型的有效性。
本文主要研究了輿情領(lǐng)域情感研判的方法,提出了基于實(shí)體、近反義詞替換和相似文本搜索的文本語料擴(kuò)充方式,并采用了三種不同的方式進(jìn)行輿情領(lǐng)域情感研判實(shí)驗(yàn),結(jié)果表明基于Bert+Bi-LSTM 方式在輿情領(lǐng)域情感研判中效果最佳,為后續(xù)網(wǎng)絡(luò)輿情中情感的研判提供了一種有效的方法。誠(chéng)然,該方式也存在著一些不足,比如Bert和Bi-LSTM 的網(wǎng)絡(luò)的計(jì)算都較為復(fù)雜,在實(shí)際輿情監(jiān)測(cè)中呈現(xiàn)的海量數(shù)據(jù)場(chǎng)景落地具有很大挑戰(zhàn),同時(shí)相較于Bert+LR 這種接簡(jiǎn)單網(wǎng)絡(luò)的方式,Bert+Bi-LSTM 效果雖更好,但犧牲了較大的計(jì)算代價(jià),換取了有限的效果提升,在實(shí)際的工程領(lǐng)域應(yīng)用中,需要權(quán)衡性能和效果。在今后的工作中,將對(duì)這部分工作進(jìn)行研究,從性能和效果等多方面因素考慮,以期獲得在工程領(lǐng)域的落地。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2021年7期