• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的情感分析模型

    2019-10-25 02:33:14尹偉石
    復旦學報(自然科學版) 2019年5期
    關(guān)鍵詞:詞組短文卷積

    韓 濤,尹偉石,方 明

    (1.長春理工大學 理學院,長春 130022; 2.長春理工大學 計算機學院,長春 130022)

    隨著互聯(lián)網(wǎng)的日益繁榮和發(fā)展,互聯(lián)網(wǎng)上的各種短文本評論正在成爆炸式地增長,如何從社交網(wǎng)絡(luò)的文本信息中挖掘用戶的情感傾向也得到越來越多的研究人員的關(guān)注[1].在過去的研究中,為了實現(xiàn)快速更新和數(shù)量巨大的互聯(lián)網(wǎng)短文本的自動快速分類,處理該問題的傳統(tǒng)方式主要包括使用支持向量機(Support Vector Machine, SVM)[2]、樸素貝葉斯分類法(Nave Bayesian Classifier, NBC)[3]等.之后很多研究者使用機器學習(Machine Learning, ML)方法來解決文本分類問題.這類方法通過人工標注一部分數(shù)據(jù)作為訓練集,然后對訓練集上的數(shù)據(jù)進行特征提取和訓練來構(gòu)建情感分類模型,最后使用該模型來對未標注的數(shù)據(jù)進行情感預測,以此實現(xiàn)文本的情感分類[4-6].近年來,深度學習(Deep Learning, DL)已在自然語言處理(Natural Language Processing, NLP)領(lǐng)域取得了令人矚目的成功,被廣泛應用于自然語言處理任務(wù)中[7],但是傳統(tǒng)方式和應用機器學習的方式來進行情感分類現(xiàn)在無法達到比較高的正確率,尤其是對于短句或者情感極性表達不清晰的句子無法很好地給出其情感分類.在國外,由于科技條件的進步以及淺層的機器學習技術(shù)比較成熟,因此深度學習的方法更多地被用來進行自然語言處理[8-11].在最近的機器學習挑戰(zhàn)中XGBoost的有效性和效率得到體現(xiàn),例如: 2015數(shù)據(jù)挖掘和知識發(fā)現(xiàn)競賽中,XGBoost被前10名中的每個團隊使用.

    本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和XGBoost的模型來解決短文本語句、情感極性表達不清晰的語句和長文本語句中部分語句的情感分類問題,該模型通過卷積神經(jīng)網(wǎng)絡(luò)可以獲得使句子更加抽象的特征,其卷積核的設(shè)定可以使本文模型更好地得到句子中詞組前后之間的關(guān)系,應用XGBoost模型將本文通過卷積神經(jīng)網(wǎng)絡(luò)得到的抽象特征進行分類,以此解決短文本情感分析準確率不高的問題.

    1 模型描述

    為了更好地利用文本中的詞語信息和情感信息,本文基于卷積神經(jīng)網(wǎng)絡(luò)提出一種結(jié)合XGBoost的卷積神經(jīng)網(wǎng)絡(luò)模型XGB-CNN,該模型能夠有效地將卷積神經(jīng)網(wǎng)絡(luò)的特征提取與XGBoost模型的分類結(jié)合,從而提高模型的分類效果.

    本文提出的二分類情感分析XGB-CNN模型整體框架根據(jù)功能劃分為3部分: 數(shù)據(jù)預處理,特征提取和回歸分析.

    1.1 數(shù)據(jù)預處理

    在數(shù)據(jù)預處理階段,本文將文字與詞向量進行映射處理,使得數(shù)據(jù)集中的文本轉(zhuǎn)化為向量形式輸入模型,每一個詞向量列都代表數(shù)據(jù)集中的一個樣本.假設(shè)詞向量模型中包含的元素有N個,每一個單詞的表示為D維,則K:S→W是一個將文本轉(zhuǎn)化為向量的算子,S為詞組序列空間,W∈RD?N為詞向量空間,我們有v=Ks,其中:s是一個由詞組構(gòu)成的列表;v∈RD?N是一個的D維向量.在本文的模型中采用word2vec模型來構(gòu)建詞向量.將文本序列中詞組對應的詞向量依次拼接起來,就得到整個文本序列的詞向量表示矩陣:

    V=v1⊕v2⊕…⊕vn,

    其中: ⊕表示行向量方向的拼接操作;vn為詞組的詞向量表示.數(shù)據(jù)集每個數(shù)據(jù)的長度不同使得V的維度不同,為了保持維度一致和減小運算損耗,我們?nèi)≡~組個數(shù)d為V的行向量維數(shù),最后得到V是一個維數(shù)為D?d的矩陣.

    1.2 特征提取

    對數(shù)據(jù)集的特征表示V執(zhí)行卷積操作,可以在指定窗口內(nèi)完成數(shù)據(jù)集文本的語義融合,保留詞與詞之間的聯(lián)系.對長度為h的卷積窗口,輸入矩陣的卷積操作為

    ci=f(w×vi: i+h+b),

    其中⊕表示對2個關(guān)鍵特征的拼接操作.本文在卷積訓練時通過一個softmax函數(shù)來輸出分類結(jié)果:

    y=softmax(WX+B),

    其中:X為下采樣層輸出;W∈Rm×D為全連接層的權(quán)重矩陣;B為全連接層的偏置矩陣.本文使用反向傳播算法來訓練模型,通過最小化交叉熵來優(yōu)化模型,交叉熵代價函數(shù)為

    1.3 回歸分析

    2 實驗與分析

    本文在2個不同類的數(shù)據(jù)集上進行實驗,通過和現(xiàn)在研究中取得最好效果的模型進行對比實驗,來驗證本文提出的XGB-CNN模型在特定目標情感分析任務(wù)中的有效性.

    2.1 實驗數(shù)據(jù)

    表1 CNN模型的超參數(shù)

    表2 XGBoost模型的超參數(shù)

    本文使用的數(shù)據(jù)來自于中國科學院計算技術(shù)研究所譚松波教授提供的中文情感挖掘語料,語料分為賓館、水果類.數(shù)據(jù)集為平衡數(shù)據(jù),每一種語料分為正負類各5000篇,共20000篇.本文采用jieba分詞工具對中文語料進行分詞處理,默認使用隱馬爾可夫模型(Hidden Markov Model, HMM)方式識別新詞.詞向量采用python環(huán)境下的Gensim包對數(shù)據(jù)集進行訓練,得到的詞向量維數(shù)為256維.數(shù)據(jù)集構(gòu)成為百度百科,搜狐新聞和微信公眾號內(nèi)容隨機扒取的文章,保證了訓練得到的單詞的廣泛性,數(shù)據(jù)中剔除了所有非中文字符和副詞.

    2.2 參數(shù)設(shè)置

    為了獲取數(shù)據(jù)集中文本的豐富的特征參數(shù),本文在CNN中使用單窗口、多卷積核對輸入的數(shù)據(jù)集進行卷積操作,同時為了防止過擬合化,本文在CNN模型訓練時使用了dropout機制并且在權(quán)重更新時加入了L2正則化限制,使用的參數(shù)如表1所示.在進行回歸分析時,本文采用的是基于樹的模型,同時為了防止過擬合化,在權(quán)重更新時采用L2正則化限制,同時在樹的構(gòu)造方面降低樹的深度,使用的參數(shù)如表2所示.

    2.3 結(jié)果分析

    本文使用CNN模型和基于長短期記憶(Long Short-Term Memory, LSTM)的時間遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)模型(用LSTM表示)、XGB-CNN模型在賓館和水果類的數(shù)據(jù)集上進行二分類對比實驗,來驗證本文提出模型的有效性.因為本文采用的數(shù)據(jù)集為平衡數(shù)據(jù)集,因此本文采用正確率(r正確)來刻畫模型的優(yōu)劣,實驗結(jié)果如圖1所示.

    圖1 不同模型的二分類實驗結(jié)果對比Fig.1 Comparison of two-class experimental results of different models

    由圖1所示的實驗結(jié)果可以看出,XGB-CNN模型在2個數(shù)據(jù)集上都取得了比其他網(wǎng)絡(luò)模型更好的分類效果,在分類效果最好的水果類,XGB-CNN模型正確率比CNN模型提高了11.4%,達到了98.4%,驗證了XGB-CNN模型的有效性.沒有采用XGBoost模型進行回歸分析的CNN和LSTM模型的分類效果都不是很理想,在分類效果最好的水果類的平均正確率也只有87%和88.5%.而采用XGBoost模型進行回歸分析的XGB-CNN模型在水果類的平均正確率提高了10%以上,主要原因是CNN和LSTM模型采用softmax來進行分類,其不能很好地進行分類,采用XGBoost模型進行分類的XGB-CNN模型對目標函數(shù)的二階泰勒展開式作近似、定義了樹的復雜度并應用到目標函數(shù)中的方法提高了模型的分類精度.

    由于互聯(lián)網(wǎng)上的評論具有文本較短的特征,因此有必要對短文本的數(shù)據(jù)集進行研究.本文對于短文本數(shù)據(jù)集中不同的文本長度與模型的正確率進行了研究.由圖2可以看到在水果類的數(shù)據(jù)集中詞組個數(shù)的分布情況,水果類的數(shù)據(jù)集中文本長度(l)在10個詞組以下的短文本數(shù)據(jù)占到了整個數(shù)據(jù)集的50%以上,因此水果類的數(shù)據(jù)集可以較為準確的體現(xiàn)出互聯(lián)網(wǎng)上評論的短文本特征.

    由圖3可以看到XGB-CNN模型在水果類的數(shù)據(jù)集上的平均準確率達到了98.22%,比其他模型的平均準確率提高了10%以上,同時隨著文本長度的變化,XGB-CNN模型在準確率上呈現(xiàn)線性相關(guān),但是斜率很小,說明文本長度的變化對于XGB-CNN模型準確率的影響不大.圖3中,在長度為10個的文本長度上XGB-CNN模型的準確率有一定的回升,這是因為水果類數(shù)據(jù)集在5~10個詞組的長度上占比很高,由此可以得出XGB-CNN模型在短文本情感分析方面較其他模型有明顯的優(yōu)勢的結(jié)論.

    圖2 水果類的數(shù)據(jù)集的數(shù)據(jù)文本長度的分布Fig.2 Distribution of text length in fruit data sets

    圖3 不同文本長度數(shù)據(jù)的二分類結(jié)果Fig.3 Bi-categorization results of data with different text lengths

    互聯(lián)網(wǎng)數(shù)據(jù)中除評論具有短文本的特點外,在其他的場景中也會有長文本的出現(xiàn),本文采用賓館類的數(shù)據(jù)集來體現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)中長文本數(shù)據(jù)的特征.賓館類的數(shù)據(jù)集的文本詞組長度分布如圖4所示,文本長度在5到70個詞組之間廣泛分布可以很好地反應現(xiàn)實情況中互聯(lián)網(wǎng)文本數(shù)據(jù)長短不一、短文本占大多數(shù)、長文本占少數(shù)的特點.

    由圖5可以看出XGB-CNN模型的準確率與數(shù)據(jù)變量具有線性正相關(guān),說明XGB-CNN模型在缺少數(shù)據(jù)的情況下仍可以很好地分辨數(shù)據(jù)的情感極向,對長文本XGB-CNN模型使用其小部分內(nèi)容就可以將文本的情感極向表示出來,從而在模型的文本長度閾值較小時仍能夠獲得很好的準確率.

    圖4 賓館類數(shù)據(jù)集的文本詞組長度分布Fig.4 Length distribution of text phrases in hotels data sets

    圖5 不同長度的文本的二分類結(jié)果Fig.5 Bi-categorization of text with different lengths

    表3 不同模型完成1次迭代的訓練時間

    表3為CNN、LSTM和XGB-CNN模型單次迭代所花費的時間.由結(jié)果可以看出,在相同的環(huán)境下LSTM模型的訓練時間遠遠高于CNN的訓練時間,在賓館類的數(shù)據(jù)集上,LSTM模型完成1次迭代的訓練時間為20.000s,幾乎是CNN模型(1次迭代時間為6.000s)的3倍多.這主要是因為LSTM模型接收的是序列化輸入,所以訓練時間高于接收并行化輸入的CNN模型.XGB-CNN模型先使用CNN進行特征提取,之后再使用XGBoost進行分類,在運行時間上本文模型的運行時間僅比CNN的時間多0.038s,主要是由于XGBoost的并行運算模式極大地降低了模型的運行時間.相對于XGB-CNN模型精確度的提升,XGB-CNN模型較CNN模型運行時間的提升可以忽略不計.

    3 結(jié) 語

    本文提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的XGB-CNN模型來解決短文本情感分析中的問題.通過與CNN和LSTM模型進行對比實驗,驗證了XGB-CNN模型的有效性.在短文本的情感分析中,往往存在不能很好地識別短文本的情感極向和長文本的部分文本進行情感分析準確率不高的問題,本文提出的XGB-CNN模型首先使用CNN提取文本的特征值,之后再使用XGBoost進行分類.試驗結(jié)果表明: 在分類效果最好的水果類的數(shù)據(jù)集上的二分類實驗的平均準確率為98.22%,相比于以往的模型提升了10%以上,驗證了本文提出的XGB-CNN模型在短文本的情感分析中的有效性.

    猜你喜歡
    詞組短文卷積
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    KEYS
    Keys
    基于傅里葉域卷積表示的目標跟蹤算法
    副詞和副詞詞組
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    短文改錯
    短文改錯
    壶关县| 普陀区| 荔浦县| 平度市| 斗六市| 崇左市| 穆棱市| 扬中市| 崇明县| 东阳市| 朝阳市| 临泉县| 萍乡市| 桐乡市| 宁晋县| 南阳市| 博罗县| 扎赉特旗| 平山县| 田阳县| 澄迈县| 西乡县| 六盘水市| 秭归县| 志丹县| 平原县| 罗田县| 玉山县| 灵武市| 濮阳市| 南平市| 四子王旗| 达日县| 宜黄县| 凯里市| 侯马市| 长泰县| 莆田市| 封开县| 湘乡市| 肃宁县|