• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行評論文本分析

    2020-09-04 07:56:20張益茗朱振宇劉恩彤張瀟予
    科學(xué)技術(shù)創(chuàng)新 2020年26期
    關(guān)鍵詞:準(zhǔn)確率權(quán)重神經(jīng)網(wǎng)絡(luò)

    張益茗 朱振宇 劉恩彤 張瀟予

    (1、東北電力大學(xué) 計(jì)算機(jī)學(xué)院,吉林 吉林132012 2、哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,黑龍江 哈爾濱150000 3、中央財(cái)經(jīng)大學(xué) 金融學(xué)院,北京100081)

    1 Word2vec 詞嵌入技術(shù)原理

    自然語言指的是自然地隨文化演化的語言,并形成了一個(gè)能夠表達(dá)復(fù)雜含義的系統(tǒng)。在這個(gè)系統(tǒng)中,詞或子是語義的基本單元。在NLP 領(lǐng)域,人們使用詞向量來表征詞的特征向量,而詞嵌入技術(shù)即是將詞映射到實(shí)數(shù)域向量的技術(shù)。

    假設(shè)一套自然語言系統(tǒng)中不同詞的數(shù)量為N,則每一個(gè)詞都和一個(gè)0~N-1 之間的整數(shù)一一對應(yīng),記為詞的索引。為構(gòu)建詞的獨(dú)熱編碼向量,我們構(gòu)建一個(gè)長度為N 的全0 向量,并將索引為i 的詞的第i 位置1(i 是0~N-1 之間的整數(shù)),使得每個(gè)詞和一個(gè)長度為N 的向量一一對應(yīng)。

    訓(xùn)練詞嵌入模型的目標(biāo)是獲取目標(biāo)本文中的周圍單詞的有用的單詞表示。即給定一系列訓(xùn)練單詞w1,w2......,wT,其目標(biāo)函數(shù)如公式(1)所示。

    其中c 表示訓(xùn)練上下文的大小,一般而言,c 越大訓(xùn)練效果越好,但是相應(yīng)的訓(xùn)練時(shí)間越長。

    2 長短期記憶神經(jīng)網(wǎng)絡(luò)原理

    長短期神經(jīng)網(wǎng)絡(luò)(LSTM):

    長短期神經(jīng)網(wǎng)絡(luò)(LSTM)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的一種,它能夠從之前的階段中記住值以供未來使用。在深入了解LSTM以前,我們需要先簡單討論一下神經(jīng)網(wǎng)絡(luò)的概況。

    (1)人工神經(jīng)網(wǎng)絡(luò)

    一個(gè)神經(jīng)網(wǎng)絡(luò)至少包含三層,分別為:輸入層、隱藏層和輸出層。數(shù)據(jù)集中特征的數(shù)量決定了輸入層中的維度或者節(jié)點(diǎn)數(shù)量,這些節(jié)點(diǎn)通過叫做“突觸”的鏈接和隱藏層中創(chuàng)建的節(jié)點(diǎn)相連。對于每個(gè)輸入層的節(jié)點(diǎn),每個(gè)鏈接都帶著一些權(quán)重。這些權(quán)重主要是用來決定哪些輸入或信號可能通過或不通過,同時(shí)這些權(quán)重也體現(xiàn)了隱藏層的強(qiáng)度或程度。一個(gè)神經(jīng)網(wǎng)絡(luò)主要是通過調(diào)整各個(gè)突觸的權(quán)重來進(jìn)行學(xué)習(xí)。

    (2)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)

    遞歸神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個(gè)特例,其目標(biāo)是預(yù)測下一步相對于序列中觀察到的先前步驟,背后的思想是利用連續(xù)觀測并從早期階段學(xué)習(xí)來預(yù)測未來趨勢。因此,在猜測下一步時(shí),需要記住早期階段的數(shù)據(jù)。

    遞歸神經(jīng)網(wǎng)絡(luò)的另一大特點(diǎn)是權(quán)重值共享。在RNNs 中,隱藏層充當(dāng)內(nèi)部存儲器,用于存儲在讀取順序數(shù)據(jù)的早期階段捕獲的信息。而稱之為“遞歸”(Recurrent)是因?yàn)樗鼈儗π蛄械拿總€(gè)元素執(zhí)行相同的任務(wù),并具有利用先前捕獲的信息預(yù)測未來看不見的連續(xù)數(shù)據(jù)的特征。具體的向前傳播公式如下:

    其中,W1,W2,W3 是神經(jīng)網(wǎng)絡(luò)的三組參數(shù),分別表示輸入層和隱藏層間的連接權(quán)重、上一時(shí)刻隱藏層與下一時(shí)刻隱藏層間的連接權(quán)重,以及隱藏層和輸出層之間的連接權(quán)重。a 則表示匯集計(jì)算的值,b 表示激活函數(shù)計(jì)算出來的值,w 是節(jié)點(diǎn)間的連接權(quán)重,t 表示時(shí)刻,h 下標(biāo)表示隱藏層,k 下標(biāo)表述輸入層。公式(2)表示隱藏層神經(jīng)元的匯集計(jì)算,其中其意項(xiàng)是輸入層傳入的數(shù)據(jù),第二項(xiàng)則表示上一時(shí)刻的隱藏層的輸出對當(dāng)前時(shí)刻造成的影響。這一個(gè)公式是遞歸神經(jīng)網(wǎng)絡(luò)的核心,在其訓(xùn)練的算法中也有體現(xiàn)。公式(3)表示隱藏層向輸出層傳送的值,公式(4)表示輸出層的匯集計(jì)算,這兩部分和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)沒有差異。

    總之,遞歸神經(jīng)網(wǎng)絡(luò)可以通過反向傳回權(quán)重信息來進(jìn)一步訓(xùn)練網(wǎng)絡(luò),從而獲得更好的模型。但是,一般的RNN 網(wǎng)絡(luò)只記得序列中的幾個(gè)早期步驟,而不適合記憶更長的數(shù)據(jù)序列,這個(gè)問題會在下面介紹長期短期記憶循環(huán)網(wǎng)絡(luò)時(shí),使用“存儲線”進(jìn)行解決。

    (3)長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)

    長短期記憶網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò),具有記憶數(shù)據(jù)序列的功能。它可以通過一些伴隨著一條記憶線的門來實(shí)現(xiàn)對數(shù)據(jù)早期趨勢的記憶。

    每個(gè)LSTM都是一套單元或系統(tǒng)模塊,并捕獲其中經(jīng)過的數(shù)據(jù)流。這些單元類似于一條輸送線,從一個(gè)模塊連接到另一個(gè)模塊,傳送過去的數(shù)據(jù)并收集當(dāng)前的數(shù)據(jù)。由于在每個(gè)單元中都使用的了一些門,所以可以對每個(gè)單元中的數(shù)據(jù)進(jìn)行處理、過濾或添加到下一個(gè)單元。因此,這些門基于sigmoid 函數(shù)的神經(jīng)網(wǎng)絡(luò)層,可以使得這些單元能夠選擇性地允許數(shù)據(jù)通過或處理數(shù)據(jù)。

    3 實(shí)驗(yàn)

    【數(shù)據(jù)來源】本文使用斯坦福大學(xué)提供的大規(guī)模電影評論數(shù)據(jù)集(Stanford's Large Movie Review Dataset,IMDb)[3],它包含了電影評論網(wǎng)站IMDB 中的50000 余條評論,其中每部電影下的評論不超過30 條,且標(biāo)記為“正面情感”和“負(fù)面情感”的評論數(shù)相等。因此,對評論進(jìn)行隨機(jī)情感分析,準(zhǔn)確率被為50%。該數(shù)據(jù)集排除了中性評價(jià),即其中的評論全部是情感高度兩極化的??偡譃?0 分,負(fù)面評價(jià)的分?jǐn)?shù)小于等于4 分,正面評價(jià)的分?jǐn)?shù)大于等于7 分。實(shí)驗(yàn)中,我們?nèi)∑渲幸话霝橛?xùn)練集,另一半為測試集。

    【構(gòu)建LSTM訓(xùn)練網(wǎng)絡(luò)】本文利用Keras 擴(kuò)展庫搭建LSTM結(jié)構(gòu)。Keras 是一個(gè)Python 深度學(xué)習(xí)框架,可以方便地定義和訓(xùn)練幾乎所有類型的深度學(xué)習(xí)模型,且具有用戶友好的API,可以快速開發(fā)深度學(xué)習(xí)模型的原型。Keras 的主要模型是Sequential(),用戶可以通過調(diào)用add()去便捷地堆疊自己需要的網(wǎng)絡(luò)層,進(jìn)而構(gòu)成一個(gè)整體的模型。

    具體的結(jié)構(gòu)如下:

    第一層:利用word2vec 技術(shù)將詞語映射成128 維向量,進(jìn)行特征提取。

    第二層:LSTM模塊。具體步驟為:首先,將提取的特征放入輸入單元,再將數(shù)據(jù)流從輸入單元送入隱藏單元,同時(shí)將另一條數(shù)據(jù)流從隱藏單元送到輸出單元。隱藏單元即神經(jīng)網(wǎng)絡(luò)的記憶單元。對一個(gè)隱藏單元,使用xt表示第t 步的輸入,則目前單元的激活值s=f(Uxt+Wst-1)。其中,f 表示激活函數(shù),本實(shí)驗(yàn)中使用ReLU。第t 步的輸出經(jīng)softmax 層計(jì)算得到。

    本文的模型訓(xùn)練過程以及預(yù)測過程可以概括為:

    (1)提取相關(guān)數(shù)據(jù)的特征向量,獲得訓(xùn)練數(shù)據(jù)。

    (2)將訓(xùn)練集中的數(shù)據(jù)分批次輸入到設(shè)定好的模型中,不斷更新網(wǎng)絡(luò)機(jī)構(gòu)中各個(gè)節(jié)點(diǎn)之間的連接權(quán)重,以最小化損失函數(shù)的值為目標(biāo)來盡可能降低真實(shí)值和擬合值之間的誤差,從而學(xué)習(xí)到輸入變量和輸出變量間的非線性特征。

    (3)保存訓(xùn)練好的模型參數(shù),將測試集中的數(shù)據(jù)輸入到完成訓(xùn)練的模型中,得出相應(yīng)的預(yù)測值,并于測試集中真實(shí)標(biāo)注的結(jié)果進(jìn)行比對,得到準(zhǔn)確率。

    具體的參數(shù)如表1 所示:

    表1 LSTM 電影評論文本LSTM 情感分析模型的參數(shù)

    【實(shí)驗(yàn)結(jié)果】本文按照上一章所述流程搭建了評估電影評論文本數(shù)據(jù)的LSTM模型,共迭代600 次,實(shí)驗(yàn)結(jié)果如下表2 所示:

    表2 給出了本文實(shí)驗(yàn)結(jié)果,以及在特定迭代步驟下的LSTM 模型訓(xùn)練損失值、訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率,可以看出。LSTM模型在600 次迭代內(nèi)的最高準(zhǔn)確率為86.97%,且訓(xùn)練損失和訓(xùn)練準(zhǔn)確率始終保持在正常值,說明LSTM模型有效避免了過擬合和梯度消失的問題。

    表2

    4 結(jié)論

    本文首先介紹了文本分析研究的背景以及相關(guān)的研究,接著介紹了詞嵌入技術(shù)和LSTM的原理,接下來基于大規(guī)模電影評論文本進(jìn)行基于LSTM模型的情感分析實(shí)驗(yàn),從實(shí)證的角度體現(xiàn)了LSTM網(wǎng)絡(luò)在情感分析問題中的可行性和有效性,對未來深入文本分析研究和情感評估具有一定的指導(dǎo)意義。

    猜你喜歡
    準(zhǔn)確率權(quán)重神經(jīng)網(wǎng)絡(luò)
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    權(quán)重常思“浮名輕”
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
    為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
    基于公約式權(quán)重的截短線性分組碼盲識別方法
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    石家庄市| 安阳县| 开封市| 盖州市| 凤山市| 昭通市| 林芝县| 庆城县| 龙海市| 哈尔滨市| 安仁县| 定安县| 平度市| 汽车| 本溪| 嘉鱼县| 措美县| 寻乌县| 昌吉市| 平阴县| 泰兴市| 洛浦县| 梧州市| 柳州市| 揭西县| 禹城市| 迭部县| 黑山县| 安康市| 阜城县| 陆川县| 廊坊市| 临江市| 西吉县| 宁陕县| 芜湖市| 陇川县| 彭州市| 瑞丽市| 珲春市| 阿克|