• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于內(nèi)容生成與特征提取的圖像情感識別模型研究

      2023-09-06 01:00:52
      系統(tǒng)仿真技術(shù) 2023年2期
      關(guān)鍵詞:分析模型集上正確率

      尹 朝

      (廣州華商學院,廣東 廣州510000)

      圖像情感分析是挖掘情感信息的重要方式。根據(jù)圖像情感分析結(jié)果,可實現(xiàn)從不同角度刻畫人類情感變化,輔助人類進行推理、創(chuàng)造、決策等活動,創(chuàng)造更大的經(jīng)濟效益和社會效益。因此,對圖像情感進行分析具有重要的意義。目前,常用的圖像情感分析方法是從圖像模態(tài)對圖像情感進行分析,如楊松等[1]提出一種基于底層特征和注意力機制的圖像情感分類模型:Featurs Net模型,通過充分融合圖像的CLAHE 顏色特征和Laplacian 紋理特征,并將其作為模型輸入,同時引入CBAM 注意力機制對圖像重點區(qū)域進行關(guān)注,實現(xiàn)了藝術(shù)圖像情感分析。該模型在藝術(shù)圖像數(shù)據(jù)集上的圖像情感分析準確率可達到93%,具有良好的實用性;李志義等[2]利用改進的卷積網(wǎng)絡模型對圖像的顏色和紋理特征進行訓練,可實現(xiàn)對圖像情感特征的自動抽取,為圖像情感分析奠定了基礎;Jayanthi 等[3]通過綜合考慮人臉靜態(tài)圖像和語音調(diào)制情況,采用深度分類器融合方法,提出一種靜態(tài)圖像情感識別方法,可有效識別圖像情感,識別準確率達到91.49%。通過上述研究可以發(fā)現(xiàn),目前圖像情感分析方法主要集中在從圖像模態(tài)進行圖像情感分析,而圖像實際上包含了多種模態(tài)信息,除了圖像模態(tài)信息,還包括文本模態(tài)信息,但目前從文本模態(tài)上分析圖像情感的研究少于從圖像模態(tài)分析圖像情感的研究。因此,本研究提出一種針對圖像文本的情感分析方法,利用圖像內(nèi)容生成模型獲取圖像并生成描述圖像的文本內(nèi)容,然后采用BERT (Bidirectional encoder representation from transformer)模型提取文本內(nèi)容特征,接著利用SR 樣本精選模型對BERT 模型提取的特征進行精選,獲取高質(zhì)量的樣本BERT 特征,最后利用分類模型進行圖像情感分析。

      1 基本算法

      1.1 圖像內(nèi)容生成模型

      圖像內(nèi)容生成是將圖像轉(zhuǎn)化為一段描述性文字的過程。其主要通過提取圖像特征,并利用卷積神經(jīng)網(wǎng)絡尋找可能存在的目標,再利用相應的規(guī)則將目標生成圖像內(nèi)容,實現(xiàn)對圖像的文字描述。本研究選用基于注意力機制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容[4]。其主要由編碼器和解碼器構(gòu)成,基本結(jié)構(gòu)如圖1所示。其中解碼器利用LSTM 網(wǎng)絡生成描述文本。此外,為確保所有特征向量子集均來自圖像關(guān)鍵區(qū)域,引入注意力機制分配圖像中的語義權(quán)重。

      圖1 基于注意力機制的圖像內(nèi)容生成模型Fig.1 Image content generation model based on attention mechanism

      1.2 BERT模型

      BERT 模型的基本結(jié)構(gòu)如圖2 所示,基模型為Transformer 模型的編碼器,通過多頭自注意力機制進行文本表示[5]。圖2 中,E1~EN表示文本向量化,Trm為Transformer模型編碼器結(jié)構(gòu),TN表示輸出。

      Transformer 模型編碼器結(jié)構(gòu)如圖3 所示,包括兩層殘差&歸一化層,以及前饋網(wǎng)絡、多頭自注意力層、輸入層,可實現(xiàn)不同任務并行處理[6]。

      圖3 Transformer編碼器結(jié)構(gòu)示意圖Fig.3 Structural diagram of transformer encoder

      2 圖像情感分析模型構(gòu)建

      本研究提出的圖像情感分析,其核心思路是利用圖像內(nèi)容生成模型生成描述圖像的文本內(nèi)容,再采用BERT 模型提取文本內(nèi)容特征;然后利用樣本精選方法對BERT提取的特征進行精選,獲取高質(zhì)量的BERT特征;最后利用分類器對圖像情感進行分類,實現(xiàn)情感分析。其中,本研究使用的圖像內(nèi)容生成模型則采用事先在COCO數(shù)據(jù)集上預訓練好的模型。

      2.1 基于BERT的圖像內(nèi)容文本特征提取

      BERT 的圖像內(nèi)容文本特征提取采用COCO 訓練集上預訓練好的BERT-base 和BERT-wwm 語言模型[7-8]。其中,BERT-base 的特征提取采用的是12 個Transformer 編碼塊;BERT-wwm 特征為全詞MASK 特征,是指一個完整的句子被分為若干個子詞,而在進行樣本訓練時,這些子詞又被隨機MASK。BERT 的圖像內(nèi)容特征提取流程如圖4所示。

      圖4 BERT模型提取圖像內(nèi)容特征Fig. 4 Image content features extracted by BERT model

      2.2 BERT樣本特征精選

      為提高圖像情感分析的準確性,在2.1 節(jié)圖像文本內(nèi)容特征提取的前提下,參考武晉鵬[9]的精選算法,對BERT 樣本特征進行精選,便于從原始圖像數(shù)據(jù)集中獲取高質(zhì)量的圖像樣本,具體步驟為:

      (1)輸入多個圖像數(shù)據(jù)集,以D1和D22個圖像數(shù)據(jù)集為例。假設D1數(shù)據(jù)集中圖像樣本質(zhì)量低于D2數(shù)據(jù)集中圖像樣本質(zhì)量,且D1包含D2數(shù)據(jù)集,則從D1中刪除D2中全部圖像樣本,得到D1-2數(shù)據(jù)集,稱為候選數(shù)據(jù);

      (2)采用一組分類器對D2數(shù)據(jù)集進行預測。為避免數(shù)據(jù)集中的內(nèi)容存在歧義,使用9 種不同分類器進行預測,并通過軟投票方式對D2數(shù)據(jù)集中的每個圖像進行預測;

      (3)利用D2 數(shù)據(jù)集訓練模型,并對D1-2 候選數(shù)據(jù)集進行測試,即可從候選數(shù)據(jù)集中精選出良好的圖像樣本,標記為Dsr,表示樣本精選;

      (4)最后,將Dsr 與D2 數(shù)據(jù)集進行合并,即可得到高質(zhì)量的圖像樣本。

      2.3 圖像情感分析模型構(gòu)建

      在圖像文本特征提取和精選的背景下,構(gòu)建一個多分類器的圖像情感分析模型,具體如圖5所示。

      圖5 多分類器的圖像情感分析Fig. 5 Image emotion analysis based on multiple classifiers

      在圖像情感分析中,由于采用多個分類器,因此可通過枚舉實驗對圖像樣本的情感進行分類,如2 個分類器的分類結(jié)果與標簽一致,則標記為2;3 個分類器的分類結(jié)果與標簽一致,則標記為3,以此類推。最后,利用最優(yōu)分類器組合實現(xiàn)圖像情感的分類。

      3 仿真實驗

      3.1 實驗環(huán)境搭建

      本次實驗在Linux Ubuntu 操作系統(tǒng)上進行,在MATLAB R2018b、Python3.7 軟件和Tensorflow 深度學習框架上實現(xiàn)。系統(tǒng)配置I7-10700 CPU,2080TI GPU。

      3.2 數(shù)據(jù)來源及預處理

      本次實驗數(shù)據(jù)集來自AMT 公司標注的圖像情感分析數(shù)據(jù)集:Twitter1 數(shù)據(jù)集和FI 數(shù)據(jù)集。其中,Twitter1數(shù)據(jù)集為二分類數(shù)據(jù)集,包括正面和負面情感2 個類別,由5 名AMT 員工進行情感極性標注分類。其中,正面情感類別中含有圖像共769 張,負面情感中含有圖像500張。每張圖像的情感極性標注包括3種,分別是“全部同意”、“至少4 人同意”和“至少3 人同意”,分別包括581張、689張、769張圖像。

      FI數(shù)據(jù)集是多分類數(shù)據(jù)集,包括生氣、娛樂、敬畏、滿足、厭惡、興奮、恐懼、悲傷8 個情感標簽,分別包括1266 張、4942 張、3151 張、5374 張、1685 張、2963 張、1032 張、2922 張圖像。每張圖像的情感極性標注與Twitter1 數(shù)據(jù)集的標注相同,分別包括5238 張、12644張、21508張圖像[10]。

      3.3 評價指標

      本次實驗選用正確率(Acc)評估模型識別性能,并在計算正確率的基礎上,分別計算分類器的平均正確率(FAcc)和特征的平均正確率(TFAcc)。以上計算公式為[11]

      上式中,TP表示分類正確的陽性樣本數(shù);TN表示分類正確的陰性樣本數(shù);FP表示分類錯誤的陽性樣本數(shù);FN表示分類錯誤的陰性樣本數(shù);Nclassifier為分類器數(shù)量;Nfeature為特征數(shù)量。

      3.4 結(jié)果與分析

      3.4.1 基于BERT特征的圖像情感分析

      為比較不同特征提取及分類器的圖像情感分析結(jié)果,聯(lián)合KNN、SVM、GBDT、LR、RF、DT、NB、Ada 等8種分類器在Twitter1 和FI 數(shù)據(jù)集上進行分析,結(jié)果如圖6 所示。由圖6(a)可知,BERT-wwm 特征在Twitter1數(shù)據(jù)集上的平均正確率最高,達到72%,在FI數(shù)據(jù)集上的平均正確率也較高,為64%;由圖6(b)可知,LR分類器在Twitter1數(shù)據(jù)集上和FI數(shù)據(jù)集上的平均正確率最高,分別達74.2%和59.1%。DT分類器在Twitter1數(shù)據(jù)集和FI 數(shù)據(jù)集上的平均正確率最低,約為65.0%和47.3%。由此說明,BERT-wwm特征的圖像情感分析準確率最高,選擇BERT-wwm的特征提取方法較為合適。

      圖6 不同特征在不同分類器下的平均準確率Fig. 6 Average accuracy of different features under different classifiers

      為更形象地區(qū)別BERT-wwm 和BERT-base 2 種特征提取下的分類差異,利用t-SNE 技術(shù)對樣本特征的分類進行可視化,結(jié)果如圖7 所示。由圖7 可知,BERT-base 和BERT-wwm 的樣本特征分布都較為集中,但BERT-wwm 特征分布更緊密些。因此,進一步說明選用BERT-wwm特征的合理性。

      圖7 不同特征可視化結(jié)果Fig.7 Visualization results of different features

      3.4.2 基于內(nèi)容生成與BERT-wwm 特征精選的圖像情感分類

      為驗證本研究構(gòu)建的圖像情感分析模型的有效性,基于BERT-wwm 特征,并結(jié)合情感極性標注中采用的多種策略進行樣本精選分類,得到表1和圖8的結(jié)果。

      表1 本研究構(gòu)建的圖像情感分析模型的識別結(jié)果/%Tab.1 The recognition results of the image emotion analysis model constructed in this study/%

      圖8 特征平均正確率Fig. 8 Average accuracy of features

      由表1 可知,在Twitter1 數(shù)據(jù)集上,采用精選方式4 并使用GBDT 分類器得到的圖像情感分析準確率最高,為81.1%;采用精選方式2,并使用DT 分類器得到的圖像情感分析準確率最低,為64.3%。在FI數(shù)據(jù)集上,采用精選方式2 并使用LR 分類器得到的圖像情感分析準確率最高,為67.4%,采用精選方式7 并使用DT 分類器進行情感分析的準確率最低,為47.6%。由此說明,在Twitter1 數(shù)據(jù)集上精選方式不宜過寬松或過嚴格,精選方式5 較為合適;在FI 數(shù)據(jù)集上精選方式應盡量嚴格,即精選方式7 較為合適。

      圖8為BERT-wwm特征精選下不同精選方式的平均正確率。由圖8(a)可知,Twitter1 數(shù)據(jù)集上精選方式5 的平均正確率最高,在FI 數(shù)據(jù)集上精選方式2 的平均正確率最高。因此,在Twitter1 數(shù)據(jù)集上采用精選方式5,在FI 數(shù)據(jù)集上采用精選方式2 較好。圖8(b)為分別采用精選方式5 和精選方式2 在Twitter1 數(shù)據(jù)集和FI數(shù)據(jù)集上不同分類器的平均正確率。由圖8(b)可知,GBDT 模型和LR 模型的平均正確率最高,NB模型的平均正確率最低。

      綜上所述,對Twitter1 數(shù)據(jù)集應選用較為松散的精選方式;對FI數(shù)據(jù)集應選用較為嚴格的精選方式。

      同時,為驗證本研究構(gòu)建的圖像情感分析模型性能,分析不同分類器在BERT-wwm 特征下的平均正確率變化和最高正確率變化,結(jié)果如圖9所示。由圖9可知,BERT-wwm 特征的樣本精選方式可提高識別的正確率,且對FI 數(shù)據(jù)集的提升效果更好。其中,在Twitter1 數(shù)據(jù)集,Ada 對平均正確率的提升幅度最大,為5.46%,GBDT 對最大正確率的提升幅度最大,為11.63%;在FI 數(shù)據(jù)集上,KNN 對平均準確率和最大準確率的提升幅度最大,分別為5.31%和12.63%。由此說明,BERT-wwm 特征對樣本精選模型有效,通過選擇適當?shù)姆诸惼骺奢^大幅度地提升模型識別性能,可驗證圖像情感分析模型的有效性。

      圖9 樣本精選相對提升幅度Fig. 9 Relative increase of sample selection

      3.4.3 分析模型對比

      為驗證本研究圖像情感分析模型的優(yōu)越性,與常用的CCA、GS-XGB 等主流圖像情感分析模型進行對比,結(jié)果如表2 所示。由表2 可知,在Twitter1 數(shù)據(jù)集上,SPN模型的識別正確率最高,為81.37%,本研究圖像情感分析模型的正確率為81.10%,略低于SPN 模型,但優(yōu)于其他模型;在FI 數(shù)據(jù)集上,本研究模型的正確率最高,為67.40%,高于其他對比模型。綜合來看,本研究圖像分析模型具有一定的優(yōu)勢。

      表2 不同模型識別正確率對比/%Tab. 2 Comparison of recognition accuracy of different models /%

      4 結(jié) 論

      綜上所述,本研究構(gòu)建的圖像情感分析模型,基于注意力機制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容,并采用BERT提取圖像生成文本內(nèi)容特征,然后通過樣本精選,獲取高質(zhì)量的BERT-wwm圖像特征,最后訓練不同分類器,實現(xiàn)了圖像情感的分析,具有較高的正確率。相較于CCA、SPN、FTR101等常用圖像情感分析模型,本研究模型對圖像情感分析的正確率最高,在Twitter1數(shù)據(jù)集上的識別準確率達到81.1%,在FI數(shù)據(jù)集上的識別準確率達到67.4%,具有一定的優(yōu)越性和實用性。本研究的創(chuàng)新是實現(xiàn)了文本模態(tài)到圖像模態(tài)情感的分析。但由于條件限制,正確率仍有待進一步提高。

      猜你喜歡
      分析模型集上正確率
      基于BERT-VGG16的多模態(tài)情感分析模型
      門診分診服務態(tài)度與正確率對護患關(guān)系的影響
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復扇形指標集上的分布混沌
      生意
      層次分析模型在結(jié)核疾病預防控制系統(tǒng)中的應用
      品管圈活動在提高介入手術(shù)安全核查正確率中的應用
      天津護理(2016年3期)2016-12-01 05:40:01
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      全啟發(fā)式語言分析模型
      运城市| 板桥市| 德钦县| 福鼎市| 万盛区| 海兴县| 临颍县| 会宁县| 井陉县| 红河县| 彭山县| 富民县| 鄂托克旗| 榆林市| 和龙市| 策勒县| 盐边县| 伽师县| 金秀| 油尖旺区| 齐齐哈尔市| 昌图县| 凤阳县| 福建省| 册亨县| 布拖县| 清新县| 北碚区| 昭平县| 西贡区| 朝阳县| 宁城县| 丰宁| 交口县| 石城县| 南靖县| 峡江县| 清徐县| 错那县| 肥东县| 太保市|