曾勁松
(西南財經大學 成都 610000)
本文以人工智能在文本情感分析中的應用為研究方向,對其主要內容及系統設計給予闡明,對人工智能植入文本情感分析中系統的可行性、功能性給予分析,為人工系統的全面升級與優(yōu)化奠定基礎。
現階段我國市場經濟建設快速發(fā)展,已經進入新經濟發(fā)展時期,人工智能作為時代發(fā)展趨勢及核心保障,其重要性不言而喻。人工智能是以模擬人工為主,通過網絡神經布局及智能程序植入,完成擬人操作與智能分析[1]。同時在應用領域方面也逐漸擴展,人工智能技術在教育領域應用較為突顯,從教育本身入手人工智能提供諸多輔助幫助,將傳統的教育輔助及應用模式進行升級創(chuàng)新,通過利用人工智能中的智能分析、鑒別及判斷,實現文本情感分析的精準識別[2]。經分析會后發(fā)現,傳統情感分析中主要以人工形式文字或采用某種定向程序,但其實際功能與效果相對不高,無法對文本情感進行全面而分析、精準判定,人工智能的優(yōu)勢在于對大數據技術的融合利用,采用自動編碼模式對文本感情色彩進行分類歸納,將算法的功能性給予全面提升,其中CNN架構應用及算法改進是人工智能文本情感分析的主要模式,優(yōu)勢特點如下:第一,可精準對情感詞匯及內容進行分析,并對其精準分類、系統歸納;第二,對大量詞匯及內容進行快速分類及分析,人工智能通過海量的大數據庫及技術應用,充分滿足不同階段及內容形式文本的情感分析需求[3]。
經過分析后發(fā)現人工智能在教育應用領域形式較多,其體系具有一定的框架性及系統化,但實際應用中大多通過算法來實現,主要以學習及功能算法為主,通過對相關算法及案例進行統計分析,一種應用較為常見且高效的自動編碼方式逐漸突顯,即基于CNN架構及相關功能,并對遺傳算法進行改良創(chuàng)新。CNN架構為“卷積神經網絡模型”,該模型功能較多,如下:第一,基于遺傳算法學習過程中的關鍵功能;第二,實現內部數據的全面向量運算。適合人工智能對文本情感內涵進行分析的基本要求[4]。
該方法在文本情感彩色分析中主要以內部向量計算為主,以文本中涉及的情感詞匯為對象,對其開展定向歸類,其分析規(guī)律是通過對不同詞組及詞匯的出現頻率統計,經過智能確定及鑒別后給予科學精準的分層分類輸出,保障輸出結果的準確性,其整個過程較為簡單,快速實現對文本情感的歸類與識別,但經過分析后發(fā)現,該傳統的CNN算法及架構只能對文本中所呈現的差異化情感類型進行初步識別,對相對較為隱喻的情感內容缺乏精度鑒別與區(qū)分,雖然經過系統分析及算法改良,但該問題在人工智能文本情感分析中依然較為常見,在具體研發(fā)過中需結合自然語言處理體系當中的SVM算法,此部分內容可以交由后續(xù)的人工智能訓練來完成,或者可以在算法體系中予以完善及改進,本文則選擇了后者[5]。
另外從算法改進層面分析,需實現一個重要目標,該人物就是對文本中情感色彩的科學區(qū)分,因此受該目標任務影響,要對算法進行改進,其改進中要在卷積層基礎上引入池化層,其主要功能是對采樣進行管控,為CNN向量體系植入較為精準的定向區(qū)分、歸類方向,即賦予不同向量的方向上的集合,使其針對不同情感進行明確的定義,并形成固定的分類方向。
在人工智能文本情感色彩分析中,大數據模型有著廣泛的應用。大數據模型構建是對相關內容及關鍵字的資源統計,只有滿足關鍵字及內容的數據存儲才能實現精準識別?;诖髷祿r代及應用技術發(fā)展,人工智能應用中需對大數據模型進行重視,對大數據模型及相關信息存儲給予實效性體現。文本情感內容會隨其時代變化而不斷創(chuàng)新,因此對文本當中的情感內容進行同步更新至關重要,這也需要數據庫的重構及建設[6]。
不同算法會產生不同結果,從識別及分析效果層面分析,算法的改進對文字情感識別十分關鍵。算法改進的重要標準是基于快速識別、全面分析,將篩選的精準性給予體現。同時算法改進不是最終判定人工智能應用質量標準,而是需對不同算法改進的測試訓練,訓練主要偶以識別效能提升為準,在日常測試訓練中要注意以下兩點:第一,以優(yōu)化鞏固向量層中的指向體系為核心;第二,在實際測試訓練中要充分考慮其向量長度及相關指標[7]。結合文本情感分析中發(fā)現,通過選擇及輸入方式,對定向情感詞匯、文本內容等進行向量整合,該過程中是在基于分類模式下進行,該算法測試訓練的主要目的是提升人工智能模式的文本內容精度識別。同時算法改進及應用中要將多種分析結果的實現可能給予呈現,將不同詞語及詞條的意義、屬性等給予合理歸納、分類[8]。
人工智能在文本感情分析中需對多義詞、同義詞、近義詞等進行精準識別,漢語詞匯中多義詞、近義詞較多,在傳統文本感情色彩分析中主要以反義詞為主,對表達意義較為鮮明的詞匯可進行快速識別,但對相近詞義及新詞匯分析識別不夠,無法為文本情感提出較為精度及全面的系統識別[9]。人工智能的應用正是在于解決該問題,人工智能技術對傳統程序分析識別進行優(yōu)化,實現文本情感分析的深度識別,即拓展向量長度。深度測試訓練中將不同詞匯的情感深度進行分類,例如開心與哭泣識別較為簡單,如“我真的想哭”與“我笑不起來”,二者意思及情感表達較為相似,但前者的悲傷程度相對較高。人工智能系統的向量長度本質上是該方向下的指標設定。同樣以上文的兩個文本案例為例,如果前者所表達的“開心”程度的權重參數為“1”,則后者的表達程度的權重參數可能為“3”[10]。
5.1.1 CNN架構設計
針對改進CNN算法的情感信息提取需求,要對該智能系統進行合理設計,本智能系統架構設計按照功能豐富、分析精準、識別快速為原則。強化人機互動操作界面的簡單與易操作等。CNN架構設計主要以前端用戶互動、后端提取運算為主。另外,在CNN架構設計中要植入分層理念,將該模塊進行功能作業(yè)分層設計,實現各系統模塊可在相同任務下完成各自任務,且可互動協同開展等,此時各功能模塊通過智能化調節(jié),可不受上下級約束影響,實現各自功能發(fā)揮,并第一時間完成情感信息分析任務。
5.1.2 運行及分析流程
運行及分析流程在CNNN應用中尤為關鍵,將對傳統分析模式及算法考究,本系統運行及分析流程模塊包括基礎流程管控模塊、抽取分析功能流程模塊等。首先基礎流程模塊主要負責文本情感內容及關鍵詞等開展處理。對系統運行及分析具有決定性作用,并負責原始文本及內容數據的提取分析工作,經過對用戶查詢指令輸入進行分析,該智能系統會對原始文本與數據內容進行基礎優(yōu)化操作[11]。
在本次研究語言模型中選擇“循環(huán)神經網絡”,即RNN,x為一個向量,表示輸入層的值;s為一個向量,表示隱藏層的值;O為一個向量,表示輸出層的值;U則表示當前時刻輸入層到隱藏層的權重矩陣;V表示當前時刻隱藏層到輸出層的權重矩陣;W是隱藏層t-1時刻的值作為t時刻的輸入權重。
RNN計算公式如下所示:
其中,Xt表示t時刻的輸入,St表示t時刻隱藏層的值,Ot表示t時刻的輸出。
以情感詞匯分析模塊作用發(fā)揮為主,對原文情感詞匯、詞義等進行分區(qū)、歸類。然后情感詞性標準模塊負責對多義或近義情感詞匯等進行快速識別標注。另外,情感詞組量化模塊主要負責對情感詞匯給予近一步量化。基礎流程如圖1所示。
圖1 基礎流程如圖
最后抽取分析功能流程模塊是其系統核心主體,情感抽取分析功能流程模塊在上述流程實現完成后,對文本當中的情感數據給予二次精度處理,例如對關鍵字、關鍵詞、語句、語義等相關內容的相似度給予評估,然后完成整個文本情感色彩分析工作。
5.1.3 需求分析
1)功能需求分析,智能化CNN系統及算法改進中要充分按照實際需求,給予功能完善,以功能需求為例,當下文本中情感元素及詞匯組合相對復雜多變,諸多情感詞句、關鍵字都涉及復雜問題。另外海量文本中的情感數據處理是當下最為棘手問題。針對大數據海量性特點,容易造成系統運行錯誤。因此本系統功能需求包括:第一、滿足大數據時代下用戶更高需求;第二、滿足海量文本中情感數據的識別分析需求;第三、迎合技術創(chuàng)新及大數據時代需求。
2)性能需求分析,改進CNN算法在文本情感分析系統當中的性能需求十分關鍵。
性能需求是保障其快速分析、精準識別,具體如下:第一,本智能分析系統具有快速分析、快速識別性能,縮短用戶等待時間,一般為1s~2s之間。第二,本智能系統必須具備情感關鍵詞、數據內容的精準分析、準確識別,最大限度避免誤差發(fā)生。第三,本智能系統安全性基于在復雜多變的網絡環(huán)境中穩(wěn)定運行,對病毒具有預防、抗干擾能力,安全穩(wěn)定性能是該系統設計基礎要求[12]。
5.2.1 數據預處理模塊
本智能系統主要以文本情感數據預處理為主,改進CNN算法后應對情感數據預處理模塊進行重新設置。文本情感信息識別模塊主要包括情感分詞識別模塊、情感詞性標注分析模塊、情感詞向量分析模塊。
1)情感分詞識別模塊可充分體現海量情感數據及情感詞語復雜的處理功能,選擇隱馬爾可夫模型作為該情感分詞模塊設計的未登錄詞,即OOV。
2)在情感詞性標注識別模塊式中要充分研究情感兼類詞及未登錄詞二者的標注識別難點,系統選擇情感條件隨機場模型,給予情感類詞性標注。
3)在詞向量分析模塊中要對自然情感語言在計算機當中的轉換處理給予考慮。本智能系統中采用谷歌開源程序中的word2vec架構中的skip-gram模型[13]。
5.2.2 數據儲存模塊
數據儲存模塊是對已完成或等待中的文本情感數據開展儲存處理,數據存儲模塊需側重研究對多種情感元素、情感表達形式的規(guī)劃儲存。智能化系統中的存儲位置以本地文件夾為主。主要存儲類型包含情感分詞文本類型、情感分詞模型類型、情感詞性標注類型、情感詞向量模型類型、情感原始文本類型等,智能化系統選擇DataStorage程序。
5.2.3 情感關鍵字提取分類模塊
智能化系統要側重提升對原始文本中情感數據的內容降噪處理,其中文本當中的噪音數據對系統運行影響頗大,經過對CNN算法改進,將提取分類情感關鍵字環(huán)節(jié)進行系統優(yōu)化,實現整個文本中情感關鍵字提取分類的精確性,經過改進后的CNN算法應用,降低結果提取分類與用戶要求的誤差及失誤,實現海量快速情感關鍵字匹配。
5.2.4 情感語義相似度評估模塊
文本中情感數據分析識別中需強化情感關鍵字識別的精準性,智能化系統中植入語義相似度評估模塊,其模塊負責對整篇、整段文本中的情感語義相似度進行評估分析。實現用戶的情感語義的相似度快速篩選,降低相似度,實現情感信息數據的識別分析。智能化系統中情感語義相似度評估模塊以tensorflow架構當中python開發(fā)程序為核心。智能化系統在文本情感分析中語義相似度處理采用jyhon組件,并融入諸多相關程序、編程語言等[14]。
5.2.5 情感信息識別模塊
智能化系統文本情感信息識別模塊主要以服務用戶為主,將具體事宜與性能進行可視化體現,經過上述工序及處理功能發(fā)揮,完成情感關鍵字的提取、篩選及處理分類等。然后利用情感信息識別模塊為用戶進行快速數據分類,對相關情感信息進行處理,另外將其結果展現在用戶面前。智能化系統文本情感色彩識別模塊采用分層、分類的識別方法,將用戶、數據、提取、互動進行呈現,讓系統服務更為實用性、人性化[15]。
綜上所述,通過對人工智能在文本情感分析中的應用進行分析,主要包括以大數據模型為主、以深度識別為方向、以深度識別為方向、CNN架構設計及需求分析、實現及應用分析等。將改進CNN算法后的人工智能系統設計的方法步驟進行介紹。同時,從不同方面及角度對人工智能系統設計及應用實現給予剖析,為下一步工作開展奠定基礎。