文/廣東司法警官職業(yè)學(xué)院 賴河蒗 廣東省外語藝術(shù)職業(yè)學(xué)院 王麗麗 林肖麗 廣東司法警官職業(yè)學(xué)院 李玲俐 許學(xué)添 陳麗儀
隨著社交網(wǎng)站的發(fā)展和智能終端的普及,越來越多的學(xué)者利用學(xué)術(shù)社交網(wǎng)站(Academic Social Network Sites,ASNS)開展各種學(xué)術(shù)社交活動,例如學(xué)者用戶可以在ASNS上獲取學(xué)術(shù)信息、聯(lián)絡(luò)學(xué)術(shù)朋友、發(fā)表學(xué)術(shù)觀點(diǎn)、討論學(xué)術(shù)話題、開展科研協(xié)作、交流學(xué)術(shù)經(jīng)驗(yàn)、參與同行評議、分享科研成果以及共享學(xué)術(shù)資源等。[1,2]ASNS主要是針對學(xué)術(shù)信息共享和學(xué)者交流而建立的網(wǎng)站,對學(xué)者之間的交流、通信和合作方式等產(chǎn)生了深刻的影響。學(xué)者網(wǎng)(SCHOLAT,https://www.scholat.com/)是國內(nèi)具有高影響力的ASNS,為科研學(xué)者提供了高效便捷的交流渠道,整合了共享和交流兩大核心功能,體現(xiàn)了共享、和諧、友好和協(xié)作等理念。學(xué)者網(wǎng)既是一個匯集了文本圖像等模態(tài)數(shù)據(jù)的學(xué)術(shù)社交平臺,也是學(xué)術(shù)研究者之家園,國內(nèi)外許多學(xué)者已經(jīng)加入到這個平臺。在這個平臺上,學(xué)者可以簡單快捷地公開或發(fā)布學(xué)術(shù)動態(tài)信息,可以輕松方便地發(fā)現(xiàn)或聯(lián)系與自身研究領(lǐng)域相關(guān)的同行學(xué)者,可以高效地傳播或推廣學(xué)術(shù)相關(guān)的信息。相關(guān)學(xué)者用戶發(fā)布動態(tài)信息之后,其他感興趣的學(xué)者可以及時了解,也可以對動態(tài)信息表達(dá)出自身的一種情感。例如,某學(xué)者對于某一條動態(tài)信息表達(dá)支持、認(rèn)同、肯定或同意等情感時,最常見的方式是點(diǎn)贊、轉(zhuǎn)發(fā)或收藏該條動態(tài)信息,或者是對該條動態(tài)信息發(fā)表正面評論。反之,如果某學(xué)者對某條動態(tài)信息持一種中立、忽視或否定等情感時,通常的方式是瀏覽完后離開頁面,或者對動態(tài)信息發(fā)表相關(guān)負(fù)面評論。
學(xué)者或?qū)W術(shù)研究人員是一個較為特殊的群體,他們對社會的影響往往也是巨大的。因此,學(xué)者們在ASNS上的個體使用行為值得關(guān)注。學(xué)者的行為與學(xué)者的情感是緊密相關(guān)的,對學(xué)者的情感開展相關(guān)研究,有助于及時了解學(xué)者的情感傾向,可以為學(xué)者推薦其感興趣的相關(guān)領(lǐng)域的學(xué)術(shù)動態(tài)信息,也可以促進(jìn)學(xué)者相互之間的交流。[3]本文基于學(xué)者網(wǎng)平臺,利用平臺的數(shù)據(jù)資源,提出了一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)(Synergetic Neural Network,SNN)的學(xué)者情感分析模型,旨在分析和挖掘?qū)W者對學(xué)術(shù)動態(tài)信息的情感。在基于學(xué)者網(wǎng)的學(xué)者情感數(shù)據(jù)集上開展了相關(guān)實(shí)驗(yàn),結(jié)果顯示,本文所提出的模型可以獲得良好的學(xué)者情感分類性能。
情感分析也稱為觀點(diǎn)挖掘,是人工智能或自然語言處理領(lǐng)域的重要研究內(nèi)容之一。[4,5]通常是指對帶有情感色彩的主觀性數(shù)據(jù)進(jìn)行處理、挖掘和推理等過程。在近些年,神經(jīng)網(wǎng)絡(luò)的浪潮再次掀起,其在很多研究應(yīng)用領(lǐng)域發(fā)揮了重要的作用。科研學(xué)者期望使用神經(jīng)網(wǎng)絡(luò)的顯著優(yōu)勢來解決或優(yōu)化一些用傳統(tǒng)方法難以解決的問題,當(dāng)前已有很多學(xué)者利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢開展了情感分析的研究工作。[6-17]方悅等提出了一種雙通道卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)變體的特征融合情感分析模型,能夠獲取更全面的情感特征。[6]王宇欣等從不同角度對注意力機(jī)制進(jìn)行分類并闡述了注意力機(jī)制結(jié)合各類神經(jīng)網(wǎng)絡(luò)模型在情感分析中的應(yīng)用。[7]楊青等提出了一種注意力機(jī)制和門控單元融合的情感分析模型,提升了捕獲文本上下文語義和提取文本內(nèi)重要信息的能力。[8]Poria等提出了多層次多注意力機(jī)制的上下文多模態(tài)情感分析模型,在捕獲上下文信息方面取得了良好效果。[15]Majumder等提出了一個帶有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò),改善了會話情緒檢測效果。[16]Hazarika等利用模態(tài)的不變性和專屬性對多模態(tài)情感分析進(jìn)行建模,將每個模態(tài)投射到兩個不同的子空間,取得了良好的實(shí)驗(yàn)效果。[17]
SNN是一種典型的自組織神經(jīng)網(wǎng)絡(luò)模型,通過自上而下的方式構(gòu)造網(wǎng)絡(luò),從動力學(xué)方程出發(fā),利用協(xié)同學(xué)中的支配原理和勢函數(shù)機(jī)制,利用網(wǎng)絡(luò)的內(nèi)部競爭與合作過程作為網(wǎng)絡(luò)的運(yùn)行機(jī)制。SNN具有訓(xùn)練時間短、網(wǎng)絡(luò)收斂快、能夠在數(shù)學(xué)意義上嚴(yán)格處理網(wǎng)絡(luò)的行為、其序參量的演化過程符合人的認(rèn)知過程以及有較高的可解釋性與可類比推理性等優(yōu)點(diǎn)。已有學(xué)者利用SNN開展了相關(guān)研究工作。郭巍等提出了基于協(xié)同神經(jīng)網(wǎng)絡(luò)對軍事目標(biāo)進(jìn)行識別的方法,并通過仿真驗(yàn)證了其方法的有效性。[18]張愛華提出一種動態(tài)協(xié)同神經(jīng)網(wǎng)絡(luò)算法,采取了注意參數(shù)動態(tài)調(diào)整的策略,在演化過程中對誤識別的模式進(jìn)行自適應(yīng)糾正,實(shí)驗(yàn)表明提高了網(wǎng)絡(luò)的自學(xué)習(xí)能力和分類的精度。[19]緱水平等提出了基于免疫克隆聚類的協(xié)同神經(jīng)網(wǎng)絡(luò)原型向量求解算法,可以提高網(wǎng)絡(luò)的識別性能。[20]孫靜提出了一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)算法的紅樹林圖像識別方法,利用微粒群算法對平衡參數(shù)方法進(jìn)行改進(jìn)后識別效率得到改善。[21]
學(xué)者網(wǎng)創(chuàng)立于2009年。自創(chuàng)立以來,學(xué)者網(wǎng)受到了廣泛的關(guān)注和肯定。很多科研學(xué)者紛紛基于該平臺開展了相關(guān)研究,例如進(jìn)行教學(xué)模式挖掘[22]、教學(xué)平臺研究[23]、學(xué)者論文與項(xiàng)目關(guān)聯(lián)模型挖掘[24]、學(xué)者推薦[25]以及社區(qū)發(fā)掘[26]等。以上工作都是基于學(xué)者網(wǎng)開展的相關(guān)研究,也都取得了一定成果,但是目前還沒有研究人員針對學(xué)者網(wǎng)中的學(xué)者情感數(shù)據(jù)開展研究。學(xué)者的情感表達(dá)模式相對比較穩(wěn)定,利用SNN對學(xué)者情感進(jìn)行建模,有望能獲得良好的情感識別性能,進(jìn)而為提高推薦系統(tǒng)的性能提供實(shí)踐導(dǎo)向。學(xué)者網(wǎng)中蘊(yùn)藏著豐富的學(xué)者情感數(shù)據(jù),可以為本研究提供數(shù)據(jù)支持?;谝陨?本文提出利用協(xié)同神經(jīng)網(wǎng)絡(luò)的學(xué)者情感分析模型。
協(xié)同學(xué)的創(chuàng)始人是德國物理學(xué)家Haken(哈肯)教授。在20世紀(jì)70年代,哈肯深刻闡述了協(xié)同的概念。[27]在20世紀(jì)90年代,哈肯將協(xié)同學(xué)思想擴(kuò)展到計算機(jī)科學(xué)和認(rèn)知科學(xué),并且將原理運(yùn)用于模式識別,提出了基于協(xié)同學(xué)的神經(jīng)網(wǎng)絡(luò),即協(xié)同神經(jīng)網(wǎng)絡(luò)(Synergetic Neural Network,SNN),或稱之為協(xié)同計算機(jī)[28],圖1是SNN的基本結(jié)構(gòu)圖。
圖1 SNN的基本結(jié)構(gòu)圖Fig.1 The structure of SNN
SNN通過構(gòu)造非線性動力學(xué)系統(tǒng)的動態(tài)過程來實(shí)現(xiàn)模式識別的功能,即模式識別過程對應(yīng)于一個動力學(xué)過程。具體來說,一個初始的實(shí)驗(yàn)?zāi)J絨,經(jīng)過動力學(xué)過程的若干中間狀態(tài)演化后,進(jìn)入到諸原型模式中的其中一個原型模式(假設(shè)為νk),即這個原型模式νk與q最為靠近。這個過程可描述為:
q(0)→q(t)→νk
(1)
哈肯指出,完成動力學(xué)過程需要具備兩點(diǎn):第一,系統(tǒng)的勢函數(shù)可微,具有多個分別與原型向量相對應(yīng)的穩(wěn)定平衡點(diǎn),所構(gòu)造的神經(jīng)網(wǎng)絡(luò)穩(wěn)定收斂;第二,具有對應(yīng)于記憶樣本的全局漸進(jìn)穩(wěn)定的唯一平衡點(diǎn),無偽狀態(tài)。為此,引入了勢函數(shù):
(2)
該勢函數(shù)對應(yīng)的動力學(xué)方程為:
(3)
直接對式(3)進(jìn)行非線性運(yùn)算時的運(yùn)算量是非常巨大的,為了簡化原系統(tǒng)(原系統(tǒng)的動態(tài)特性保留),引入了序參量ξk。將實(shí)驗(yàn)?zāi)J絨在原型模式向量上分解為:
(4)
(5)
(6)
式(6)是微分方程,其求解仍然較為復(fù)雜。在實(shí)際應(yīng)用中,往往使用離散協(xié)同神經(jīng)網(wǎng)絡(luò),其動態(tài)迭代公式為:
(7)
圖2展示了基于協(xié)同神經(jīng)網(wǎng)絡(luò)的學(xué)者情感分析模型結(jié)構(gòu)。
圖2 模型的框架圖Fig.2 The framework of the model
選取學(xué)者信息和動態(tài)信息作為數(shù)據(jù)源,對兩方面的信息進(jìn)行屬性選擇與預(yù)處理,得到模型輸入的特征數(shù)據(jù)集。具體而言,在學(xué)者信息方面,首先選擇學(xué)者的個人簡介(主要包括研究興趣和教育背景等)、學(xué)術(shù)成果(包括發(fā)表的部分論文和著作)、工作經(jīng)歷或者獲獎榮譽(yù)等作為屬性,然后將選擇屬性對應(yīng)的內(nèi)容進(jìn)行預(yù)處理,最后形成學(xué)者信息的特征向量scholarVector。同理,在動態(tài)信息方面,首先選擇該動態(tài)信息的類型、摘要、部分關(guān)鍵文字內(nèi)容或者代表性圖片等作為屬性,然后將選擇屬性對應(yīng)的內(nèi)容進(jìn)行預(yù)處理,最后形成動態(tài)信息的特征向量dynamicInformationVector。當(dāng)某個學(xué)者瀏覽了某條動態(tài)信息,該學(xué)者與該條動態(tài)信息之間會產(chǎn)生一個情感事件(該事件可以反映學(xué)者對動態(tài)信息的情感傾向)。將情感事件中的學(xué)者信息特征向量scholarVector和動態(tài)信息特征向量dynamicInformationVector進(jìn)行級聯(lián),可以得到情感事件的特征向量sentimentEventVector。學(xué)者信息、動態(tài)信息以及情感事件三者之間的關(guān)系可以用圖3來表示,圖中的每一條邊可以代表一個情感事件,邊上的數(shù)值可以代表級聯(lián)后的特征向量sentimentEventVector。
圖3 基于動態(tài)信息的學(xué)者情感事件關(guān)系圖Fig.3 The relationship graph of scholar emotion event based on dynamic information
本研究選取學(xué)者網(wǎng)平臺中產(chǎn)生的部分情感事件作為特征數(shù)據(jù)集,并且將特征數(shù)據(jù)集劃分為訓(xùn)練集和測試集。在訓(xùn)練集中選取原型模式,并且通過學(xué)習(xí)訓(xùn)練,求得伴隨向量。測試集中的數(shù)據(jù)為實(shí)驗(yàn)?zāi)J较蛄?在測試時與求得的伴隨向量相乘,可以得到初始的序參量。初始序參量進(jìn)行演化,直至達(dá)到穩(wěn)定狀態(tài)。當(dāng)序參量達(dá)到穩(wěn)定狀態(tài)后,輸出識別結(jié)果。
模型的過程分為兩個階段,分別是訓(xùn)練階段和識別階段。訓(xùn)練階段主要是要完成網(wǎng)絡(luò)學(xué)習(xí),求取初始化序參量。識別階段主要是將各個初始序參量引入競爭方程,進(jìn)行動力學(xué)演化,使得與實(shí)驗(yàn)?zāi)J较嗨贫茸畲蟮男騾⒘揩@勝,最后輸出識別結(jié)果。
①選取原型模式。將訓(xùn)練樣本對應(yīng)的特征向量進(jìn)行處理,使其滿足歸一化和零均值條件。依據(jù)動態(tài)信息的不同類別,經(jīng)過相關(guān)變換計算,可以獲得滿足歸一化和零均值條件的原型模式向量。
②求解伴隨向量。利用偽逆矩陣進(jìn)行求解,并且存儲其數(shù)據(jù)。在SNN中求取伴隨向量的過程被稱為SNN的學(xué)習(xí)過程或者訓(xùn)練過程,原型向量和伴隨向量需滿足正交條件。
訓(xùn)練完畢之后,按照SNN的結(jié)構(gòu)(如圖1),將伴隨向量作為輸入層到中間層之間的權(quán)重,將原型向量作為中間層到輸出層之間的權(quán)重;中間層神經(jīng)元的個數(shù)設(shè)置為原型模式個數(shù)(M)。
識別階段主要有以下步驟:
①將測試樣本對應(yīng)的試驗(yàn)?zāi)J较蛄窟M(jìn)行處理,使其滿足歸一化和零均值條件,并且將其作為網(wǎng)絡(luò)輸入層。輸入層的數(shù)據(jù)與網(wǎng)絡(luò)參數(shù)(即伴隨向量)相乘,得到初始的序參量。在初始時刻,具有最大值的序參量對其他序參量的抑制力最強(qiáng),其生長能力也最強(qiáng),在競爭層競爭能力也最強(qiáng)。
②序參量根據(jù)式(7)進(jìn)行演化。SNN以內(nèi)部互相協(xié)作與競爭的形式生成最終模式。
③判斷演化是否穩(wěn)定,若演化穩(wěn)定,則輸出識別分類結(jié)果,即最終序參量模值為1的類別為測試樣本所屬的情感類別;若演化未穩(wěn)定,則轉(zhuǎn)上一步繼續(xù)演化,重復(fù)此過程直到出現(xiàn)演化穩(wěn)定狀態(tài)。
實(shí)驗(yàn)選取了部分具有代表性的學(xué)者情感事件作為實(shí)驗(yàn)的數(shù)據(jù)集。數(shù)據(jù)集中有一半事件是帶有正面情感,另一半事件是帶有非正面情感,即共有兩種不同的學(xué)者情感類型。其中正面情感事件是指學(xué)者對動態(tài)信息有點(diǎn)贊、轉(zhuǎn)載或收藏等行為之一;非正面情感事件是指學(xué)者對動態(tài)信息沒有點(diǎn)贊、轉(zhuǎn)載和收藏等行為。
利用Doc2vec對學(xué)者信息和動態(tài)信息進(jìn)行預(yù)處理,分別得到100維度的學(xué)者信息特征向量scholarVector和100維度的學(xué)術(shù)動態(tài)特征向量dynamicInformationVector。將scholarVector和dynamicInformationVector進(jìn)行級聯(lián),得到200維度的情感事件特征向量sentimentEventVector。設(shè)置SNN中的注意參數(shù)λk=1,γ=1/D,B和C均為1,迭代次數(shù)為40次。按照不同的學(xué)者情感類型,將訓(xùn)練集中樣本的特征向量sentimentEventVector進(jìn)行數(shù)學(xué)平均化,得到原型向量。原型模式個數(shù)M為2。實(shí)驗(yàn)以分類準(zhǔn)確率作為評估指標(biāo)來衡量模型的性能效果。實(shí)驗(yàn)將數(shù)據(jù)集隨機(jī)打散,按照一定比例劃分出訓(xùn)練集,剩余部分作為測試集。具體是,實(shí)驗(yàn)將訓(xùn)練集所占比例分別設(shè)置為20%、30%、40%、50%、60%、70%和80%。在訓(xùn)練集占比例為以上各種不同取值的情況下,實(shí)驗(yàn)都隨機(jī)運(yùn)行10次,并且取運(yùn)行結(jié)果的平均值作為性能評估的數(shù)據(jù)。
表1匯總了模型在訓(xùn)練集占不同比例情況下的分類準(zhǔn)確率,當(dāng)訓(xùn)練集占比為80%時,模型可以得到準(zhǔn)確率為98%的分類性能。
表1 模型在訓(xùn)練集占不同比例情況下的分類準(zhǔn)確率Table 1 Classification accuracy of model in different proportion of training set
從表中可以看到,隨著訓(xùn)練集占比增大,分類準(zhǔn)確率也相應(yīng)得到了提高。原因是隨著訓(xùn)練集占比增大,通過平均化后,獲得的原型向量更加具有代表性,使得識別階段獲得的效果更佳。因此,這種情況驗(yàn)證了基于SNN的模型性能與原型模式向量的選取有著重要的關(guān)系。
圖4描述了當(dāng)訓(xùn)練集占比為80%時,模型對某測試樣本的識別過程。從圖中可以看到,測試樣本向量初始序參量中ξ(1)模值大于ξ(2)模值,在迭代演化過程中,ξ(1)一直保持優(yōu)勢,并且最終ξ(1)趨向于1,ξ(2)趨向于0,從而使得測試樣本被識別為第一種學(xué)者情感類別。模型對學(xué)者情感的最終識別結(jié)果為具有最大模值的序參量對應(yīng)的情感類別。
圖4 訓(xùn)練集占比為80%時測試樣本的序參量演化過程Fig.4 Evolution process of order parameters of a test sample with 80% training set
本文基于學(xué)者網(wǎng)平臺的學(xué)者情感數(shù)據(jù),運(yùn)用SNN原理與基本結(jié)構(gòu),構(gòu)建了學(xué)者情感分析模型,詳細(xì)介紹了所提出模型的結(jié)構(gòu)組成以及原理,闡述了模型兩個階段的步驟過程,并且開展了相關(guān)實(shí)驗(yàn),旨在挖掘和預(yù)測學(xué)者對學(xué)術(shù)動態(tài)信息的情感。當(dāng)實(shí)驗(yàn)訓(xùn)練集占比為80%時,本文模型可以得到準(zhǔn)確率為98%的分類性能。下一步將細(xì)化學(xué)者情感類別,擴(kuò)大學(xué)者情感事件的數(shù)據(jù)集,研究更好的原型選取方法。