李山山,郭景峰,鄭 超,魏 寧,張麗艷
(燕山大學 信息科學與工程學院,河北 秦皇島 066004)
(河北省計算機虛擬現(xiàn)實技術與系統(tǒng)集成重點實驗室,河北 秦皇島 066004)
互聯(lián)網(wǎng)時代,用戶不只是信息的使用者,也是信息的生產者.互聯(lián)網(wǎng)中由用戶生成的內容不僅豐富了網(wǎng)上的信息來源和內容,也為基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)信息服務提供了新的機遇;同時,這些數(shù)據(jù)中隱含著重要的信息,對這些數(shù)據(jù)進行有效的挖掘具有許多實際的應用價值[1-3].用戶評論作為用戶生成內容的重要組成部分,包含著大量用戶對某一產品或者服務的觀點、態(tài)度等信息.對評論文本數(shù)據(jù)的挖掘不僅可以為用戶提供決策支持,還可以為商家改善服務質量提供重要的反饋.例如,電商平臺對用戶已購買商品的評論進行分析可以了解用戶的偏好,從而為用戶更精準的推薦商品[4];人們在選擇某種服務時,會以該服務的評論作為參考,選擇口碑較好的服務,而商家也可以針對用戶評論中反應較多的方面進行相應的完善,從而為用戶提供更好的服務.
在當代,游客對文化旅游愿望呈現(xiàn)多元需求,為滿足游客需求,其中,“互聯(lián)網(wǎng)+旅游”成為目前最優(yōu)的方式.游客可以通過互聯(lián)網(wǎng)了解景點的介紹以及屬性信息,旅游相關企業(yè)也可以根據(jù)游客通過互聯(lián)網(wǎng)產生的數(shù)據(jù),提升旅游品質,為游客推薦其感興趣的景點,也助推了文化旅游事業(yè)的發(fā)展.同時,“互聯(lián)網(wǎng)+旅游”模式的產生,使得推薦系統(tǒng)在文化旅游業(yè)廣泛應用.景點類型作為景點特征的重要體現(xiàn),對景點類型進行準確劃分成為景點推薦系統(tǒng)的關鍵.然而,現(xiàn)有景點類型劃分多是基于先驗知識,且人工量較大.因此,對快速且準確率較高的景點類型劃分方法的探究成為必然.
基于上述情況,從旅游網(wǎng)站和百科網(wǎng)站爬取國內部分5A和4A共計183個景點介紹及評論文本等信息,利用這些信息對景點進行分類.主要貢獻有以下幾點:
1)從景點評論信息中提取評論主題,構建由景點名稱、景點評論、評論主題3種節(jié)點構成的異質信息網(wǎng)絡,豐富景點名稱的語義表示,提高了景點類型劃分的準確率;
2)應用圖卷積神經(jīng)網(wǎng)絡,通過聚合鄰居節(jié)點的信息獲得節(jié)點的低維特征向量,根據(jù)不同類型的鄰居節(jié)點和類型相同但節(jié)點不同的鄰居節(jié)點對其影響力不同,將注意力機制引入構建的異質信息網(wǎng)絡,構造異質信息網(wǎng)絡的圖注意力卷積逐層迭代規(guī)則,以獲得更符合實際的景點嵌入.
3)在爬取的景點評論數(shù)據(jù)集、公共數(shù)據(jù)集AGNews和MR上分別選取經(jīng)典分類模型和文獻[25]中模型與本文的SGAE模型進行對比實驗,結果驗證了SGAE模型在分類任務上的有效性.
SGAE模型框架如圖1所示.
圖1 SGAE模型框架Fig.1 Model framework of SGAE
旅游景點類型的劃分,對人類認識和開發(fā)旅游資源具有重要的意義.目前的景點分類方法主要是根據(jù)旅游景點的屬性、特點以及事物之間的關系等信息,進行景點類型的劃分.本文利用能夠爬取到的景點評論以及景點介紹信息,對景點進行類型劃分.下面對文中涉及到的相關技術的研究現(xiàn)狀做一介紹.
針對用戶評論文本,有許多應用場景,如,電商評論分類,郵件自動回復,各種產品或服務的推薦系統(tǒng),用戶滿意度調查等等.評論文本作為一種非結構化數(shù)據(jù),有著豐富的語義信息,如何從用戶評論中挖掘出有價值的信息,成為社會各界研究的熱點[5,6].文獻[7]分析數(shù)字銀行評論,利用LDA構建主題模型,探索用戶關注的問題,挖掘數(shù)字銀行功能與審查分數(shù)之間的關聯(lián)規(guī)則,為數(shù)字銀行應用程序提供了優(yōu)化方案,提高了用戶滿意度;文獻[8]通過分析電影評論,利用TF-IDF模型生成文本TF-IDF矩陣,構建支持向量機(SVM)模型,并用隱含語義索引技術對標記過情感極性的影評文本進行主題建模.通過提取評論主題,對電影評論進行正負情感分類,分析觀影者對電影整體的情感變化.
利用景點的評論信息構建異質信息網(wǎng)絡,豐富景點名稱的語義信息,以此種方式對景點進行類型劃分的工作目前較少.
近幾年,將深度學習應用于圖的分析成為各領域的研究熱點.如,Wu等[9]提出了一種新的基于圖卷積網(wǎng)絡的社交垃圾郵件檢測模型,該模型通過考慮3種類型的鄰居節(jié)點來操作有向社交圖,并在兩個真實的數(shù)據(jù)集上進行評估,結果優(yōu)于最新的方法;對蛋白質之間接觸面的預測在藥物發(fā)現(xiàn)與設計中有著重要的實際意義,Alex Fout[10]等根據(jù)蛋白質的三維結構構建圖網(wǎng)絡,通過在感興趣節(jié)點的部分鄰域上執(zhí)行卷積,學習節(jié)點的有效潛在表示,實驗結果證明基于鄰域的卷積方法得到了最優(yōu)的性能;知識庫補全旨在預測知識庫中缺失的信息,Hamaguchi[11]等利用測試時提供的有限輔助信息,使用圖神經(jīng)網(wǎng)絡(GraphNN)計算知識庫外實體的嵌入,在WordNet數(shù)據(jù)集上檢驗了模型的先進性.
將深度學習應用于圖數(shù)據(jù)領域,其中,具有代表性的研究工作是網(wǎng)絡表示學習[12](Network Representation Learning),也稱圖嵌入(Graph Embedding),主要過程是將圖數(shù)據(jù)映射為低維、實值、稠密的向量形式.圖2為網(wǎng)絡表示學習的主要流程.
圖2 網(wǎng)絡表示學習流程圖Fig.2 Flow chart of network representation learning[13]
圖網(wǎng)絡表示學習算法主要分為譜分解方法、矩陣分解法和圖神經(jīng)網(wǎng)絡算法.
2.3.1 基于特征分解的方法
譜分解(Spectral Decomposition)方法主要是對網(wǎng)絡中節(jié)點關系矩陣(主要是網(wǎng)絡的鄰接矩陣和Laplace矩陣)求解特征值以及對應的特征向量,以此達到對數(shù)據(jù)降維的目的,典型代表有:局部線性表示[14](Local Linear Embedding,LLE),該算法節(jié)點的表示由其鄰居節(jié)點向量的線性加權得到;拉普拉斯特征映射[15](Laplacian Eigenmaps),該算法認為相鄰節(jié)點在降維后的空間中應該很接近,節(jié)點的親密程度由節(jié)點之間邊的權重表示.
2.3.2 基于矩陣分解的方法
矩陣分解(Matrix Decomposition)法是一種常用的數(shù)據(jù)降維方法,形式簡單,易于求解.對網(wǎng)絡中節(jié)點間關系矩陣進行分解,以得到節(jié)點的低維表示.TADW[16]算法受DeepWalk算法啟發(fā),分解概率轉移矩陣,使其包含文本特征,得到融合節(jié)點文本信息的嵌入.其矩陣分解形式如圖3所示:T為頂點的特征,即文本信息,W和H為可訓練的參數(shù)矩陣,從圖3中可以看出,其損失函數(shù)中加入了文本信息矩陣.
圖3 TDAW算法的分解形式Fig.3 Decomposition form of the TDAW algorithm[16]
2.3.3 基于圖神經(jīng)網(wǎng)絡的方法
利用關系矩陣進行分解得到網(wǎng)絡表示的方法,不適用于大規(guī)模網(wǎng)絡,主要體現(xiàn)在兩方面,一是對數(shù)據(jù)存儲的能力要求較高,二是算法的運行時間開銷大.然而,神經(jīng)網(wǎng)絡的出現(xiàn)成功解決了以上問題,受到不少研究學者的青睞,并取得良好效果.
基于隨機游走策略的方法將深度學習技術引入到網(wǎng)絡表示學習領域.其中,典型代表有Deepwalk[17]算法和Node2vec[18]算法.Deepwalk算法,從每個節(jié)點出發(fā),得到固定長度的游走路徑,作為Word2vec模型的輸入,采用skip-gram最大化中心節(jié)點的上下文節(jié)點出現(xiàn)的概率,獲取節(jié)點的向量化表示.Node2vec在隨機游走過程中引入廣度優(yōu)先和深度優(yōu)先策略,充分考慮了節(jié)點的局部空間信息和節(jié)點之間信息,將游走序列輸入Word2vec模型中,得到節(jié)點表示.
此外,一些基于深度學習框架的網(wǎng)絡表示模型相繼提出.DVNE[19]針對現(xiàn)實中網(wǎng)絡的不確定性,在Wasserstein空間中利用高斯分布學習每個節(jié)點的表示,以保持網(wǎng)絡的形成和演化的不確定性.當圖中節(jié)點個數(shù)發(fā)生變化,已有算法需要重新訓練節(jié)點的表示,對此,Xu等[20]提出GraphSAGE模型,通過一種“聚合函數(shù)”聚集鄰居節(jié)點特征來學習當前節(jié)點的表示,當有新增節(jié)點加入時,這種方法可以快速生成節(jié)點表示,無需額外的訓練過程.
本文旨在通過構建異質信息網(wǎng)絡,豐富節(jié)點語義,利用圖卷積神經(jīng)網(wǎng)絡模型學習到景點名稱的表示,以對其進行較精準的景點類型劃分.
圖卷積網(wǎng)絡大致分為兩類:基于譜域圖卷積(Spectral Convolution)和基于空域圖卷積(Spatial Convolution)[21].譜域圖卷積根據(jù)圖譜理論和卷積定理,借助傅里葉變換(Fourier Transform,FT)將數(shù)據(jù)由空域轉化到譜域后進行相應的操作,有較為堅實的理論基礎.FT變換公式如式(1)所示:
(f*g)(t)=F-1[F[f(t)]⊙F[g(t)]]
(1)
其中,f(t)是空域上的信號,F(t)是譜域上的信號,F-1表示傅里葉逆變換,*是卷積,⊙是哈達瑪乘積,表示向量或矩陣的逐點相乘.
針對圖上的卷積可以由式(2)表示,為:
(f*g)G=U((UTg)·(UTf))
(2)
其中,UTg看作可學習的卷積核,記為gθ,則圖上的卷積公式可以進一步表示為式(3):
o=UgθUTf
(3)
譜域上的圖卷積認為gθ是可學習的參數(shù)集合,并認為圖信號有多通道.譜域上的圖卷積操作可以用公式(4)表示:
(4)
基于空域的圖卷積神經(jīng)網(wǎng)絡,其思想來源于傳統(tǒng)神經(jīng)網(wǎng)絡對圖像的卷積操作,核心是通過聚合鄰居節(jié)點的信息,以得到節(jié)點新的表示.根據(jù)節(jié)點的空間關系,直接對相鄰節(jié)點求卷積.空域上的圖卷積操作可以表示為式(5):
(5)
為了通過利用用戶的評論信息實現(xiàn)對景點的準確分類,首先要根據(jù)評論文本提取主題,進而構建異質信息網(wǎng)絡;其次通過對異質網(wǎng)絡的表示學習,得到景點的低維特征表示;最后利用學習到的景點特征,對景點進行類型劃分.
為獲得景點名稱的包含豐富語義且低維的特征表示,構建異質信息網(wǎng)絡G=(V,E).其中,節(jié)點V={P∪C∪T},包含景點名稱P=(p1,p2,…,pn)、景點評論C=(c1,c2,…,cm)、從景點評論中提取的主題T=(t1,t2,…,tr),E表示異質信息網(wǎng)絡中節(jié)點之間的關系,如景點評論對景點的‘評價’關系.
首先,確定每條評論對應的主題個數(shù)k以及每個主題包含的單詞個數(shù)θ.其次,利用LDA主題模型從景點評論中挖掘出潛在的主題t,每個主題由幾個單詞的概率分布表示,形式為ti=(wi1,wi2,…,wiθ),為景點評論分配相應的主題,以此建立景點評論與主題之間的關系.最后,根據(jù)與處理數(shù)據(jù)中景點名稱與景點評論的對應關系建立二者之間的關系.
根據(jù)以上過程,構建了如圖4所示的異質信息網(wǎng)絡,各景點之間沒有邊,每個景點有多條評論,每條景點評論對應k個主題,具體k值將在實驗部分給出.
圖4 景點異質信息網(wǎng)絡Fig.4 Heterogenous information network for scenic
構建異質信息網(wǎng)絡后,需要盡可能多的利用景點網(wǎng)絡信息來提取景點名稱的低維特征表示.為充分聚合節(jié)點的鄰域信息以及網(wǎng)絡的結構信息,利用圖卷積神經(jīng)網(wǎng)絡聚合節(jié)點的局部信息以及網(wǎng)絡的全局信息,以得到節(jié)點豐富的語義表示.
4.2.1 異質圖卷積
由于GCN在卷積過程中沒有考慮節(jié)點類型,因此只適用于學習同質信息網(wǎng)絡的節(jié)點嵌入.針對景點類型劃分構建的異質信息網(wǎng)絡,不同類型節(jié)點的特征分布不同.因此,需要考慮將不同類型節(jié)點特征分布映射到同一隱式空間,再進行異質信息網(wǎng)絡上的卷積操作,進而學習到節(jié)點的嵌入.根據(jù)式(5)結合上述分析,得出異質信息網(wǎng)絡上的卷積運算如式(6)所示.
(6)
4.2.2 雙重注意力機制
針對某一具體節(jié)點v,節(jié)點的低維向量表示由鄰居節(jié)點的信息聚合而來,不同類型的鄰居,對節(jié)點v的影響不同,即權重不同.在構建的景點異質信息網(wǎng)絡中,景點名稱受景點評論的影響大于評論主題的影響.此外,與節(jié)點v類型相同但不同的鄰居節(jié)點對其影響也不同.同樣,在構建的景點異質信息網(wǎng)絡中,景點評論對應多個主題,但每條評論側重描述的主題不同.基于此,論文從鄰居節(jié)點類型和不同鄰居節(jié)點對某一具體節(jié)點的影響不同,分別引入注意力機制(Attention Mechanism).
類型級與節(jié)點級的注意力機制的可視化如圖5所示.其中,p為景點名稱節(jié)點,與其直接相連的是評論文本節(jié)點c,間接相連的為評論主題節(jié)點t,用不同深淺色的背景代表對p的不同影響程度,即不同節(jié)點類型節(jié)點對p的影響程度不同.同時,為每條評論文本匹配k個主題,二者之間關系如圖5左半部分,不同粗細的“連線”表示景點的評論文本側重的評論主題不同,即同類型的不同鄰居節(jié)點對某一具體節(jié)點的影響不同.
圖5 可視化雙層注意力機制Fig.5 Visualize two-layer attention mechanism
1)類型層注意力機制
(7)
基于當前節(jié)點v的嵌入fv以及由其τ類型鄰居節(jié)點聚合得到的類型層嵌入fτ,利用式(8)計算當前類型層注意力得分.
(8)
其中,μτ是類型τ的注意力向量,‖表示向量的拼接運算,σ為激活函數(shù),為避免神經(jīng)元出現(xiàn)“死亡”現(xiàn)象,選用LeakyReLU.
然后,利用Softmax函數(shù)歸一化類型層注意力得分,得到各類型層的權重,即不同類型鄰居節(jié)點對節(jié)點聚合的重要性,如式(9)所示.
(9)
2)節(jié)點層注意力機制
針對節(jié)點v,計算節(jié)點層注意力可以捕獲不同鄰居節(jié)點的重要性同時降低噪聲節(jié)點的影響.假設節(jié)點v的類型為τ,其τ′類型的鄰居節(jié)點vτ′∈Nv,根據(jù)節(jié)點v的嵌入fv和τ′類型鄰居節(jié)點的嵌入向量fvτ′以及τ′類型層注意力權重ατ′計算節(jié)點層權重,如式(10)所示.
bv vτ′=σ(vT·ατ′[fv‖fvτ′])
(10)
其中,v是節(jié)點層注意力向量.最后,規(guī)范化節(jié)點級注意力得分,如式(11)所示.
(11)
最后,將由包含類型層和節(jié)點層的注意力的雙層注意力機制得到的節(jié)點間權重矩陣Bτ帶入公式(6)中,得到引入雙層注意力機制的異質圖卷積網(wǎng)絡中的逐層傳播規(guī)則如式(12)所示.
(12)
根據(jù)183個景點的特征,論文將其分為3種類型.因此,針對構建的異質信息網(wǎng)絡,將L-層SGAE模型學習到的景點名稱的低維特征表示H(L),利用Softmax函數(shù)對景點名稱進行分類,如式(13)所示,輸出為一個三維向量,分別對應3種景點類型,將數(shù)值較大的對應的景點類型確定為該景點名稱的類型.
C=Softmax(H(L))
(13)
模型訓練過程中,選用L2-正則交叉熵損失函數(shù),如式(14)所示.
(14)
其中,L是景點分類的類別,Ptrain是景點的訓練集,Tij是相應的標簽指標矩陣,Θ是模型的參數(shù),η是正則化因子,‖·‖2是二范數(shù).
為驗證所提模型SGAE在景點分類任務上的有效性,對比實驗分為兩部分:一是在爬取的景點評論以及景點描述數(shù)據(jù)集上選用經(jīng)典分類算法與論文算法SGAE對比;二是在公共數(shù)據(jù)集AGNews和MR上應用SGAE模型,再與已有的實驗結果做對比.
從旅游網(wǎng)站和百科網(wǎng)站上爬取了全國部分5A和部分4A級景點信息以及景點的評論信息.共計景點183個,評論數(shù)據(jù)近20萬條.通過對數(shù)據(jù)集預處理:1)刪除對景點特征描述不明顯的數(shù)據(jù),如:景色不錯,總體超贊,性價比高,有趣好玩等;2)刪除重復的景點評論文本;3)刪除評論中出現(xiàn)的特殊符號、連續(xù)使用的標點符號以及語氣助詞;4)刪除字符長度大于150的評論文本.最終篩選出6150條評論數(shù)據(jù).
5.2.1 對比實驗所需數(shù)據(jù)集和模型
在以下真實的數(shù)據(jù)集上評估SGAE模型,數(shù)據(jù)集的統(tǒng)計信息如表1所示.
表1 數(shù)據(jù)集的統(tǒng)計信息Table 1 Statistics of the datasets
AGNews:采用了文獻[22]中的數(shù)據(jù)集,并從中選取5000則新聞,平均分為4類,按照6∶2∶2的比例分為訓練集、驗證集、測試集.
MR:此數(shù)據(jù)集為電影評論數(shù)據(jù)集,且每條評論只包含一條由正標簽或負標簽標記的句子.論文采用文獻[23]中的數(shù)據(jù),并從中選取4000條數(shù)據(jù),用于情感二分類.
5.2.2 模型評價指標
針對SGAE模型對景點分類的建模任務,選取準確率和F1值作為模型的評價指標.
準確率(Accuracy):分類正確的樣本數(shù)量與總樣本數(shù)量之比.
F1值(F1-Score):
(15)
其中,precision又名查準率,表示正確預測的正樣本數(shù)量與實際預測為正樣本數(shù)量的比值;recall即查全率,表示正確預測正樣本數(shù)量與實際正樣本數(shù)量的比值.
對爬取的實驗數(shù)據(jù)進行預處理之后,共選取183個景點的6150條評論文本,根據(jù)現(xiàn)有景點分類標準以及所爬取的景點特征,將景點分為3種類型.
將數(shù)據(jù)集隨機分為訓練集、測試集和驗證集,比例為:6∶2∶2.其它超參數(shù)設置:學習率為0.0008,dropout率為0.5,權重損失率為5e-4.映射層對應不同類型節(jié)點的映射矩陣維度分別為10×512,128×512,768×512.SGAE模型的隱層大小設置為512×3.針對每條景點評論對應主題個數(shù)的確定,從圖6中可以看出,當每條評論對應的最多主題個數(shù)增加時,測試集的準確率增加,當主題個數(shù)大于2時,準確率下降.因此,在構建的異質信息網(wǎng)絡中,每條景點評論對應的主題數(shù)為k=2.
圖6 評論對應k個主題的模型準確率Fig.6 Model accuracy of k topics corresponding to review
為使SGAE在測試集上取得較好的結果,分別計算主題數(shù)t=8,10,12,15時測試集的準確率以及訓練集損失值,繪制如圖7和圖8所示的折線圖.從圖7中可以看出,在模型進行了50次迭代,不同主題個數(shù)的測試集的準確率均達到收斂且t=10時準確率最高;從圖8中可以看出,不同主題個數(shù)對應的訓練集的損失值在epoch<50以內,均達到收斂狀態(tài)且t=10時損失值最低.綜上,論文構建的異質信息網(wǎng)絡中評論主題個數(shù)確定為t=10.
圖7 不同主題個數(shù)的測試集的準確率Fig.7 Accuracy of test set with different number of topics
作為網(wǎng)絡嵌入的重要應用之一,可視化可以更加直觀地檢驗模型對于異質信息網(wǎng)絡中節(jié)點特征提取的效果.為驗證景點特征學習的效果與SGAE模型層數(shù)的關系,用一層和兩層的SGAE,分別表示為SGAE-1和SGAE-2,學習景點的低維特征表示,并利用t-SNE[24]將低維向量映射到2維空間,圖9和圖10分別為SGAE-1和SGAE-2可視化的結果,不同形狀代表不同的景點類型.從圖9的可視化效果中看出,不同類型的景點均趨向于中心聚集,且重疊部分較多,邊界不明顯;然而,圖10中除個別景點外,同種類型景點之間聚集度較高,不同類型景點間邊界較明顯.
圖9 SGAE-1景點可視化效果Fig.9 SGAE-1 scenic spot visualization
圖10 SGAE-2景點可視化效果Fig.10 SGAE-2 scenic spot visualization
表2為二者在景點分類任務上的對比結果.SGAE-2在景點類型劃分任務上的準確率和F1值均高于SGAE-1.
表2 SGAE-1和SGAE-2性能對比結果Table 2 Performance comparison results of SGAE-1 and SGAE-2
綜合以上分析,SGAE-2的性能優(yōu)于SGAE-1,即聚合2階鄰居節(jié)點信息學習到的景點特征更完備.在構建的異質信息網(wǎng)絡中,景點的低維特征表示通過聚合景點評論和評論主題的信息得到,豐富了節(jié)點的語義信息,更好的表達了景點的特征,對于后續(xù)的研究具有重要的意義.
在SGAE中,隨機初始化各項參數(shù)并采用隨機梯度下降法多模型進行優(yōu)化.為保證結果的更精確,誤差盡可能少,將模型運行10次的準確率和F1值取平均作為最終的模型評價指標值.
在所爬取的景點數(shù)據(jù)集上,選取經(jīng)典分類算法與SGAE算法做對比,結果如表3所示,從模型的準確率和F1值兩項評價指標上可以看出,模型SGAE性能均優(yōu)于其他基準模型,相比于性能較好的HGAT模型在準確率和F1值分別高出5%和4%,這驗證了SGAE算法在景點類型劃分任務上的有效性.
表3 論文數(shù)據(jù)集對比實驗結果Table 3 Comparative experimental results of paper data sets
由于SGAE模型采用的是半監(jiān)督的學習方式,其學習程度受訓練集中已知標簽節(jié)點數(shù)量影響.表4為取不同比例的景點數(shù)據(jù)作為訓練集,計算SAGE模型的Acc值和F1值.結果顯示:當訓練集樣本數(shù)量較少時,SGAE模型的性能較低,隨著訓練集樣本數(shù)量的增加,模型的Acc值和F1值逐漸上升,當訓練集數(shù)量占總樣本數(shù)量的44%時,模型性能增長趨于平緩,直到訓練樣本數(shù)量為66%時,SGAE模型性能仍有提升.然而,半監(jiān)督學習方式在少量訓練樣本上取得較好效果的模型更具實際意義.綜合考慮,訓練集數(shù)量的最佳選擇為55%的總樣本.
表4 論文數(shù)據(jù)集對比實驗結果Table 4 Comparative experimental results of paper data sets
表5是在公共數(shù)據(jù)集AGNews和MR上,論文所提算法與文獻[25]中選取方法得到的分類準確率和F1值做對比,可以發(fā)現(xiàn):
表5 AGNews與MR數(shù)據(jù)集對比實驗結果Table 5 Comparison of experimental results between agnews and MR data sets
1)使用預訓練的模型,CNN-pre和LSTM-pre相對于通過隨機初始化的CNN-rand和LSTM-rand,在分類性能有了顯著的提升.原因是預訓練模塊可以按照實際任務需要對詞向量進行適當?shù)念A訓練,且詞向量在模塊的訓練流程中也可以實現(xiàn)優(yōu)化.
2)基于詞共現(xiàn)學習文本嵌入的PTE模型性能較差,原因可能是AGNews數(shù)據(jù)集和MR數(shù)據(jù)集的評論文本較短,PTE不能較好的捕獲語義信息所致,而LEAM模型比PTE模型在AGNews數(shù)據(jù)的準確率和F1值均高出約82%,在MR數(shù)據(jù)集上準確率和F1值均高出約9.7%.
3)基于圖卷積神經(jīng)網(wǎng)絡的TextGCN和HGCN-RN模型,準確率和F1值均較高,說明根據(jù)數(shù)據(jù)集構建的異質信息網(wǎng)絡豐富了節(jié)點的語義表示,且GCN有效的提取了文本的特征,使得分類性能有所提升.
4)SGAE模型的性能明顯高于所有基準模型,相比于分類效果較好的HGCN-RN模型,在AGNews上的準確率和F1值分別提升了1.95%和1.98%,在MR上的準確率和F1值分別提升了3.92%和6.96%.
綜上,SGAE模型在根據(jù)數(shù)據(jù)特征構建的異質信息網(wǎng)絡中,可以充分的聚合鄰居節(jié)點信息,有效學習了節(jié)點的低維特征表示,對節(jié)點短文本分類中的有效性.
根據(jù)不同類型節(jié)點間關系構建的異質信息網(wǎng)絡,在豐富節(jié)點語義的同時,充分挖掘了節(jié)點的潛在特征.從爬取的景點評論中提取出評論主題,構建包含景點名稱、景點評論和評論主題3種類型節(jié)點的異質信息網(wǎng)絡,有效的提取了景點名稱的特征,提出了適用于景點分類的SGAE模型,在爬取的景點數(shù)據(jù)集和公開數(shù)據(jù)集AGNews和MR上分別與經(jīng)典分類模型和文獻[25]中的模型做對比,結果顯示,SAGE模型提升了圖神經(jīng)網(wǎng)絡的分類性能.
接下來,將進一步在更多數(shù)據(jù)集上以不同的任務驗證模型的有效性,以及從景點類型多分類的角度繼續(xù)探索.