蔣浩泉,張儒清,郭嘉豐,范意興,程學旗
(1. 中國科學院 計算技術研究所 網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室,北京 100190;2. 中國科學院大學,北京 100049)
表示學習(RepresentationLearning)對于分類、匹配、生成等任務都至關重要,傳統(tǒng)特征表征工程需要人工設計特征。但深度學習可利用神經網(wǎng)絡技術根據(jù)設定的任務目標自動學習得到輸入及中間環(huán)節(jié)良好的分布式向量表示。多層感知機(Multi-Layer Perceptron,MLP)、卷積神經網(wǎng)絡(Convolutional Neural Networks,CNN)[2-3]和循環(huán)神經網(wǎng)絡(Recurrent Neural Networks,RNN)[4]是此前最常用的神經網(wǎng)絡結構,被廣泛用于自然語言處理、計算機視覺、語音識別等領域文本、圖像及語音等信息的表示。
隨著深度學習研究的發(fā)展,近期圖卷積網(wǎng)絡(Graph Convolutional Networks,GCN)和自注意(self-attention)機制獲得了機器學習從業(yè)者們的大量關注。作為深度學習領域的最新進展,兩者近期眾多相關研究成果紛紛涌現(xiàn)。
目前最常采用的圖卷積網(wǎng)絡形式作為譜圖卷積的局部一階近似被提出,是一種簡單而有效的圖神經網(wǎng)絡(Graph Neural Networks,GNN)。相比傳統(tǒng)神經網(wǎng)絡只能用于一般如文本序列、圖像柵格等的網(wǎng)格狀數(shù)據(jù),圖神經網(wǎng)絡能夠對非歐氏度量空間的數(shù)據(jù)進行建模。圖卷積網(wǎng)絡是傳統(tǒng)神經網(wǎng)絡中卷積神經網(wǎng)絡結構在圖數(shù)據(jù)上的推廣,它本質是一種可直接作用于圖上的多層神經網(wǎng)絡。圖卷積網(wǎng)絡基于每個節(jié)點的鄰居節(jié)點生成該節(jié)點的嵌入向量表示,該嵌入表示能將局部的圖結構以及臨近節(jié)點的特征信息編碼入其中。圖卷積網(wǎng)絡通過一層卷積操作只能獲取到其直接鄰居節(jié)點的信息,而通過多層圖卷積網(wǎng)絡堆疊,就能整合更大范圍的臨近信息。
自注意機制是一種特殊的注意力(attention)機制。注意力機制現(xiàn)已成為神經網(wǎng)絡領域最重要的概念之一,它使得神經網(wǎng)絡模型能夠根據(jù)自身需求靈活自動地關注輸入數(shù)據(jù)或特征中重要的部分,極大地提高模型的表達能力。注意力機制最初是與編碼器-解碼器(encoder-decoder)架構相結合而被用于機器翻譯領域[5],其要求輸入與輸出都是一個序列。但是對于諸如文本分類等任務,其輸入是一個序列,而輸出并不是序列的形式,故自注意機制的思想被提出,直接在一個序列內部實現(xiàn)注意力機制的運用。此后,Transformer架構[6]橫空出世,為自然語言處理領域預訓練模型[7]研究的熱潮奠定了基礎,而這些模型的共同核心思想之一就是自注意機制。
在將圖卷積網(wǎng)絡與自注意機制在工作原理上進行對比分析后,我們發(fā)現(xiàn)兩者在形式上極其相似。一次圖卷積操作和一次自注意步驟之間的區(qū)別僅在于對表示節(jié)點間連接關系的鄰接矩陣的計算方式不同。從某種角度上可以認為,自注意機制也以其所有輸入樣本為節(jié)點,構建了一個全連接的圖。并且,圖卷積網(wǎng)絡中用于表示節(jié)點間關系的鄰接矩陣往往是訓練之前人為預先給定的,而自注意機制中與之相對應表示節(jié)點之間連接關系的矩陣則是由可學習的參數(shù)根據(jù)不同任務特性學習得到的,即各節(jié)點之間連邊的權重甚至圖的結構(連邊權重為0則代表無連接,否則代表有連接)都是由可學習的參數(shù)根據(jù)不同任務的學習目標自適應地決定的。因此,自注意機制在某種程度上可以說是圖卷積網(wǎng)絡的一種泛化,具有較圖卷積網(wǎng)絡更強的表達能力。我們進一步推測,相比圖卷積網(wǎng)絡,在實際任務中使用更具表達能力的自注意機制將可能帶來性能上的提升。
為了在實際任務中驗證上述想法,我們選擇了自然語言處理最基本問題之一——文本分類任務,將其作為代表進行對比實驗。最終的實驗結果顯示,在相對對等的條件下,采用自注意機制的模型在多個文本分類數(shù)據(jù)集上的表現(xiàn)都顯著優(yōu)于使用圖卷積網(wǎng)絡的對照模型,甚至超過了目前圖卷積網(wǎng)絡用于文本分類任務的最先進水平。除此之外,我們還觀察到,隨著數(shù)據(jù)規(guī)模的增加,使用自注意機制的模型和使用圖卷積網(wǎng)絡模型之間的性能差距也逐漸擴大。這些結果從實際任務表現(xiàn)方面,驗證了自注意機制確實具有較圖卷積網(wǎng)絡更強表達能力的觀點。
需要指出的是,雖然本文對圖卷積網(wǎng)絡和自注意機制之間關系的理論分析,以及隨后在文本分類任務上的實驗驗證等部分,對其他任務或領域可能也具有一定的啟發(fā)作用,但是本文的目標和討論范圍實際上是緊密限制在文本分類任務以及模型的文本分類效果上的。對于其他任務和領域,以及性能表現(xiàn)和更深層的數(shù)學原理等其他課題,則是已經超出了本文的研究范圍。對于這些研究課題,我們將在本文最后進行一些拋磚引玉式的列舉,并作為后續(xù)工作考慮的一個研究方向。
本文第1節(jié)簡要介紹圖卷積網(wǎng)絡和自注意機制的一些相關工作;第2節(jié)對比圖卷積網(wǎng)絡與自注意機制的工作原理,證明后者在某種程度上可被視為前者的一種泛化;第3節(jié)通過文本分類任務對比實驗的實際表現(xiàn),驗證自注意機制較圖卷積網(wǎng)絡具有更強的表達能力,可獲得更佳性能。最后,對本文進行總結,并提供一些未來可能進行的工作和研究方向。
本節(jié)將簡要介紹一些圖卷積網(wǎng)絡和自注意機制的主要相關工作。
深度學習能有效捕獲歐氏度量空間下數(shù)據(jù)的潛在模式,然而如今越來越多的數(shù)據(jù)則是通過圖的形式表示。例如,電子商務中顧客與商品間的交互關系、生物化學中分子與藥物構成的網(wǎng)絡,以及引文網(wǎng)絡中文獻之間的引用關系等。圖的不規(guī)則性使得一些如卷積等重要的操作在圖像域可以很容易計算,但卻難以直接運用到圖數(shù)據(jù)上。此外,現(xiàn)有機器學習算法的一大重要前提假設就是樣本之間相互獨立。而這在圖數(shù)據(jù)上顯然是不成立的,因為代表樣本的節(jié)點之間都通過邊相互關聯(lián)在一起[8]。
近年來,研究者們將傳統(tǒng)神經網(wǎng)絡中的如卷積神經網(wǎng)絡結構進行了拓展推廣,重新定義了在圖數(shù)據(jù)上的卷積操作。類似在圖像上的卷積操作,圖上的卷積可以定義為取節(jié)點所有鄰近信息的加權平均。第一項在譜圖卷積網(wǎng)絡領域的先驅工作是由Bruna等人[9]進行的,他們基于譜圖理論定義了一個圖卷積的概念。此后,又有眾多工作對譜圖卷積網(wǎng)絡進行了改進、拓展和近似[10-12]。這些工作中,Kipf等人[12]提出了一個譜圖卷積的局部一階近似版本的圖神經網(wǎng)絡,即圖卷積網(wǎng)絡,在多個標準圖數(shù)據(jù)集上實現(xiàn)了當時最好的分類結果。此外,Marcheggiani等人[13]為了使圖卷積網(wǎng)絡能夠處理更復雜的,如包含語法等信息的圖結構等,他們?yōu)閳D卷積網(wǎng)絡引入了處理連邊方向和標簽種類的新機制。
圖卷積網(wǎng)絡也被應用于多個自然語言處理任務上,例如,文本分類[14-15]、機器翻譯[16-17]、摘要生成[18]、閱讀理解和問答[19]等。有關圖卷積網(wǎng)絡、圖神經網(wǎng)絡更全面的介紹可以參考Zhang等人[20]和Wu等人[8]的綜述文獻。
注意力機制最初是與編碼器-解碼器(encoder-decoder)架構相結合被用于機器翻譯領域[5]的,使得模型能夠根據(jù)自身需求靈活地自動關注輸入數(shù)據(jù)中重要的部分。但是對于諸如文本分類、推薦等任務,其輸入是一個序列而輸出并不是序列的形式,故Yang等人[21]提出了自注意機制,用于直接在序列內部實現(xiàn)注意機制的運用。
此后,Transformer架構[6]橫空出世,為自然語言處理領域預訓練模型[7]研究的熱潮奠定了基礎,而這些模型的共同核心思想之一就是自注意機制。每一層的自注意機制將同一輸入序列中各字符的特征表示向量相互關聯(lián)起來,用序列中所有位置的向量表示經過映射變換后的加權平均來作為每個位置新的向量表示。Transformer架構還引入了多頭(multi-head)自注意機制的概念,將多個自注意模塊并行而不是前后按順序地堆疊在一起,并在之后進行匯總。不同的并行自注意模塊輸入數(shù)據(jù)相同,有助于捕獲輸入數(shù)據(jù)中不同層面的特征信息,提高了模型的表達能力。
除被用于眾多預訓練模型外,不同形式的自注意機制的思想也被運用于推薦系統(tǒng)[22]、自然語言理解[23]及對句子的表示學習[24]。自注意機制是一種特殊的注意力機制,而注意力機制現(xiàn)已成為神經網(wǎng)絡領域的一個重要概念。關于其更全面的介紹,可以參考Chaudhari等人[25]的綜述文獻。
注意力機制已被廣泛運用于基于序列的任務中,它最大的優(yōu)點就是使得神經網(wǎng)絡模型能夠根據(jù)自身需求靈活自動地關注輸入數(shù)據(jù)或特征中重要的部分,極大提高了模型的表達能力。眾多研究開始嘗試將注意力機制融入各種神經網(wǎng)絡模型中去,圖神經網(wǎng)絡也不例外。
Velickovic等人[26]在聚合臨近節(jié)點特征信息時使用注意力機制確定各節(jié)點的權重,并且融入了多頭注意力機制提出了圖注意力網(wǎng)絡(Graph Attention Networks,GAT)。Zhang等人[27]提出的門控注意網(wǎng)絡(Gated Attention Network,GAAN)進一步引入了自注意機制,用于計算不同注意力頭部的權重而非直接加和平均。對于注意力機制在圖上運用的更全面介紹,可參考Lee等人[28]的綜述文獻。
然而據(jù)我們所知,現(xiàn)有的已正式發(fā)表的文獻中,尚未對圖卷積網(wǎng)絡與自注意機制之間的關系進行分析和討論。
本節(jié)將對比分析圖卷積網(wǎng)絡與自注意機制的工作原理,證明后者在某種程度上可被視為前者的一種泛化,繼而推斷自注意機制具有較圖卷積網(wǎng)絡更強的表達能力。
目前,普遍被采用的圖卷積網(wǎng)絡形式是由Kipf等人[12]作為譜圖卷積的局部一階近似提出的,是一種簡單而有效的圖神經網(wǎng)絡。圖卷積網(wǎng)絡本質是一種可直接作用于圖上的多層神經網(wǎng)絡,它基于每個節(jié)點的鄰居節(jié)點生成該節(jié)點的嵌入向量表示,該嵌入表示能將局部的圖結構以及臨近節(jié)點的特征信息編碼入其中。
考慮包含n個節(jié)點的圖G,每個節(jié)點都有一條自連邊。圖G的鄰接矩陣為A,由于自連邊,其對角線上的元素全為1。度矩陣D計算如式(1)所示。
Dii=∑jAij
(1)
令X∈Rn×m為包含所有節(jié)點特征的矩陣,m為特征表示向量的維度。
圖卷積網(wǎng)絡通過一層卷積操作只能獲取到其直接鄰居節(jié)點的信息,而通過多層圖卷積網(wǎng)絡堆疊,就能整合更大范圍的臨近信息。對一層圖卷積網(wǎng)絡來說,新的節(jié)點特征矩陣H(l+1)∈Rn×k通過式(2)得到:
(2)
通常還要通過激活函數(shù)σ,即H(l+1):=σ(H(l+1))。其中,W(l)∈Rm×k是對特征矩陣H(l)進行線性變換的參數(shù)矩陣;l代表層數(shù),網(wǎng)絡的輸入特征矩陣即為初始節(jié)點特征矩陣,如式(3)所示。
H(0)=X
(3)
(4)
此外,Marcheggiani等[13]為了使圖卷積網(wǎng)絡能夠處理更復雜的,如包含語法等信息的圖結構,他們?yōu)閳D卷積網(wǎng)絡引入了處理連邊方向和標簽種類的新機制。在他們經過拓展后的圖卷積網(wǎng)絡中,一個新節(jié)點v的特征表示向量表示如式(5)所示。
(5)
其中,N(v)代表節(jié)點v的鄰居節(jié)點集合;W(l)和b(l)代表可學習的參數(shù)矩陣或參數(shù);L(u,v)是返回兩節(jié)點u和v之間連邊方向和類型的函數(shù)。相對式(2)中的W(l),不同方向和不同類型的連邊在這里由不同的可學習參數(shù)表示。同樣,最后將所有鄰居節(jié)點變換后的表示被聚合起來,得到該節(jié)點新的特征表示向量。
引入處理連邊方向和標簽種類機制的圖卷積網(wǎng)絡的工作原理可大致由圖1的左半部分示意。由于不同指向、不同類型的連邊,其節(jié)點變換參數(shù)矩陣也不相同,所以總的圖卷積網(wǎng)絡可按照不同方向、不同類型邊拆分成多個子圖分別進行圖卷積,最后再將所有子圖相加得到最終新的節(jié)點表示。為了簡化表示,這里忽略了邊的方向,只按照邊的類型對圖卷積網(wǎng)絡進行了分解。
圖1 圖卷積網(wǎng)絡(左)與(多頭)自注意機制(右)的對比示意圖
現(xiàn)被廣泛使用的自注意機制見于由Vaswani等人[6]提出的Transformer結構中,最早用于機器翻譯。自注意機制是一種特殊的注意力機制,相對初始的注意力機制[5]更擅長捕捉數(shù)據(jù)特征內部的相關性,減少了對其他外部信息的需求依賴。它使得神經網(wǎng)絡模型能夠根據(jù)自身需求靈活、自動地關注輸入數(shù)據(jù)或特征中重要的部分,極大地提高了模型的表達能力。
為了簡化且不失一般性,我們略去層數(shù)標識,并如同Transformer編碼器部分,自注意力機制包含三個特征矩陣Query、Key、Value(下文分別用Q、K、V表示),且三個矩陣相同,,用H∈Rn×dmodel表示。自注意機制可表示如式(6)、式(7)所示。
其中,參數(shù)矩陣WQ∈Rdmodel×dk、WK∈Rdmodel×dk、WV∈Rdmodel×dv;softmax是對矩陣按行進行softmax歸一化。實際上,按行softmax歸一化可以分解為先對矩陣逐元素求指數(shù)的exp運算,再按行進行歸一化。令
(8)
(9)
作為自注意機制的一種泛化,多頭自注意機制將多個自注意模塊并行而不是前后按順序地堆疊在一起,并在之后進行匯總。不同的并行自注意模塊輸入數(shù)據(jù)相同,有助于捕獲輸入數(shù)據(jù)中不同層面的特征信息,提高了模型的表達能力。多頭自注意力機制的計算如式(10)所示。
Multi-Head(H)=Cat(SA1,…,SAh)WO
(10)
其中SA是自注意機制的簡寫,表示多個并行的自注意模塊;Cat是矩陣的拼接操作;h為自注意頭的數(shù)目;多個自注意力頭拼接后,再與WO∈R(h×dv×dmodel)參數(shù)矩陣進行計算,如式(11)所示。
SAi=Self-Attentioni(H)
(11)
實際上,將多個向量或矩陣拼接后再利用矩陣相乘進行線性變換,在最終數(shù)值計算得到的結果上等價于分別進行矩陣相乘線性變換后再相加,如式(12)所示。即就計算結果而言,式(10)可與式(12)等價。
Multi-Head(H)=SA1W1+…+SAhWh
(12)
首先,從對原始鄰接矩陣的歸一化方式上看,圖卷積網(wǎng)絡與自注意機制存在細微差異,這也導致了兩者所構建圖連邊的類型不同。通過表示兩者對原始鄰接矩陣的歸一化的式(4)和式(9)可以看出,圖卷積網(wǎng)絡采用的是對稱歸一化,而自注意機制采用的則是行歸一化。因此,圖卷積網(wǎng)絡所構建的是一個無向圖,而自注意機制構建的則是一個有向圖。
其次,相比圖卷積網(wǎng)絡中原始鄰接矩陣A往往是訓練之前人為預先給定的,自注意機制中與之相對應表示節(jié)點之間連接關系的矩陣是由可學習的參數(shù)根據(jù)不同任務特性學習得到,即各節(jié)點之間連邊的權重甚至圖的結構(連邊權重為0則代表無連接,否則代表有連接)都是由可學習的參數(shù)根據(jù)不同任務的學習目標自適應地決定的。
通過圖1中央虛線方框部分可清晰地看到單層圖卷積網(wǎng)絡與單頭注意力機制之間的關系。左側的圖卷積網(wǎng)絡構建了一個無向圖,且節(jié)點之間的連接關系及權重是人為預先給定的。而自注意機制則是構建了一個有向全連接圖,其各節(jié)點之間連邊的權重甚至圖的結構都是由可學習的參數(shù)根據(jù)不同任務的學習目標自適應地決定的。圖中只表示了結構,沒有表示邊的相對權重大小。
即使是對于引入處理連邊方向和標簽種類機制的圖卷積網(wǎng)絡,通過圖1我們也可以直觀地看到,多頭自注意機制也能通過多個并行的自注意模塊以及可學習的參數(shù)對圖卷積網(wǎng)絡進行表達。實際上,每個自注意頭并不一定如圖中所示那樣是一一對應的。因為相比于左側圖卷積網(wǎng)絡中邊的類型需要提前定義,自注意機制則可以根據(jù)不同任務目標、通過可學習的參數(shù)自動學習捕獲到模型各部分的良好表示,而這并不一定與前者預先定義的一致。
試想在極端的情況下,如果完全符合任務的目標,那么自注意機制中的矩陣A也可通過可學習參數(shù)的改變表示為與圖卷積網(wǎng)絡中鄰接矩陣A數(shù)值相等。由此可以看出,可學習參數(shù)的引入,使得自注意機制較圖卷積網(wǎng)絡具有更強的模型表達能力。換而言之,在某種程度上,我們可以說自注意機制實際上是圖卷積網(wǎng)絡的一種泛化。
本節(jié)在文本分類任務上,對分別使用圖卷積網(wǎng)絡和自注意機制的模型進行實驗。具體來說,在從原理上分析得到自注意機制可看作是圖卷積網(wǎng)絡的一種泛化形式后,從實際任務表現(xiàn)方面驗證: 是否使用自注意機制的模型確實具有較圖卷積網(wǎng)絡更強的表達能力,從而性能更佳。
首先,我們與多個圖卷積網(wǎng)絡相關的文本分類基準模型進行比較,主要包括:
?Text-GCN: Yao等[14]將圖卷積網(wǎng)絡應用于文本分類任務,提出了Text GCN模型。該模型為整個數(shù)據(jù)集構建一張圖,以整個數(shù)據(jù)集的所有詞和句子作為節(jié)點,基于詞的共現(xiàn)信息和文檔-詞的關系(點互信息PMI和TF-IDF)設計連邊權重。模型采用堆疊的兩層圖卷積網(wǎng)絡,其中,節(jié)點被初始化為詞和文檔的獨熱向量,即X=I,且訓練過程中該輸入層參數(shù)固定。
?Conv-GNN: Huang等[15]認為,以往的圖神經網(wǎng)絡往往是在整個數(shù)據(jù)集上構建一個大圖。這導致極高的內存消耗,以及無法對新來的數(shù)據(jù)進行在線測試,因為新數(shù)據(jù)并不包含在已經構建好的圖中。為此,他們?yōu)槊總€輸入文本構建圖,連邊權重由可學習的參數(shù)決定,且各參數(shù)共享以保留全局信息。雖采用的不是圖卷積網(wǎng)絡的形式,但也是一種卷積圖神經網(wǎng)絡。其中,節(jié)點采用GloVe向量[29]初始化。
?Text-GCN*: 為了與實驗組進行公平的對比,消除引入GloVe向量可能帶來的影響差異,我們也用GloVe向量初始化Text-GCN的節(jié)點特征,并且在訓練過程中節(jié)點向量的參數(shù)是可變的。若無特別說明,本文中特征表示向量都采用GloVe向量初始化,且都是在訓練過程中可變的。
為了對圖卷積網(wǎng)絡和自注意機制進行較為公平的對比,我們設計了如下實驗組:
?GCN: 采用Conv-GNN的做法,該模型以每個輸入文本的所有詞和該文本作為節(jié)點構圖,再用兩層的圖卷積網(wǎng)絡對該文本進行類別預測,詞節(jié)點向量表示全局參數(shù)共享。圖的鄰接矩陣即節(jié)點之間的連邊權重計算方式則與Text GCN相同,由點互信息PMI和TF-IDF所確定,計算如式(13)所示。
其中,Aij表示節(jié)點i和節(jié)點j的連邊權重。
?SA: 輸入與GCN相同,以單個文本為單位,可視為所構圖節(jié)點相同。但模型是兩層先后次序堆疊的自注意機制,因此節(jié)點之間連邊權重完全是由可學習參數(shù)決定的。
我們在三個被廣泛使用的文本分類數(shù)據(jù)集上進行了對比實驗,即R8、R52(1)https://www.cs.umb.edu/smimarog/textmining/datasets/,以及Ohsumed(2)http://disi.unitn.it/moschitti/corpora.htm。
? R8和R52都是Reuters 21 578數(shù)據(jù)集的兩個子集,分別包含8種和52種類別標簽。
? Ohsumed來自于多標簽分類數(shù)據(jù)集MEDLINE,然而我們僅關注單標簽分類,因此含有多個標簽的樣本沒有包含在最終的數(shù)據(jù)集中。
表1展示了所采用數(shù)據(jù)集的部分統(tǒng)計數(shù)據(jù),包括訓練集和測試集的樣本數(shù)、所構成圖的總節(jié)點數(shù),以及所含類別數(shù)目。
表1 數(shù)據(jù)集的統(tǒng)計信息
此外,我們采用了與Text GCN[14]工作相同的模型評價指標,即通用的分類準確率。其計算方式為類別預測正確的樣本占總待預測樣本的比例。
對于Text-GCN、Conv-GNN和Text-GCN*這三個對照模型,其參數(shù)及訓練過程可參考其原論文[14-15]。
對GCN和SA兩個實驗模型,我們使用Adam優(yōu)化器[30],初始學習率為0.001。Dropout概率為0.5,L2正則化權重為0。其他預處理方法、數(shù)據(jù)集劃分方式以及參數(shù)設置均與Text GCN[14]相同。
表2展示了各模型在各文本分類數(shù)據(jù)集上的分類準確率,都是運行多次取均值和標準差后的結果,部分數(shù)據(jù)來自于Yao等人[14]和Huang等人[15]。
表2 模型在測試集上的準確率
對比代表圖卷積網(wǎng)絡的GCN模型和代表自注意機制的SA模型的分類準確率我們可以看到,使用自注意機制的模型在多個文本分類數(shù)據(jù)集上的表現(xiàn)都明顯超越了使用圖卷積網(wǎng)絡的模型,且存在較大差距。GCN模型相對SA模型的區(qū)別僅在于: GCN模型的鄰接矩陣計算方式即節(jié)點間的連接關系及權重是提前根據(jù)經驗人為設計并固定的,而SA模型由于采用的是自注意機制,相對應地表示節(jié)點之間連接關系的矩陣則是由可學習的參數(shù)根據(jù)不同任務特性學習得到,即各節(jié)點之間連邊的權重甚至圖的結構都是由可學習的參數(shù)根據(jù)不同任務的學習目標自適應地決定的。該現(xiàn)象表明,可學習參數(shù)的引入,使得自注意機制較圖卷積網(wǎng)絡具有更強的模型表達能力。
繼續(xù)觀察GCN和SA這兩組實驗,我們發(fā)現(xiàn)隨著數(shù)據(jù)集規(guī)模的增大,兩模型的性能差距也相應擴大,如圖2所示。橫軸依次代表的是R8、R52以及Ohsumed數(shù)據(jù)集構圖所含的節(jié)點總數(shù)依次增大,縱軸表示分類準確率,圖中深色部分即表示了使用自注意機制的SA模型與使用圖卷積網(wǎng)絡的GCN模型之間的分類準確率差異??梢灾庇^地看到,隨著代表數(shù)據(jù)集規(guī)模的構圖節(jié)點數(shù)目的增加,深色部分的縱向距離不斷增大。這說明,隨著數(shù)據(jù)規(guī)模的增加,更具表達泛化能力的自注意機制能夠更好地捕獲并表示數(shù)據(jù)中與任務目標一致的特征,從而取得較圖卷積網(wǎng)絡更優(yōu)異的性能表現(xiàn)。
圖2 分類準確率差距與數(shù)據(jù)集規(guī)模的關系
我們還發(fā)現(xiàn),使用自注意機制的SA模型在三個文本分類數(shù)據(jù)集上的分類準確率也都顯著優(yōu)于目前使用圖卷積網(wǎng)絡最先進的文本分類模型Text-GCN(使用T檢驗進行顯著性檢驗,滿足p<0.05的條件,說明該差異是顯著的)。在R52和Ohsumed兩個數(shù)據(jù)集上更是超過了Conv-GCN,達到了目前最先進的文本分類水平。兩者在R8數(shù)據(jù)集上的表現(xiàn)也相當,可歸因為參數(shù)優(yōu)化上的隨機性。
綜合之前的分析結果,這些證據(jù)表明,在文本分類任務中自注意機制更具表達能力,或可替代圖卷積網(wǎng)絡,帶來潛在的性能提升。
本文對深度學習的兩項前沿技術即圖卷積網(wǎng)絡和自注意機制進行了比較研究,從原理上分析發(fā)現(xiàn),自注意機制可視為圖卷積網(wǎng)絡的一種泛化形式,具有較圖卷積網(wǎng)絡更強的表達能力。自注意機制可認為也以所有輸入樣本為節(jié)點,構建有向全連接圖進行卷積。此外,圖卷積網(wǎng)絡中用于表示節(jié)點間關系的鄰接矩陣往往是訓練之前人為預先給定的,而自注意機制中與之相對應表示節(jié)點之間連接關系的矩陣則由可學習的參數(shù)根據(jù)不同任務特性學習得到,即各節(jié)點之間連邊的權重甚至圖的結構都是由可學習的參數(shù)根據(jù)不同任務的學習目標自適應地決定的。最后,在多個文本分類數(shù)據(jù)集上進行了圖卷積網(wǎng)絡與自注意機制的對比實驗。結果顯示,使用自注意機制的模型較使用圖卷積網(wǎng)絡的對照模型分類效果更佳,甚至超過了目前圖卷積網(wǎng)絡用于文本分類任務的最先進水平。并且隨著數(shù)據(jù)規(guī)模的增大,兩者性能差距也隨之擴大。這些證據(jù)表明自注意機制更具表達能力,或可替代圖卷積網(wǎng)絡帶來潛在的性能提升。
需要特別指出的是,本文對圖卷積網(wǎng)絡和自注意機制的討論實際上是限制在自然語言處理領域內的。除本文的內容之外,還可以許多角度對兩者之間的關系進行探討,例如,在非歐氏度量空間的數(shù)據(jù)上兩者表現(xiàn)的比較、兩者的計算代價等,還可以利用可視化的方法在原理上探索兩者表現(xiàn)差異的緣由。未來工作中,可以嘗試在其他更多任務上進行圖卷積網(wǎng)絡與自注意機制的對比研究和實驗,例如,機器翻譯、文本摘要等,甚至是其他領域的任務??紤]到所采用技術的相似性,也可以進一步對融入了注意力機制的許多圖神經網(wǎng)絡和自注意機制進行對比研究。