高政霞
(蘭州資源環(huán)境職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,甘肅 蘭州 730021)
目前,Attention沒有嚴(yán)格的數(shù)學(xué)定義。認(rèn)知科學(xué)中,信息處理存在局限,人類選擇性關(guān)注信息中最為關(guān)鍵的部分信息,同時忽略其他可見信息,這種機(jī)制通常稱為Attention機(jī)制。例如,人類在閱讀書籍時通常關(guān)注和處理少量的字、詞、句,看世界的時候,關(guān)注特定區(qū)域以了解所需知識。
在學(xué)術(shù)界,Attention也是一種方法論。如處理圖像時,利用神經(jīng)網(wǎng)絡(luò)提取特征,Attention機(jī)制通常作為一部分約束加入神經(jīng)網(wǎng)絡(luò)中,使模型的處理結(jié)果更為精確,并且能夠硬性選擇輸入的某些區(qū)域或者給各特征分配不同權(quán)重。神經(jīng)網(wǎng)絡(luò)中滑動窗口方法以及圖像中傳統(tǒng)的局部特征提取和顯著性檢測都可視為Attention機(jī)制。
Attention[1]起源于人類視覺研究,在計算機(jī)視覺中,Attention機(jī)制主要指的是神經(jīng)網(wǎng)絡(luò)中的Attention機(jī)制,從這個角度將Attention機(jī)制分為四大類:基于輸入項的柔性注意力(Item-wise Soft Attention)、基于輸入項的硬性注意力(Item-wise Hard Attention)、基于位置的柔性注意力(Location-wise Soft Attention)、基于位置的硬性注意力(Location-wise Hard Attention)[2]如表1所示。
表1 神經(jīng)網(wǎng)絡(luò)中Attention機(jī)制的四種類型
在計算機(jī)視覺中,往往使用神經(jīng)網(wǎng)絡(luò)處理大量的輸入信息來提取圖像特征,而且理論上網(wǎng)絡(luò)越深提取的特征更精確,但如果借鑒人腦的Attention機(jī)制,可以大大提高效率,有選擇性地提取關(guān)鍵信息來處理,從這個層面上可將Attention機(jī)制分為兩類:
1.2.1 聚焦式(Focus)注意力
Focus是一種自上而下的有意識的Attention機(jī)制,可以說是一種主動注意,指的是有選擇性、有預(yù)定目標(biāo)、依賴于任務(wù)并且自主有意的聚焦某一個對象的Attention機(jī)制。在人工神經(jīng)網(wǎng)絡(luò)中所提到的Attention機(jī)制一般都指的是聚焦式注意力。
1.2.2 顯著性(Saliency-based)注意力
Saliency-based也是一種自上而下的有意識的Attention機(jī)制,但屬于被動注意,主要是在外界的刺激驅(qū)動下的注意,無需主動干預(yù),不依賴于任務(wù),比如神經(jīng)網(wǎng)絡(luò)中的最大池化(Max-pooling)和門控(Gating)機(jī)制相當(dāng)于顯著性注意力。
Attention機(jī)制是一種尋址(Addressing)過程,只專注于特征的神經(jīng)網(wǎng)絡(luò),輸入能夠進(jìn)行特定選擇,Attention可將輸入設(shè)為,特征向量,Attention向量,Attention網(wǎng)絡(luò)。那么計算如公式(1)所示:
⊙表示對應(yīng)按元素相乘的運算。本文引用Soft Attention和Hard Attention來講解Attention原理,Soft Attention指相乘時掩膜值(mask of values)在0到1,而Hard Attention表示掩膜值(mask of values)被強(qiáng)制分為0或1兩種(),Hard Attention可用來掩飾指數(shù)的特征向量,這樣就增加了維度。神經(jīng)網(wǎng)絡(luò)的本質(zhì)是一個函數(shù)逼近器,在理解Attention的重要形式考慮到依賴于它的架構(gòu),可近似不同類型的函數(shù)。
神經(jīng)網(wǎng)絡(luò)的應(yīng)用一般是鏈矩陣乘法和對應(yīng)元素的架構(gòu)中,此時特征向量只在加法時相互起作用。Attention機(jī)制能用于特征相乘的掩膜(mask),該操作使神經(jīng)網(wǎng)絡(luò)逼近的函數(shù)空間大大擴(kuò)展,其使得全新的用例成為可能。
當(dāng)前計算機(jī)視覺領(lǐng)域的研究,如模式識別、圖像處理、目標(biāo)追蹤、圖像檢索、目標(biāo)檢測等等,使用Attention機(jī)制很廣泛。而Attention作為一種思想便于結(jié)合多種不同模型,且Attention并不依賴于任何框架。
2021年1月李揚志等[3]提出一種時空注意力圖卷積網(wǎng)絡(luò)(STA-GCN)模型進(jìn)行人體骨架動作識別,識別精度能夠很好地通過空間注意力機(jī)制和時間注意機(jī)制的結(jié)合挖掘判別力時域片段。Lin等[4]提出一種用于圖形分割的任務(wù)解耦方法,利用深層網(wǎng)絡(luò)得到較為粗糙的圖像分割結(jié)果圖Attention Map,進(jìn)行預(yù)測艦船船頭船尾靠岸的大致位置(如圖1所示)。
圖1 STA-GCN
基于多特征注意力機(jī)制的視覺應(yīng)用有效聚合語義分割網(wǎng)絡(luò),在圖文評論情感分析中Attention有效利用端對端學(xué)習(xí)方式,通過多層次文本特征和層次化圖像特征進(jìn)行空間注意類引導(dǎo)。
武維等[5]提出一種深度注意力流行度預(yù)測模型構(gòu)建基于Attention-LSTM進(jìn)行捕捉流行趨勢狀況并挖掘時序信息,高維度文本特征提取作者通過實驗表明模型優(yōu)良,可見Attention機(jī)制在預(yù)測、推理等方面也有很好的應(yīng)用前景。人臉識別、人臉監(jiān)測中Attention機(jī)制的應(yīng)用對于情緒分類、美麗預(yù)測、年齡預(yù)測等方面也有非常廣闊的應(yīng)用前景。
吳若有等[6]提出一種基于注意力機(jī)制和CNN的低照度圖像增強(qiáng)算法用來改善圖像質(zhì)量,在提高圖像清晰度、避免顏色失真上效果明顯,可以有效地改善圖像質(zhì)量,而且對于美圖的進(jìn)一步增強(qiáng)有一定優(yōu)勢。
Graph Attention Network(GAT)是目前炙手可熱的研究方向,其中引入了Attention機(jī)制通過學(xué)習(xí)鄰居的權(quán)重來更好地實現(xiàn)對鄰居的加權(quán)聚合。它的優(yōu)點在于對噪音鄰居的魯棒性更好,而GAT也賦予了深度學(xué)習(xí)領(lǐng)域中相關(guān)提出模型的可解釋性。對于GAT的工作內(nèi)容如圖2所示。
圖2 GAT工作內(nèi)容
GAT首先學(xué)習(xí)了圖2左邊中節(jié)點i和節(jié)點j之間的Attention權(quán)重aij,其次基于Attention權(quán)重{a11,…,a16}來對階段{1,2,…,6}的表示h1,…,h6進(jìn)行加權(quán)平均,最終得到節(jié)點1的表示h'1。Attention網(wǎng)絡(luò)有很多設(shè)計方式,可以將節(jié)點i和節(jié)點j的表示拼接,再映射成標(biāo)量,但這樣會導(dǎo)致Attention值非對稱,也就是eij≠eji。除了拼接外,可以進(jìn)行鄰居信息的聚合,但需要對各節(jié)點鄰居的Attention進(jìn)行歸一化操作。歸一化后的Attention權(quán)重才是真正的聚合系數(shù)。此時的歸一化會導(dǎo)致Attention權(quán)重非對稱性。因此求解Attention權(quán)重分子分母都是非對稱的情況,所以aij也是非對稱的。那么非對稱在圖像數(shù)據(jù)中有何用呢?例如在抖音中,一個大咖和一個粉絲互相關(guān)注,但是大咖和粉絲相互之間的重要性明顯是不一樣的。對于粉絲來說大咖的重要性顯而易見,但是對于大咖來說,這一個粉絲對他的重要性有可能忽略不計。
所以完整的圖注意力公式如下:
Attention機(jī)制主要應(yīng)用的方式大概有學(xué)習(xí)權(quán)重分布,即通過構(gòu)造的Attention模型從而自動去學(xué)不同尺度的權(quán)重,進(jìn)行融合;任務(wù)聚焦或解耦,即將圖像分類和分割任務(wù)進(jìn)行解耦,使用Attention Map對淺層網(wǎng)絡(luò)的損失進(jìn)行引導(dǎo),并且通過反向傳播得到目標(biāo)特征位置上的損失,其他地方的損失不反傳。
Attention機(jī)制發(fā)展至今,研究學(xué)者們依然在通過各種方面對其進(jìn)行改進(jìn),隨之還產(chǎn)生了很多形式,比如Soft Attention、Hard Attention、Global Attention、Local Attentio n、Self-Attention(又稱為intra Attention)等。變種花樣何其多,但并不脫離其本質(zhì)結(jié)構(gòu)。
Attention機(jī)制在深度學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等領(lǐng)域有重大應(yīng)用,并且在開展創(chuàng)新創(chuàng)業(yè)大賽及技能類競賽和相關(guān)項目中應(yīng)用前景廣闊。但根據(jù)目前研究進(jìn)展來看也有些許難點有待解決,主要體現(xiàn)在:
(1)如何將其更好地融入到職業(yè)教育中,挖掘最大的應(yīng)用潛能。
(2)缺少基于Attention機(jī)制的教育相關(guān)的數(shù)據(jù)集,需要我們不斷擴(kuò)展完善。
綜合分析,Attention機(jī)制這個概念特別新穎而且應(yīng)用強(qiáng),它的出現(xiàn)可以推動很多相關(guān)工作,擴(kuò)展了神經(jīng)網(wǎng)絡(luò)的功能,可近似更加復(fù)雜的函數(shù),能夠幫助研究者專注于輸入信息的特定部分,提高計算機(jī)視覺任務(wù)的效率和提取性能,為各個研究領(lǐng)域注入了活力,目前不僅在計算機(jī)視覺領(lǐng)域應(yīng)用廣泛,而且在語音識別、自然語言處理、認(rèn)知和推理、人機(jī)交互等不同的類型任務(wù)中都能看到Attention機(jī)制的身影,它的前景非常廣闊。