司明悅,齊斌,張文勝*,張雷
(1.山東大學(xué)信息科學(xué)與工程學(xué)院山東省無(wú)線(xiàn)通信技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266237;2.同濟(jì)大學(xué)上海自主智能無(wú)人系統(tǒng)科學(xué)中心,上海 200092)
近年來(lái),隨著大數(shù)據(jù)、大模型的興起,多維異構(gòu)數(shù)據(jù)的處理和分析成為熱點(diǎn)問(wèn)題。多維異構(gòu)數(shù)據(jù)是指在數(shù)據(jù)集中存在多個(gè)不同類(lèi)型的數(shù)據(jù),這些數(shù)據(jù)具有不同的格式、結(jié)構(gòu)和含義,而張量作為一種多維數(shù)組的數(shù)據(jù)結(jié)構(gòu),可以用來(lái)表示多維異構(gòu)數(shù)據(jù)。在張量中,每個(gè)維度對(duì)應(yīng)數(shù)據(jù)中的1個(gè)特征或者屬性,而張量元素則對(duì)應(yīng)數(shù)據(jù)中的具體數(shù)值。使用張量計(jì)算可以將多維異構(gòu)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),為后續(xù)的數(shù)據(jù)分析提供支持。
同時(shí),深度學(xué)習(xí)在許多領(lǐng)域取得了巨大成功[1-3]。然而,深度學(xué)習(xí)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù)和多次迭代來(lái)訓(xùn)練模型參數(shù),現(xiàn)實(shí)世界中的許多場(chǎng)景往往受限于標(biāo)注成本,導(dǎo)致許多類(lèi)別只有少數(shù)的標(biāo)注數(shù)據(jù)。面對(duì)以上場(chǎng)景,傳統(tǒng)的深度學(xué)習(xí)模型不能很好的應(yīng)對(duì),因此小樣本學(xué)習(xí)[4]以及零樣本學(xué)習(xí)[5]被提出。
小樣本學(xué)習(xí)的概念最初源自計(jì)算機(jī)視覺(jué)領(lǐng)域[6],并在圖像處理領(lǐng)域得到了廣泛應(yīng)用[7]。近年來(lái),小樣本學(xué)習(xí)也逐漸應(yīng)用于自然語(yǔ)言處理[8]、生物醫(yī)學(xué)[9]和工業(yè)零件故障檢測(cè)[10]等領(lǐng)域,并發(fā)展出了許多優(yōu)秀的算法。當(dāng)前的小樣本學(xué)習(xí)算法通常基于良好的初始化條件[11]、嵌入網(wǎng)絡(luò)[7,12]和優(yōu)化策略[13]進(jìn)行訓(xùn)練,然后將學(xué)習(xí)后的模型應(yīng)用于新的任務(wù)中,并通過(guò)微調(diào)得到良好的泛化結(jié)果。
在智慧交通系統(tǒng)中存在數(shù)據(jù)樣本稀缺的場(chǎng)景,例如,由于車(chē)輛異常行為的發(fā)生不可預(yù)測(cè)性和數(shù)據(jù)稀疏性,車(chē)輛的異常行為檢測(cè)難以實(shí)現(xiàn)或檢測(cè)準(zhǔn)確度不高,因此在實(shí)際應(yīng)用中車(chē)輛異常行為檢測(cè)面臨著數(shù)據(jù)稀缺、異常定義的不確切性、遮擋和實(shí)時(shí)性較差等問(wèn)題。針對(duì)此類(lèi)場(chǎng)景,可以運(yùn)用小樣本學(xué)習(xí)提高模型計(jì)算的可靠性和魯棒性。
本文提出一種張量計(jì)算與小樣本學(xué)習(xí)相結(jié)合的綜合模型,主要工作如下:1)提出基于智慧交通數(shù)據(jù)的多維綜合計(jì)算通用模型,通用模型采用張量計(jì)算對(duì)智慧交通多維異構(gòu)數(shù)據(jù)中存在的顯著問(wèn)題進(jìn)行處理,基于數(shù)據(jù)的時(shí)空相關(guān)性獲得融合數(shù)據(jù)張量,其中,利用張量分解將數(shù)據(jù)統(tǒng)一分解為低維數(shù)據(jù),解決數(shù)據(jù)的多維異構(gòu)問(wèn)題,利用張量補(bǔ)全,補(bǔ)全因突發(fā)事件缺失的數(shù)據(jù),解決數(shù)據(jù)缺失問(wèn)題;2)利用融合數(shù)據(jù)張量,改進(jìn)現(xiàn)有的小樣本學(xué)習(xí)模型,提出基于張量計(jì)算的小樣本學(xué)習(xí)模型,根據(jù)不同的張量融合策略,將融合數(shù)據(jù)張量輸入小樣本學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,改變小樣本學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),比較基于度量的訓(xùn)練網(wǎng)絡(luò)和基于元學(xué)習(xí)的訓(xùn)練網(wǎng)絡(luò)的性能優(yōu)劣,根據(jù)消融實(shí)驗(yàn)的結(jié)果分析性能最優(yōu)的基于張量計(jì)算的小樣本學(xué)習(xí)模型;3)采用智慧交通的仿真數(shù)據(jù)集,通過(guò)大量模擬實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)驗(yàn)證多維綜合計(jì)算模型的可行性以及張量小樣本學(xué)習(xí)模型的可靠性和有效性。
張量計(jì)算可以劃分為張量分解、張量補(bǔ)全和張量特征值。張量分解是一種將高階張量映射為低階張量的技術(shù),主要用于提取數(shù)據(jù)中的潛在特征和結(jié)構(gòu)。張量補(bǔ)全是通過(guò)已知的部分張量數(shù)據(jù),推斷和填補(bǔ)缺失的部分張量,恢復(fù)完整張量的技術(shù),主要用于解決因傳感器故障、數(shù)據(jù)采集錯(cuò)誤、數(shù)據(jù)傳輸丟失等造成的數(shù)據(jù)缺失問(wèn)題。張量特征值則是用來(lái)描述張量的內(nèi)在特征和性質(zhì)的數(shù)值,用來(lái)表征張量?jī)?nèi)在屬性。
1.1.1 張量分解基礎(chǔ)
張量分解的概念最早由HITCHCOCK在1927年提出[14],后被廣泛地應(yīng)用于信號(hào)處理[15-16]、推薦系統(tǒng)[17]、無(wú)線(xiàn)通信[18-19]、深度學(xué)習(xí)[20]等領(lǐng)域。張量分解有許多不同的類(lèi)別,如高階奇異值分解(HOSVD)[21]、張量鏈?zhǔn)椒纸鈁22]、張量環(huán)式分解[23]等,其中HOSVD基于不同的奇異值分解形式,定義還可以進(jìn)一步細(xì)分,如平行因子分解(CPD)、Tucker分解等。
對(duì)于1個(gè)任意M階N維張量 A∈N1×N2×…×NM,CPD的定義如下:
(1)
其中:“·”表示向量外積;因子向量xm,i∈Nm;因子矩陣Xm=[xm,1,xm,2,…,xm,R]∈Nm×R,而R被稱(chēng)為CP秩。Tucker分解的定義如下:
an1,n2,…,nM=
(2)
A=G×1X1×2X2×…×MXM
(3)
1.1.2 張量補(bǔ)全基礎(chǔ)
張量補(bǔ)全的應(yīng)用領(lǐng)域相比于張量分解更為廣泛,需要使用張量數(shù)據(jù)的情景均存在張量補(bǔ)全的需求,如大數(shù)據(jù)處理[24]、視覺(jué)圖像處理[25]、傳感器系統(tǒng)[26]等。
張量補(bǔ)全可以依據(jù)不同的補(bǔ)全參考量劃分成2大類(lèi):1)基于張量分解的補(bǔ)全[27],如基于CPD的張量補(bǔ)全、基于Tucker的張量補(bǔ)全等,這種補(bǔ)全方式也可以被稱(chēng)作秩約束張量補(bǔ)全;2)基于最小秩的補(bǔ)全[28],如最小Tucker秩張量補(bǔ)全[25]、最小張量鏈秩張量補(bǔ)全[29]等。前者以基于CPD的補(bǔ)全為例,對(duì)應(yīng)的優(yōu)化問(wèn)題如下:
s.t.XΘ=AΘ
(4)
其中:X表示補(bǔ)全張量;Θ表示未缺失索引集,即A中非零元素的集合。約束條件保證未缺失元素在補(bǔ)全后保持不變。
基于張量分解的補(bǔ)全也可以稱(chēng)作固定張量秩的補(bǔ)全。因?yàn)檫@類(lèi)補(bǔ)全方案在限制非零元素不變的基礎(chǔ)上,對(duì)張量秩做出了隱性約束。由于優(yōu)化問(wèn)題非凸,因此利用塊坐標(biāo)下降法求解時(shí)受到局部最小值的影響,初始值對(duì)求解效果影響較大。不好的初始值會(huì)導(dǎo)致迭代次數(shù)增加,甚至不收斂,嚴(yán)重影響算法性能。為解決這一問(wèn)題,本文提出基于最小秩的補(bǔ)全概念,并使用最小跡范數(shù)優(yōu)化的凸問(wèn)題取代最小秩優(yōu)化的非凸問(wèn)題,以獲得穩(wěn)定的求解方案。因此,第2類(lèi)也可以稱(chēng)作最小跡范數(shù)張量補(bǔ)全。
以最小Tucker秩補(bǔ)全為例,原優(yōu)化問(wèn)題為:
(5)
利用最小跡范數(shù),問(wèn)題可以修改為:
(6)
張量補(bǔ)全是基于張量數(shù)據(jù)之間的時(shí)空相關(guān)性驅(qū)動(dòng)的,其中時(shí)空相關(guān)性即張量數(shù)據(jù)之間存在潛在關(guān)聯(lián)。不同的補(bǔ)全方案對(duì)于潛在關(guān)系的定義不同,如以基于CPD的補(bǔ)全,將這種潛在關(guān)系定義為CPD的因子矩陣唯一性,利用塊坐標(biāo)下降法對(duì)待補(bǔ)全張量進(jìn)行CPD,利用分解產(chǎn)生的誤差填補(bǔ)缺失數(shù)據(jù),循環(huán)此操作直到因子矩陣穩(wěn)定。而最小跡范數(shù)張量補(bǔ)全則是認(rèn)為潛在關(guān)系為數(shù)據(jù)之間跡范數(shù)最小,利用交替方向乘子法,更新各階展開(kāi)矩陣,直到各階展開(kāi)矩陣的秩穩(wěn)定。
小樣本學(xué)習(xí)可以分為2類(lèi):1)基于數(shù)據(jù)增強(qiáng)的方式[30],這種方法借助輔助數(shù)據(jù)或輔助信息對(duì)現(xiàn)有的少量樣本進(jìn)行數(shù)據(jù)合成[31]或特征增強(qiáng)[32];2)基于遷移學(xué)習(xí)的方式[33],在新任務(wù)的數(shù)據(jù)相對(duì)較少或者難以獲取的情況下,遷移學(xué)習(xí)將已學(xué)到的模型、特征或知識(shí)遷移到新的問(wèn)題領(lǐng)域,旨在提高模型在新任務(wù)上的性能[34]。
基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)通常被分為基于度量[35]和基于元學(xué)習(xí)的方式[36]。度量也叫距離函數(shù),用于衡量2個(gè)元素之間的距離關(guān)系。因此,基于度量小樣本學(xué)習(xí)的主要思想是將目標(biāo)樣本和測(cè)試樣本映射到向量空間中,根據(jù)計(jì)算出的相似度進(jìn)行比較判斷。采用此種分類(lèi)思想的優(yōu)秀算法有原型網(wǎng)絡(luò)[7]和匹配網(wǎng)絡(luò)[12],原型網(wǎng)絡(luò)是依據(jù)本類(lèi)別數(shù)據(jù)與原型中心的歐幾里得距離來(lái)進(jìn)行分類(lèi)的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中cn代表原型中心。而匹配網(wǎng)絡(luò)選取了余弦相似度作為距離函數(shù)。
圖1 原型網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of prototype network
元學(xué)習(xí)也稱(chēng)學(xué)會(huì)學(xué)習(xí),旨在通過(guò)學(xué)習(xí)模型的初始化參數(shù)、網(wǎng)絡(luò)架構(gòu)等,指導(dǎo)模型更高效快速地適應(yīng)新任務(wù)或新環(huán)境。模型無(wú)關(guān)的元學(xué)習(xí)(MAML)[11]是元學(xué)習(xí)領(lǐng)域十分出色的算法,通過(guò)微調(diào)神經(jīng)網(wǎng)絡(luò)中對(duì)每個(gè)任務(wù)較為敏感的參數(shù),使模型的損失函數(shù)達(dá)到快速收斂。除此以外,基于記憶增強(qiáng)的神經(jīng)網(wǎng)絡(luò)[37]和元網(wǎng)絡(luò)[38]等算法也基于元學(xué)習(xí)的思想,利用歷史經(jīng)驗(yàn)指導(dǎo)模型快速收斂。
本文主要研究基于遷移學(xué)習(xí)的小樣本學(xué)習(xí),并選取原型網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)和MAML 3種網(wǎng)絡(luò)進(jìn)行可行性分析。
基于張量計(jì)算和小樣本學(xué)習(xí)的綜合計(jì)算模型整體架構(gòu)如圖2所示。該模型主要包括基于張量計(jì)算的多維綜合計(jì)算模塊和基于通用模型參數(shù)的小樣本學(xué)習(xí)模塊。首先,針對(duì)智慧交通場(chǎng)景中的多維異構(gòu)數(shù)據(jù)建立張量模型,對(duì)數(shù)據(jù)模型中的缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)補(bǔ)全,并將異構(gòu)數(shù)據(jù)轉(zhuǎn)換成相同結(jié)構(gòu)、類(lèi)型的數(shù)據(jù)形式,即進(jìn)行數(shù)據(jù)同構(gòu)化;然后,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合;最后,將融合數(shù)據(jù)作為小樣本學(xué)習(xí)網(wǎng)絡(luò)的輸入樣本集,對(duì)其進(jìn)行特征提取,將樣本映射到向量空間;最終,采用不同的小樣本學(xué)習(xí)網(wǎng)絡(luò)作為分類(lèi)器進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果的準(zhǔn)確率和F1值評(píng)估模型性能優(yōu)劣。
圖2 綜合模型結(jié)構(gòu)Fig.2 Structure of the comprehensive model
針對(duì)智慧交通場(chǎng)景下產(chǎn)生的多維異構(gòu)數(shù)據(jù),從缺失數(shù)據(jù)補(bǔ)全、數(shù)據(jù)同構(gòu)化、多模態(tài)數(shù)據(jù)融合3個(gè)維度搭建多維綜合計(jì)算通用模型。
2.2.1 缺失數(shù)據(jù)補(bǔ)全
缺失數(shù)據(jù)補(bǔ)全是指利用已有的數(shù)據(jù)信息,對(duì)數(shù)據(jù)中的缺失值進(jìn)行估計(jì)、預(yù)測(cè)。傳統(tǒng)的數(shù)據(jù)補(bǔ)全方案由插值補(bǔ)全、基于模型的補(bǔ)全、矩陣分解補(bǔ)全、基于深度學(xué)習(xí)的補(bǔ)全,而對(duì)于多維數(shù)據(jù)可以建立張量模型,并直接借由張量補(bǔ)全完成,以完成缺失數(shù)據(jù)補(bǔ)全。
2.2.2 基于CPD的異構(gòu)數(shù)據(jù)同構(gòu)化
異構(gòu)數(shù)據(jù)是因智慧交通中不同傳感器產(chǎn)生的數(shù)據(jù)類(lèi)型不同導(dǎo)致的,如音頻、圖像、視頻等以時(shí)間、空間序列排列產(chǎn)生不同尺寸的張量數(shù)據(jù)。異構(gòu)數(shù)據(jù)同構(gòu)化在保持時(shí)空相關(guān)性的前提下,將異構(gòu)數(shù)據(jù)轉(zhuǎn)換成相同結(jié)構(gòu)、類(lèi)型的數(shù)據(jù)形式,而張量分解可以實(shí)現(xiàn)該目標(biāo),如CPD、TR等均滿(mǎn)足該要求。然而,TR分解更適用于大尺寸高階張量的分解,將大尺寸高階張量分解為若干三階張量的積,對(duì)于智慧交通中數(shù)據(jù)階次相對(duì)較小、維度較大的場(chǎng)景,CPD是更為恰當(dāng)?shù)摹?/p>
假設(shè)1個(gè)圖像傳感器,每秒拍攝1張J×K的灰度圖像。在Is的時(shí)間內(nèi),會(huì)產(chǎn)生I×J×K的圖像數(shù)據(jù)張量,記作P。以P為例說(shuō)明數(shù)據(jù)同構(gòu)化實(shí)現(xiàn)步驟,具體算法如下。
算法1基于CPD的數(shù)據(jù)同構(gòu)算法
輸入異構(gòu)數(shù)據(jù)張量P∈I×J×K,匹配系數(shù)γ0和CP秩R
輸出同構(gòu)矩陣P1∈I×R,P2∈J×R,P3∈K×R
1)隨機(jī)初始化P1,P2,P3。
6)如果γ<γ0,返回步驟2;否則,輸出結(jié)果。
在算法中,“⊙”“*”“(·)+”分別表示哈達(dá)瑪積(Hadamard Product)、KR積(Khatri-Rao Product)和MP逆(Moore-Penrose Pseudoinverse)。
2.2.3 多模態(tài)數(shù)據(jù)融合
為緩解智慧交通中樣本數(shù)據(jù)較少的問(wèn)題,本文對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合,挖掘數(shù)據(jù)的時(shí)空信息,以提取更全面、準(zhǔn)確的信息。多模態(tài)數(shù)據(jù)融合基于相似數(shù)據(jù)的潛在關(guān)系相似假設(shè),將利用張量分解的逆過(guò)程對(duì)來(lái)自不同傳感器的經(jīng)過(guò)異構(gòu)數(shù)據(jù)同構(gòu)化的數(shù)據(jù)進(jìn)行特征映射。
算法2多模態(tài)數(shù)據(jù)融合算法
輸入同構(gòu)矩陣P1,P2,P3,A1,A2,A3
輸出融合數(shù)據(jù)張量F
2)計(jì)算融合數(shù)據(jù)張量F=I×1P1×2P2×3P3×4A1×5A2×6A3。
算法2中的單位張量I是1個(gè)6階R維的,除對(duì)角線(xiàn)以外元素為零且對(duì)角元素為1的張量。將數(shù)據(jù)同構(gòu)算法產(chǎn)生的同構(gòu)因子矩陣,通過(guò)數(shù)據(jù)映射重新生成融合矩陣,實(shí)際上是完成了數(shù)據(jù)擴(kuò)展,恢復(fù)多模態(tài)數(shù)據(jù)之間的結(jié)構(gòu)關(guān)系。該融合方案可以借由CPD還原原始數(shù)據(jù),在保證原始信息不丟失的前提下,擴(kuò)展可用數(shù)據(jù)。
對(duì)于數(shù)據(jù)同構(gòu)算法的輸出,同構(gòu)矩陣擁有相同的列數(shù)?;趥鹘y(tǒng)的數(shù)據(jù)拼接進(jìn)行數(shù)據(jù)融合,產(chǎn)生融合數(shù)據(jù)矩陣,本質(zhì)上是僅對(duì)原始的多維異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)補(bǔ)全后,將多模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)易組裝來(lái)完成數(shù)據(jù)融合。為了區(qū)別2種基于張量計(jì)算的多模態(tài)數(shù)據(jù)融合方案,前者被稱(chēng)為“逆分解張量融合模型”,后者被稱(chēng)為“CPD數(shù)據(jù)融合模型”。
針對(duì)張量計(jì)算模型處理后的融合數(shù)據(jù)張量,本文采用不同的小樣本學(xué)習(xí)方法對(duì)此進(jìn)行處理訓(xùn)練,包括基于度量的小樣本學(xué)習(xí)網(wǎng)絡(luò)和基于元學(xué)習(xí)的小樣本學(xué)習(xí)網(wǎng)絡(luò),其中原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò)是度量學(xué)習(xí)中十分經(jīng)典的網(wǎng)絡(luò)模型。元學(xué)習(xí)的思想與度量學(xué)習(xí)存在著明顯差異,本文選取MAML作為訓(xùn)練模型。
2.3.1N-wayK-shot問(wèn)題
小樣本學(xué)習(xí)致力于尋求能使模型從少數(shù)帶有標(biāo)簽的樣本中快速學(xué)習(xí)的方法,并要求對(duì)訓(xùn)練集中的新類(lèi)具有較好的泛化能力。小樣本學(xué)習(xí)的數(shù)據(jù)集可以分為訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集又各自包含支持集和查詢(xún)集,用來(lái)支撐任務(wù)的訓(xùn)練和測(cè)試。本文中的小樣本學(xué)習(xí)是一種N-wayK-shot的問(wèn)題,N代表類(lèi)別數(shù)量,K代表每一類(lèi)別中的樣本數(shù)量。
假定訓(xùn)練集中有N個(gè)類(lèi)別,每個(gè)類(lèi)別有K個(gè)樣本。本文設(shè)置NS為每次迭代從支持集所取的類(lèi)別數(shù)量,每一類(lèi)別取KS個(gè)樣本,其中NS 2.3.2 基于度量的小樣本學(xué)習(xí)網(wǎng)絡(luò) 給定含有M個(gè)樣本的支持集S={(y1,l1),…,(yM,lM)},其中yi為支持集樣本,li∈{1,2,…,N}為N類(lèi)樣本各自對(duì)應(yīng)的標(biāo)簽,在公式中使用Sn表示第n類(lèi)標(biāo)簽的樣本集。 原型網(wǎng)絡(luò)通過(guò)求和平均的方式生成每一類(lèi)原型點(diǎn),根據(jù)計(jì)算該原型點(diǎn)和目標(biāo)樣本映射在向量空間中的特征向量之間的歐氏距離進(jìn)行比較分類(lèi)。原型點(diǎn)通過(guò)式(7)得到: (7) 其中:θ為可學(xué)習(xí)參數(shù);f(·)代表樣本通過(guò)編碼得到特征向量的過(guò)程函數(shù),即嵌入函數(shù)。通過(guò)歸一化指數(shù)函數(shù)計(jì)算查詢(xún)集中目標(biāo)樣本屬于各類(lèi)的概率分布來(lái)計(jì)算損失函數(shù)。概率分布如下: (8) (9) 其中:d(·)是距離函數(shù),這里使用余弦函數(shù)。在計(jì)算出注意力后,使用核密度估計(jì)函數(shù)輸出預(yù)測(cè)標(biāo)簽: (10) 2.3.3 基于元學(xué)習(xí)的小樣本學(xué)習(xí)網(wǎng)絡(luò) MAML通過(guò)指導(dǎo)基本學(xué)習(xí)器的初始化參數(shù)不斷優(yōu)化模型在新任務(wù)上的泛化能力。假設(shè)模型用初始化參數(shù)為φ的參數(shù)化函數(shù)fφ表示,當(dāng)適用到任務(wù)Ti時(shí),模型參數(shù)通過(guò)1次或幾次梯度下降更新為φ′i,當(dāng)更新次數(shù)為1時(shí),表達(dá)式為: φ′i=φ-γ?φLTi(fφ) (11) 更新步長(zhǎng)γ可以是固定的超參數(shù),也可以通過(guò)元學(xué)習(xí)獲得。模型的損失函數(shù)為i個(gè)任務(wù)的損失函數(shù)之和,模型參數(shù)φ以最小化損失函數(shù)為目標(biāo)進(jìn)行更新。該目標(biāo)可以寫(xiě)為: (12) 模型參數(shù)φ根據(jù)損失函數(shù)進(jìn)行更新: (13) 其中:β是元更新步長(zhǎng)。 本文采用準(zhǔn)確率(A)和F1值(F1)評(píng)價(jià)模型性能。準(zhǔn)確率為正確預(yù)測(cè)出來(lái)的樣本數(shù)量占所有的樣本的比例,如式(14)所示: (14) 其中:NTP代表被模型預(yù)測(cè)為正類(lèi)的正樣本;NTN代表被模型預(yù)測(cè)為負(fù)類(lèi)的負(fù)樣本;NFP代表被模型預(yù)測(cè)為正類(lèi)的負(fù)樣本;NFN代表被模型預(yù)測(cè)為負(fù)類(lèi)的正樣本。 F1值是精準(zhǔn)度和召回率的調(diào)和平均數(shù),認(rèn)為召回率和精確度同等重要。精準(zhǔn)度(P)、召回率(R)以及F1值的定義為: (15) (16) (17) 模型使用PyTorch框架來(lái)實(shí)現(xiàn),計(jì)算機(jī)型號(hào)為 Intel?Xeon?Platinum 8255C CPU@2.50 GHz。仿真實(shí)驗(yàn)采用Omniglot 數(shù)據(jù)集來(lái)完成。Omniglot數(shù)據(jù)集是小樣本學(xué)習(xí)領(lǐng)域常用的數(shù)據(jù)集,包含了1 623類(lèi)字符圖片,每類(lèi)字符包含20張樣本圖片,共32 460張圖片。 參數(shù)調(diào)優(yōu)對(duì)模型的訓(xùn)練結(jié)果至關(guān)重要,本文針對(duì)學(xué)習(xí)率和迭代次數(shù)進(jìn)行了調(diào)優(yōu)嘗試,下面給出3種小樣本學(xué)習(xí)的調(diào)試結(jié)果,如圖3~圖5所示。 圖3 原型網(wǎng)絡(luò)的參數(shù)調(diào)優(yōu)結(jié)果Fig.3 Parameter tuning results of the prototype network 圖4 匹配網(wǎng)絡(luò)的參數(shù)調(diào)優(yōu)結(jié)果Fig.4 Parameter tuning results of the matching network 圖5 MAML的參數(shù)調(diào)優(yōu)結(jié)果Fig.5 Parameter tuning results of MAML 本實(shí)驗(yàn)圍繞5-way 1-shot問(wèn)題展開(kāi)。從圖3~圖5可以看出,當(dāng)?shù)螖?shù)設(shè)置為40次時(shí),3種小樣本學(xué)習(xí)方法均可以達(dá)到較好的性能。根據(jù)調(diào)試結(jié)果選擇最優(yōu)的學(xué)習(xí)率,將原型網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.01,匹配網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.001,MAML的學(xué)習(xí)率設(shè)置為0.5,使模型訓(xùn)練效果達(dá)到最佳。 為評(píng)估3種小樣本學(xué)習(xí)的性能,本文分別對(duì)3種方法進(jìn)行比較分析。表1所示為基于無(wú)融合數(shù)據(jù)和采用不同張量融合策略輸出的融合張量數(shù)據(jù),原型網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)和MAML作為訓(xùn)練網(wǎng)絡(luò),得到模型最終的訓(xùn)練結(jié)果。其中“√”表示對(duì)應(yīng)的張量融合策略和訓(xùn)練網(wǎng)絡(luò)的組合。從表1可以看到,3種小樣本學(xué)習(xí)對(duì)非融合數(shù)據(jù)進(jìn)行訓(xùn)練,原型網(wǎng)絡(luò)和MAML的準(zhǔn)確率分別達(dá)到了91.6%和91.0%,優(yōu)于匹配網(wǎng)絡(luò)達(dá)到的89.6%準(zhǔn)確率。當(dāng)采用逆分解張量融合模型時(shí),MAML作為訓(xùn)練網(wǎng)絡(luò)輸出的準(zhǔn)確率為95.5%,相較于基于無(wú)融合數(shù)據(jù)提升了4.5個(gè)百分點(diǎn),而原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確率有不同程度的降低,分別降低了17和6.5個(gè)百分點(diǎn)。當(dāng)采用CPD數(shù)據(jù)融合模型時(shí),相較于基于無(wú)融合數(shù)據(jù)的MAML和匹配網(wǎng)絡(luò)的準(zhǔn)確率分別提高1.3和1.1個(gè)百分點(diǎn),原型網(wǎng)絡(luò)則降低了7.9個(gè)百分點(diǎn)。綜合以上結(jié)果,基于張量融合策略的不同小樣本學(xué)習(xí)方法中,MAML得到了不同程度的提升,而原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò)的訓(xùn)練結(jié)果并不理想。 表1 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results among different methods 圖6所示為不同方法的實(shí)驗(yàn)結(jié)果。從圖6可以看出,實(shí)線(xiàn)代表原網(wǎng)絡(luò),虛線(xiàn)和點(diǎn)畫(huà)線(xiàn)分別代表基于CPD數(shù)據(jù)融合模型和逆分解張量融合模型的小樣本學(xué)習(xí)方法的訓(xùn)練結(jié)果。MAML的收斂速度優(yōu)于原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò),基于張量融合策略的MAML模型訓(xùn)練曲線(xiàn)較原MAML網(wǎng)絡(luò)更加平滑,且準(zhǔn)確率更優(yōu)。而原型網(wǎng)絡(luò)針對(duì)融合張量數(shù)據(jù)的訓(xùn)練結(jié)果不太理想,基于2種融合策略的準(zhǔn)確率有不同程度的下降,且基于逆分解張量融合的訓(xùn)練曲線(xiàn)在收斂時(shí)變得震蕩曲折。匹配網(wǎng)絡(luò)的收斂速度較慢,在結(jié)合了張量融合策略后,收斂速度變慢,且在最優(yōu)解附近的震蕩幅度變大。 圖6 不同方法的實(shí)驗(yàn)結(jié)果Fig.6 Experimental results among differnet methods 從第3.3節(jié)的結(jié)果可得出,在結(jié)合多維綜合計(jì)算通用模型的小樣本學(xué)習(xí)方法中,MAML的性能最優(yōu)。因此,本節(jié)針對(duì)基于2種張量融合策略的元學(xué)習(xí)算法MAML展開(kāi)分析。 圖7和圖8分別所示為采用2種張量融合方案的元學(xué)習(xí)模型和不采用融合策略的元學(xué)習(xí)模型在準(zhǔn)確率和F1值的性能對(duì)比。散點(diǎn)圖中的每個(gè)點(diǎn)對(duì)應(yīng)1個(gè)任務(wù),在圖7和圖8中,散點(diǎn)圖大多位于坐標(biāo)軸的右上方,這表明MAML在大多數(shù)現(xiàn)有的任務(wù)上表現(xiàn)優(yōu)良。 圖7 基于不同張量融合方案的MAML模型準(zhǔn)確率Fig.7 Accuracy of MAML model based on different tensor fusion schemes 圖8 基于不同張量融合方案的MAML模型F1值Fig.8 F1 values of MAML model based on different tensor fusion schemes 以實(shí)線(xiàn)為基準(zhǔn),在圖7的45個(gè)任務(wù)中,基于逆分解的MAML模型在42個(gè)任務(wù)的準(zhǔn)確率優(yōu)于原模型,基于CPD的MAML模型在29個(gè)任務(wù)的準(zhǔn)確率優(yōu)于原模型。在圖8中,基于逆分解的MAML模型在41個(gè)任務(wù)上的F1值優(yōu)于原模型,基于CPD的MAML模型在29個(gè)任務(wù)上的F1值優(yōu)于原模型。因此,在大多數(shù)任務(wù)上,基于逆分解張量融合方案比基于CPD融合方案的元學(xué)習(xí)模型的結(jié)合度更好。 針對(duì)現(xiàn)有智慧交通系統(tǒng)中在小樣本場(chǎng)景下數(shù)據(jù)缺失的問(wèn)題,本文設(shè)計(jì)一種基于張量計(jì)算和小樣本學(xué)習(xí)的通用計(jì)算模型。采用張量計(jì)算對(duì)多維異構(gòu)數(shù)據(jù)進(jìn)行處理,基于數(shù)據(jù)的時(shí)空相關(guān)性獲得融合數(shù)據(jù)張量。為應(yīng)對(duì)因數(shù)據(jù)稀缺導(dǎo)致傳統(tǒng)模型性能下降的現(xiàn)象,引入小樣本學(xué)習(xí),并分析了基于度量學(xué)習(xí)和元學(xué)習(xí)2類(lèi)小樣本學(xué)習(xí)方法與張量計(jì)算通用模型融合后的綜合模型可信度的相關(guān)問(wèn)題。實(shí)驗(yàn)結(jié)果表明,相較于2種基于度量的小樣本學(xué)習(xí)模型:原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò),基于元學(xué)習(xí)的小樣本學(xué)習(xí)模型MAML和多維綜合計(jì)算通用模型結(jié)合后的可信度更高,并且基于不同的張量融合方案,元學(xué)習(xí)模型性能會(huì)得到不同程度的提升。由于特征提取網(wǎng)絡(luò)對(duì)模型的訓(xùn)練結(jié)果有很大的影響,因此后續(xù)將對(duì)特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn),以進(jìn)一步提高通用計(jì)算模型的性能。3 實(shí)驗(yàn)結(jié)果與分析
3.1 評(píng)價(jià)指標(biāo)
3.2 數(shù)據(jù)集與參數(shù)調(diào)優(yōu)
3.3 小樣本學(xué)習(xí)的性能對(duì)比
3.4 基于張量計(jì)算的元學(xué)習(xí)模型
4 結(jié)束語(yǔ)