吳天宇,王士同
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122
隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)(random vector function link network,RVFL)是一種輸入權(quán)值和隱藏層神經(jīng)元的偏置值隨機(jī)產(chǎn)生的前饋型神經(jīng)網(wǎng)絡(luò)。這種學(xué)習(xí)機(jī)制使得RVFL 有學(xué)習(xí)速度快和對計(jì)算資源要求低的優(yōu)勢。研究人員對RVFL 不斷改進(jìn),如Chen 和Wan解決了在RVFL 中由噪聲引起的小奇異值問題。Chen 和Liu提出了一種新的稀疏預(yù)訓(xùn)練RVFL,它采用稀疏自動編碼器以無監(jiān)督學(xué)習(xí)的方式預(yù)訓(xùn)練隨機(jī)分配的網(wǎng)絡(luò)參數(shù)。
現(xiàn)實(shí)情況中通常會以不同的測量方法收集許多數(shù)據(jù)。例如同一個圖像用不同的特征提取方法,同一個物體在多個不同角度下展現(xiàn),把這樣針對同一對象從不同途徑或?qū)用娅@得的特征數(shù)據(jù)稱為多視角數(shù)據(jù),其呈現(xiàn)出多態(tài)性、多源性、多描述性。面對新興的數(shù)據(jù)應(yīng)用場景,多視角間存在重要相關(guān)信息,單視角RVFL 無法逐個學(xué)習(xí)。與傳統(tǒng)的單視角學(xué)習(xí)相比,多視角學(xué)習(xí)(multi-view learning,MVL)分別為每個視角特征構(gòu)造一個學(xué)習(xí)模型,通過同一對象的冗余視角數(shù)據(jù)共同優(yōu)化構(gòu)建模型。
早期的多視角學(xué)習(xí)方法傾向于將多個視角合并成為一個更全面的視角,但是這種簡單的視角拼接策略忽略了每個視角的分布特征。近期基于不同策略的多視角分類算法相繼被提出,其目的是利用多視角間的相關(guān)信息得到更為準(zhǔn)確有效的分類結(jié)果。其中常見的多視角算法有協(xié)同正則化型算法和協(xié)同訓(xùn)練型算法。
實(shí)現(xiàn)協(xié)同訓(xùn)練型算法的重要前提是存在充分冗余的視角,協(xié)同訓(xùn)練類型的算法目標(biāo)是最大化不同視角之間一致性。這方面的代表性算法有多訓(xùn)練支持向量機(jī)(multi-training support vector machine,MTSVM)。協(xié)同訓(xùn)練式算法有嚴(yán)格的學(xué)習(xí)假設(shè)并且對建模的充要條件有嚴(yán)格要求。
在協(xié)同正則化類算法中,目標(biāo)函數(shù)需要將不同視角之間的分歧最小化。典型的方法有稀疏多視角支持向量機(jī)(sparse multi-view SVM)、多視角拉普拉斯支持向量機(jī)(multi-view Laplacian SVM)、多視角向量值流形正則化方法(multi-view vector valued manifold regularization)等。這些基于SVM 的方法可以有效解決多視角應(yīng)用場景問題,但是這些方法也具有一定的局限性,這些方法忽略了視角之間的互補(bǔ)信息,另一方面支持向量機(jī)求解過程中的局限性如二次規(guī)劃求解對計(jì)算機(jī)內(nèi)存需求大,迭代速度慢。
現(xiàn)有的多視角學(xué)習(xí)算法之間雖然存在各種明顯的差異,但這些算法主要體現(xiàn)了多視角學(xué)習(xí)的共識原理或互補(bǔ)性原理。在多視角學(xué)習(xí)中,共識和互補(bǔ)性原理在指導(dǎo)模型構(gòu)建中起著重要作用。共識原理的目的是最大化多個不同視角的一致性,改善算法的泛化誤差范圍。相反,互補(bǔ)原理強(qiáng)調(diào)視角之間共享互補(bǔ)信息,目的是更全面地描述數(shù)據(jù),提高算法的魯棒性。
Vapnik 等人提出使用特權(quán)信息學(xué)習(xí)(learning using privileged information,LUPI)來解決學(xué)習(xí)模型中的補(bǔ)充知識。一個可能的常用類比是學(xué)生與教師的學(xué)習(xí):當(dāng)學(xué)生在學(xué)校學(xué)習(xí)一個概念,教師可以隨時(shí)提供額外的解釋(特權(quán)信息)。與教師只提出問題并給出答案的方式相比,教師的額外解釋可以顯著提高學(xué)生的學(xué)習(xí)情況。但是在以后的測試中,當(dāng)學(xué)生遇到類似問題時(shí),無法獲得老師的專業(yè)知識也就是特權(quán)信息。LUPI 將人類教學(xué)理念融入了機(jī)器學(xué)習(xí)概念中。對于一個特定的任務(wù),比如分類,訓(xùn)練數(shù)據(jù)不僅是目標(biāo)任務(wù)的監(jiān)督信息,還有一些額外的特權(quán)信息(附加信息)。
從多視角學(xué)習(xí)的角度來看,不同的特征視角可以相互提供特權(quán)信息實(shí)現(xiàn)互補(bǔ)。因此,多種觀點(diǎn)共享互補(bǔ)信息,類似于人類學(xué)習(xí)中教師的回答和解釋。因此很自然地將LUPI概念應(yīng)用于多視角學(xué)習(xí)并提出了一個結(jié)合特權(quán)信息的多視角隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)。
本文的貢獻(xiàn)總結(jié)如下:將特權(quán)信息和多視角學(xué)習(xí)概念結(jié)合在RVFL 的基礎(chǔ)上提出了一種快速多視角特權(quán)協(xié)同隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)(fast multi-view privileged random vector function link network,F(xiàn)MPRVFL)。該網(wǎng)絡(luò)在平均情況下相互利用冗余視角的附加信息作為特權(quán)信息監(jiān)督當(dāng)前視角的分類,并以此設(shè)計(jì)了FMPRVFL 的目標(biāo)函數(shù),利用解析解對目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而使FMPRVFL 訓(xùn)練速度更快。隨后在64 個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果驗(yàn)證了FMPRVFL 優(yōu)于其他算法。
多視角學(xué)習(xí)發(fā)展迅速,多視角學(xué)習(xí)方法在一定程度上相較于特定的單視角學(xué)習(xí)顯示出一定優(yōu)勢。多視角學(xué)習(xí)算法通常是在共識或互補(bǔ)原理的指導(dǎo)下建立的,現(xiàn)有的多視角算法可以分為三類:協(xié)同訓(xùn)練類型算法、協(xié)同正則化類型算法和余量一致性類型算法。協(xié)同訓(xùn)練類型算法旨在最大化不同視角之間的一致性,例如協(xié)同測試支持向量機(jī)(co-testing SVM)、魯棒協(xié)同訓(xùn)練支持向量機(jī)(robust cotraining SVM)。相比之下,協(xié)同正則化類型的算法可以最大程度地減少不同視角之間的分歧,例如稀疏多視角支持向量機(jī)、多視角拉普拉斯支持向量機(jī)。最近還提出了余量一致性類型的算法,該類型算法利用多視角分類結(jié)果的潛在一致性,在最大熵判別(maximum entropy discrimination,MED)的基礎(chǔ)上實(shí)現(xiàn)。余量一致性類型算法與協(xié)同正則化類型算法對多視角的判別或回歸函數(shù)限制不同,余量一致性類型算法對多個視角的余量變量進(jìn)行建模,使其盡可能相似,即每個輸出變量和判別函數(shù)的余量都大于每個余量變量。例如MVMED(multi-view maximum entropy discrimination),以最小化兩個視角邊距之間的相對熵實(shí)現(xiàn)了邊距一致性。MED-2C(consensus and complementarity based maximum entropy discrimination)以互補(bǔ)子空間將共識和互補(bǔ)的兩個原理整合到多視角MED,相對于MVMED 有更好的泛化性。
LUPI 使用僅在訓(xùn)練期間可用的數(shù)據(jù)幫助學(xué)習(xí)模型在測試階段實(shí)現(xiàn)更好的預(yù)測結(jié)果。特權(quán)信息作為附加特征用來改進(jìn)特定的分類器,Vipnik 和Vashist提出了最早的LUPI 算法支持向量機(jī)SVM+(support vector machine+)。Xu 等人利用訓(xùn)練數(shù)據(jù)中的其他深度圖像作為特權(quán)信息,設(shè)計(jì)了一種新穎的距離度量學(xué)習(xí)算法。Shi 等人提出了一個最后一層的預(yù)測結(jié)果用作特權(quán)信息的級聯(lián)多列RVFL+框架。
這些方法主要利用共識原理或互補(bǔ)原理應(yīng)用多視角數(shù)據(jù)改善模型的通用性能。本文在平均情況下相互利用冗余視角的附加信息作為特權(quán)信息監(jiān)督當(dāng)前視角的分類。本文方法同時(shí)滿足共識原理和互補(bǔ)原理,相對于其他同時(shí)利用共識原理和互補(bǔ)原理的方法,關(guān)注在平均狀況下相互監(jiān)督的情況并且在此基礎(chǔ)上設(shè)計(jì)的目標(biāo)函數(shù)可以利用解析解對目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而使FMPRVFL 泛化能力更好,訓(xùn)練速度更快。
RVFL 由于其通用逼近能力和出色的泛化性能,是最流行的單層前饋神經(jīng)網(wǎng)絡(luò)之一。在近三十年中,許多研究人員研究了RVFL 在各個領(lǐng)域的眾多變體。Chen 和Wan為功能連接網(wǎng)絡(luò)提出了兩種新穎的算法,以便有效地計(jì)算最佳權(quán)重并實(shí)時(shí)更新權(quán)重,他們還解決了最有可能在RVFL 中由噪聲引起的小奇異值問題。Chen 等人提出了一種新穎的單隱藏層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以快速計(jì)算最佳權(quán)重。下面將詳細(xì)介紹本次使用的RVFL,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 RVFL 網(wǎng)絡(luò)的架構(gòu)Fig.1 Architecture of RVFL network
給出一組具有標(biāo)記的數(shù)據(jù){(x,y)|x∈R,y∈{-1,1},=1,2,…,},具有個增強(qiáng)節(jié)點(diǎn)的RVFL 網(wǎng)絡(luò)可以表示如下:
式中,是輸出向量權(quán)重;是連接輸入數(shù)據(jù)和增強(qiáng)節(jié)點(diǎn)輸出的級聯(lián)矩陣;是標(biāo)簽矩陣。
從式(1)可以通過Moore-Penrose 偽逆如式(6)或者嶺回歸式(7)計(jì)算出權(quán)重,?是Moore-Penrose 偽逆,是一個單位矩陣,是權(quán)衡參數(shù)。
式中,ζ是訓(xùn)練誤差,y是一個標(biāo)簽,y∈{-1,1},(x)表示組合特征向量。
在多視角學(xué)習(xí)中普遍接受的假設(shè)是每個特征視角都可以單獨(dú)提供一個信息分類器,從不同特征視角構(gòu)建的分類器在預(yù)測時(shí)往往是一致的。FMPRVFL的目標(biāo)是訓(xùn)練一個決策函數(shù)(),滿足多視角分類的一致性和互補(bǔ)性,如圖2 所示。
圖2 FMPRVFL 結(jié)構(gòu)示意圖Fig.2 Illustration of construction of FMPRVFL
若()≥()≥0 則:
可以用(1-(()-()))替代式(10)。有:
由此可以得到目標(biāo)函數(shù):
為了進(jìn)一步說明FMPRVFL 的機(jī)理,給出如下詳注。
(3)引入非負(fù)松弛變量(18a)和(18b)在平均情況下讓兩個視角之間相互監(jiān)督,從而保證它們之間的一致性和互補(bǔ)性。C是一個非負(fù)懲罰參數(shù)。
為了更好地解釋非負(fù)松弛變量保證它們之間的一致性和互補(bǔ)性的作用方法,將式(18a)和式(18b)展開得到式(19a)和式(19b)。
對式(19a)和式(19b)中第二項(xiàng)進(jìn)行變換得到式(20a)和式(20b),然后進(jìn)一步展開得到式(21a)和式(21b)。
在式(17)中求解w和w后,分別在每個視角上和聯(lián)合在兩個視角上建立分類器,根據(jù)具體情況對新樣本的標(biāo)簽進(jìn)行預(yù)測。
可以通過固定w對w求逆再固定w對w求逆相互迭代,或者使用梯度下降法一步步迭代求解出合適的w和w。這樣求解一般情況下,其解不保證是全局最優(yōu)解并且靠近極小值時(shí)收斂速度減慢。將w和w構(gòu)造在一起,將式(26)~(29)帶入式(25)中直接得到了w和w,得到了這個目標(biāo)函數(shù)的解析解,相較于梯度法有更快的速度。
依據(jù)式(17)構(gòu)造拉格朗日函數(shù)(w,w),對w、w求導(dǎo)。
在二分類中通過以下方法確定測試樣品的預(yù)測標(biāo)簽:
基于上述優(yōu)化結(jié)果,算法的實(shí)現(xiàn)步驟如算法1所示。
FMPRVFL
FMPRVFL 在步驟1 中,算法的時(shí)間復(fù)雜度和增強(qiáng)節(jié)點(diǎn)的個數(shù)和輸入樣本量有關(guān),為()。一般情況下遠(yuǎn)大于,因此此步的時(shí)間復(fù)雜度為(),在步驟2 中生成級聯(lián)矩陣復(fù)雜度為(),步驟3 中求偽逆的復(fù)雜度為(),其中涉及到矩陣乘的復(fù)雜度為(),為輸入訓(xùn)練樣本數(shù),為輸入樣本特征維數(shù)總和,為隱藏節(jié)點(diǎn)數(shù)。一般情況下?且?,綜合來看算法的時(shí)間復(fù)雜度為()。
為了檢驗(yàn)FMPRVFL 的性能,本節(jié)對一些真實(shí)數(shù)據(jù)集進(jìn)行評估。為了保證實(shí)驗(yàn)的真實(shí)準(zhǔn)確,每種方法進(jìn)行了5 折交叉驗(yàn)證實(shí)驗(yàn),并且計(jì)算平均結(jié)果和標(biāo)準(zhǔn)差作為最終結(jié)果,采用了常用的準(zhǔn)確率(accuracy,Acc)作為衡量指標(biāo)并記錄了算法段運(yùn)行的時(shí)間。所有模擬實(shí)驗(yàn)都是在同一個環(huán)境下完成的,采用在Windows10 1903系統(tǒng)Intel i7-9750 2.60 GHz六核CPU和32 GB RAM 的計(jì)算機(jī)上 搭建Matlab2016b 環(huán)境中進(jìn)行。
AwA:包含50 種動物的30 475 張圖像,圖像數(shù)據(jù)是在2016 年從公共資源(例如Flickr)收集的。每張圖像具有6 個預(yù)先提取的特征表示。在二分類實(shí)驗(yàn)中使用SURF(speeded up robust features)特 征2000-D 和HOG(histogram of oriented gradient)特征252-D。
NUS-WIDE:由新加坡國立大學(xué)的媒體實(shí)驗(yàn)室創(chuàng)建的網(wǎng)絡(luò)圖像數(shù)據(jù)集。數(shù)據(jù)集包括:269 648 張圖像和5 018 個唯一標(biāo)簽;從這些圖像中提取的6 種類型的低級特征,包括64-D 顏色直方圖、144-D 顏色相關(guān)圖、73-D 邊緣方向直方圖、128-D 小波紋理、225-D逐塊顏色矩和基于SIFT 描述的500-D 特征;可用于評估的81 類分類場景。本文實(shí)驗(yàn)使用其中單目標(biāo)圖集,選擇了225-D 逐塊顏色矩Normalized_CM55 和73-D 邊緣方向直方圖Normalized_EDH。
數(shù)據(jù)集的信息如表1 所示,為了進(jìn)行更基本的比較,把數(shù)據(jù)集拆分成多個二分類。NUS-WIDE 數(shù)據(jù)集類別排序按照首字母順序。第一個實(shí)驗(yàn)的選取方式參考了數(shù)據(jù)集作者給出的測試。第二個實(shí)驗(yàn)直接以首字母排序后從第5 個到第75 個每間隔10 組成一組二分類數(shù)據(jù)集。
表1 實(shí)驗(yàn)中用到的數(shù)據(jù)集Table 1 Datasets used in experiment
實(shí)驗(yàn)選取一些主流對比算法,其中RVFL-A 和RVFL-B 為帶權(quán)重參數(shù)的用嶺回歸求解的RVFL,相當(dāng)于一組消融實(shí)驗(yàn)。SVM-2K 是基于SVM 的多視角學(xué)習(xí)模型,SVM-2K 結(jié)合了標(biāo)準(zhǔn)SVM 和KCCA(kernel canonical correlation analysis)的距離最小化。MED-2C方法將共識性和互補(bǔ)性原則集成到MED 框架中,以進(jìn)行多視角分類。PSVM-2V在SVM-2K的基礎(chǔ)上結(jié)合特權(quán)信息,以QP問題迭代求解。
為了獲得所有方法的最佳參數(shù),實(shí)施了5 重交叉驗(yàn)證并且運(yùn)行10 次求平均值,SVM-2K、MED-2C 和PSVM-2V的高斯RBF(radial basis function)核函數(shù)的核參數(shù)選自{10,10,10,10,10,1,10,10,10,10,10}。依據(jù)原作者的設(shè)置方法在實(shí)驗(yàn)中將算法中兩個視角的內(nèi)核參數(shù)設(shè)置為相同值。在集合{10,10,…,10}上調(diào)整PSVM-2V、SVM-2K、MED-2C、RVFL中的參數(shù)等。在FMPRVFL中,設(shè)置==并同上面核化參數(shù)相同的范圍選取即{10,10,…,10}。隱節(jié)點(diǎn)數(shù)從{80,100,120,140,160}中選擇。
本節(jié)將比較FMPRVFL 和所有對比測試方法的性能。從圖3 也可以直觀看出,在多數(shù)情況下,F(xiàn)MPRVFL 的性能均優(yōu)于其他算法。
圖3 在AwA 數(shù)據(jù)集上的分類性能Fig.3 Classification performance on AwA dataset
在此討論FMPRVFL 的參數(shù)敏感性,在隱節(jié)點(diǎn)參數(shù)固定后精度會隨參數(shù)、C、變化,選擇參數(shù)的部分結(jié)果如圖4。在參數(shù)選擇中當(dāng)C在10處達(dá)到精度的極大值,或C都較大時(shí)模型的精確度達(dá)到最佳。從圖4(b)來看,當(dāng)參數(shù)處于10時(shí),精度隨變化幅度不大;在=0.01 時(shí)精度達(dá)到極大值。
圖4 不同參數(shù)下FMPRVFL 在AwA 第27 組實(shí)驗(yàn)中性能變化Fig.4 Performance of FMPRVFL with different parameters on dataset AwA27
表2 和表3 分別列出了來自AwA 和NUS-WIDE的36 個和28 個數(shù)據(jù)集二分類結(jié)果。FMPRVFL 在數(shù)據(jù)集AwA 的結(jié)果相對視角A 的RVFL 平均高出約3個百分點(diǎn),相對視角B 的RVFL 平均高出約12 個百分點(diǎn),相對SVM-2K 平均高出約3 個百分點(diǎn),相對MED-2C 平均高出約6 個百分點(diǎn),相對PSVM-2V 平均高出約2 個百分點(diǎn)。在6 組數(shù)據(jù)集略低于PSVM-2V,但是這種情況兩者也非常接近,最壞情況第24 組低約3個百分點(diǎn)。本文方法在NUS-WIDE 數(shù)據(jù)集上對比視角A 的RVFL 平均高出約2 個百分點(diǎn),相對視角B 的RVFL 平均高出約4 個百分點(diǎn),相對SVM-2K 平均高出約4 個百分點(diǎn),相對MED-2C 平均高出約4 個百分點(diǎn),相對PSVM-2V 平均高出約2 個百分點(diǎn),在5 組數(shù)據(jù)集略低于PSVM-2V,但是這種情況兩者也非常接近,最壞情況第4 組實(shí)驗(yàn)低約2 個百分點(diǎn)。表4 記錄了各個算法運(yùn)算時(shí)間,可以看出FMPRVFL 相較于PSVM-2V、SVM-2K、MED-2C 這類用二次規(guī)劃多次迭代求解的方法有較為明顯的優(yōu)勢。
表2 在AWA 數(shù)據(jù)集上的分類性能Table 2 Classification performance on AwA dataset
表2 (續(xù))
表3 在NUS-WIDE 數(shù)據(jù)集上的分類性能Table 3 Classification performance on NUS-WIDE dataset
表4 在NUS-WIDE 數(shù)據(jù)集上的平均運(yùn)行時(shí)間Table 4 Average running time on NUS-WIDE dataset 單位:s
綜上所述可以得出以下結(jié)論:在多數(shù)情況下,F(xiàn)MPRVFL 的性能均優(yōu)于其他算法??梢钥闯?,F(xiàn)MPRVFL 以最高的平均準(zhǔn)確度和最快速度獲得了最佳性能。對于大多數(shù)數(shù)據(jù)集,F(xiàn)MPRVFL 具有比PSVM-2V 更高的準(zhǔn)確性,并且比自身單獨(dú)兩個視角的性能更好,這進(jìn)一步證明了FMPRVFL 本身可以按照互補(bǔ)性原理充分利用兩個視角作為特權(quán)信息,并遵循共識性原理添加正則化項(xiàng)以實(shí)現(xiàn)更好的分類性能。
本文提出了一種快速多視角特權(quán)協(xié)同隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)(FMPRVFL)來有效地解決多視角分類任務(wù)。FMPRVFL 在平均情況下相互利用冗余視角的附加信息作為特權(quán)信息監(jiān)督當(dāng)前視角的分類。該方法的目標(biāo)函數(shù)可以求出解析解,可以使用偽逆方法快速求解。在64 個多視角數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),相比SVM-2K、MED-2C、PSVM-2V,在實(shí)際任務(wù)中,F(xiàn)MPRVFL 可以實(shí)現(xiàn)更好的泛化性能和更快的速度,證明了該方法的有效性。目前只設(shè)計(jì)了兩視角的FMPRVFL,在一些任務(wù)中更多視角可能會對模型構(gòu)建帶來更多幫助,F(xiàn)MPRVFL 可以進(jìn)一步改進(jìn)使用兩個以上視角數(shù)據(jù)。FMPRVFL 中激活函數(shù)的選擇對網(wǎng)絡(luò)泛化能力的影響還有進(jìn)一步探索的空間,后續(xù)可以使用核化方法提高非線性擬合能力。