• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向標(biāo)簽恢復(fù)的子集劃分迭代投影集成

      2021-01-12 08:36:08應(yīng)曉清袁文野楊正成
      光學(xué)精密工程 2020年12期
      關(guān)鍵詞:歸類標(biāo)簽框架

      應(yīng)曉清,劉 浩,2*,袁文野,楊正成

      (1. 東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201620;2. 人工智能教育部重點實驗室,上海200240)

      1 引 言

      圖像特征提取是機器視覺領(lǐng)域的研究熱點之一,近年來已有眾多的特征提取算法相繼被提出,并根據(jù)是否標(biāo)記輸入數(shù)據(jù)可大致分為三類:無監(jiān)督、監(jiān)督及半監(jiān)督學(xué)習(xí)[1-6]。其中,無監(jiān)督學(xué)習(xí)因其可自主探尋數(shù)據(jù)潛在模式與聯(lián)系而備受矚目。 在無監(jiān)督特征提取中,典型的主成分分析(Principal Component Analysis,PCA)[7]旨 在 線 性 降 維 的 同 時投影數(shù)據(jù)至由主成分向量所跨越的線性子空間內(nèi),以最小的重構(gòu)誤差保留全局方差[8];另一具有代表性的局部保持投影(Locality Preserving Projection,LPP)[9]則可通過恢復(fù)原始空間固有的非線性流形結(jié)構(gòu)以保持?jǐn)?shù)據(jù)的局部鄰域關(guān)系,但LPP 技術(shù)忽視了全局視角且對噪聲數(shù)據(jù)尤為敏感。 因此,低秩表示(Low-Rank Representation,LRR)[10]因 其 既 對 噪 聲 干擾具有強魯棒性,又可揭示數(shù)據(jù)全局結(jié)構(gòu)信息,而受到廣泛關(guān)注[11-16]。為了高效地綜合各種技術(shù)以使得圖像分類穩(wěn)健而準(zhǔn)確,Lu 等人[17]提出一種低秩保留投影(Low-Rank Preserving Projections,LRPP)的圖像歸類框架,LRPP 框架雖然具有一定的代表性,但執(zhí)行效果很大程度上取決于樣本標(biāo)簽的質(zhì)量,在噪聲環(huán)境下分類性能下降明顯,導(dǎo)致其在實際應(yīng)用中可能受到諸多限制[18-20]。 因此,圖像特征提取的去噪問題亟待解決。

      圖像噪聲分為標(biāo)簽噪聲與特征噪聲,其中標(biāo)簽噪聲通常更難以學(xué)習(xí)與推廣[21]。針對含噪標(biāo)簽,在不同圖像歸類框架下已經(jīng)提出了較多恢復(fù)算法可供參考,大致分為標(biāo)簽噪聲容忍與標(biāo)簽噪聲凈化[22-26]。標(biāo)簽噪聲容忍僅針對某些特定分類器,缺乏通用性與可擴展性;而標(biāo)簽噪聲凈化則為一種用于清除或修正部分噪聲標(biāo)簽的預(yù)處理步驟,具備良好的普遍性[27]。鑒于直接去除含噪樣本圖像可能導(dǎo)致模型欠擬合或低識別率,因此本文提出一種基于子集劃分迭代投影集成(Subset-divided Iterative Projection Bagging,SIPB)的標(biāo)簽恢復(fù)算法,可實現(xiàn)在確保樣本數(shù)據(jù)完整性的同時整體提升其標(biāo)簽可信度。首先,該算法隨機多次地提取多個小規(guī)模子集信息,其次,結(jié)合PCA 降維、鄰域圖正則化等技術(shù)確定樣本各成分權(quán)重并保留數(shù)據(jù)局部結(jié)構(gòu),從而構(gòu)建更為準(zhǔn)確合理的低秩投影矩陣,然后,通過K-近鄰算法(KNearest Neighbor,KNN)快速預(yù)估其余樣本標(biāo)簽,并存儲各次迭代結(jié)果,最后,根據(jù)多數(shù)投票原則實現(xiàn)類別標(biāo)簽的恢復(fù)。基于訓(xùn)練集主要由帶有真實標(biāo)簽的樣本主導(dǎo)這一先驗,本文算法能以此部分可靠信息為基準(zhǔn),進而修正多數(shù)錯誤標(biāo)簽,以高效提升分類器的魯棒性能,且該算法可靈活運用于各種圖像歸類框架,具備一定可擴展性與較大實用價值。多次實驗表明,本文算法能有效抵抗噪聲干擾,較其他標(biāo)簽恢復(fù)算法有一定優(yōu)勢。

      2 相關(guān)工作

      2.1 典型的圖像歸類框架

      如前所述,低秩保留投影LRPP 圖像歸類框架將局部保持投影LPP、稀疏約束及低秩表示LRR 等技術(shù)進行高效的集成,實現(xiàn)了圖學(xué)習(xí)與投影學(xué)習(xí)的有機融合,可在數(shù)據(jù)整體及局部性間取得較好的平衡,同時具備減弱投影子空間噪聲干擾等潛能。盡管已有實驗表明該框架面向特征提取表現(xiàn)較為出色,但其忽視標(biāo)簽含噪這一普遍現(xiàn)象,因而在模擬噪聲環(huán)境下的分類性能并不理想。

      圖1 標(biāo)簽含噪的LRPP 圖像歸類框架Fig. 1 LRPP image classification framework with noisy labels

      圖1 為標(biāo)簽含噪的LRPP 圖像歸類框架,該框架首先將樣本圖像劃分為訓(xùn)練集與測試集,并依據(jù)比例ρ隨機替換部分訓(xùn)練集類別標(biāo)簽,以生成訓(xùn)練樣本含噪標(biāo)簽集。參數(shù)ρ為某樣本對應(yīng)標(biāo)簽被誤認(rèn)作另一類標(biāo)簽的概率,稱作標(biāo)簽噪聲水平(也可稱作丟失率或含噪率),因此ρjk數(shù)學(xué)形式如式(1)所示:

      具體地,當(dāng)ρ=0. 3 時,代表某標(biāo)記為j的圖像xi,有30% 的概率被認(rèn)定屬于另一標(biāo)記k(k≠j);然后,在LRPP 圖像歸類框架下依次使用K-近鄰準(zhǔn)則預(yù)估測試集的標(biāo)簽信息,并將預(yù)估結(jié)果與其真實類別標(biāo)簽比對,進而統(tǒng)計出該歸類框架的總體 分 類 精 度(Overall Accuracy,OA)與 卡 帕(Kappa)系數(shù),其中Kappa 系數(shù)的計算基于混淆矩陣,其值越大,則代表該歸類框架的分類精度越高。

      2.2 標(biāo)簽含噪下的分類精度

      為排除實驗結(jié)果偶然性,本節(jié)分別選用來自兩個基準(zhǔn)數(shù)據(jù)庫(即Yale B 與AR 數(shù)據(jù)庫,其詳細(xì)說明見4. 1 節(jié))的圖像樣本進行綜合分析,且涉及LRPP 圖像歸類框架的相關(guān)參數(shù)取值均與文獻[17]一致。表1 體現(xiàn)含噪率對圖1 所述圖像歸類框架總體分類精度的影響程度,圖2 則展示不同噪聲水平下該歸類框架的Kappa 系數(shù)變化趨勢及整體均值,其中含噪率ρ取值區(qū)間為[0. 05,0. 4],sele_num為各類樣本內(nèi)所取訓(xùn)練樣本數(shù)。顯然,隨著噪聲比例逐步增加,該圖像歸類框架的總體分類精度及Kappa 系數(shù)均呈明顯下降趨勢,當(dāng)含噪率ρ達0. 4 時,其總體分類精度便已大致由90% 跌落至50%,Kappa 系數(shù)也由0. 9 下行至0. 6 左右。由此可見,現(xiàn)有算法對噪聲數(shù)據(jù)較為敏感,需要提出新的樣本圖像標(biāo)簽去噪算法,以提升圖像歸類框架的魯棒性與可靠性。

      表1 LRPP 圖像歸類框架下不同含噪率對總體分類精度的影響Tab. 1 Overall accuracies of LRPP image classification framework with different noise rates (%)

      圖2 LRPP 圖像歸類框架下不同含噪率對Kappa 系數(shù)的影響Fig. 2 Kappa coefficients of LRPP image classification framework with different noise rates

      3 本文算法

      為解決上述問題,本文提出一種基于子集劃分迭代投影集成的SIPB 標(biāo)簽恢復(fù)算法。

      給定標(biāo)簽含噪的圖像集X,共C類樣本標(biāo)簽,其中各幅圖像均為N維,共M幅圖像,其對應(yīng)標(biāo)簽分別為L1,L2,. . . ,LM∈{1,2,. . . ,C},將該圖像集隨機劃分為訓(xùn)練集X1與測試集X2。圖3 為本文算法具體流程圖,說明如下:

      Step 1:獲 取 樣 本 集X1m×N及 其 含 噪 標(biāo) 簽 集L1m×1,初始化當(dāng)前迭代次數(shù)t=1。

      Step 2:根據(jù)自定義訓(xùn)練集劃分比例q,將數(shù)據(jù)集X1劃分為訓(xùn)練集X11與測試集X12,并執(zhí)行歸一化處理。

      Step 3:對訓(xùn)練集X11進行PCA 可靠降維,生成其低秩特征向量矩陣P,PCA 可靠降維的具體處理流程如圖4 所示。

      Step 4:構(gòu)造訓(xùn)練集X11的最近鄰圖矩陣W,矩陣W各元素wij可簡單定義為:

      其中:Nk(xj)表示樣本xj的k個最近鄰域樣本,那么wij=1 即表示樣本xi在數(shù)據(jù)分布中位于樣本xj的最近鄰域,可認(rèn)為兩樣本相似且具較大可能性屬于同一標(biāo)簽。因此,最近鄰圖矩陣W獲取了樣本數(shù)據(jù)局部信息,可作為構(gòu)建低秩投影矩陣的基準(zhǔn)之一。

      圖3 SIPB 算法流程圖Fig. 3 Flow chart of proposed SIPB method

      圖4 PCA 可靠降維處理Fig. 4 Flow chart of PCA dimensionality reduction processing

      Step 5:構(gòu)造低秩投影矩陣Q,公式如下:

      此公式的詳細(xì)解法請參考文獻[28],其中wij為矩陣W的第(i,j)個元素,zj即矩陣Z第j列向量,且此處取Z=W,矩陣P即訓(xùn)練集X11經(jīng)PCA可靠降維所得的低秩特征向量矩陣,PQTXzj可視作原始樣本xj的重構(gòu)樣本,表示兩樣本間的歐氏距 離?!琙‖*即矩陣Z核范 數(shù),為矩 陣Z的奇異 值 總和 ?!琎‖2,1為 低 秩 投 影 矩 陣Q的l2,1范 數(shù) ,通過施加l2,1范數(shù)約束,矩陣Q可自主提取出樣本的首要特征,并具有高可解釋性。λ1,λ2為用于平衡相應(yīng)項重要性的正則化參數(shù),可于候選集{10-5,10-4,10-3,10-2,10-1,1,101,102,103,104,105}內(nèi)擇優(yōu)選取。矩陣Q構(gòu)造完畢后,通過X′11=QTX11,X′12=QTX12得出訓(xùn)練集、測試集的低秩表示矩陣。

      Step 6:計算并歸一化訓(xùn)練集、測試集的低秩表示矩陣,再將其與訓(xùn)練集含噪標(biāo)簽共同輸入K-近鄰分類器,預(yù)估測試集的樣本標(biāo)簽。

      Step 7:重復(fù)上述Step 2~Step 6,直至當(dāng)前迭代次數(shù)t=te(te為預(yù)設(shè)的迭代閾值)。 構(gòu)建矩陣Yte×m,將各次迭代所得的各樣本標(biāo)簽信息均逐個按位存入該矩陣,表示形式為若經(jīng)第t次迭代得出第i個樣本對應(yīng)標(biāo)簽為j,則Yt,i=j;最后,分析矩陣Y內(nèi)各樣本的te個標(biāo)簽,根據(jù)多數(shù)投票原則可輸出訓(xùn)練樣本的標(biāo)簽恢復(fù)矩陣L′1。

      本文所提標(biāo)簽恢復(fù)算法作為一種數(shù)據(jù)預(yù)處理手段,可靈活運用于各種圖像歸類框架,以最大限度確保分類結(jié)果不為錯誤標(biāo)簽所誤導(dǎo),高效再利用含噪樣本,相較于其他標(biāo)簽恢復(fù)算法更能提升系統(tǒng)的魯棒性與可靠性。

      4 實驗與分析

      4.1 實驗說明

      本文仿真實驗平臺如下:Intel i5-6200U CPU、8 GB 內(nèi)存、Windows 10 操作系統(tǒng)、MATLAB R2016a。實驗數(shù)據(jù)集選擇廣泛應(yīng)用于圖像檢測與識別的Yale B 及AR 人臉數(shù)據(jù)庫。Yale B數(shù)據(jù)庫包含來自38 個對象的2 414 張面部圖像,各對象提供約59~64 個樣本。AR 數(shù)據(jù)庫包含來自120 個對象的1 680 張面部圖像,各對象提供14 個樣本。實驗前對上述圖像集均進行裁切及灰度處理,并使用PCA 降維處理保留98% 的能量以提升算法運算速率。實驗過程中隨機從各類樣本內(nèi)提取sele_num數(shù)量樣本作為訓(xùn)練集,其余樣本作為測試集,并選用在同一圖像歸類框架(即LRPP 圖像歸類框架)下各算法的總體分類精度OA 及Kappa 系數(shù)作為評價指標(biāo),以便更為簡單直觀的衡量算法性能,且其中涉及LRPP 圖像歸類框架的相關(guān)參數(shù)均參照文獻[17]進行設(shè)置。為模擬樣本標(biāo)簽含噪的真實場景,本文選取各種典型丟失率(5%~40%),并采用含噪標(biāo)簽隨機生成算法預(yù)處理訓(xùn)練數(shù)據(jù),隨機數(shù)生成器使用同一種子,以便針對不同情況產(chǎn)生重復(fù)的隨機突發(fā)或隨機丟失,保證實驗更加公平有效。

      4.2 實驗結(jié)果與分析

      本文SIPB 算法實驗參數(shù)包括各類樣本內(nèi)所取訓(xùn)練樣本數(shù)sele_num、訓(xùn)練集劃分比例q及迭代閾值te。各參數(shù)默認(rèn)值為sele_num=25(Yale B)或5(AR),q=0. 3,te=50。為探求本文算法的最優(yōu)參數(shù)取值區(qū)間,下述實驗1~3 分別以上述各參數(shù)為唯一影響因子,在LRPP 圖像歸類框架下將本文算法與LRPP 缺省算法進行對比分析,其中丟失率均取ρ=0. 3;實驗4 則在各種典型丟失率下對不同標(biāo)簽恢復(fù)算法進行綜合比較,以客觀評估本文算法性能優(yōu)劣。

      4.2.1 本文算法最優(yōu)參數(shù)取值分析

      圖5 各類樣本內(nèi)所取訓(xùn)練樣本數(shù)sele_num 不同時各算法性能對比曲線Fig. 5 Performance comparison of different methods under different sele_num values

      實驗1:本實驗以各類樣本內(nèi)所取訓(xùn)練樣本數(shù)sele_num為唯一變量,其余參數(shù)均設(shè)默認(rèn)值。各算法總體分類精度OA 及Kappa 系數(shù)變化對比曲線如圖5 所示,由圖可知,在sele_num的各取值范圍內(nèi),本文算法均優(yōu)于LRPP 缺省算法,且隨著該參數(shù)數(shù)值增加,二者差異始終較為顯著。這表明輸入含噪訓(xùn)練樣本集的規(guī)模在較大范圍內(nèi)變動時,本文算法性能相較于LRPP 缺省算法均占據(jù)一定優(yōu)勢。

      實驗2:表2 列出各訓(xùn)練集劃分比例q下本文算法的總體分類精度OA 及Kappa 系數(shù),而LRPP 缺省算法的實驗結(jié)果可分別于2. 2 節(jié)表1、圖2 內(nèi)獲得。比較結(jié)果可知,q∈[0. 2,0. 25]時 本文算法表現(xiàn)最為出色,相較于缺省算法,其分類精度分別提升20. 423 5% 與10. 926 0%,Kappa 數(shù)值分別增加0. 179 6 與0. 110 2。且即使q取值較大或較小,本文SIPB 算法亦大多能夠有效緩解噪聲對圖像歸類框架的干擾,達到較好的分類效果。

      實驗3:表3 體現(xiàn)預(yù)設(shè)不同迭代閾值te對本文算法性能的影響,而LRPP 缺省算法的實驗結(jié)果與實驗2 相同,可分別于2. 2 節(jié)表1、圖2 內(nèi)獲得。由實驗數(shù)據(jù)可得,少次迭代時本文算法效果平平,而隨著迭代閾值te增加,該算法的總體分類精度OA 及Kappa 系數(shù)迅速提升,且相較于缺省算法表現(xiàn)出更好性能。迭代閾值取值較大時,本文算法各指標(biāo)增長速度雖有所放緩,但總體走向仍保持不變,呈上升趨勢。

      表2 各訓(xùn)練集劃分比例下本文算法性能對比Tab. 2 Performance comparison of the proposed method under different q values

      表3 各迭代閾值下本文算法性能對比Tab. 3 Performance comparison of the proposed method under different t values

      4.2.2 本文算法性能評估

      本節(jié)在LRPP 圖像歸類框架下對四種典型的標(biāo)簽恢復(fù)算法,即LRPP 缺省算法、圖正則重建(Graph Regularized Reconstruction,GRR)算法[28]、穩(wěn) 健 圖 構(gòu) 造(Robust Graph Construction,RGC)算法[29]及本文SIPB 算法,于不同丟失率下對噪聲數(shù)據(jù)的魯棒性能進行比較。其中,GRR 算法引入具有正交約束的數(shù)據(jù)重構(gòu)項,增強了模型局部特征的保留能力及樣本辨別力;RGC 算法則能改善由損壞數(shù)據(jù)集所獲的低階恢復(fù),為近年所提的一種魯棒圖學(xué)習(xí)方法。綜合實驗1~實驗3的結(jié)論,選定本文算法各參數(shù)值為sele_num=25(Yale B)或5(AR),q=0. 23,te=50。

      表4 和表5 對各算法的總體分類精度做出比較,可看出,在各種丟失率下本文算法均明顯優(yōu)于缺省算法,其分類精度增益最高分別為27. 732 3% 與9. 907 4%,平均增益分別為16. 939 8% 與8. 136 5%;本文算法相較于GRR算法也優(yōu)勢明顯,其分類精度增益最高分別為25. 273 3% 與7. 406 4%,平均增益分別為14. 856 5% 與6. 111 0%;對比RGC 算法,本文算法分類精度至多提升7. 035 5% 與6. 481 4%,均值提升4. 320 3% 與4. 687 5%。圖6 則展示不同丟失率下各算法Kappa 系數(shù)的變化趨勢及整體均值。由圖可知,隨著丟失率上升,各算法Kappa系數(shù)雖均有所下降,但本文算法性能表現(xiàn)始終更為出眾,其Kappa 均值分別為0. 866 3 與0. 822 0。

      表4 在Yale B 數(shù)據(jù)庫內(nèi)不同丟失率下總體分類精度對比Tab. 4 Overall accuracies of different methods on the Yale B database (%)

      表5 在AR 數(shù)據(jù)庫內(nèi)不同丟失率下總體分類精度對比Tab. 5 Overall accuracies of different methods on the AR database (%)

      圖6 在兩大數(shù)據(jù)庫內(nèi)不同丟失率下kappa 系數(shù)變化的對比曲線Fig. 6 Kappa coefficients under different noise rates on the two databases

      綜上所述,在同一歸類框架下本文SIPB 算法的整體降噪性能更優(yōu),可有效提升數(shù)據(jù)標(biāo)簽可信度,改善系統(tǒng)的魯棒性與可靠性。值得一提的是,本文算法在AR 數(shù)據(jù)庫內(nèi)的實驗性能略低于在Yale B 數(shù)據(jù)庫內(nèi)的實驗性能,其原因在于本文所選AR 數(shù)據(jù)庫樣本總數(shù)較少而標(biāo)簽種類較多,使得算法執(zhí)行過程中可供參考的真實信息相對不足,較易產(chǎn)生錯誤識別,導(dǎo)致最終的標(biāo)簽恢復(fù)效果相對不顯著。

      5 結(jié) 論

      本文提出了一種基于子集劃分迭代投影集成的標(biāo)簽恢復(fù)算法。該算法首先通過隨機多次地提取小規(guī)模子集信息,并結(jié)合主成分分析、鄰域圖正則化等技術(shù)構(gòu)建準(zhǔn)確可靠的低秩投影矩陣,隨后通過K-近鄰算法進行標(biāo)簽預(yù)估與迭代集成,最后根據(jù)多數(shù)投票原則實現(xiàn)類別標(biāo)簽的有效復(fù)原。多次不同數(shù)據(jù)集下的實驗表明:本文算法可有效緩解噪聲干擾,在同一圖像歸類框架下針對Yale B 與AR 數(shù)據(jù)庫分別使分類精度提升了16. 9% 與8. 1%;相較于目前最好的標(biāo)簽恢復(fù)算法,本文算法可提升4. 3%~4. 7% 的分類精度,能夠在確保樣本數(shù)據(jù)完整性的同時改善系統(tǒng)的魯棒性與可靠性。此外,本文算法還可直接嵌套于現(xiàn)有各種圖像歸類框架,具備一定可擴展性與較大實用價值。由于真實標(biāo)簽噪聲的形式與數(shù)量或許難以預(yù)知,甚至具有對抗性,后續(xù)研究中還需進一步探索如何處理此類噪聲。子集劃分及迭代運算帶來了計算復(fù)雜度的提升,后續(xù)工作也需要探究子集與迭代閾值的自適應(yīng)選取機制。

      猜你喜歡
      歸類標(biāo)簽框架
      框架
      電表“對”與“錯”歸類巧掌握
      廣義框架的不相交性
      Happiness through honorable actions
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      分式方程應(yīng)用題歸類解說
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      標(biāo)簽化傷害了誰
      一種基于OpenStack的云應(yīng)用開發(fā)框架
      社会| 南郑县| 息烽县| 县级市| 桓仁| 乡城县| 疏附县| 榆林市| 界首市| 广德县| 平凉市| 肥西县| 汶上县| 乌拉特后旗| 广平县| 怀仁县| 左云县| 尼勒克县| 磴口县| 毕节市| 丹江口市| 岳普湖县| 汾阳市| 临夏市| 承德县| 山东省| 亳州市| 潢川县| 象山县| 循化| 盐山县| 崇义县| 昭通市| 盖州市| 绥棱县| 新营市| 三台县| 时尚| 大足县| 建水县| 井陉县|