摘 要:神經(jīng)架構(gòu)搜索(NAS)的目的是為特定任務(wù)自動尋優(yōu)生成高性能網(wǎng)絡(luò)架構(gòu),從而減少架構(gòu)設(shè)計對專家經(jīng)驗(yàn)的依賴和架構(gòu)設(shè)計過程中的人力資源消耗,其主要包含搜索空間、搜索策略和評估策略三個組成部分。早期NAS需要多個GPU耗時多天完成搜索,搜索耗時和計算成本高是NAS的核心問題。為幫助研究人員快速、全面地了解NAS領(lǐng)域,提供了一種新的視角對現(xiàn)有NAS工作進(jìn)行梳理。首先對NAS的早期工作進(jìn)行分析,并闡述了NAS的核心問題及其產(chǎn)生原因;然后圍繞解決NAS核心問題的三類方法,即減小架構(gòu)搜索范圍、減少待評估架構(gòu)搜索時間、減少架構(gòu)評估時間,對該領(lǐng)域算法進(jìn)行針對性分析、對比、總結(jié);最后歸納總結(jié)該領(lǐng)域后續(xù)的主要研究方向。
關(guān)鍵詞:神經(jīng)架構(gòu)搜索;搜索范圍;搜索時間;評估時間
中圖分類號:TP181"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2025)01-002-0011-08
doi: 10.19734/j.issn.1001-3695.2024.05.0172
Review of research on neural architecture search technology
Abstract: The purpose of NAS is to automatically optimize and generate high-performance network architectures for specific tasks, in order to reduce the dependence of architecture design on expert experience and human resource consumption in the architecture design process. It mainly includes three components: search space, search strategy, and evaluation strategy. Early NAS requires multiple GPUs to complete searches in multiple days, and the high search time and computational cost are the core issues of NAS. To help researchers quickly and comprehensively understand the field of NAS, this paper provided a new perspective to sort out existing NAS work. Firstly, this paper analyzed the early work of NAS and elucidated the core issues and their origins. Secondly, focusing on the three categories of methods to address the core issues of NAS: reducing the search space of architectures, decreasing the time for evaluating candidate architectures, and reducing the time for evaluating architectures, this paper conducted a targeted analysis, comparison, and summary of algorithms in this field. Finally, it summarized the main research directions in this field for future work.
Key words:neural architecture search(NAS); search scope; search time; evaluation time
0 引言
深度學(xué)習(xí)的本質(zhì)是擬合函數(shù)[1],函數(shù)性能依賴網(wǎng)絡(luò)架構(gòu)及其參數(shù)權(quán)重。網(wǎng)絡(luò)架構(gòu)設(shè)計過程主要考慮:網(wǎng)絡(luò)架構(gòu)的深度,即層數(shù)量;網(wǎng)絡(luò)架構(gòu)的寬度,即通道數(shù);層與層之間的連接關(guān)系(跳躍連接和密集連接等),每一層相對應(yīng)的網(wǎng)絡(luò)操作算子類型(卷積、池化等)。網(wǎng)絡(luò)參數(shù)權(quán)重設(shè)計的主要方式是迭代學(xué)習(xí),即通過損失函數(shù)計算損失值,基于梯度下降算法最小化損失值,直至訓(xùn)練達(dá)到最大輪數(shù)或模型收斂[2]。
經(jīng)典模型,例如GoogleNet[3]、ResNet[4]、MobileNet[5]和GhostNet[6],均由專家基于上述思路設(shè)計,該過程困難且耗時,且人工設(shè)計固定的思維模式可能會限制新架構(gòu)的發(fā)現(xiàn)。此外,模型設(shè)計與特定任務(wù)相關(guān),模型遷移至新任務(wù)時性能表現(xiàn)不確定。
NAS是自動化機(jī)器學(xué)習(xí)領(lǐng)域的關(guān)鍵技術(shù)之一。NAS的目的是為特定任務(wù)自動尋優(yōu)生成高性能網(wǎng)絡(luò)架構(gòu),其將該過程表示為優(yōu)化問題,并使用優(yōu)化算法進(jìn)行求解[7,8]。NAS可以減少網(wǎng)絡(luò)架構(gòu)設(shè)計對專業(yè)知識的依賴和架構(gòu)設(shè)計過程中的人力消耗,有利于生成創(chuàng)新性的網(wǎng)絡(luò)架構(gòu)。目前,NAS已經(jīng)成功應(yīng)用于目標(biāo)檢測[9,10]、模型壓縮[11,12]、語義分割[13,14]等領(lǐng)域,如文獻(xiàn)[15]設(shè)計了六種信息路徑并搜索路徑間的最優(yōu)組合,實(shí)現(xiàn)了不同層次信息的互補(bǔ)組合,搜索的最佳架構(gòu)提高了RetinaNet等主流檢測器的識別準(zhǔn)確率;文獻(xiàn)[16]搜索了一組移動的目標(biāo)檢測模型,在多種硬件平臺上實(shí)現(xiàn)了更好的準(zhǔn)確率與延遲權(quán)衡;文獻(xiàn)[17]設(shè)計了一個密集連接的搜索空間,并通過結(jié)合路徑與通道采樣策略設(shè)計了一個融合模塊和混合層,搜索的架構(gòu)在Cityscapes等公共圖像語義分割基準(zhǔn)上實(shí)現(xiàn)了更先進(jìn)的性能。此外,由于不同NAS算法設(shè)計差異較大,難以進(jìn)行比較,一些工作考慮為不同的NAS算法提供統(tǒng)一的對比平臺[18~21]。
如圖1所示,NAS包含搜索空間、搜索策略和評估策略[7,22]三個主要組成部分。其中,搜索空間表示允許生成架構(gòu)的范圍;搜索策略表示架構(gòu)搜索的方式;評估策略對搜索的網(wǎng)絡(luò)架構(gòu)進(jìn)行性能評估[23]?;谒阉鞑呗栽陬A(yù)定義的搜索空間進(jìn)行搜索,評估策略反饋評估結(jié)果指導(dǎo)下一步搜索,上述過程反復(fù)迭代直至滿足最終要求。
NAS的早期工作在CIFAR-10數(shù)據(jù)集上實(shí)現(xiàn)了超越人工架構(gòu)的分類精度[24],為NAS的發(fā)展奠定了基礎(chǔ)框架。早期NAS的主要問題在于需要多個GPU耗時多天完成架構(gòu)搜索,搜索耗時和計算成本高是NAS的核心問題。此后,NAS算法多圍繞減少搜索時間和計算資源消耗問題設(shè)計。
先前的研究綜述多圍繞NAS的三個組成部分對現(xiàn)有工作進(jìn)行分類。本文以NAS的核心問題為切入點(diǎn),提供了一種新的視角,以幫助研究人員快速、全面地了解NAS領(lǐng)域。首先對NAS的早期工作進(jìn)行了分析,并詳細(xì)闡述了NAS的核心問題及其產(chǎn)生原因;然后圍繞解決NAS核心問題的三類方法,即減小架構(gòu)搜索范圍、減少待評估架構(gòu)搜索時間、減少架構(gòu)評估時間,對該領(lǐng)域算法進(jìn)行針對性分析、對比、總結(jié);最后歸納總結(jié)該領(lǐng)域后續(xù)的主要研究方向。
1 NAS早期工作及核心問題
谷歌2016年發(fā)布的NAS-RL算法[25]被認(rèn)為是NAS的先驅(qū)工作。算法基于RNN控制器生成表示架構(gòu)的超參數(shù),如圖2所示,每五個輸出結(jié)果組成一個卷積層的參數(shù)?;趶?qiáng)化學(xué)習(xí)以準(zhǔn)確率作為獎勵對控制器進(jìn)行更新,算法在CIFAR-10數(shù)據(jù)集上消耗22 400 GPU days搜索的架構(gòu),在分類精度上優(yōu)于人工架構(gòu)。
同期,MetaQNN算法[26]將搜索視作層選擇過程,并采用-greedy貪婪搜索策略和具有經(jīng)驗(yàn)回放的Q-learning進(jìn)行架構(gòu)搜索。其中,經(jīng)驗(yàn)回放加快了搜索速度,在CIFAR-10數(shù)據(jù)集上消耗100 GPU days完成搜索。
谷歌2017年發(fā)布的LargeEvo算法[27]首次基于進(jìn)化算法搜索深層架構(gòu)。該算法對網(wǎng)絡(luò)架構(gòu)進(jìn)行編碼,并基于錦標(biāo)賽選擇法篩選高適應(yīng)度父代變異產(chǎn)生子代。算法沒有固定網(wǎng)絡(luò)深度且允許多種變異操作,在CIFAR-10數(shù)據(jù)集上消耗2 600 GPU days完成搜索。
同期,Genetic CNN算法[28]采用固定長度的二進(jìn)制字符串編碼網(wǎng)絡(luò)架構(gòu),根據(jù)經(jīng)驗(yàn)預(yù)先定義固定數(shù)量初始群體,通過選擇、交叉、變異操作生成子代,最終解碼適應(yīng)度最高的個體獲取網(wǎng)絡(luò)架構(gòu)。
上述算法的成功實(shí)現(xiàn)奠定了NAS基礎(chǔ),使自動搜索網(wǎng)絡(luò)架構(gòu)成為現(xiàn)實(shí)。然而,這些NAS算法需使用數(shù)百個GPU耗時多天完成架構(gòu)搜索,其高昂的計算成本使得普通研究人員難以承擔(dān)。搜索耗時和計算成本高是NAS發(fā)展的核心問題。造成早期NAS搜索緩慢、計算成本昂貴的原因可歸結(jié)為以下幾點(diǎn):
a)搜索范圍過大。早期NAS針對整體網(wǎng)絡(luò)架構(gòu)進(jìn)行搜索,圖3為搜索到的兩種常見的整體網(wǎng)絡(luò)架構(gòu):鏈?zhǔn)骄W(wǎng)絡(luò)架構(gòu)和多分支網(wǎng)絡(luò)架構(gòu)。兩種架構(gòu)中的每一層都需要從候選架構(gòu)超參數(shù)中進(jìn)行選擇,例如卷積核的大小、步長、通道數(shù)。當(dāng)網(wǎng)絡(luò)層數(shù)增加時,架構(gòu)中各個層超參數(shù)間的組合數(shù)幾何倍的增長,導(dǎo)致搜索范圍過大。
b)待評估網(wǎng)絡(luò)搜索時間較長。早期基于強(qiáng)化學(xué)習(xí)的NAS算法本質(zhì)為試錯過程,基于環(huán)境反饋指導(dǎo)下一步搜索。早期基于進(jìn)化算法的NAS算法需要生成大規(guī)模初始群體,通過個體間的交叉、變異生成子代網(wǎng)絡(luò)架構(gòu)。
c)評估時間過長。早期NAS針對搜索的架構(gòu)基于梯度方法訓(xùn)練權(quán)重。在搜索過程中,所有架構(gòu)均從頭開始訓(xùn)練至收斂,導(dǎo)致性能評估的總訓(xùn)練時間過長。
上述問題分別對應(yīng)了NAS算法的三個組成部分,同時也是后續(xù)NAS算法面臨的共同問題。具體而言,搜索范圍過大對應(yīng)搜索空間、待評估架構(gòu)搜索時間過長對應(yīng)搜索策略、評估時間過長對應(yīng)評估策略。
2 減小架構(gòu)搜索范圍
受到人工設(shè)計的高性能網(wǎng)絡(luò)架構(gòu)中堆疊相同結(jié)構(gòu)的啟發(fā),并考慮架構(gòu)搜索的快速性,如圖4所示,一些NAS算法針對一些較小的單元結(jié)構(gòu)或塊結(jié)構(gòu)進(jìn)行搜索,單元或塊結(jié)構(gòu)內(nèi)包含卷積、池化、跳躍連接等操作,通過重復(fù)堆疊搜索的高性能cell或塊結(jié)構(gòu)搭建最終的網(wǎng)絡(luò)架構(gòu)。
NASNet算法[29]首次重復(fù)堆疊搜索的cell結(jié)構(gòu)搭建網(wǎng)絡(luò)架構(gòu),其中normal cell保持輸入特征圖大小不變,reduction cell對輸入特征圖進(jìn)行下采樣。如圖5所示,每個cell由五個塊組成,單個塊包含兩個并行的操作算子和一個組合方式,并且可以接收先前塊的輸出作為輸入。該算法實(shí)現(xiàn)了網(wǎng)絡(luò)架構(gòu)的可遷移性,在CIFAR-10數(shù)據(jù)集中搜索的最佳cell可在ImageNet數(shù)據(jù)集上取得較好結(jié)果。
BlockQNN算法[30]在MetaQNN算法的基礎(chǔ)上基于塊結(jié)構(gòu)進(jìn)行架構(gòu)搜索。該算法采用一組5-D向量編碼塊結(jié)構(gòu),并直接采用池化算子代替reduction cell,減小了搜索范圍,在CIFAR-10數(shù)據(jù)集上消耗96 GPU days完成搜索。
ENAS算法[31]通過有向無環(huán)圖(directed acyclic graph,DAG)進(jìn)行兩種cell的搜索。如圖6所示,有向無環(huán)圖中的各個節(jié)點(diǎn)表示操作運(yùn)算,邊表示信息傳輸方向。該算法的核心在于通過架構(gòu)間的參數(shù)共享縮短了訓(xùn)練過程,實(shí)現(xiàn)了快速搜索,在CIFAR-10數(shù)據(jù)集上消耗0.45 GPU days即可完成搜索。
文獻(xiàn)[32]基于ResNet塊進(jìn)行架構(gòu)搜索以確保生成架構(gòu)的有效性,允許對ResNet塊中不同卷積層的通道數(shù)進(jìn)行搜索,并設(shè)計了一種輕量級注意力機(jī)制作為架構(gòu)中的最后一個特征提取模塊,實(shí)現(xiàn)了高效的CNN架構(gòu)自動設(shè)計。
基于搜索的cell或塊結(jié)構(gòu)搭建網(wǎng)絡(luò)架構(gòu)有效減小了搜索范圍,提升了搜索速度。此外,cell或塊結(jié)構(gòu)易于推廣,具有較好的遷移功能,不同數(shù)量單元堆疊的架構(gòu)可以在不同數(shù)據(jù)集、任務(wù)中發(fā)揮作用,而直接搜索的整體網(wǎng)絡(luò)架構(gòu)通常不具備遷移功能。通過在規(guī)模較小的數(shù)據(jù)集中進(jìn)行搜索,再將搜索的單元或塊結(jié)構(gòu)應(yīng)用到較大的數(shù)據(jù)集中,可以減少計算資源消耗,如將CIFAR-10數(shù)據(jù)集搜索的單元結(jié)構(gòu)應(yīng)用于ImageNet數(shù)據(jù)集。
然而,該類方法使得網(wǎng)絡(luò)架構(gòu)的整體結(jié)構(gòu)相對固定,限制了架構(gòu)搜索的多樣性,其結(jié)果可能不是最佳。
為了克服重復(fù)堆疊cell方法的固有限制,NSGA-Net算法[33]不重復(fù)堆疊相同塊結(jié)構(gòu)搭建網(wǎng)絡(luò)架構(gòu),將搜索過程分為多個階段,每個階段均由一個n節(jié)點(diǎn)有向無環(huán)圖表示。該算法受到貝葉斯優(yōu)化算法啟發(fā),注重不同階段塊結(jié)構(gòu)與路徑的相關(guān)性,每個階段塊結(jié)構(gòu)的搜索概率均依賴先前階段塊結(jié)構(gòu)。
基于ResNet塊和DenseNet塊的競爭性,AE-CNN算法[34]基于上述兩種塊結(jié)構(gòu)搜索網(wǎng)絡(luò)架構(gòu)。算法采用可變長度編碼策略對cell及其位置進(jìn)行編碼。一個RBU、DBU可包括多個RBs、DBs,而PU只包含一個池化層。AE-CNN算法在CIFAR-10數(shù)據(jù)集上消耗27 GPU days搜索的最佳網(wǎng)絡(luò)架構(gòu)只有2.0 M參數(shù)。
3 減少待評估架構(gòu)搜索時間
3.1 更快速的進(jìn)化搜索方法
進(jìn)化算法具有對局部最小值不敏感和不需要梯度信息等特性,適合解決一些復(fù)雜的非凸優(yōu)化問題。針對綜合搜索緩慢、計算資源限制、存儲設(shè)備約束等問題,一些研究人員將計算復(fù)雜度納入搜索目標(biāo),設(shè)計多目標(biāo)優(yōu)化NAS,加快了搜索速度,并減少了計算資源消耗。
LEMONADE算法[35]同時考慮模型的性能和資源消耗?;诹畠r目標(biāo)(參數(shù)量、FLOPS等)對父代個體進(jìn)行概率采樣生成子網(wǎng)絡(luò),以獲取廉價子集。算法僅針對子集中架構(gòu)進(jìn)行訓(xùn)練、評估,并基于Pareto Front選擇目標(biāo)間最優(yōu)平衡個體,實(shí)現(xiàn)了資源消耗和預(yù)測性能間的隱含折中。
同期,NSGA-Net算法[33]綜合考慮最小化誤差度量和計算復(fù)雜性,針對搜索過程設(shè)置多種限制:a)限制每個節(jié)點(diǎn)過濾器的通道數(shù)量;b)限制后代種群生成過程中交叉、變異位數(shù);c)固定池化算子在架構(gòu)中的位置。算法在CIFAR-10數(shù)據(jù)集上搜索的網(wǎng)絡(luò)架構(gòu)在兩個目標(biāo)上均優(yōu)于人工網(wǎng)絡(luò)架構(gòu)。
傳統(tǒng)的進(jìn)化算法可能陷入過早收斂,并且忽視了進(jìn)化過程中產(chǎn)生的歷史信息,而這些信息可能有助于搜索過程。為了進(jìn)一步提升算法的搜索速度與性能,一些研究人員以進(jìn)化算法中的操作為切入點(diǎn),通過優(yōu)化選擇、交叉、變異等操作改進(jìn)算法。
AmoebaNet算法[36]采用了一種改進(jìn)的錦標(biāo)賽選擇方法。在進(jìn)化過程中,當(dāng)選擇個體網(wǎng)絡(luò)架構(gòu)時,性能最佳的網(wǎng)絡(luò)架構(gòu)編碼被保留至下一代,同時將所有架構(gòu)的編碼與一個額外的年齡屬性關(guān)聯(lián),并偏向于選擇年輕的網(wǎng)絡(luò)架構(gòu)。在相同條件下,AmoebaNet算法搜索的網(wǎng)絡(luò)架構(gòu)具有與更復(fù)雜NAS方法發(fā)現(xiàn)網(wǎng)絡(luò)架構(gòu)相當(dāng)?shù)男阅堋?/p>
AG-ENAS算法[37]根據(jù)當(dāng)前種群的多樣性自適應(yīng)地調(diào)整遺傳算法的參數(shù)以提升算法的搜索性能,并根據(jù)進(jìn)化過程中產(chǎn)生的歷史信息指導(dǎo)種群的進(jìn)化方向,即基于不同基因?qū)τ谶m應(yīng)度的影響引導(dǎo)變異操作產(chǎn)生更好的后代。此外,算法將年齡屬性引入環(huán)境選擇過程,傾向于選擇更年輕的個體以緩解過早收斂。
3.2 基于梯度的搜索方法
基于強(qiáng)化學(xué)習(xí)和進(jìn)化算法的NAS算法本質(zhì)是離散搜索。兩者均將目標(biāo)函數(shù)看做黑箱,通過離散地修改架構(gòu)中的部分操作改變網(wǎng)絡(luò)架構(gòu),導(dǎo)致不能通過梯度方法快速優(yōu)化網(wǎng)絡(luò)架構(gòu)。
為了加快算法的搜索速度,研究人員將搜索空間轉(zhuǎn)變?yōu)檫B續(xù)可微的,然后通過梯度方法進(jìn)行優(yōu)化,即通過反向傳播算法同時優(yōu)化網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)和權(quán)重參數(shù)。
2018年,卡內(nèi)基梅隆大學(xué)研究團(tuán)隊發(fā)布了第一個梯度搜索算法DARTS[38]。算法將離散的搜索空間松弛連續(xù)化,允許使用梯度下降進(jìn)行網(wǎng)絡(luò)架構(gòu)搜索。如圖7所示,節(jié)點(diǎn)間邊的具體操作類型未知,包含多種候選操作,通過softmax函數(shù)對各操作進(jìn)行權(quán)值計算,權(quán)值最大的操作被選擇以生成架構(gòu)。與離散搜索算法相比,DARTS算法可在單個GPU上較快完成搜索。
同期,NAO算法[39]采用網(wǎng)絡(luò)嵌入策略將整個網(wǎng)絡(luò)架構(gòu)變換至連續(xù)向量空間,基于梯度方法進(jìn)行優(yōu)化。該算法重點(diǎn)在于編碼器、解碼器模型。編碼器模型將網(wǎng)絡(luò)架構(gòu)映射到連續(xù)表示,解碼器模型從連續(xù)表示中恢復(fù)網(wǎng)絡(luò)架構(gòu)。
NAS是在確定環(huán)境下具有完全延遲獎勵特性的任務(wù)。在網(wǎng)絡(luò)架構(gòu)被搭建并訓(xùn)練測試之前,并不能獲取獎勵分?jǐn)?shù)。SNAS算法[40]采用可因式分解、聯(lián)合分布的獨(dú)熱隨機(jī)變量放松網(wǎng)絡(luò)架構(gòu)分布,并使用損失函數(shù)代替準(zhǔn)確率作為獎勵,將獎勵從來自環(huán)境的常數(shù)轉(zhuǎn)換為可微函數(shù),允許在同一輪反向傳播過程中同時訓(xùn)練架構(gòu)參數(shù)與權(quán)重參數(shù)。
在大規(guī)模數(shù)據(jù)集上搜索網(wǎng)絡(luò)架構(gòu)時,為了減少內(nèi)存占用和計算耗時,一般使用小規(guī)模數(shù)據(jù)集作為代理任務(wù)。ProxylessNAS算法[41]采用二值化策略對架構(gòu)路徑選擇、剪枝,每次采樣只允許兩節(jié)點(diǎn)間的一個操作被激活,減輕了節(jié)點(diǎn)間不同操作的權(quán)重耦合,節(jié)省了一個數(shù)量級的內(nèi)存消耗,能夠直接在大規(guī)模數(shù)據(jù)集上搜索架構(gòu)。此外,該算法將硬件性能納入可微優(yōu)化目標(biāo),在不同硬件平臺上搜索的網(wǎng)絡(luò)架構(gòu)差異較大,為CNN架構(gòu)設(shè)計提供了新思路。
DARTS模型在訓(xùn)練時存在較大的內(nèi)存和計算開銷。針對該問題,PC-DARTS算法[42]采用部分通道采樣策略,通過隨機(jī)采樣小部分通道進(jìn)行運(yùn)算有效減少了存儲消耗,并通過邊標(biāo)準(zhǔn)化提升架構(gòu)的穩(wěn)定性,在CIFAR-10數(shù)據(jù)集上消耗0.1 GPU days即可完成搜索。
梯度搜索算法存在性能排名不準(zhǔn)確問題,即排名靠前的網(wǎng)絡(luò)架構(gòu)真實(shí)性能不一定高。為了得到更準(zhǔn)確的架構(gòu)排名,SGAS算法[43]將搜索過程劃分為子問題,并設(shè)計了三個評價指標(biāo):a)計算操作參數(shù)softmax值的和衡量邊的重要性;b)計算操作分布的標(biāo)準(zhǔn)化熵衡量選擇的準(zhǔn)確性;c)采用直方圖交叉核衡量選擇的穩(wěn)定性。算法基于貪婪策略并綜合考慮三個指標(biāo)依次確定兩節(jié)點(diǎn)間邊的具體操作類型,而其余操作則被修剪。
DARTS算法在搜索階段堆疊較少的cell搭建架構(gòu),在評估階段堆疊較多的搜索單元以實(shí)現(xiàn)更高分辨率的數(shù)據(jù)處理,架構(gòu)的搜索和評估之間存在depth gap。針對該問題,P-DARTS[44]算法在搜索過程中漸進(jìn)式增加網(wǎng)絡(luò)深度,并在層數(shù)增加時采用搜索空間近似化策略和正則化策略減少候選操作的數(shù)量,避免殘差連接占據(jù)主導(dǎo)地位降低網(wǎng)絡(luò)的穩(wěn)定性。
盡管梯度方法能夠快速優(yōu)化架構(gòu)參數(shù),但這些參數(shù)的更新幅度并不能準(zhǔn)確反映各個操作對任務(wù)性能的重要性,降低了搜索架構(gòu)的有效性。Shapley-NAS算法[45]采用帶有早期截斷的蒙特卡羅抽樣方法近似計算Shapley值,并根據(jù)Shapley值衡量操作的貢獻(xiàn)以更新架構(gòu)參數(shù),從而更有效地搜索出最佳架構(gòu)。
在DARTS算法中,一些操作的權(quán)重參數(shù)在初始階段訓(xùn)練程度較低,導(dǎo)致候選操作間的不公平競爭。ADARTS算法[46]基于通道注意力機(jī)制衡量特征通道的重要性,通過選擇權(quán)重較高的通道參與運(yùn)算以提取數(shù)據(jù)中的關(guān)鍵特征。此外,部分通道連接方法減少了內(nèi)存占用,有利于增加輸入數(shù)據(jù)的批量,加快運(yùn)行速度,并在搜索時避免了批量較小導(dǎo)致的網(wǎng)絡(luò)參數(shù)和結(jié)構(gòu)不穩(wěn)定問題。
為了設(shè)計一個簡化的超網(wǎng)絡(luò),有效降低DARTS的計算負(fù)擔(dān),F(xiàn)P-DARTS算法[47]將DARTS算法中的候選操作分為兩個互不重疊的子集以構(gòu)建兩個子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)只采用部分通道,并將子網(wǎng)絡(luò)構(gòu)成一個并行的網(wǎng)絡(luò),采用二進(jìn)制門控制子網(wǎng)絡(luò)是否參與訓(xùn)練,減少了計算消耗。此外,算法采用sigmoid函數(shù)代替softmax函數(shù)為中間節(jié)點(diǎn)選擇最佳輸入,使每個操作的權(quán)值計算相對獨(dú)立于其他操作。
針對模型在資源有限設(shè)備上的部署問題,DLW-NAS算法[48]構(gòu)建了一個包含有效輕量級操作的輕量級搜索空間,并提出了一種帶有計算復(fù)雜度限制的可微分搜索策略,顯著減少了搜索架構(gòu)的參數(shù)量和計算復(fù)雜度。
3.3 不同NAS方法的性能比較
上述內(nèi)容介紹了部分NAS算法的主要工作。實(shí)際上,比較不同NAS算法的性能具有一定的挑戰(zhàn)性,因?yàn)镹AS算法的性能對比缺少統(tǒng)一的基準(zhǔn)與公平性,不同NAS算法在數(shù)據(jù)預(yù)處理、學(xué)習(xí)率、批量大小、訓(xùn)練輪數(shù)、搜索空間、技巧等方面存在較大的差異性。此外,不同NAS算法使用的硬件資源不同,例如GPU的數(shù)量和型號。
搜索架構(gòu)的準(zhǔn)確性和算法搜索過程中的計算消耗是目前NAS算法性能對比的兩個主要指標(biāo)。其中計算消耗通常由GPU days衡量,即GPU的數(shù)量乘以算法運(yùn)行時間(天數(shù))。
表1展示了上述提及的NAS算法在CIFAR-10和CIFAR-100數(shù)據(jù)集上的部分性能指標(biāo)和硬件條件。由表1可知,各種NAS算法均能根據(jù)數(shù)據(jù)集搜索出性能較優(yōu)的網(wǎng)絡(luò)架構(gòu)。此外,進(jìn)化搜索方法和梯度搜索方法是當(dāng)前NAS的主流搜索方法。其中,梯度搜索算法在搜索架構(gòu)的準(zhǔn)確率和搜索消耗兩個方面都普遍優(yōu)于進(jìn)化搜索算法,但其依然存在以下主要問題:
a)對硬件設(shè)備的內(nèi)存容量存在一定要求。同時訓(xùn)練結(jié)構(gòu)參數(shù)和權(quán)重參數(shù)會占用大量的內(nèi)存,導(dǎo)致內(nèi)存利用率較低。
b)搜索結(jié)果不穩(wěn)定。架構(gòu)中候選操作的選擇依賴初始訓(xùn)練階段的權(quán)重參數(shù),導(dǎo)致操作間存在不公平的競爭。
雖然進(jìn)化搜索算法的搜索效率相較于梯度搜索算法存在一定的差距,但其仍具有一些獨(dú)特的優(yōu)勢:
a)實(shí)現(xiàn)簡單、可拓展性強(qiáng)。進(jìn)化算法的基本操作簡單直觀,易于理解和實(shí)現(xiàn),且框架具有高拓展性,易于結(jié)合其他優(yōu)化方法。
b)應(yīng)用范圍更加廣泛。進(jìn)化算法不依賴梯度信息,適用于一些梯度計算困難或不可用的情況。此外,通過設(shè)計適當(dāng)?shù)倪m應(yīng)度函數(shù),進(jìn)化搜索方法可以同時優(yōu)化多個性能指標(biāo),這使得進(jìn)化算法在復(fù)雜、多目標(biāo)優(yōu)化問題上具有較高的靈活性。
4 減少架構(gòu)評估時間
網(wǎng)絡(luò)架構(gòu)的性能評估是NAS不可缺少的環(huán)節(jié),同時也是NAS中最耗時的環(huán)節(jié)。近似的評估網(wǎng)絡(luò)架構(gòu)的性能可以減少時間消耗。根據(jù)網(wǎng)絡(luò)架構(gòu)評估時的訓(xùn)練程度及是否需要額外模型,減少架構(gòu)評估時間方法可分為基于不充分訓(xùn)練和基于模型的評估方法。表2歸納總結(jié)了不同評估方法的優(yōu)缺點(diǎn)。
4.1 基于不充分訓(xùn)練的評估方法
基于不充分訓(xùn)練的評估方法包括低保真度方法與早停方法。其中,低保真度方法以加快網(wǎng)絡(luò)收斂速度為切入點(diǎn),通過改進(jìn)數(shù)據(jù)集和網(wǎng)絡(luò)架構(gòu),減少了網(wǎng)絡(luò)架構(gòu)的評估耗時。常見的低保真度方法有減少訓(xùn)練集中樣本數(shù)量[49]、在低分辨率圖像上進(jìn)行訓(xùn)練[50]、減少參與訓(xùn)練網(wǎng)絡(luò)架構(gòu)的層數(shù)[51]等。
a)在數(shù)據(jù)集方面,減少訓(xùn)練樣本數(shù)量和訓(xùn)練數(shù)據(jù)的分辨率可以減少單次訓(xùn)練的計算量,從而減少評估時間。
b)在網(wǎng)絡(luò)結(jié)構(gòu)方面,通過減少網(wǎng)絡(luò)架構(gòu)的層數(shù)和濾波器的通道數(shù)搭建當(dāng)前網(wǎng)絡(luò)架構(gòu)的近似架構(gòu),加快評估效率。
低保真度方法在一定程度上減少了評估耗時,然而,低保真度方法在搜索中不可避免地引入誤差[52],導(dǎo)致網(wǎng)絡(luò)的性能被低估,僅當(dāng)網(wǎng)絡(luò)架構(gòu)的相對排名與真實(shí)排名保持較高的相關(guān)性時,才能確保搜索出高性能網(wǎng)絡(luò)架構(gòu)。針對該問題,EF-ENAS算法[53]對低保真度的網(wǎng)絡(luò)性能進(jìn)行了修正,從驗(yàn)證精度、參數(shù)個數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)特性三個方面判斷網(wǎng)絡(luò)架構(gòu)的性能,以選擇更好的父代進(jìn)行遺傳操作。此外,算法將網(wǎng)絡(luò)架構(gòu)劃分為不同的功能單元以保護(hù)高性能的網(wǎng)絡(luò)架構(gòu)不會在交叉中被破壞。
與低保真度方法類似,早停方法通過提前終止訓(xùn)練進(jìn)程減少了架構(gòu)訓(xùn)練時的計算量,從而減少評估時間。早停方法主要包括:
a)固定訓(xùn)練輪次。將輪次達(dá)到閾值時的架構(gòu)性能作為其最終性能的代表。該方法以Zheng等人[54]提出的假設(shè)為基礎(chǔ),即在網(wǎng)絡(luò)架構(gòu)訓(xùn)練的某一中間時刻,如果一個網(wǎng)絡(luò)在性能上優(yōu)于另一個網(wǎng)絡(luò),則經(jīng)過充分訓(xùn)練后,該網(wǎng)絡(luò)的性能依然優(yōu)于另一個網(wǎng)絡(luò)。
b)學(xué)習(xí)曲線預(yù)測。學(xué)習(xí)曲線表征了訓(xùn)練過程中模型在訓(xùn)練集和驗(yàn)證集上的性能變化情況。在網(wǎng)絡(luò)訓(xùn)練過程中,通過學(xué)習(xí)曲線可以對模型進(jìn)行判斷,對預(yù)測性能表現(xiàn)不佳的網(wǎng)絡(luò)架構(gòu)停止訓(xùn)練。此外,根據(jù)訓(xùn)練時學(xué)習(xí)曲線的數(shù)值、形狀和上升趨勢可以對網(wǎng)絡(luò)收斂時的性能表現(xiàn)進(jìn)行預(yù)測、排名。
4.2 基于模型的評估方法
基于模型的評估方法可分為one-shot評估方法和性能預(yù)測器評估方法。
1)one-shot評估方法 將搜索范圍內(nèi)的網(wǎng)絡(luò)組合成超級網(wǎng)絡(luò),即一個大的有向無環(huán)圖,通過搜索超網(wǎng)內(nèi)的子網(wǎng)絡(luò)進(jìn)行架構(gòu)搜索。由于超網(wǎng)包含了節(jié)點(diǎn)間的所有候選操作,所以只需要對超級網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而子網(wǎng)絡(luò)可以直接共享超級網(wǎng)絡(luò)的權(quán)重進(jìn)行性能評估[55]。該評估方法允許對子網(wǎng)絡(luò)進(jìn)行預(yù)篩選,例如直接舍棄不符合參數(shù)量要求的子網(wǎng)絡(luò),轉(zhuǎn)向其余采樣結(jié)構(gòu)。
one-shot方法通過權(quán)值共享減少了評估時間,但也限制了網(wǎng)絡(luò)架構(gòu)的搜索范圍,超網(wǎng)的設(shè)計質(zhì)量直接影響搜索架構(gòu)的性能。該類方法允許所有操作同時參與訓(xùn)練,導(dǎo)致訓(xùn)練后超級網(wǎng)絡(luò)中各個操作權(quán)重深度耦合、一些操作缺乏訓(xùn)練,甚至一些操作之間存在抵消效果。
此外,采樣網(wǎng)絡(luò)基于超網(wǎng)的性能排名只是部分相關(guān)的,即排名靠前網(wǎng)絡(luò)的真實(shí)排名不一定靠前,這阻礙了算法朝著最優(yōu)網(wǎng)絡(luò)方向搜索。針對該問題,一些研究人員采用路徑丟棄策略解耦權(quán)重,即通過dropout操作隨機(jī)丟棄超級網(wǎng)絡(luò)中的邊,減輕節(jié)點(diǎn)間操作的權(quán)重耦合。
然而研究證明,超級網(wǎng)絡(luò)對丟棄概率較為敏感,在不同丟棄率下搜索的網(wǎng)絡(luò)性能差異較大。目前,基于超級網(wǎng)絡(luò)實(shí)現(xiàn)快速且準(zhǔn)確的性能評估仍然值得關(guān)注。
2)性能預(yù)測器評估方法 與共享超網(wǎng)權(quán)重的評估方法不同,性能預(yù)測器直接預(yù)測網(wǎng)絡(luò)架構(gòu)的性能,無須對待評估架構(gòu)進(jìn)行任何訓(xùn)練。性能預(yù)測器可被視作回歸模型,以網(wǎng)絡(luò)架構(gòu)對應(yīng)編碼作為輸入,以網(wǎng)絡(luò)架構(gòu)性能作為輸出。
如何編碼架構(gòu)和如何獲取訓(xùn)練數(shù)據(jù)是性能預(yù)測器的兩個主要問題。性能預(yù)測器的搭建需收集一批經(jīng)過訓(xùn)練的網(wǎng)絡(luò)架構(gòu)作為訓(xùn)練數(shù)據(jù),并且需要設(shè)計統(tǒng)一的編碼方案將架構(gòu)編碼為模型可接收的數(shù)據(jù)類型。
網(wǎng)絡(luò)架構(gòu)性能與網(wǎng)絡(luò)結(jié)構(gòu)相關(guān),且深層結(jié)構(gòu)表現(xiàn)受淺層結(jié)構(gòu)影響。Peephole算法[56]基于長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)和多層感知機(jī)(multilayer perception, MLP)設(shè)計性能預(yù)測器。
如圖8所示,算法首先對網(wǎng)絡(luò)架構(gòu)的每一層進(jìn)行編碼,通過嵌入層將層編碼轉(zhuǎn)為向量并輸入LSTM提取結(jié)構(gòu)特征;然后通過嵌入層將訓(xùn)練輪數(shù)轉(zhuǎn)為epoch vector,最終將兩種特征向量拼接輸入MLP進(jìn)行性能預(yù)測。該編碼方式無法對殘差結(jié)構(gòu)進(jìn)行編碼,且需要大量訓(xùn)練數(shù)據(jù)保證預(yù)測器的穩(wěn)定性與可靠性。
實(shí)踐中難以收集大量網(wǎng)絡(luò)架構(gòu)及其性能標(biāo)簽。即使使用較高性能的硬件,一天也只能完成少量架構(gòu)的訓(xùn)練。導(dǎo)致性能預(yù)測器性能不佳的主要原因是有限的訓(xùn)練數(shù)據(jù)。因此,在不增加計算量的前提下,如何充分利用有限的訓(xùn)練數(shù)據(jù)是一個重要問題。
E2EPP算法[57]采用基于隨機(jī)森林的端到端性能預(yù)測器,以加速性能評估過程。隨機(jī)森林可以直接接收數(shù)據(jù)作為輸入,無須進(jìn)行大量的參數(shù)調(diào)優(yōu),減少了預(yù)測器對于訓(xùn)練數(shù)據(jù)數(shù)量的依賴。
HAAP算法[58]采用同質(zhì)增廣策略對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,通過交換操作算子順序?qū)ν患軜?gòu)進(jìn)行不同編碼表達(dá),實(shí)現(xiàn)了不經(jīng)過額外訓(xùn)練獲得大規(guī)模訓(xùn)練數(shù)據(jù)。此外,該算法消除了層位置影響,更關(guān)注架構(gòu)的整體層類型。
PRE-NAS算法[59]隨機(jī)抽取了部分架構(gòu)及其準(zhǔn)確率對七種回歸器進(jìn)行了訓(xùn)練與測試。實(shí)驗(yàn)結(jié)果證明,當(dāng)性能預(yù)測器的訓(xùn)練樣本數(shù)量有限時,隨機(jī)森林的預(yù)測效果優(yōu)于圖卷積網(wǎng)絡(luò)、支持向量回歸、貝葉斯嶺回歸、核嶺回歸、線性回歸、多層感知機(jī)。
文獻(xiàn)[60]提出了一種從圖層次上進(jìn)行架構(gòu)擴(kuò)充的方法,由于大多數(shù)網(wǎng)絡(luò)架構(gòu)均可以視為圖,該方法具有較廣的應(yīng)用范圍?;趫D同構(gòu)機(jī)制,該方法可以在較低成本下根據(jù)現(xiàn)有數(shù)據(jù)生成足夠的訓(xùn)練數(shù)據(jù),提高性能預(yù)測器的預(yù)測精度。
直接使用性能預(yù)測器進(jìn)行評估可能會引入不準(zhǔn)確的評估結(jié)果,對搜索過程產(chǎn)生負(fù)面影響。EPPGA算法[61]不直接預(yù)測適應(yīng)度,而是預(yù)測后代優(yōu)于父代的概率,只保留最有可能表現(xiàn)良好的后代以提高后代種群的整體性能。隨后,每一個保留的后代都進(jìn)行了精確的評估,因此不準(zhǔn)確的預(yù)測結(jié)果不會對后續(xù)搜索過程產(chǎn)生影響。
性能預(yù)測器的出現(xiàn)朝著快速搜索網(wǎng)絡(luò)架構(gòu)目標(biāo)靠近。如何在不增加計算開銷的情況下提升性能預(yù)測器的準(zhǔn)確性是一個關(guān)鍵問題。此外,更全面描述架構(gòu)的編碼方式值得被關(guān)注,以增加性能預(yù)測器的實(shí)用性。
5 未來研究方向展望
NAS的出現(xiàn)有望結(jié)束人工設(shè)計網(wǎng)絡(luò)架構(gòu)的繁瑣過程,有利于突破人工設(shè)計網(wǎng)絡(luò)架構(gòu)的固有思維,搜索出與人工設(shè)計不同的網(wǎng)絡(luò)架構(gòu)。
然而,與人工神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域的成功應(yīng)用與發(fā)展速度相比,NAS仍處于初步發(fā)展階段,其存在諸多問題亟需解決:
a)減少計算資源的消耗。搜索時間過長和計算成本過高仍是NAS的主要問題之一。當(dāng)前NAS算法較于早期減少了GPU的消耗,實(shí)現(xiàn)了更快速的搜索。然而,計算成本和時間消耗依然處于較高水平范圍內(nèi)。如何進(jìn)一步優(yōu)化NAS算法的計算效率仍是重要的研究方向。
b)增加NAS的應(yīng)用場景。當(dāng)前,NAS算法多針對CIFAR-10、CIFAR-100、ImageNet等公開數(shù)據(jù)集進(jìn)行有效性測試,即主要解決圖像分類問題,而針對其他領(lǐng)域的NAS算法較少。NAS的初衷是根據(jù)特定任務(wù)自動生成高性能網(wǎng)絡(luò)架構(gòu),因此有必要增加NAS算法的應(yīng)用場景,例如搜索生成對抗網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、多任務(wù)網(wǎng)絡(luò)、Transformer網(wǎng)絡(luò)等。
此外,可以設(shè)計NAS算法針對一維時序數(shù)據(jù)進(jìn)行架構(gòu)搜索,如脈搏波、心電信號等時序性生理信號。這些時序性生理信號蘊(yùn)涵了與心血管疾病相關(guān)的豐富信息,對于疾病的早預(yù)防、早診斷具有重要作用[62]。當(dāng)前,時序性生理信號模型設(shè)計的難點(diǎn)在于標(biāo)注成本高、可使用的公開標(biāo)注數(shù)據(jù)少、標(biāo)注樣本類分布不平衡,導(dǎo)致人工設(shè)計的模型泛化性較差。NAS有利于針對不同的疾病數(shù)據(jù)自動設(shè)計出不同的網(wǎng)絡(luò)架構(gòu),在小樣本場景下增加疾病預(yù)測、分類的準(zhǔn)確率。
c)針對非架構(gòu)超參數(shù)進(jìn)行搜索。人工設(shè)計神經(jīng)網(wǎng)絡(luò)除了考慮架構(gòu)參數(shù)(層數(shù)、操作算子類型、殘差連接等)外,還需考慮非架構(gòu)超參數(shù),例如學(xué)習(xí)率、dropout率等。同一網(wǎng)絡(luò)架構(gòu)采用不同的非架構(gòu)超參數(shù)進(jìn)行訓(xùn)練,其性能表現(xiàn)不同。人工難以快速尋優(yōu)組合非架構(gòu)超參數(shù)與網(wǎng)絡(luò)架構(gòu)。如何將非架構(gòu)超參數(shù)納入尋優(yōu)搜索目標(biāo)具有挑戰(zhàn)性。
d)多樣化單元/塊搜索空間?;趩卧?塊結(jié)構(gòu)進(jìn)行搜索的NAS算法采用固定的整體網(wǎng)絡(luò)結(jié)構(gòu)、重復(fù)的單元/塊結(jié)構(gòu)尋優(yōu)網(wǎng)絡(luò)架構(gòu),以減少計算成本。該類算法基于充足數(shù)量的單元和通道可取得良好表現(xiàn)。
然而,這類算法在搜索過程中是否忽略了更好的網(wǎng)絡(luò)架構(gòu)尚不清楚。此外,當(dāng)減少網(wǎng)絡(luò)參數(shù)量時,網(wǎng)絡(luò)架構(gòu)性能顯著降低。這種固定的重復(fù)單元/塊堆疊方式不利于尋優(yōu)少參數(shù)和高精度的網(wǎng)絡(luò)架構(gòu),需考慮更加靈活和多樣化的搜索空間。一個可行方案是首先設(shè)置一個具有多個候選塊結(jié)構(gòu)的搜索空間,并在搜索過程中根據(jù)網(wǎng)絡(luò)架構(gòu)的性能對單元/塊結(jié)構(gòu)的搜索概率進(jìn)行動態(tài)調(diào)整。
e)優(yōu)化多目標(biāo)權(quán)衡。當(dāng)前,NAS算法主要聚焦于高識別精度和減少算法搜索時間。然而,模型的復(fù)雜度是影響模型實(shí)際部署的主要因素之一,尤其是將模型部署于便攜設(shè)備、邊緣計算設(shè)備時。
NAS算法應(yīng)該能夠根據(jù)不同的設(shè)備需求和限制條件在搜索過程中進(jìn)行復(fù)雜度度量與精確的模型審計,優(yōu)化網(wǎng)絡(luò)架構(gòu)性能與復(fù)雜度間的權(quán)衡。
此外,模型的魯棒性表征了模型面對輸入數(shù)據(jù)的微小變化或干擾時保持性能穩(wěn)定的能力,是確保模型可靠的關(guān)鍵因素。隨著模型部署環(huán)境的多樣化,尤其在面對各種噪聲干擾的情況下,模型的魯棒性變得更為重要。NAS算法應(yīng)當(dāng)在搜索過程中考慮模型的魯棒性,評估并優(yōu)化模型在面對各種輸入擾動時的表現(xiàn),提高模型在復(fù)雜或動態(tài)的實(shí)際應(yīng)用環(huán)境中的可靠性和穩(wěn)定性。
f)與大模型領(lǐng)域結(jié)合。在大模型領(lǐng)域,由于模型的參數(shù)量龐大,網(wǎng)絡(luò)架構(gòu)的設(shè)計變得更為重要。根據(jù)特定任務(wù)需求,NAS可以發(fā)現(xiàn)適合大模型的有效網(wǎng)絡(luò)結(jié)構(gòu),提升大模型的性能。此外,通過將大模型拆分為功能模塊,NAS可以為每個模塊找到最優(yōu)結(jié)構(gòu),提升大模型的可維護(hù)性和靈活性,且模塊化設(shè)計有助于搜索出更加通用的模型結(jié)構(gòu),提高任務(wù)間的可遷移性。
6 結(jié)束語
綜上所述,研究者從減少搜索范圍、減少待評估架構(gòu)搜索時間、減少評估時間尋找解決NAS核心問題的有效方案。
在NAS的應(yīng)用中,其主要意義在于在盡可能少的人為干預(yù)下自動尋優(yōu)網(wǎng)絡(luò)架構(gòu)。搜索速度快、搜索模型的高性能是確保NAS發(fā)揮作用的重要保障。
NAS想要完全取代人工設(shè)計網(wǎng)絡(luò)架構(gòu),還需更多的研究工作和更完整的理論補(bǔ)充。在今后的研究工作中,將考慮構(gòu)建更加靈活、多樣化、低復(fù)雜度的塊搜索空間,并優(yōu)化網(wǎng)絡(luò)架構(gòu)性能與復(fù)雜度間的權(quán)衡,在較低GPU計算消耗下完成架構(gòu)搜索過程,進(jìn)一步提高NAS在資源受限場景下的適用性,并嘗試設(shè)計NAS算法針對脈搏波、心電信號等時序性生理信號進(jìn)行架構(gòu)搜索,增加NAS的具體應(yīng)用場景。
參考文獻(xiàn):
[1]Sharifani K, Amini M. Machine learning and deep learning: a review of methods and applications [J]. World Information Technology and Engineering Journal, 2023, 10(7): 3897-3904.
[2]Bharadiya J. Convolutional neural networks for image classification [J]. International Journal of Innovative Science and Research Technology, 2023, 8(5): 673-677.
[3]Chen Shaohua, Wu Yanling, Pan Canyu, et al. Breast ultrasound image classification and physiological assessment based on GoogLeNet [J]. Journal of Radiation Research and Applied Sciences, 2023, 16(3): 100628.
[4]Anand R, Lakshmi S V, Pandey D, et al. An enhanced ResNet-50 deep learning model for arrhythmia detection using electrocardiogram biomedical indicators [J]. Evolving Systems, 2024, 15(1): 83-97.
[5]Bi Chongke, Wang Jiamin, Duan Yulin, et al. MobileNet based apple leaf diseases identification [J]. Mobile Networks and Applications, 2022: 27(1): 172-180.
[6]Han Kai, Wang Yunhe, Xu Chang, et al. GhostNets on heterogeneous devices via cheap operations [J]. International Journal of Computer Vision, 2022, 130(4): 1050-1069.
[7]Baymurzina D, Golikov E, Burtsev M. A review of neural architecture search [J]. Neurocomputing, 2022, 474: 82-93.
[8]王上, 唐歡容. 一種基于混合粒子群優(yōu)化算法的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法 [J]. 計算機(jī)應(yīng)用研究, 2023, 40(7): 2019-2024. (Wang Shang, Tang Huanrong. Deep convolutional neural architecture search method based on hybrid particle swarm optimization algorithm [J]. Application Research of Computers, 2023, 40(7): 2019-2024.)
[9]Zhuang C. DetNAS: design object detection network via one-shot neural architecture search [C]// Proc of the 2nd Asia Symposium on Signal Processing. Piscataway, NJ: IEEE Press, 2021: 28-37.
[10]Gudzius P, Kurasova O, Darulis V, et al. AutoML-based neural architecture search for object recognition in satellite imagery [J]. Remote Sensing, 2022, 15(1): 91.
[11]Cao Shengcao, Wang Xiaofang, Kitani K M. Learnable embedding space for efficient neural architecture compression [EB/OL]. (2019-02-01) [2024-06-19]. https://arxiv.org/abs/1902.00383.
[12]Dong Xuanyi, Yang Yi. Network pruning via transformable architecture search[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019:760-771.
[13]Liu Chenxi, Chen L C, Schroff F, et al. Auto-DeepLab: hierarchical neural architecture search for semantic image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2019: 82-92.
[14]Fan Zhenkun, Hu Guosheng, Sun Xin, et al. Self-attention neural architecture search for semantic image segmentation [J]. Knowledge-Based Systems, 2022, 239: 107968.
[15]Liang Tingting, Wang Yongtao, Tang Zhi, et al. OPANAS: one-shot path aggregation network architecture search for object detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10195-10203.
[16]Xiong Yunyang, Liu Han, Gupta S, et al. MobileDets: searching for object detection architectures for mobile accelerators [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 3824-3833.
[17]Zhang Xiong, Xu Hongmin, Mo Hong, et al. DCNAS: densely connected neural architecture search for semantic image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 13951-13962.
[18]Dong Xuanyi, Liu Lu, Musial K, et al. NATS-Bench: benchmarking NAS algorithms for architecture topology and size [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2021, 44(7): 3634-3646.
[19]Xie Xiangning, Liu Yuqiao, Sun Yannan, et al. BenchENAS: a benchmarking platform for evolutionary neural architecture search [J]. IEEE Trans on Evolutionary Computation, 2022, 26(6): 1473-1485.
[20]Klyuchnikov N, Trofimov I, Artemova E, et al. NAS-bench-NLP: neural architecture search benchmark for natural language processing [J]. IEEE Access, 2022, 10: 45736-45747.
[21]Tu Renbo, Roberts N, Khodak M, et al. NAS-bench-360: benchmarking neural architecture search on diverse tasks [C]// Proc of the 36th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022:12380-12394.
[22]Elsken T, Metzen J H, Hutter F. Neural architecture search: a survey [J]. The Journal of Machine Learning Research, 2019, 20(1): 1997-2017.
[23]潘曉英, 曹園, 賈蓉, 等. 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索發(fā)展綜述 [J]. 西安郵電大學(xué)學(xué)報, 2022, 27(4): 43-63. (Pan Xiaoying, Cao Yuan, Jia Rong, et al. A review of the development of neural network architecture search [J]. Journal of Xi’an University of Posts and Telecommunications, 2022, 27(4): 43-63.)
[24]孟子堯, 谷雪, 梁艷春, 等. 深度神經(jīng)架構(gòu)搜索綜述 [J]. 計算機(jī)研究與發(fā)展, 2021, 58(1): 22-33. (Meng Ziyao, Gu Xue, Liang Yanchun, et al. A review of deep neural architecture search [J]. Journal of Computer Research and Development, 2021, 58(1): 22-33.)
[25]Zoph B, Le Q V. Neural architecture search with reinforcement lear-ning [EB/OL]. (2016-11-05) [2024-06-19]. https://arxiv. org/abs/1611. 01578.
[26]Baker B, Gupta O, Naik N, et al. Designing neural network architectures using reinforcement learning [EB/OL]. (2016-11-07) [2024-06-19]. https://arxiv.org/abs/1611.02167.
[27]Real E, Moore S, Selle A, et al. Large-scale evolution of image classifiers [C]// Proc of the 34th International Conference on Machine Learning. New York: ACM Press, 2017: 4429-4446.
[28]Xie Lingxi, Yuille A. Genetic CNN [C]// Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1379-1388.
[29]Zoph B, Vasudevan V, Sheens J, et al. Learning transferable architectures for scalable image recognition [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8697-8710.
[30]Zhong Zhao, Yan Junjie, Wu Wei, et al. Practical block-wise neural network architecture generation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2423-2432.
[31]Pham H, Guan M, Zoph B, et al. Efficient neural architecture search via parameters sharing [C]// Proc of the 35th International Confe-rence on Machine Learning. New York: ACM Press, 2018: 6522-6531.
[32]Xie Yirong, Chen Hong, Ma Yongjie, et al. Automated design of CNN architecture based on efficient evolutionary search [J]. Neurocomputing, 2022, 491: 160-171.
[33]Lu Zhichao, Whalen I, Boddeti V, et al. NSGA-Net: neural architecture search using multi-objective genetic algorithm [C]// Proc of Genetic and Evolutionary Computation Conference. New York: ACM Press, 2019: 419-427.
[34]Sun Yanan, Xue Bing, Zhang Mengjie, et al. Completely automated CNN architecture design based on blocks [J]. IEEE Trans on Neural Networks and Learning Systems, 2020, 31(4): 1242-1254.
[35]Elsken T, Metzen J H, Hutter F. Efficient multi-objective neural architecture search via Lamarckian evolution [EB/OL]. (2018-04-24) [2024-06-19]. https://arxiv.org/abs/1804.09081.
[36]Real E, Aggarwal A, Huang Yanping, et al. Regularized evolution for image classifier architecture search [C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 4780-4789.
[37]Shang Ronghua, Zhu Songling, Liu Hangcheng, et al. Evolutionary architecture search via adaptive parameter control and gene potential contribution [J]. Swarm and Evolutionary Computation, 2023, 82: 101354.
[38]Liu Hanxiao, Simonyan K, Yang Yiming. DARTS: differentiable architecture search [EB/OL]. (2018-06-24) [2024-06-19]. https://arxiv.org/abs/1806.09055.
[39]Luo Renqian, Tian Fei, Qin Tao, et al. Neural architecture optimization [EB/OL]. (2018-08-22) [2024-06-19]. https://arxiv.org/abs/1808.07233.
[40]Xie Sirui, Zheng Hehui, Liu Chunxiao, et al. SNAS: stochastic neural architecture search [C]// Proc of the 7th International Conference on Learning Representations. Washington DC: ICLR, 2018.
[41]Cai Han, Zhu Ligeng, Han Song. ProxylessNAS: direct neural architecture search on target task and hardware [C]// Proc of the 7th International Conference on Learning Representations. Washington DC: ICLR, 2019.
[42]Xu Yuhui, Xie Lingxi, Zhang Xiaopeng, et al. PC-DARTS: partial channel connections for memory-efficient architecture search [C]// Proc of the 8th International Conference on Learning Representations. Washington DC: ICLR, 2020.
[43]Li Guohao, Qian Guocheng, Delgadillo I C, et al. SGAS: sequential greedy architecture search [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 1620-1630.
[44]Chen Xin, Xie Lingxi, Wu Jun, et al. Progressive darts: bridging the optimization gap for NAS in the wild [J]. International Journal of Computer Vision, 2021, 129: 638-655.
[45]Xiao Han, Wang Ziwei, Zhu Zheng, et al. Shapley-NAS: discovering operation contribution for neural architecture search [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11892-11901.
[46]Xue Yu, Qin Jiafeng. Partial connection based on channel attention for differentiable neural architecture search [J]. IEEE Trans on Industrial Informatics, 2023, 19(5): 6804-6813.
[47]Wang Wenna, Zhang Xiuwei, Cui Hengfei, et al. FP-DARTS: fast parallel differentiable neural architecture search for image classification [J]. Pattern Recognition, 2023, 136: 109193.
[48]Li Shu, Mao Yuxu, Zhang Fuchang, et al. DLW-NAS: differentiable light-weight neural architecture search [J]. Cognitive Computation, 2023, 15(2): 429-439.
[49]Klein A, Falkner S, Bartels S, et al. Fast Bayesian optimization of machine learning hyperparameters on large datasets [C]// Proc of the 20th Artificial Intelligence and Statistics. [S.l.]: PMLR, 2017: 528-536.
[50]Chrabaszcz P, Loshchilov I, Hutter F. A downsampled variant of Ima-geNet as an alternative to the CIFAR datasets [EB/OL]. (2017-07-27) [2024-06-19]. https://arxiv.org/abs/1707.08819.
[51]Real E, Aggarwal A, Huang Y, et al. Regularized evolution for ima-ge classifier architecture search [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 4780-4789.
[52]Hu Yiqi, Yu Yang, Tu Weiwei, et al. Multi-fidelity automatic hyper-parameter tuning via transfer series expansion [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 3846-3853.
[53]Shang Ronghua, Zhu Songling, Ren Jinhong, et al. Evolutionary neural architecture search based on evaluation correction and functional units [J]. Knowledge-Based Systems, 2022, 251: 109206.
[54]Zheng Xiawu, Ji Rongrong, Tang Lang, et al. Multinomial distribution learning for effective neural architecture search [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 1304-1313.
[55]Brock A, Lim T, Ritchie J M, et al. SMASH: one-shot model architecture search through hypernetworks [C]// Proc of the 6th International Conference on Learning Representations. Washington DC: ICLR, 2018.
[56]Deng Boyang, Yan Junjie, Lin Dahua. Peephole: predicting network performance before training [EB/OL]. (2017-12-09) [2024-06-19]. https://arxiv.org/abs/1712.03351.
[57]Sun Yanan, Wang Handing, Xue Bing, et al. Surrogate-assisted evolutionary deep learning using an end-to-end random forest-based performance predictor [J]. IEEE Trans on Evolutionary Computation, 2019, 24(2): 350-364.
[58]Liu Yuqiao, Tang Yehui, Sun Yanan. Homogeneous architecture augmentation for neural predictor [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 12249-12258.
[59]Peng Yameng, Song A, Ciesielski V, et al. PRE-NAS: predictor-assisted evolutionary neural architecture search [C]// Proc of Genetic and Evolutionary Computation Conference. New York: ACM Press, 2022: 1066-1074.
[60]Xie Xiangning, Sun Yanan, Liu Yuqiao, et al. Architecture augmentation for performance predictor via graph isomorphism [J]. IEEE Trans on Cybernetics, 2024, 54(3): 1828-1840.
[61]Yuan Gonglin, Xue Bing, Zhang Mengjie. An evolutionary neural architecture search method based on performance prediction and weight inheritance [J]. Information Sciences, 2024, 667: 120466.
[62]逯鵬, 王漢章, 毛曉波,等. 基于卷積自編碼器網(wǎng)絡(luò)的脈搏波分類模型 [J]. 鄭州大學(xué)學(xué)報: 工學(xué)版, 2021, 42(5): 56-61. (Lu Peng, Wang Hanzhang, Mao Xiaobo, et al. Pulse wave classification model based on convolutional autoencoder network [J]. Journal of Zhengzhou University: Engineering Science, 2021, 42(5): 56-61.)