王震宇,張雷,高文彬,權威銘
基于漸進式神經網絡架構搜索的人體運動識別
王震宇,張雷*,高文彬,權威銘
(南京師范大學 電氣與自動化工程學院,南京 210023)( ? 通信作者電子郵箱leizhang@njnu.edu.cn)
為了解決基于傳感器數據的運動識別問題,利用深度卷積神經網絡(CNN)在公開的OPPORTUNITY傳感器數據集上進行運動識別,提出了一種改進的漸進式神經網絡架構搜索(PNAS)算法。首先,神經網絡模型設計過程中不再依賴于合適拓撲結構的手動選擇,而是通過PNAS算法來設計最優(yōu)拓撲結構以最大化F1分數;其次,使用基于序列模型的優(yōu)化(SMBO)策略,在該策略中將按照復雜度從低到高的順序搜索結構空間,同時學習一個代理函數以引導對結構空間的搜索;最后,將搜索過程中表現最好的20個模型在OPPORTUNIT數據集上進行完全訓練,并從中選出表現最好的模型作為搜索到的最優(yōu)架構。通過這種方式搜索到的最優(yōu)架構在OPPORTUNITY數據集上的F1分數達到了93.08%,與進化算法搜索到的最優(yōu)架構及DeepConvLSTM相比分別提升了1.34%和1.73%,證明該方法能夠改進以前手工設計的模型結構,且是可行有效的。
人體運動識別;深度學習;神經網絡架構搜索;卷積神經網絡;基于序列模型的優(yōu)化
移動智能設備的不斷普及給研究人員提供了一系列新的研究方向。由于在運動跟蹤[1]、健康監(jiān)測[2]和智能家居[3]中的廣泛應用,基于可穿戴傳感器數據的人體運動識別(Human Activity Recognition, HAR)已經成為一個重要的研究領域。常見的傳感器包括加速度計、磁性傳感器和陀螺儀[4],它們被嵌入移動設備中收集佩戴者的活動數據。經典的機器學習識別技術,如樸素貝葉斯、改進隨機森林和支持向量機(Support Vector Machine, SVM)等,通常都會從傳感器數據中人工提取特征。近年來,深度學習技術由于能夠從原始數據中自動學習特征而備受關注。深度學習技術在HAR中的有效性已經在一些公開數據集中得到了驗證。
隨著傳感器數量的不斷增加,有關HAR的傳感器公開數據集也在不斷增加。OPPORTUNITY數據集被廣泛使用,其中包含了一組在布滿傳感器的環(huán)境中收集到的人類活動數據。該數據集已被用于公開的活動識別挑戰(zhàn)賽中,參賽者需要在運動模式識別和手勢識別兩種任務中比拼識別性能。
卷積神經網絡(Convolutional Neural Network, CNN)是目前流行的深度學習技術,具有充當特征提取器的能力。該模型可以自動學習多層次的特征結構,這項技術先前已在Ordó?ez等[5]和Hammerla等[6]工作中被應用于HAR和OPPORTUNITY數據集。盡管這些模型在HAR中表現良好,但設計出這些模型都是依賴于設計者的不斷嘗試和其豐富的先驗知識。神經網絡的性能極易受到網絡拓撲結構的影響,在目前的HAR領域中如果想要獲得一個表現良好的架構,設計者就需要調整大量模型超參數,手動嘗試不同的拓撲直到找到一個合適的網絡結構[7-9]。這種依靠人工不斷試錯的過程是極度耗時的,同時也使得深度學習技術的應用有較高的門檻,因為只有經驗豐富的專家才能在有限的時間內設計出良好的架構?;谶@些HAR領域中普遍存在的問題,人們希望有一種更高效的方法來自動設計CNN的結構。
神經網絡架構搜索(Neural Architecture Search, NAS)是自動機器學習的一部分,它采用一些搜索策略優(yōu)化神經網絡超參數。搜索策略的最新進展大致可分為三類,分別是進化算法(Evolutionary Algorithm, EA)、強化學習(Reinforcement Learning, RL)和基于代理的優(yōu)化(Surrogate-based Optimization, SO)。當使用進化算法(EA)[10-13]時,每個神經網絡結構被編碼為字符串,在搜索過程中執(zhí)行字符串的隨機突變和重組,每個字符串都將在驗證集上進行訓練和評估,表現最好的模型將會產生新的后代繼續(xù)重復這一過程;當使用強化學習(RL)[14-17]時,控制器產生一系列動作,該動作指定模型的結構,然后對該模型進行訓練,并返回其驗證集上的準確度作為獎勵,用于更新循環(huán)神經網絡(Recurrent Neural Network, RNN)控制器。雖然EA和RL都能夠設計出優(yōu)于人工設計的體系結構的網絡結構,但它們需要大量的計算資源,不太適合于目前的HAR任務。
與進化算法和強化學習直接搜索完全指定的結構空間不同,基于代理的優(yōu)化(SO)方法可以按照復雜度從低到高的順序搜索結構空間。最近,漸進式神經網絡架構搜索(Progressive Neural Architecture Search, PNAS)算法成功在多個圖像分類數據集上取得了最優(yōu)表現[18]。該算法能夠對搜索空間進行漸進式掃描,在每一步中選擇最優(yōu)的個架構,并在數據集上對所選架構進行訓練和評估。評估結果將被用來訓練一個代理模型,它可以在不訓練神經網絡架構的情況下預測架構的性能。代理模型通過減少實際訓練的神經網絡數量,使得算法能夠更高效地探索搜索空間。雖然該算法的效率已經比之前的方法要高得多,但是其計算代價仍然很高,需要在100個GPU上訓練兩天才能得到最佳效果。
為了能夠將神經網絡架構搜索成功應用于HAR中,本文重新定義了PNAS方法中的搜索空間和CNN結構,提出了一種改進的漸進式神經網絡架構搜索算法。得益于新的搜索空間和CNN結構,改進后的PNAS將不再依賴于上百個GPU耗時數天的并行計算,僅需單塊GPU即可完成神經網絡架構搜索的任務。通過在OPPORTUNITY數據集上與神經網絡進化算法以及手工設計模型的對比實驗,證明了該方法設計出的模型能夠達到目前最高分類精度。
在過去的數十年中,神經網絡已經解決了很多具有挑戰(zhàn)性的問題,然而,它們的性能很大程度上取決于其拓撲結構。目前使用的大多數神經網絡架構都是由設計者通過反復實驗手工設計的,這需要設計者投入大量的時間和精力,因此,研究者對自動設計神經網絡架構的算法越來越感興趣。
神經網絡架構搜索可以采用多種不同的搜索策略,包括隨機搜索、貝葉斯優(yōu)化、進化算法、強化學習和基于代理的優(yōu)化。隨機搜索無法利用先驗知識來指導對超參數的選擇,當模型很復雜時會導致訓練成本很高,盡管隨機搜索最終能得到最優(yōu)解,但是其搜索時間過長,僅具有理論可行性,不具備實際實施的條件。貝葉斯優(yōu)化(Bayesian Optimization, BO)不同于隨機搜索,該方法會先建立目標函數的概率模型,之后再基于概率模型來選擇最有潛力的超參數,最后利用目標函數對所選的超參數進行性能評估,同時依據之前的信息來不斷更新概率模型;然而,貝葉斯優(yōu)化不能處理可變大小和可變連接模型。
2002年,Stanley等[10]提出了一種可同時優(yōu)化模型結構及其權重的進化系統(tǒng)。然而,將具有數百萬權值的現代神經網絡用于監(jiān)督學習任務上時,基于隨機梯度下降的權重優(yōu)化方法的表現會優(yōu)于進化算法。因此,近年來的工作[11-13]僅使用進化算法優(yōu)化神經網絡結構本身,并使用基于梯度的方法來優(yōu)化權重。一種基于語法進化的神經網絡進化算法已經被應用于可穿戴傳感器數據的人體運動識別[19]。該算法被用于設計能夠最大化OPPORTUNITY數據集上F1分數的最優(yōu)架構,證明了進化算法能夠設計出在OPPORTUNITY數據集上表現優(yōu)異的分類模型。
許多研究者將神經網絡架構搜索定義為強化學習問題,將網絡結構的生成過程看作是智能體選擇動作的過程,其動作空間與搜索空間相同,將網絡結構在測試集上的性能評估結果作為獎勵返還給智能體更新參數。不同的強化學習方法使用不同的策略來訓練智能體,包括策略梯度[14]、Q學習[15]和近端策略優(yōu)化方法[16]。Zoph等[17]提出了一種基于cell的搜索空間,最終的網絡結構由cell堆疊組成。由于cell的層數通常比整體結構的層數少很多,因此其搜索空間大大減小。
最近,基于代理的優(yōu)化方法因其高效的評估策略而受到人們的關注,核心是基于序列模型的優(yōu)化(Sequential Model-Based Optimization, SMBO),該方法需要學習一個能預測抽樣模型的驗證準確度的代理函數。每一步都只選擇預測性能最優(yōu)秀的個候選架構用于進一步的順序搜索。Negrinho等[20]首次將SMBO應用到神經網絡架構搜索中,但是由于其扁平的CNN結構,最后搜索得到的網絡架構表現并不是很好。最近,Liu等[18]率先將SO方法和cell搜索空間結合并成功在多個圖像分類數據集上搜索到了性能優(yōu)異的網絡架構。
本文方法建立在Zoph等[17]提出的分層方法之上,首先在搜索空間中學習cell的結構,然后將得到的cell進行堆疊以生成最終的網絡。
所有的候選操作都是由2個卷積層堆疊而成,本文最終構建的CNN模型的層數相較于圖像識別模型的層數更少,相較于使用單個卷積層,堆疊的卷積層擁有更好的性能。
要評估1個cell的結構,首先得將其轉換為最終的CNN,為此將3個cell進行了堆疊形成最終的CNN,如圖1所示。3個cell的步長均為2,卷積核數量分別為16、32和64。網絡的最后兩層為全局平均池化層和softmax分類層,之后將在傳感器數據集上對堆疊好的模型進行訓練。
圖1 堆疊成的CNN結構
本文CNN的構造過程只使用了步長為2的cell而沒有使用步長為1的cell,這是因為傳感器數據的特征相對于圖像特征更容易提取,無需使用更深層的網絡即可完成特征提??;其次在于本文可選的操作和輸入更少,基于cell的搜索空間略小。
許多搜索算法直接探索基于cell的搜索空間,如NAS網絡[17]是由50步的長短期記憶(Long Short-Term Memory, LSTM)控制器直接生成的完整cell結構堆疊成的。然而在指數大的搜索空間中找對探索的方向是非常困難的,特別是在一開始控制器并不知道好的模型是什么樣時。
采用學習代理函數來預測候選結構已經用于許多工作[21-23]中。由于循環(huán)神經網絡非常適合處理漸進式搜索算法所產生的可變長度的序列結構,本文采用LSTM循環(huán)神經網絡作為代理函數來處理長度為2的輸入序列,每一步都將2個操作的one-hot編碼經過一個嵌入層的輸出作為循環(huán)神經網絡的輸入。LSTM最后一步的隱藏狀態(tài)將傳入一層全連接層,全連接層的輸出經過sigmoid激活函數轉換為對輸入的序列結構在驗證集上識別準確度的回歸預測。輸入的序列結構都會被存儲起來,每次訓練新的結構時都先與存儲的結構進行對比,以避免訓練重復的網絡結構。代理函數訓練時使用的優(yōu)化器為Adam,損失函數由網絡結構實際準確度和預測準確度之間的均方誤差加上L2正則項組成。
圖2 當最大塊數為B=3時PNAS過程說明
本文全部實驗都是在OPPORTUNITY數據集上進行的。OPPORTUNITY數據集[24]包含一組從布滿傳感器的環(huán)境中采集的人類日?;顒樱ˋctivities of Daily Living, ADL)數據和按規(guī)定流程執(zhí)行的活動(drill)數據,傳感器的采樣頻率為30 Hz。此數據集的一個子集還被用于OPPORTUNITY運動識別挑戰(zhàn)賽,該子集由5名受試者的運動記錄組成,傳感器設置方面只考慮了放置在受試者身上的傳感器。將每個傳感器軸都視為一個維度,數據尺寸一共有113個維度。
本文實驗部分集中解決挑戰(zhàn)賽中定義的對非周期性手勢進行識別的任務。本文對傳感器數據進行了預處理,先用線性插值填充缺失值,再對每個通道進行歸一化處理,最后利用固定寬度為2.13 s(窗口寬度為64)滑動窗口以50%重疊的滑動步長對數據進行了分割。表1統(tǒng)計了數據集中不同動作類型的具體數目。
本文將使用與挑戰(zhàn)賽相同的數據集設置,將第一個受試者的所有ADL和drill以及受試者2和3的ADL1、ADL2和drill用作模型訓練。使用由受試者2和3的ADL4和ADL5組成的測試集評估模型分類性能,受試者2和3的ADL3數據集被留下來作為驗證集搜索最優(yōu)架構。在全部21 144個樣本中,訓練集和驗證集共包含17 435個樣本,測試集包含3 709個樣本。每個候選CNN都會在訓練集上訓練5個epochs并在驗證集上進行分類驗證,驗證集上的分類準確率將被保存下來用于訓練代理函數。
表1 數據統(tǒng)計信息
本文采用基于LSTM的代理函數來預測候選網絡的表現。整個網絡由嵌入層、LSTM循環(huán)層和全連接層組成,其中嵌入層的作用是將不同的序列結構轉化成向量作為LSTM的輸入。嵌入層輸出維數和LSTM循環(huán)層神經元個數都為100,嵌入層使用均勻分布初始化將參數初始化到區(qū)間[-1,1],LSTM循環(huán)層使用全零初始化將參數初始化為0。模型訓練時采用Adam優(yōu)化器,學習率設置為0.001。
按照cell結構復雜度的順序對候選CNN模型進行訓練和評估。當cell只有一個block時,cell只有28種不同的結構,所以第一階段只評估這28個網絡,在其余階段將評估128個網絡。限定cell最多由=5塊block組成,每個子網絡都由3個cell串聯而成,訓練子網絡時的初始學習率為0.001,為使模型在訓練時更加穩(wěn)定,采用余弦衰減來動態(tài)調整學習率。本文的深度神經網絡算法都是基于Python 語言的 TensorFlow2.0 神經網絡框架實現的。所有的實驗都是在 Ubuntu linux 服務器上進行的,服務器上的 CPU 為 Intel Core i7-6850K,GPU 為 NVIDIA GTX 2080ti。
表2展示了整個搜索過程中表現最好的5個模型的識別準確度和它們的拓撲結構,后續(xù)將它們整體稱為top5模型。表現最優(yōu)的子網絡的識別準確度為0.943 8,這是在訓練集上訓練5個epochs后在驗證集上取得的識別準確度。此外,其余的子網絡也取得了與最優(yōu)子網絡相當的表現,識別準確度都在0.94以上。需要注意的是表中展示的僅為驗證集上的準確度,并不代表模型的最終表現。
表2 排名前五的模型的拓撲結構和準確度
從表2中可以統(tǒng)計出不同操作組合被選擇的次數,其中被選取次數最多的組合為(5×5-5×5, 3×3-3×3),總共被選取了10次;(3×5-5×3,5×5-5×5)位列第2,總共被選取了5次;(5×5-5×5,5×5-5×5)和(5×5-5×5,2×6-6×2)并列第3,都被選取了2次。Top5模型中只有一個模型是由包含4個block的cell構成的,其余4個模型的cell都包含5個block,這證明了多個block并聯的序列結構能夠有效提高模型識別準確度。識別準確度排在第1位的模型只包含4個block,而其中有3個block都是被選取次數最多的組合方式,這也是為什么該模型在少1個block的情況下還能排在第一位。同時沒有模型選擇1×5-5×1的操作,說明該操作在提升識別性能上效果并不顯著。
值得一提的是在評估只包含1個block的模型時,性能表現排在前5位的組合方式與top5模型中選取次數最多的組合方式是高度重合的,這意味著代理函數能夠根據現有子網絡的表現有效篩選出更有潛力的候選網絡。此外,還可以看到所有模型都至少選擇了四種選取次數最多的操作組合中的兩種,這種不同個體之間在結構上的一致性也證明了這些組合方式的優(yōu)越性。
在漸進式神經網絡架構搜索完成對所有子網絡的評估之后,本文使用整個訓練集對表現最好的20個模型進行60個epoch的訓練,并在測試集上進行評估,當模型在20個epoch內測試集準確度沒有提高就提前結束訓練,最后30個epoch的F1分數將用來計算統(tǒng)計值,最終統(tǒng)計結果見圖3和表3。
圖3 表現最好的20個模型的F1分數分布
表3 表現最好的20個模型的F1分數的統(tǒng)計信息
表3中模型F1分數最大值達到了0.930 8,高于現有記錄中手工設計模型的最高得分0.927[6],同時顯著高于由進化算法搜索得到的單個模型的最高得分0.918 5[19],模型得分對比見表4。其中:DeepConvLSTM是由卷積層和LSTM循環(huán)層組成的深度學習框架,b-LSTM-S是基于雙向LSTM的神經網絡架構,EA-single-best是進化算法搜索到的最優(yōu)架構,EA-Ensemble-best是進化算法搜索到的表現最好的前20個模型組成的集成模型,PNASNet-best是漸進式神經網絡架構搜索算法搜索到的最優(yōu)架構。
從表3中可以看到前20個模型的表現基本都與目前最優(yōu)秀的手工設計模型相當,這不僅依賴于模型本身的結構更依賴于搜索算法從成千上萬個模型中篩選出這些最具潛力的模型。表3中表現最好的兩個模型分別是13號和18號模型,兩個模型的F1分數最大值均達到了0.93,其中13號模型在均值、中位數以及最大值得分上均略高于18號模型,這說明13號模型的表現更加優(yōu)異,所以將13號模型作為搜索到的最優(yōu)架構,模型的cell結構見圖4。
表4 不同模型的最優(yōu)結果比較
圖5是最優(yōu)架構在OPPORTUNITY數據集上的混淆矩陣?;煜仃嚭心P皖A測類別和實際類別的信息,可以確定分類錯誤的類別和數量,方便對分類錯誤的原因進行分析。由于類別數量分布不均衡,本文對每一個類別都進行了歸一化處理以便可視化。不足1%的情況都已經被遮蓋,因此一行中的數字之和可能不等于1。大多數動作都或多或少地被歸類為“無動作”,這種情況在關閉抽屜1、擦桌子和撥開關這幾類中最為明顯。打開動作和關閉動作也非常容易混淆,然而這種混淆主要發(fā)生在開關門1時,另一扇門并沒有出現這種情況。系統(tǒng)有時無法區(qū)分抽屜1和抽屜2,唯一一個召回率低于50%的動作就是打開抽屜2(31%),有19%的該動作被錯誤地分類為打開抽屜1。這可能是因為不同的抽屜都是相鄰的。
模型對撥開關和擦桌子兩種行為識別也不夠準確。對撥開關識別不準確的原因可能是撥開關的動作幅度非常小,因此模型可能無法識別到受試者已經執(zhí)行了一個動作;而對擦桌子識別不準確可能是因為沒有具體指定擦桌子的方式和范圍,導致不同受試者執(zhí)行該動作時行為存在差異。另一方面,模型在識別開關門和開關冰箱時擁有更高的準確性,這可能是因為不同受試者在執(zhí)行這些動作時行為非常相似。
圖4 漸進式神經網絡架構搜索算法找到的最優(yōu)cell結構
圖5 OPPORTUNITY數據集上的混淆矩陣
在大多數情況下,打開某個對象總是容易和關閉某個對象混淆,反之亦然。例如59%的開門1被正確分類,但27%的該動作被錯誤分類為關門1;同樣地,77%的關門1被正確分類,23%的關門1被錯誤分類為開門1。這種錯誤在所有對象上都有不同程度的體現。然而,在對象為抽屜時行為間的混淆更為嚴重,錯誤的分類不僅僅發(fā)生在打開和關閉之間,同樣也出現在不同抽屜之間。例如,19%的關閉抽屜3被認為是關閉抽屜2,但是這些錯誤是可以被接受的,因為這三個抽屜是在同一個家具內相互挨著的[24]。盡管抽屜和洗碗機并沒有彼此挨著,還是有17%的關閉抽屜2被錯誤地分類為關閉洗碗機。
本文的主要貢獻是通過實驗證明了在基于可穿戴傳感器的人體運動識別任務中應用漸進式神經網絡架構搜索能夠取得良好的結果。與許多之前的方法相比,本文最終使用的神經網絡的拓撲結構是自動設計的,避免了手工設計拓撲結構時需要大量時間和專家先驗知識的問題,這是大多數深度學習應用中的顯著缺陷。此外,OPPORTUNIY數據集上獲得的最優(yōu)架構在應用到其他具有不同傳感器設置或不同人類活動的識別任務上時可能無法正常工作,在這種情況下能夠自動搜索最優(yōu)拓撲的架構搜索算法可以更加便捷地將深度學習應用于各種領域和問題。
在未來的工作中,計劃將該方法應用于涉及更多傳感器的數據集或使用更常見的傳感器設置的人類運動識別任務中,如利用智能手機或其他可穿戴設備中的傳感器數據;在傳感器通道數、傳感器設置等任務參數存在差異但整體相似的情況下,研究不同任務中學習到的最優(yōu)拓撲是否可以相互遷移。
[1] 鄭浦,白宏陽,李政茂,等. 抖動干擾下運動目標精準檢測與跟蹤算法設計[J]. 儀器儀表學報, 2019, 40(11):90-98.(ZHENG P, BAI H Y, LI Z M, et al. Design of accurate detection and tracking algorithm for moving target under jitter interference[J]. Chinese Journal of Scientific Instrument, 2019, 40(11): 90-98.)
[2] 吳天舒,陳蜀宇,吳朋. 全生命周期健康監(jiān)測診斷系統(tǒng)研究[J]. 儀器儀表學報, 2018, 39(8):204-211.(WU T S, CHEN S Y, WU P. Research on the life cycle health monitoring and diagnosis system[J]. Chinese Journal of Scientific Instrument, 2018, 39(8): 204-211.)
[3] ALAA M, ZAIDAN A A, ZAIDAN B B, et al. A review of smart home applications based on internet of things[J]. Journal of Network and Computer Applications, 2017, 97: 48-65.
[4] CORNACCHIA M, OZCAN K, ZHENG Y, et al. A survey on activity detection and classification using wearable sensors[J]. IEEE Sensors Journal, 2017, 17(2): 386-403.
[5] ORDó?EZ F J, ROGGEN D. Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition[J]. Sensors, 2016, 16(1): No.115.
[6] HAMMERLA N Y, HALLORAN S, PL?TZ T. Deep, convolutional, and recurrent models for human activity recognition using wearables[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California: IJCAI.org, 2016: 1533-1540.
[7] WANG K, HE J, ZHANG L. Attention-based convolutional neural network for weakly labeled human activities’ recognition with wearable sensors[J]. IEEE Sensors Journal, 2019, 19(17): 7598-7604.
[8] TENG Q, WANG K, ZHANG L, et al. The layer-wise training convolutional neural networks using local loss for sensor-based human activity recognition[J]. IEEE Sensors Journal, 2020, 20(13): 7265-7274.
[9] 鄭增威,杜俊杰,霍梅梅,等. 基于可穿戴傳感器的人體活動識別研究綜述[J]. 計算機應用, 2018, 38(5):1223-1229, 1238.(ZHENG Z W, DU J J, HUO M M, et al, Review of human activity recognition based on wearable sensors[J]. Journal of Computer Applications, 2018, 38(5): 1223-1229, 1238.)
[10] STANLEY K O, MIIKKULAINEN R. Evolving neural networks through augmenting topologies[J]. Evolutionary Computation, 2002, 10(2): 99-127.
[11] REAL E, MOORE S, SELLE A, et al. Large-scale evolution of image classifiers[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 2902-2911.
[12] SUGANUMA M, SHIRAKAWA S, NAGAO T. A genetic programming approach to designing convolutional neural network architectures[C]// Proceedings of the 2017 Genetic and Evolutionary Computation Conference. New York: ACM, 2017: 497-504.
[13] ELSKEN T, METZEN J H, HUTTER F. Efficient multi-objective neural architecture search via Lamarckian evolution[EB/OL]. (2019-02-26) [2021-05-17].https://arxiv.org/pdf/1804.09081.pdf.
[14] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3/4): 229-256.
[15] BAKER B, GUPTA O, NAIK N, et al. Designing neural network architectures using reinforcement learning[EB/OL]. (2017-03-22) [2021-05-17].https://arxiv.org/pdf/1611.02167.pdf.
[16] ZOPH B, LE QUOC V. Neural architecture search with reinforcement learning[EB/OL]. (2017-02-15) [2021-05-17].https://arxiv.org/pdf/1611.01578.pdf.
[17] ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8697-8710.
[18] LIU C X, ZOPH B, NEUMANN M, et al. Progressive neural architecture search[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11205. Cham: Springer, 2018: 19-35.
[19] BALDOMINOS A, SAEZ Y, ISASI P. Evolutionary design of convolutional neural networks for human activity recognition in sensor-rich environments[J]. Sensors, 2018, 18(4): No.1288.
[20] NEGRINHO R, GORDON G. DeepArchitect: automatically designing and training deep architectures[EB/OL]. (2017-04-28) [2021-05-17].https://arxiv.org/pdf/1704.08792.pdf.
[21] BROCK A, LIM T, RITCHIE J M, et al. SMASH: one-shot model architecture search through HyperNetworks[EB/OL]. (2017-08-17) [2021-05-17].https://arxiv.org/pdf/1708.05344.pdf.
[22] DOMHAN T, SPRINGENBERG J T, HUTTER F. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3460-3468.
[23] BAKER B, GUPTA O, RASKAR R, et al. Accelerating neural architecture search using performance prediction[EB/OL]. (2017-11-08) [2021-05-17].https://arxiv.org/pdf/1705.10823.pdf.
[24] CHAVARRIAGA R, SAGHA H, CALATRONI A, et al. The opportunity challenge: a benchmark database for on-body sensor-based activity recognition[J]. Pattern Recognition Letters, 2013, 34(15): 2033-2042.
[25] YANG J B, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3995-4001.
WANG Zhenyu, born in 1996, M. S. candidate. His research interests include deep learning, pattern recognition, natural language processing.
ZHANG Lei, born in 1979, Ph. D., associate professor. Hisresearch interests include motion recognition, machine learning.
GAO Wenbin, born in 1996, M. S. candidate. His research interests include computer vision, signal processing, object detection.
QUAN Weiming, born in 1996, M. S. candidate. His research interests include artificial intelligence.
Human activity recognition based on progressive neural architecture search
WANG Zhenyu, ZHANG Lei*, GAO Wenbin, QUAN Weiming
(,,210023,)
Concerning the sensor data based activity recognition problem, deep Convolutional Neural Network (CNN) was used to perform activity recognition on public OPPORTUNITY sensor dataset, and an improved Progressive Neural Architecture Search (PNAS) algorithm was proposed. Firstly, in the process of neural network model design, without manual selection of suitable topology, PNAS algorithm was used to design the optimal topology in order to maximize the F1 score. Secondly, a Sequential Model-Based Optimization (SMBO) strategy was used, in which the structure space was searched in the order of low complexity to high complexity, while a surrogate function was learned to guide the search of the structure space. Finally, the top 20 models with the best performance in the search process were fully trained on OPPORTUNIT dataset, and the best performing model was selected as the optimal architecture searched. The F1 score of the optimal architecture searched in this way reaches 93.08% on OPPORTUNITY dataset, which is increased by 1.34% and 1.73% respectively compared with those of the optimal architecture searched by evolutionary algorithm and DeepConvlSTM, which indicates that the proposed method can improve previously manually-designed architectures and is feasible and effective.
Human Activity Recognition (HAR); deep learning; Neural Architecture Search (NAS); Convolutional Neural Network (CNN); Sequential Model-Based Optimization (SMBO)
This work is partially supported by National Natural Science Foundation of China (61971228), Natural Science Foundation of Jiangsu Province (BK20191371).
TP391.4
A
1001-9081(2022)07-2058-07
10.11772/j.issn.1001-9081.2021050798
2021?05?17;
2021?09?13;
2021?09?22。
國家自然科學基金資助項目(61971228);江蘇省自然科學基金資助項目(BK20191371)。
王震宇(1996—),男,江蘇揚州人,碩士研究生,主要研究方向:深度學習、模式識別、自然語言處理; 張雷(1979—),男,江蘇南京人,副教授,博士,主要研究方向:運動識別、機器學習; 高文彬(1996—),男,江蘇鹽城人,碩士研究生,主要研究方向:計算機視覺、信號處理、目標檢測; 權威銘(1996—),男,安徽宿州人,碩士研究生,主要研究方向:人工智能。