夏瑜潞
摘要:人工神經(jīng)網(wǎng)絡(luò)(ANN)是人工智能領(lǐng)域中十分重要的運(yùn)算模型,ANN通過模擬人類大腦的結(jié)構(gòu)和邏輯,來處理復(fù)雜的問題。本文首先介紹了ANN的起源和發(fā)展,其次描述了全連接神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),其中具體介紹了卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用,最后探討了ANN的未來發(fā)展目標(biāo),并提出了對未來工作的期望。
關(guān)鍵詞:人工智能;神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);圖像識別
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)20-0227-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Abstract: Artificial neural networks (ANNs) are important computational models in the field of artificial intelligence. ANNs deal with complex problems by simulating the structure and logic of the human brain. This paper first introduces the origin and development of ANN, and secondly describes the structure of fully connected neural network and deep neural network. The convolutional neural network and its application are introduced in detail. Finally, it discusses the future development goals of ANN and puts forward expectations for future work.
Key words: Artificial Intelligence; Neural Network; Convolutional Neural Networks; Image Recognition
1引言
實(shí)現(xiàn)人工智能(Artificial Intelligence,AI)是人類長期以來共同追求的目標(biāo)。隨著現(xiàn)代計(jì)算機(jī)技術(shù)的迅速發(fā)展,人類在AI領(lǐng)域中取得了巨大的進(jìn)步。2017年5月,由谷歌旗下公司開發(fā)的AI機(jī)器人AlphaGo1對戰(zhàn)世界圍棋冠軍柯潔,并以3比0的總比分大獲全勝。AlphaGo的成功展現(xiàn)了AI在博弈中獲得的重大突破,但是在其他領(lǐng)域,AI離實(shí)現(xiàn)真正意義上的以“機(jī)”代“腦”仍有差距。作為AI的一個(gè)重要分支,神經(jīng)網(wǎng)絡(luò)可以代替人腦有效地處理一些復(fù)雜問題,從而推動(dòng)AI的發(fā)展。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)又稱為人工神經(jīng)元的連接單元的集合,是許多不同的基于機(jī)器學(xué)習(xí)的算法的框架。其通過模擬人腦的處理方式,希望可以按照人類大腦的邏輯運(yùn)行。ANN受形成動(dòng)物大腦的生物神經(jīng)網(wǎng)絡(luò)的啟發(fā),模擬生物大腦中的神經(jīng)元。每個(gè)連接如生物學(xué)中大腦的突觸,可以在神經(jīng)元之間傳遞信號。接收信號的神經(jīng)元對其進(jìn)行處理,然后發(fā)信號通知與之相連的其他神經(jīng)元。ANN的提出最初是為了能使其以與人腦相同的方式來解決問題。然而,隨著時(shí)間的推移,ANN的研究重點(diǎn)從生物學(xué)轉(zhuǎn)移到了如何使ANN完成特定任務(wù)。隨著現(xiàn)代科學(xué)技術(shù)和硬件設(shè)備的蓬勃發(fā)展,ANN在處理數(shù)據(jù)量大且復(fù)雜的問題中有著越來越重要的作用。
本文將重點(diǎn)介紹ANN的研究歷史及其應(yīng)用領(lǐng)域,總結(jié)了ANN目前存在的問題和局限性,以及對未來發(fā)展的期望,旨在為ANN的深入研究提供參考價(jià)值,也為剛進(jìn)入該領(lǐng)域的初學(xué)者提供參考資料。
本文的組織結(jié)構(gòu)如下:第2節(jié)介紹ANN的發(fā)展歷史和兩種應(yīng)用較廣的ANN模型,包括模型的相關(guān)工作和算法優(yōu)化;第3節(jié)介紹了ANN的應(yīng)用領(lǐng)域;最后,給出了本文的總結(jié)與展望。
2神經(jīng)網(wǎng)絡(luò)綜述
2.1發(fā)展歷史
ANN的概念起源于1943年,Warren McCulloch和Walter Pitts[1]首次創(chuàng)建了一種基于數(shù)學(xué)和算法的ANN計(jì)算模型,稱為M-P模型。該模型通過模擬生物學(xué)上的神經(jīng)細(xì)胞的原理和過程,描述了人工神經(jīng)元的數(shù)學(xué)理論與網(wǎng)絡(luò)結(jié)構(gòu),并證明了單個(gè)神經(jīng)元可以實(shí)現(xiàn)邏輯功能,從而開啟了ANN研究的時(shí)代。M-P模型的結(jié)構(gòu)如圖1所示。
ANN的概念提出后,引起了學(xué)者們的廣泛關(guān)注,越來越多的人投入到對ANN的研究中。然而,在1969年Minsky和Papert[2]發(fā)現(xiàn)了處理ANN計(jì)算的兩個(gè)關(guān)鍵問題后,ANN的研究遇到瓶頸。兩個(gè)關(guān)鍵問題分別是:單層感知器不能處理異或問題與計(jì)算機(jī)處理大型ANN的計(jì)算能力有限問題。在此之后,由于感知器的邏輯推理局限性無法解決,使得ANN研究停滯不前。
重新引起人們對ANN的學(xué)習(xí)興趣的一個(gè)關(guān)鍵因素是1974年P(guān)aul Werbos[3]提出的反向傳播算法,該算法有效地解決了計(jì)算機(jī)處理能力不足的問題,提高了訓(xùn)練多層網(wǎng)絡(luò)的可行性。
2006年,Hinton[4]通過使用預(yù)訓(xùn)練的方法緩解了ANN的局部最優(yōu)解問題,并且設(shè)置了7層隱藏層,使ANN有了真正意義上的“深度”,從而掀起了深度學(xué)習(xí)的浪潮。2016年,AlphaGo的出現(xiàn)使人們對深度學(xué)習(xí)的研究熱情達(dá)到了一個(gè)新的高度。
現(xiàn)在ANN已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,如人臉識別,醫(yī)學(xué)診斷,語音識別,機(jī)器翻譯等。
2.2 結(jié)構(gòu)
一個(gè)最基本的ANN的結(jié)構(gòu)包含三個(gè)組成部分:輸入層,隱藏層,輸出層,并且通常為全連接神經(jīng)網(wǎng)絡(luò)(Full Connected Neural Networks, FCNN)。全連接的含義是當(dāng)前層的每個(gè)神經(jīng)元都與前一層的所有神經(jīng)元相連,即前一層神經(jīng)元的輸出作為當(dāng)前層神經(jīng)元的輸入,每個(gè)連接都有一個(gè)權(quán)值,位于同一層的神經(jīng)元之間沒有連接。FCNN結(jié)構(gòu)如圖2所示。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)是指隱藏層的數(shù)目大于1的ANN。DNN容易引發(fā)梯度消失問題,即當(dāng)前面隱藏層的參數(shù)更新速率低于后面隱藏層的速率時(shí),表現(xiàn)出隨著隱藏層數(shù)目的增加,模型準(zhǔn)確率下降的現(xiàn)象。為了解決梯度消失問題,可以使用ReLU等函數(shù)代替Sigmoid函數(shù)來作為激活函數(shù)。當(dāng)前DNN的基本結(jié)構(gòu)正是以ReLU函數(shù)作為激活函數(shù)。
然而,全連接DNN的結(jié)構(gòu)特性容易引發(fā)參數(shù)數(shù)量膨脹的問題,導(dǎo)致訓(xùn)練會出現(xiàn)局部最優(yōu)解現(xiàn)象。另外,圖像中的局部特征可以用來識別整張圖像,比如鳥的嘴巴可以用來識別鳥。因此,如果能提取圖像中的局部特征來完成整張圖像的識別的話,參數(shù)將大大減少。而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[5]的提出可以有效緩解參數(shù)膨脹的問題。
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1介紹
CNN相較于FCNN,采用了局部連接的方式,即每個(gè)神經(jīng)元只和前一層的部分神經(jīng)元相連,而不再是和所有神經(jīng)元相連。同時(shí),連接到同一個(gè)神經(jīng)元的一組連接可以共享同一個(gè)權(quán)值。這樣將大大減少參數(shù)的數(shù)量,提高了模型的訓(xùn)練效率。CNN結(jié)構(gòu)如圖3所示。
2.3.2 相關(guān)工作
較為經(jīng)典的CNN模型有LeNet-5[6]、AlexNet[7]、ZF-Net[8]、VGGNet[9]、GoogLeNet[10]、ResNet[11]以及DenseNet[12],上述CNN模型均是LeNet的改進(jìn)模型。
LeNet-5[6]是一種用于識別手寫字符的高效的CNN,其中的5代表模型的網(wǎng)絡(luò)層數(shù)為五層。作者提出一種稱為圖形變壓器網(wǎng)絡(luò)(Graph Transformer Networks,GTN)的模型,該模型允許在全局范圍內(nèi)使用基于梯度的方法訓(xùn)練這種多模塊系統(tǒng),以使得整體性能測量達(dá)到最小值。實(shí)驗(yàn)證明了全局訓(xùn)練的優(yōu)勢和GTN的靈活性。
Krizhevsky等[7]訓(xùn)練了一個(gè)大型深度CNN,并將LSVRC-2010 ImageNet訓(xùn)練集中的120萬個(gè)高清圖像分類為1000個(gè)不同的類別。深度CNN由五個(gè)卷積層和兩個(gè)全連接層組成,其中部分卷積層還伴有池化層。整個(gè)網(wǎng)絡(luò)包含了6000萬個(gè)參數(shù)和500,000個(gè)神經(jīng)元。為了減少全連接層中的過擬合現(xiàn)象,作者使用了一種新的正則化方法,并證實(shí)了該方法的有效性。
Zeiler 等[8]提出了一種新穎的可視化技術(shù),該技術(shù)可以幫助人們深入研究中間特征映射的功能和分類器的操作,并且該技術(shù)在ImageNet分類基準(zhǔn)上優(yōu)于Krizhevsky等[7]的模型。
Simonyan等[9]研究了CNN的深度對其在大規(guī)模圖像識別設(shè)置中的準(zhǔn)確度的影響。作者使用了具有非常小的卷積濾波器的模型對深度增加的網(wǎng)絡(luò)進(jìn)行評估,結(jié)果表明,通過將深度增加到16-19權(quán)層可以顯著改進(jìn)現(xiàn)有技術(shù)的配置。
Szegedy等[10]提出了一種深度CNN模型,該模型在2014年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC2014)中展示了分類和檢測的最新技術(shù)水平,提高了神經(jīng)網(wǎng)絡(luò)內(nèi)計(jì)算資源的利用率,并獲得了冠軍。GoogLeNet是該模型的一個(gè)重要變體,其網(wǎng)絡(luò)深度為22層,用于評估物體在檢測和分類的情況下的質(zhì)量。
Kaiming He等[11]通過使用殘留的學(xué)習(xí)框架成功訓(xùn)練出了ResNet(Residual Neural Network)。ResNet具有152層,比VGGNet深八倍,而參數(shù)量卻比VGGNet低,其在ILSVRC2015比賽中獲得了第一名,錯(cuò)誤率為3.57%,達(dá)到錯(cuò)誤率最低排名的前五名,效果十分顯著。
DenseNet等[12]提出了密集卷積網(wǎng)絡(luò)(DenseNet),其在ResNet結(jié)構(gòu)的基礎(chǔ)上進(jìn)一步擴(kuò)展了網(wǎng)絡(luò)連接。實(shí)驗(yàn)表明,該模型在大多數(shù)測試集中取得了相對于最新技術(shù)的顯著改進(jìn),減少了需要的計(jì)算量,實(shí)現(xiàn)了更高的性能。
2.3.3 應(yīng)用
圖像識別在日常生活中被廣泛應(yīng)用,尤其是在人臉識別、遙感圖像識別、醫(yī)學(xué)圖像識別等領(lǐng)域有著顯著的重要性。CNN由于權(quán)值共享、神經(jīng)元局部連接的特性,大大減少了參數(shù)的數(shù)量,從而能有效地處理高維數(shù)據(jù),因而更多地被應(yīng)用在圖像識別領(lǐng)域中。
Fu[13]等人為了解決匹配具有不同分辨率的人臉圖像的問題,提出了一種新型的CNN結(jié)構(gòu)——引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(Guided-CNN),該結(jié)構(gòu)應(yīng)用并行的子CNN模型作為指導(dǎo)和學(xué)習(xí)者。作者還引入了新的損失函數(shù),可以作為分辨率內(nèi)和分辨率之間圖像的聯(lián)合監(jiān)督。該結(jié)構(gòu)驗(yàn)證了其在識別具有不同遮擋程度的人臉圖像時(shí)的適用性。
Mohamed等人[14]構(gòu)建了一個(gè)基于CNN的模型,用于協(xié)助放射科醫(yī)生對乳腺密度進(jìn)行分類,以預(yù)測乳腺癌發(fā)生的風(fēng)險(xiǎn)。實(shí)驗(yàn)表明該模型的ROC曲線下面積高達(dá)0.988,證明了該模型良好的分類效果,有助于對目前乳腺密度的臨床評估。
3總結(jié)與展望
本文簡述了ANN的發(fā)展歷史,并著重介紹了CNN模型及其變形與應(yīng)用。本文指出,ANN對于解決數(shù)據(jù)量大且復(fù)雜的問題具有重大意義,其也被廣泛應(yīng)用于醫(yī)學(xué)、工業(yè)等各個(gè)領(lǐng)域。但是ANN還不具有普適性,即針對不同的問題,需要通過調(diào)整參數(shù)、權(quán)值、隱藏層的數(shù)量等方法來訓(xùn)練出新的適用于該問題的模型。在未來工作中,可根據(jù)具體問題的需求來改進(jìn)ANN模型,甚至是提出新的模型,以真正實(shí)現(xiàn)以“機(jī)”代“腦”的宏偉目標(biāo)。
注釋:
1.AlphaGo使用的算法主要為蒙特卡洛樹搜索(MCTS)算法,同時(shí)訓(xùn)練了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)來幫助MCTS算法制定策略。
參考文獻(xiàn):
[1] McCulloch, W.S. & Pitts, W. Bulletin of Mathematical Biophysics (1943) 5: 115. https://doi.org/10.1007/BF02478259
[2] Minsky M, Papert S. Perceptron: an introduction to computational geometry[J]. The MIT Press, Cambridge, expanded edition, 1969, 19(88): 2.
[3] Werbos, P.Beyond Regression: New Tools for Prediction and Analysis in the Behavior Science, Unpublished Doctoral Dissertation, Harvard University, 1974.
[4] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504.
[5] HUBEL D. H. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. J. Physiol 195, 215-244, 1968.
[6]LeCun, Y., Bottou, L., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
[7] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[8] Zeiler M.D., Fergus R. (2014) Visualizing and Understanding Convolutional Networks. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8689. Springer, Cham
[9] Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1556.
[10] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1-9
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778
[12] G. Huang Z L L V. Densely Connected Convolutional Networks[C]// The Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu: IEEE,2017: 2261-2269.
[13] T. F, W. C, Y. F W. Learning guided convolutional neural networks for cross-resolution face recognition[C]// The Proceedings of 27th International Workshop on Machine Learning for Signal Processing (MLSP). Tokyo: IEEE, 2017,1-5.
[14] Mohamed A A, Berg W A, Peng H, et al. A deep learning method for classifying mammographic breast density categories[J]. Medical Physics, 2018,45(1):314-321.
【通聯(lián)編輯:梁書】