徐雷
人工智能第三次浪潮以及若干認知
徐雷
從 1956年夏在達特茅斯(Dartmouth)學院召開的研討會算起,人工智能研究已過一甲子,潮起潮落,如今迎來了第三波浪潮。2017年是中國智能研究的重要年份,“人工智能2.0”和“腦科學計劃”兩個國家長期計劃即將啟動,眾多高科技企業(yè)競相參與。
長期以來,智能一直用來表示大腦思維的能力。智能究竟是什么?這個問題至今沒有公認的答案,不斷有人試圖從本質(zhì)上給出一個簡短而精確的定義。其實,早在60年前,就有一個接受度較高的提法——智能的本質(zhì)是大腦的信息處理或計算能力。這比思維能力具體了一些,有信息理論和人造的計算機做參照,但仍太籠統(tǒng),除了思辨沒有多大用途。追求智能的簡要精確定義可能是個迷思,因為大腦是一個非常復雜的系統(tǒng),智能是該系統(tǒng)多種屬性、功能和外在表現(xiàn)的綜合。
對大腦智能的了解,可以通過對大腦智能外在描述的觀察,及對其內(nèi)在的進一步探索。
大腦智能的外在描述可以從廣義和狹義兩個角度來討論。廣義上,所有需要經(jīng)過大腦的信息處理或計算都可以視作智能活動,主要包括心智方面的感知、注意、識別、反應、情緒、推理、理解、覺悟、發(fā)現(xiàn)、動機、意圖、規(guī)劃、搜索、評估、決策,以及更為一般的控制和通信活動等。狹義上,常用“智、慧、聰、能”等字描述大腦智能,多指人類大腦獨有的、而非人類大腦所不具有的能力。隨著時代發(fā)展,人們開始發(fā)現(xiàn),過去被認為是“智、慧、聰、能”的能力,人造計算機以及某些動物的大腦也具備。換言之,這種狹義的智能概念是隨著人們認識的擴展而不斷發(fā)展的。
大腦智能的內(nèi)在探索至少應該包含信息處理和神經(jīng)科學兩個方面。
信息處理方面,率先探索的是大腦的最基本元件?;仡櫄v史,對這方面存在一系列疑問,比如大腦系統(tǒng)究竟存在幾個基本單元?每個單元擔任什么樣角色?這些基本元件將形成幾種不同的基本通路并發(fā)揮什么作用?這些通路以怎樣的結(jié)構(gòu)形成不同功能的模塊,并如何構(gòu)成系統(tǒng)?更進一步,還想了解在這個系統(tǒng)里信息是如何流動的,有幾種機制協(xié)調(diào)管理這些流動實現(xiàn)各種智能活動等。與由電阻、電容、電感、互補金屬氧化物半導體(complementary metal oxide semiconductor,CMOS)等基本元件構(gòu)成的電路系統(tǒng)相類似,腦信息系統(tǒng)也應該不止有一種元件。從 1943年麥卡洛克(W. S. McCulloch)和皮茨(W. Pitts)提出的神經(jīng)元模型,1959年羅森布拉特(F. Rosenblatt)的感知機,1985年美國加州大學圣迭戈分校的并行分布處理(parallel distributel processing,PDP)團隊的多層神經(jīng)網(wǎng)絡,到2006年多倫多大學欣頓(G. Hinton)團隊展示深度學習用的受限玻爾茲曼機,他們考慮的都是一種元件,數(shù)學上用邏輯斯諦(Logistic)線性模型來近似其多輸入單輸出的關(guān)系。另外,從 1960年代初維塞爾(T. Wiesel)和休伯爾(D. H. Hubel)的特征檢測理論,到現(xiàn)今深度學習中廣為使用的卷積神經(jīng)網(wǎng)絡,采用的是稱為S元(simple cell,簡單細胞)和 C元(complex cell,復雜細胞)的兩種基本單元。
神經(jīng)科學方面,也有許多問題引起眾人關(guān)注。例如神經(jīng)元主要由哪些關(guān)鍵性物質(zhì)構(gòu)成?哪些物質(zhì)調(diào)制神經(jīng)元功能(神經(jīng)科學稱其為調(diào)質(zhì))?哪些物質(zhì)作為信息流載體(神經(jīng)科學稱其為遞質(zhì))?近年來,已被發(fā)現(xiàn)的遞質(zhì)和調(diào)質(zhì)有近百種,有待鑒定的可能性更多,可分為膽堿類、單胺類、氨基酸和神經(jīng)肽。隨著時間的推移,還會發(fā)現(xiàn)更多種這樣的物質(zhì)。
然而智能的內(nèi)在探索在上述兩個方面的發(fā)展存在很大的不平衡,投入的力量相差懸殊。盡管在關(guān)于神經(jīng)元的結(jié)構(gòu)和物質(zhì)組成上,已有不少研究發(fā)現(xiàn),但這些成果對弄清智能行為少有幫助。筆者認為應該將兩方面的進展聯(lián)系起來,并思考哪些生化物質(zhì)對應哪種基本單元,哪些物質(zhì)支撐信息流動,哪些物質(zhì)可能影響神經(jīng)元的生存和能耗,但并不直接起信息處理作用,找到這些問題的答案或許能加深對智能的理解。
近二三十年腦科學的研究進展與人工智能第三次浪潮關(guān)系不大,不過,1960年代的特征檢測理論和1980年代的多層神經(jīng)網(wǎng)絡對第三次浪潮頗有影響。
馮·諾依曼結(jié)構(gòu)的計算機誕生后,人們產(chǎn)生了種種期待,覺得計算機像人一樣有智能,機器替代人完成各種工作的時代來臨了。著名的圖靈測試讓機器模擬人類智能行為,以此來判別機器是否擁有人工智能。當時的研究兵分兩路,一路是人按照特別設(shè)計的語言編程,機器通過喬姆斯基(N. Chomsky)形式語法系統(tǒng)和相應的樹搜索技術(shù)讀懂并完成可編程求解的問題或活動;另一路針對那些難以編程的問題,主要是語言理解、機器視覺、知識表示、推理規(guī)劃等。智能研究的多個分支紛紛出現(xiàn),并在1950年代掀起第一次研究浪潮。
巴洛(H. B. Barlow)、萊特溫(J.Y. Lettvin)、維塞爾和休伯爾關(guān)于特征檢測器及其理論的研究,開創(chuàng)了計算神經(jīng)科學?;邴溈蹇撕推ご纳窠?jīng)元模型的羅森布拉特的感知機,既是人工神經(jīng)網(wǎng)絡研究的起始標志,也與統(tǒng)計決策理論、霍夫變換(Hough transform)一起成為模式識別和機器視覺的源頭。喬姆斯基形式語法系統(tǒng)影響巨大,不僅是計算機程序編譯和符號人工智能的源頭,而且還推動心理學派生出計算心理學,令物理符號主義取代了起源于20世紀初的行為主義。
在其后一二十年里,這些分支分別自立門戶。符號人工智能的發(fā)展規(guī)模最大,形成了知識表示、規(guī)則推理、啟發(fā)搜索的基本體系。但是符號人工智能的知識和規(guī)則的獲取需要通過人工,然后才是機器進行演繹,整個流程其實是編程求解的“同宗兄弟”,因而有類似的局限。這一期間,人工神經(jīng)網(wǎng)絡的研究則受到符號人工智能中某些大師的錯誤排擠,發(fā)展停滯。
經(jīng)歷了那一段艱苦時期,曙光終于出現(xiàn)。1980年代中期,計算心理學逐步發(fā)展為認知科學,在加州大學圣迭戈分校 PDP團隊的倡導下,建立在人工神經(jīng)網(wǎng)絡模擬大腦神經(jīng)元及其聯(lián)結(jié)基礎(chǔ)上的聯(lián)結(jié)主義活躍起來,其部分主要旗手轉(zhuǎn)而扛起人工神經(jīng)網(wǎng)絡的族幟,推動神經(jīng)網(wǎng)絡學習在其后十余年間掀起高潮。同時,停滯了20余年的行為主義在薩頓(R. Sutton)等人的推動下,以強化學習(reinforcement learning)為主題,再現(xiàn)活力。另外,模式識別和機器視覺研究也開始沿著多條線發(fā)展。一時間,人工智能研究蓬勃發(fā)展,春色滿園。這一時期可以認為是智能研究的第二次浪潮。我國相應地進行了各種跟蹤研究,迎來了第一次浪潮。
1990年代中末期開始,人工神經(jīng)網(wǎng)絡的一些主要研究力量轉(zhuǎn)向推動人工智能發(fā)展。先以貝葉斯網(wǎng)絡推理為主流,后又將神經(jīng)網(wǎng)絡學習研究進一步推廣為研究各種機器學習方法,智能研究的第三波浪潮掀起。此次浪潮帶動模式識別與機器視覺方向的研究再度趨熱。而集成電路、無線通信、互聯(lián)網(wǎng)、信息采集、傳感控制、物聯(lián)網(wǎng)等多種技術(shù)的積累,尤其海量數(shù)據(jù)和超級計算能力的提升,為辛頓團隊在2006年重新審視深度神經(jīng)網(wǎng)絡創(chuàng)造了條件,他們很快在認識上有了新突破,由此推動人工神經(jīng)網(wǎng)絡急速升溫,促進了神經(jīng)科學、認知科學的繁榮和相互融入。經(jīng)過60年,智能研究相關(guān)各分支再度大整合。AlphaGo系統(tǒng)進一步成功整合深度學習和強化學習,并讓入們再次關(guān)注到一甲子以前曾風靡了一甲子的行為主義。
第三次浪潮與前兩次浪潮最為不同的是 IBM、谷歌等科技巨頭的加入,它們以雄厚資源和大兵團作戰(zhàn)能力,雄踞龍頭,通過推出沃森(Watson)系統(tǒng)、AlphaGo系統(tǒng)等智能產(chǎn)品,持續(xù)推高第三次浪潮。這意味著針對超級復雜大系統(tǒng)的智能研究已從學者們個人的沙盤推演轉(zhuǎn)變?yōu)榇笠?guī)模團體作戰(zhàn),這個轉(zhuǎn)變是必然的。
對于我國人工智能的發(fā)展境遇,筆者有 3點管見:首先,研究的龍頭應是大科技公司或綜合體系,而非高?;蚴聵I(yè)單位的研究院所。龍頭企業(yè)的興起才是評判國家人工智能發(fā)展水平的重要因素。第二,國家規(guī)劃有助于扶持這類綜合體系的產(chǎn)生,但關(guān)鍵是領(lǐng)導整合能力。第三,事業(yè)型研究單位和小的高科技公司應專注薄弱及重要環(huán)節(jié)的新方法、新技術(shù),這樣會有效加快我國人工智能前進的步伐。
智能研究各分支的這番大整合,產(chǎn)生了不少新術(shù)語,并出現(xiàn)了若干可能會引起誤解的新提法。為避免混淆,需要對它們進行系統(tǒng)梳理。
類腦計算(brain-inspired com-puting)最早在美國流行,是指受大腦神經(jīng)元結(jié)構(gòu)和機制啟發(fā)而研制的計算芯片,以及由這種計算芯片組建的計算系統(tǒng)。類腦計算主要包括神經(jīng)形態(tài)芯片和脈沖神經(jīng)元芯片,它的功耗遠低于CMOS芯片。2017年年初,《自然材料》(Nature Materials)報道了一種更接近大腦神經(jīng)元機制的新型憶阻器芯片,或許由它組建的計算系統(tǒng)會更接近人類大腦智能。
類腦智能(brain-like intelligence)在20多年前就經(jīng)常出現(xiàn)在亞太神經(jīng)網(wǎng)絡學會的會議上。日本理化學研究所(RIKEN)前腦科學研究院院長甘利俊一(S. Amari)教授在建議用信息幾何理論對腦的學習建模時,也常使用這個詞。其實,它與大腦內(nèi)在沒有直接關(guān)系,只是人工智能的同義詞。它還有另外一層意思,指模擬智能的系統(tǒng)至少有一些與大腦內(nèi)在類似的東西(brain-like system)?,F(xiàn)今該詞的用法多為后者,卷積神經(jīng)網(wǎng)絡和深度學習嵌入了維塞爾和休伯爾特征檢測結(jié)構(gòu),也算一例。由此可見,可以認為類腦計算是類腦智能研究的一部分。但是,從神經(jīng)科學得到的關(guān)于大腦內(nèi)在的已有知識甚少,制約了類腦智能研究的發(fā)展,算得上是類腦智能的事例至今不多。
增強智能(augmented intelligence)又稱腦機智能或腦機合一,源于拓展大腦對外信息輸出的通道(語言、動作、表情、文字等)。先由機器如可穿戴設(shè)備直接獲取大腦的信息(目前主要是腦電信號),接著對其進行不同程度的處理。增強智能可以用于控制各種伺服機構(gòu),如假肢、輪椅、各種裝置、人造器官等,也可以實現(xiàn)機器的高水平智能活動,形成人腦一機器接續(xù)合一,甚至完成機器的信息輸出,通過人的自然感官成人工通道(如附加電極)反饋,從而影響大腦的智能。增強智能不同于模擬大腦能力的人工智能,也非聳動視聽的“對抗人工智能”,而是指“大腦智能+新的信息通道+人工智能”以增強或延拓大腦的智能。
群體智能(crowd intelligence)又稱群智計算,是指大量個體通過交流合作實現(xiàn)超越個體的智能。這個名詞源于30多年前對蟻群、蜂群等行為的研究,該研究主要是觀察沒有中心控制的分布式初級個體如何發(fā)生自組織。如今,群體智能關(guān)注的是高級智能個體,嚴格地說,大腦智能就是人類群體智能在每一個體大腦上的不同體現(xiàn),現(xiàn)實中很難看到一個孤立大腦的智能。人類智能實質(zhì)就是以大量個體大腦通過通信交流和儲存積累兩個基本要素,再由第三個要素——某些核心人物或團體進一步歸納提煉,逐步形成的;反之,它又會影響、教育、提升每一個體的大腦智能。當今超級互聯(lián)網(wǎng)和強大的服務器大大提升了前兩個要素,而第三個要素也有人工智能、類腦智能和增強智能為幫手,人類智能的后續(xù)發(fā)展非常令人期待。
認知計算(cognitive computing)這是IBM倡導的名詞,即其推出的超級計算機沃森的主題詞。它是近幾年IBM力推的發(fā)展方向。從概念上看,認知活動涵蓋感知、識別、推理、評估、決策、理解等,構(gòu)成了大腦智能的主要部分。用機器實現(xiàn)這一部分的計算,當然屬于圖靈測試認可的人工智能。IBM強調(diào),與通常計算機的數(shù)據(jù)分析所面對的人工編程和人工制表的結(jié)構(gòu)化數(shù)據(jù)不同,認知計算可以處理非結(jié)構(gòu)化的大數(shù)據(jù)。其實,非結(jié)構(gòu)化的數(shù)據(jù)處理也是人工智能的原有目標之一,只不過之前符號人工智能實現(xiàn)不了,而今可以用大數(shù)據(jù)驅(qū)動的深度學習來實現(xiàn)。從認知科學角度來看,認知計算是聯(lián)結(jié)主義和符號主義聯(lián)姻的成功案例,可大致視其為人工智能1.5。
AlphaGo是谷歌DeepMind研制的人工智能圍棋系統(tǒng)。2016年3月,它 4︰1戰(zhàn)勝李世石;2016年末和2017年初,它又在中國棋類網(wǎng)站與中日韓數(shù)十位圍棋高手進行快棋對決,連續(xù)60局無一敗績。該系統(tǒng)也是以代表聯(lián)結(jié)主義的深度學習作為驅(qū)動引擎。它利用大數(shù)據(jù)通過深度網(wǎng)絡學習得出對當前棋局好壞的經(jīng)驗評估和下一步各種落子的經(jīng)驗概率分布;還利用大數(shù)據(jù)通過淺層網(wǎng)絡學習得出快速走子策略,驅(qū)動蒙特卡洛樹搜索進行前瞻性偵察,獲得關(guān)于獲勝機會的前瞻評估。此外,代表行為主義的Q學習進一步綜合落子概率、經(jīng)驗評估和前瞻評估后,系統(tǒng)才真正落子。不僅如此,它還要與過去的自己對弈,反復內(nèi)省之前所學,鞏固贏面。從認知科學角度來看,AlphaGo是成功整合聯(lián)結(jié)主義、行為主義、符號主義,甚至還有內(nèi)省主義的經(jīng)典案例,可以將其看作人工智能1.8。
“人工智能 2.0”是中國“科技創(chuàng)新2030重大項目”的幾個專項之一,由潘云鶴院士牽頭提出,旨在發(fā)展新一代人工智能,最近已獲國務院批準,將在2017年下半年進入實施。該計劃提及的新方法和新技術(shù),囊括了大數(shù)據(jù)智能、人機混合增強智能和群體智能等,敦促分類型處理多媒體數(shù)據(jù)(如視覺、聽覺、文字等)邁向認知、學習和推理的跨媒體智能,將研究的理念從機器人轉(zhuǎn)向更加廣闊的智能自主系統(tǒng)?!叭斯ぶ悄?2.0”在應用落地方面,致力于滿足智能城市、智能經(jīng)濟、智能制造、智能醫(yī)療、智能家居、智能駕駛等從宏觀到微觀的智能化新需求。它的實施有望使我國的科研與產(chǎn)業(yè)從“跟跑”,轉(zhuǎn)變成“并跑”甚至“領(lǐng)跑”。
深度學習是人工智能第三次浪潮的引擎,它成功的原因通常被歸結(jié)于 3點:大數(shù)據(jù)、超級計算能力和新的數(shù)學方法。前 2個原因毋庸置疑,而對第 3點原因的認識卻時有爭議。下面就兩個常見的觀點作一些探討。
一種觀點是,以前的神經(jīng)網(wǎng)絡學習只考慮三層(即只有一個隙單元層),而現(xiàn)在的深度學習考慮很多層。這種看法有悖于歷史事實。魯梅爾哈特(D. Rumelhart)和欣頓等人在1980年代中期提出的誤差反向傳播學習針對的就是多層網(wǎng)絡,當時還有許多研究考慮的也是多層網(wǎng)絡。西本科(G. Cybenko)、霍尼克(K. Hornik)等人從1980年代末應用函數(shù)逼近表示理論,指出三層網(wǎng)絡有所謂數(shù)學上的通用近似能力,即只要隱單元數(shù)目足夠大,用它近似任何函數(shù),都可把誤差控制得足夠小。這類研究或許影響了一部分人只關(guān)注三層網(wǎng)絡,但仍有很多人在研究多層網(wǎng)絡。
另一種觀點是,以前的神經(jīng)網(wǎng)絡學習依靠的是誤差反向傳播,其缺陷是局部極值和誤差積累等因素導致反傳的深度有限。而深度學習反向行之,用無監(jiān)督學習方法,從數(shù)據(jù)輸入層開始,先學第一層參數(shù),并將數(shù)據(jù)傳到第二層,這樣第二層的情形就等同于第一層,如法炮制……最后直至監(jiān)督層。然后根據(jù)監(jiān)督標簽得到的誤差進行反向傳播學習,精調(diào)每一層的參數(shù)。他們認為這是突破過去的一個新數(shù)學方法。
其實這種觀點也與歷史不符。筆者在1990年代初提出的多層自組織學習,就包含數(shù)據(jù)從輸入層傳人的逐層自組織學習與從監(jiān)督層進入的逐層反向傳播學習。在逐層反向傳播學習中,監(jiān)督標簽由上而下從監(jiān)督層進入,通過改變各層使得誤差不斷減小。這個反向的監(jiān)督學習,可以與由下而上的自組織學習先后進行,也可同時實施線性疊加。這個雙向?qū)W習,還可用來解釋注意和想象機制。遺憾的是,當時由于沒有如今出色的計算能力和大數(shù)據(jù)支撐,計算實驗只在單層上進行,無法繼續(xù)深入。
深度卷積神經(jīng)網(wǎng)絡是另一個主要的深度學習模型,也誕生于人工智能第二次浪潮中,福島邦彥(K.Fukushima)和楊立昆(Y. LeCun)早期都做出了杰出貢獻。
筆者認為,盡管深度學習過去已有“深度”,也考慮過監(jiān)督和非監(jiān)督的協(xié)同雙向?qū)W習,但沒有大數(shù)據(jù)和超級計算支撐實際的計算,進展非常不盡如人意。2006年,欣頓團隊采用“大+超+深”(大數(shù)據(jù)+超級計算+深度)并輔以自組織的雙向?qū)W習(即監(jiān)督學習+非監(jiān)督預訓練),產(chǎn)生了認識上的突破,讓人們看清原來“路在腳下”。經(jīng)過十余年的發(fā)展。深度網(wǎng)絡學習終于攀上了前所未有的高峰。
在了解了深度學習成功的主要原因后,再進一步追問兩個問題,深度學習為什么要深?監(jiān)督學習+自組織雙向?qū)W習真的可以提升學習效果嗎?
簡單來說,監(jiān)督誤差會隨著學習逐漸減小,這個過程常遇到一片局部極小值眾多的區(qū)域,一旦進入,就會很長時間走不出來。倘若深度加大到一定程度,就算進入此區(qū)域也不要緊,因為其中任一個局部極小點的誤差已與全局最小誤差相差不大。而輔以非監(jiān)督預學習,可減少進入該區(qū)域的概率。如果采用隨機梯度下降算法,效果會更好些。這個說法似乎解釋了為什么要深,但又帶來一個新問題——太深是否會引起過擬合問題?
對此,一種解釋是,現(xiàn)在的深度學習采用海量的數(shù)據(jù),不存在過擬合問題,關(guān)鍵是盡量增加層數(shù)以減少欠擬合誤差。而以前的機器學習是小樣本集學習,關(guān)鍵是控制模型復雜度以避免過擬合。但是,這個解釋需要證據(jù)來說明就算沒有其他輔助措施避免過擬合,“大+超+深”依然行得通。理論上,還需要分析估計深度神經(jīng)網(wǎng)絡的等效復雜度,由它來判斷數(shù)據(jù)的規(guī)模是否大到了使欠擬合轉(zhuǎn)變?yōu)橹饕堋?/p>
筆者認為,還可以從模式層次表示的角度來回答本節(jié)開頭的兩個問題。維塞爾和休伯東的特征檢測理論認為,每個圖像模式都由不同層次的子結(jié)構(gòu)和特征構(gòu)成。不僅是圖像,現(xiàn)實中那些已被人類所認知的事物一般都具有這樣有效的層次表示?;谶@種層次表示,筆者對深度學習也曾給出過兩個解釋。
其一,這類可層次化的模式或概念可對應一個因果樹(causal tree)。只要知道因果樹的根節(jié)點為真(即已知某種模式),便可推斷必有子節(jié)點為真(即必有對應的子結(jié)構(gòu)出現(xiàn))。按此規(guī)則可以類推出所有節(jié)點。例如,根節(jié)點確定是眼睛,往下一層,應該有一個圓形和一個橢圓形子結(jié)構(gòu);更下一層,就應有若干弧形特征片段。這種性質(zhì)對應于馬爾科夫(Markov)條件獨立性,即若一個節(jié)點的值已知,其下各支子樹之間就會變成獨立。設(shè)想一個真實反映某個模式的樹,已知標簽告知根節(jié)點為真,那么真值就可以一路下傳,到達位于不同層次的那些子結(jié)構(gòu)或特征片段。下傳得越深,底層上那些節(jié)點就越接近獨立或分組獨立。僅靠用監(jiān)督誤差的反向傳播學習,難以滿足這種約束性很強的結(jié)構(gòu)。
當年筆者在研究多層自組織學習時發(fā)現(xiàn),每個神經(jīng)元引入一個 S型的非線性函數(shù)后,這種從數(shù)據(jù)層開始的逐層向上的自組織學習會使得同層的神經(jīng)元變得盡量獨立或分組獨立。這個特征與監(jiān)督誤差的反向傳播學習結(jié)合,有利于發(fā)現(xiàn)和學習樹狀層次結(jié)構(gòu)。換言之,監(jiān)督學習+自組織雙向?qū)W習可以顯著提高學習效果,而且層次越多,監(jiān)督學習+自組織雙向?qū)W習越有必要。分析發(fā)現(xiàn),欣頓團隊所用的受限玻爾茲曼機的學習,情況類似。
不難發(fā)現(xiàn),樹狀層次越近底層的特征片段越小,這有利于自組織學習逐層向上變成獨立或分組獨立。不僅如此,對應兩個或多個模式概念的因果樹可能會在不同層次上共享一些子結(jié)構(gòu)或特征片段。這不僅將顯著裁剪掉多余的結(jié)構(gòu)復雜度,而且兩樹的共同節(jié)點被驅(qū)動為真的機會增加了,有利于它們下方底層上那些節(jié)點變成獨立或分組獨立。而神經(jīng)網(wǎng)絡的層次越多就越有利于多個模式的因果樹在不同層次上實現(xiàn)共享。
其二,基于上述模式層次表示,也可從分治—整合的角度來理解深度學習。即從監(jiān)督層向下的過程,將模式的復雜結(jié)構(gòu)分而治之地逐層分解為更簡單的子結(jié)構(gòu),直到底層的基本單元;而從數(shù)據(jù)層向上的過程,驅(qū)動與其相匹配的特征逐層向上整合,實現(xiàn)對復雜模式的認知。按照丘奇—圖靈學說(Church-Turing Thesis),深度神經(jīng)網(wǎng)絡的計算能力應該與圖靈可計算等價。
觀察由簡單基元遞歸產(chǎn)生的層次模式,會注意到,遞歸產(chǎn)生一個特定模式至少需要一定層數(shù)。若用少于這個層數(shù)的神經(jīng)網(wǎng)絡來表示這個模式,則無法準確描述該模式結(jié)構(gòu),只能是達到某種程度的近似。只要三層網(wǎng)絡的隱單元數(shù)目足夠大,就可以近似任何函數(shù)輸入—輸出之間的點對關(guān)系,把誤差控制得足夠小。但是,這樣做不一定能保持其函數(shù)結(jié)構(gòu),要保持結(jié)構(gòu),就必須有足夠的深度。那么,是否越深越好呢?可以把一層分為幾個更細的層,也可以把多叉樹變成深度增加的二叉樹,這些做法都不會降低準確描述層次結(jié)構(gòu)的可能性,從這點看,似乎越深越好。不過,深度越深,對剪枝能力的要求越高,不然冗余的層間連線將造成許多虛假分支,造成過擬合的表述錯誤。實際上,稀疏學習和嵌入特殊結(jié)構(gòu)的各種現(xiàn)有努力,針對的就是過擬合問題,這些似乎并不支持關(guān)于“大數(shù)據(jù)深度學習沒有過擬合問題,而只是欠擬合問題”的說法。
【作者單位:上海交通大學電子信息與電氣工程學院】
(摘自《科學》2017年第3期)