深度學(xué)習(xí)是人工智能發(fā)展的主要驅(qū)動力,沒有深度學(xué)習(xí)就沒有今天的人工智能。
今天的人工智能能夠取得如此輝煌的進(jìn)步,在很大程度上要歸功于深度學(xué)習(xí)的提升。也可以說,沒有深度學(xué)習(xí)就沒有今天的人工智能。從發(fā)展的歷程來看,深度學(xué)習(xí)的進(jìn)步軌跡幾乎是信息領(lǐng)域進(jìn)步的縮影。但是,深度學(xué)習(xí)算法也帶來了一些考驗人類社會的問題,比如人工智能的可解釋性。未來幾年,深度學(xué)習(xí)領(lǐng)域的重要發(fā)展方向是可解釋性,這也是捆綁在人工智能領(lǐng)域的一道“枷鎖”,需要高級的深度學(xué)習(xí)來解答。
1981年10月17日,在瑞典斯德哥摩爾舉行的諾貝爾獎授獎大會上,美國加利福尼亞理工學(xué)院心理生物學(xué)教授斯佩里(Roger W. Sperry)和哈佛醫(yī)學(xué)院神經(jīng)生物學(xué)教授哈貝爾(David H. Hubel)、韋塞爾(Torsten N. Wiesel)分享了1981年諾貝爾生理學(xué)或醫(yī)學(xué)獎。斯佩里因證明大腦兩半球的高度專門化以及許多較高級的功能集中在右半球而獲獎,哈貝爾和韋塞爾因研究視覺系統(tǒng)的信息處理方面有所發(fā)現(xiàn)而獲獎。
哈貝爾和韋塞爾的獲獎要歸功于“喵星人”。研究從1958年開始,他們在貓的后腦頭骨上開了一個小洞,向洞里插入電極,測量神經(jīng)元的活躍程度,從而發(fā)現(xiàn)了一種神經(jīng)元細(xì)胞——方向選擇性細(xì)胞,即后腦皮層的不同視覺神經(jīng)元與瞳孔所受刺激之間確實存在某種對應(yīng)關(guān)系。這一重要發(fā)現(xiàn)激活了一度沉寂的神經(jīng)網(wǎng)絡(luò)研究。但是,人們不得不面對這樣的現(xiàn)實:神經(jīng)網(wǎng)絡(luò)相關(guān)運算中耗費的運算量與神經(jīng)元數(shù)目的平方成正比。基于硬件基礎(chǔ),那時人們普遍認(rèn)為潛在的龐大計算量幾乎是無法實現(xiàn)的。
計算能力成了攔路虎,人們探尋真理的腳步卻一刻沒有停歇。同樣是1981年,IBM公司首次在PC機(jī)中應(yīng)用了8088芯片,開創(chuàng)了全新的微機(jī)時代。1985年,英特爾公司推出了32位微處理器,而且制造工藝有了很大的進(jìn)步。許多人對286、386、486機(jī)器還存有記憶,人類的計算能力伴隨著摩爾定律在大踏步前進(jìn)。關(guān)于神經(jīng)網(wǎng)絡(luò)的算法也有了新的突破。1986年,加拿大多倫多大學(xué)教授欣頓(Geoffery Hinton)和美國斯坦福大學(xué)教授羅姆哈特(David Rumelhart)等人提出了反向傳播(backpropagation,BP)算法,解決了兩層神經(jīng)網(wǎng)絡(luò)所需要的復(fù)雜計算量問題,大大減少了原來預(yù)計的運算量。20世紀(jì)80年代末到90年代初,共享存儲器方式的大規(guī)模并行計算機(jī)又獲得了新的發(fā)展。1993年,美國克雷(Cray)公司成功研制了第一臺具有標(biāo)志性的大規(guī)模并行計算機(jī)。我國的銀河系列并行計算機(jī)在國際上也獨樹一幟。進(jìn)入21世紀(jì),大規(guī)模并行計算機(jī)蓬勃發(fā)展,逐漸成為國際上高性能計算機(jī)的主流。
伴隨著計算處理能力的提升,深度學(xué)習(xí)有了較快的發(fā)展,從結(jié)構(gòu)上分為生成型深度結(jié)構(gòu)、判別型深度結(jié)構(gòu)、混合型深度結(jié)構(gòu)3類。1989年,加拿大多倫多大學(xué)教授樂昆(Yann LeCun)和他的同事提出了卷積神經(jīng)網(wǎng)絡(luò),這是一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)模型,較早嘗試深度學(xué)習(xí)對圖像的處理。2012年,欣頓構(gòu)建深度神經(jīng)網(wǎng)絡(luò),在圖像識別問題上取得質(zhì)的提升和突破。百度公司將相關(guān)最新技術(shù)成功應(yīng)用到人臉識別和自然圖像識別問題,并推出相應(yīng)的產(chǎn)品。同樣是從2012年起,人們逐漸熟悉谷歌大腦(Google Brain)團(tuán)隊。2015年至2017年初,谷歌公司的人工智能團(tuán)隊DeepMind所創(chuàng)造的阿爾法狗(AlphaGo)相繼戰(zhàn)勝了人類職業(yè)圍棋選手,這只“狗”引起世界的關(guān)注,人類圍棋大師們陷入沉思。
深度學(xué)習(xí)當(dāng)前的能力范圍
以使用決策樹、推導(dǎo)邏輯規(guī)劃、聚類、貝葉斯網(wǎng)絡(luò)等傳統(tǒng)算法對結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析為基礎(chǔ),對真實世界中的事件做出決策和預(yù)測,通常被稱為機(jī)器學(xué)習(xí)。例如,無人駕駛汽車識別交通標(biāo)志,這種機(jī)器視覺就是典型的機(jī)器學(xué)習(xí)。但是,在特定的天氣條件下,算法不靈,機(jī)器學(xué)習(xí)就有了局限。
深度學(xué)習(xí)在機(jī)器學(xué)習(xí)的基礎(chǔ)上又前進(jìn)了一步。同樣是從數(shù)據(jù)中提取知識來解決和分析問題,深度學(xué)習(xí)使用的是人工神經(jīng)網(wǎng)絡(luò)算法,允許發(fā)現(xiàn)中間表示來擴(kuò)展標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)。這些中間表示能夠解決更復(fù)雜的問題,并且以更高的精度、更少的觀察和更簡便的手動調(diào)諧,潛在地解決其他問題。最常見的深度學(xué)習(xí)類型是前饋深層神經(jīng)網(wǎng)絡(luò)(DNN),其使用大量的互連處理單元層從原始輸入數(shù)據(jù)中“發(fā)現(xiàn)”適當(dāng)?shù)闹虚g表示。DNN提供了一個強(qiáng)大的框架,可應(yīng)用于各種業(yè)務(wù)問題。例如,DNN可以分析視網(wǎng)膜掃描以“辨識”哪些模式指示健康或患病視網(wǎng)膜(并指示特定疾?。!氨孀R”過程依賴于強(qiáng)力的高性能計算。
根據(jù)高德納咨詢公司的相關(guān)資料可以看出,深度學(xué)習(xí)已經(jīng)在圖像識別、機(jī)器翻譯、語音識別、欺詐檢測、產(chǎn)品推薦等方面得到應(yīng)用。高德納咨詢公司估計,從初創(chuàng)公司到技術(shù)巨頭,全球有2 000多家供應(yīng)商正在推出深度學(xué)習(xí)相關(guān)產(chǎn)品。但是,當(dāng)前的深度學(xué)習(xí)仍有一定的局限。
第一,深度學(xué)習(xí)技術(shù)是啟發(fā)式的。深度學(xué)習(xí)能否解決一個給定的問題還暫無定論,因為目前還沒有數(shù)學(xué)理論可以表明一個“足夠好”的深度學(xué)習(xí)解決方案是存在的。該技術(shù)是啟發(fā)式的,工作即代表有效。
第二,深度學(xué)習(xí)技術(shù)是不可預(yù)期的。深度學(xué)習(xí)涉及隱藏層,在許多情況下,即使是權(quán)威科學(xué)家也不能解釋這些層面發(fā)生了什么,這樣的“黑盒子”甚至?xí)茐暮弦?guī)性,對傳統(tǒng)道德層面形成挑戰(zhàn)。
第三,深度學(xué)習(xí)系統(tǒng)化運用不成熟。目前,沒有適合所有行業(yè)且通用的深度學(xué)習(xí),企業(yè)想要創(chuàng)建自己的解決方案就必須混合和匹配可用的工具,并能夠與更新迭代的軟件相互兼容。
第四,部分錯誤的結(jié)果造成不良影響。深度學(xué)習(xí)目前不能以100%精度解決問題。深度學(xué)習(xí)延續(xù)了較淺層機(jī)器學(xué)習(xí)的大多數(shù)風(fēng)險和陷阱。
第五,學(xué)習(xí)速度不盡如人意。一個2歲的孩子可以在被告知幾次后識別大象,而深度學(xué)習(xí)系統(tǒng)可能需要成千上萬的例子,并且“看”這些例子數(shù)十萬次或數(shù)百萬次才能成功。
近幾年來,人工智能領(lǐng)域又迎來了一次飛躍,深度學(xué)習(xí)在圖像識別、語音識別等領(lǐng)域都得到落地和應(yīng)用,涌現(xiàn)出了依圖、商湯、寒武紀(jì)等人工智能企業(yè)。但是,深度學(xué)習(xí)的瓶頸依舊困擾著產(chǎn)學(xué)研。首先是數(shù)據(jù)瓶頸,幾乎所有的深度神經(jīng)網(wǎng)絡(luò)都需要大量數(shù)據(jù)作為訓(xùn)練樣本,而在醫(yī)療、無人駕駛等領(lǐng)域,因無法獲取大量的標(biāo)注數(shù)據(jù),深度學(xué)習(xí)無法展開。雖然谷歌等互聯(lián)網(wǎng)巨頭開始研發(fā)人造數(shù)據(jù)技術(shù),但是真正的效果還有待評估。其次是認(rèn)知瓶頸,這是由深度學(xué)習(xí)的特性決定。深度學(xué)習(xí)對感知型任務(wù)支持較好,而對認(rèn)知型任務(wù)支持的層次較低,無法形成理解、直覺、頓悟和自我意識的能力。科學(xué)家推斷,可能是這一切源于人類知識認(rèn)識的局限,而深度學(xué)習(xí)在某些方面已經(jīng)超越了人類的認(rèn)知能力和認(rèn)知范圍。
深度學(xué)習(xí)是人工智能發(fā)展的主要驅(qū)動力。目前,深度學(xué)習(xí)主要是在弱人工智能的發(fā)展中產(chǎn)生重要作用,尤其是特定的行業(yè)應(yīng)用,如圖像識別、自動駕駛和機(jī)器翻譯等。但是,要支撐和實現(xiàn)與人腦類似的強(qiáng)人工智能,美國白宮科技政策辦公室認(rèn)為至少在幾十年內(nèi)無法實現(xiàn)。那么,對深度學(xué)習(xí)來說,未來有哪些發(fā)展的可能?科學(xué)家正在努力研究什么?答案可能有以下幾個方面。
突破知識表示和學(xué)習(xí)的認(rèn)知智能或許可以在一定程度上緩解一些瓶頸。首先,知識是人類通過大量生活中的數(shù)據(jù)總結(jié)出的一些規(guī)律,知識可以彌補(bǔ)數(shù)據(jù)的缺失和不足。其次,知識是經(jīng)過人腦深度加工所形成的,可以支持直覺、頓悟等深度認(rèn)知任務(wù)。此外,知識的離散屬性和良好的可讀性使其成為天然絕佳的解釋性工具。目前,突破常識知識表示和學(xué)習(xí)的認(rèn)知智能已經(jīng)深受各國政府和學(xué)術(shù)界重視。美國國防部高級研究計劃局(DARPA)創(chuàng)建了“機(jī)器常識”項目,將探索常識的各種收集方法,以及常識在認(rèn)知理解、自然語言處理、深度學(xué)習(xí)等領(lǐng)域的應(yīng)用。谷歌公司于2012年提出知識圖譜計劃,擬面向通用領(lǐng)域構(gòu)建一個龐大的網(wǎng)絡(luò)圖譜來描述世界上實體與實體之間的關(guān)系。臉書(Facebook)、微軟等公司也相繼推出自己的知識圖譜計劃,基于這些圖譜,分別研發(fā)基于深度認(rèn)知的搜索、自然語言問答等應(yīng)用。
表征學(xué)習(xí)是人工智能實現(xiàn)飛速發(fā)展的重要因素。但是,目前的表征學(xué)習(xí)還集中在單模態(tài)數(shù)據(jù),構(gòu)建跨模態(tài)表征學(xué)習(xí)機(jī)制是實現(xiàn)新一代人工智能的重要環(huán)節(jié)。人類的認(rèn)知能力是建立在視覺、聽覺、語言等多種感知通道協(xié)同基礎(chǔ)上的,這種融合與協(xié)同能夠有效地避免單一通道的缺陷與錯誤,從而實現(xiàn)對世界的深層次認(rèn)知。未來的方向是借鑒生物對客觀世界的多通道融合感知背后所蘊(yùn)藏的信號及信息表達(dá)和處理機(jī)制,對世界所蘊(yùn)含的復(fù)雜機(jī)構(gòu)進(jìn)行高效、一致表征,提出對跨越不同媒體類型數(shù)據(jù)進(jìn)行泛化分析的基礎(chǔ)理論、方法和技術(shù),模擬超越生物的感知能力。
通過對深度學(xué)習(xí)模型架構(gòu)進(jìn)行理解,以及對深度學(xué)習(xí)驅(qū)動的非凸性問題的局部最優(yōu)解進(jìn)行分析,尤其對非凸性問題的目標(biāo)整體性質(zhì)進(jìn)行刻畫,實現(xiàn)對深度學(xué)習(xí)的解釋。隨后,人們將可解釋性建模問題轉(zhuǎn)換為具有混合變量的約束多目標(biāo)優(yōu)化問題,設(shè)計數(shù)據(jù)驅(qū)動和知識引導(dǎo)的啟發(fā)式優(yōu)化求解算法,形成一整套可解釋性“白盒”模型構(gòu)建的理論和方法,設(shè)計可解釋性建模算法庫。
量子計算至少在未來10年內(nèi)不會影響深度學(xué)習(xí)。谷歌大腦團(tuán)隊的科學(xué)家迪安(Jeff Dean)認(rèn)為,人的大腦不是量子計算機(jī),量子計算幾乎不會對深度學(xué)習(xí)造成特別明顯的影響,特別是在中短期(比如未來10年)內(nèi)。但是,未來的未來,量子計算是不是能從根本上改變深度學(xué)習(xí),這誰也說不準(zhǔn)。