摘 ?要:本文論述AI目前的智能水平,及AI智能的正確研究思路和方向。
關(guān)鍵詞:AI智能;智能感知;智能認(rèn)知;智能決策
近幾年AI圈熱鬧非凡,各種新聞令人眼花繚亂。但冷靜下來(lái)想想,圖像識(shí)別是個(gè)黑盒子,自動(dòng)駕駛常出事故,重大災(zāi)難發(fā)生時(shí)機(jī)器人救援效果不佳,萬(wàn)眾期待的AI智能遲遲不撩開(kāi)面紗。那么AI什么時(shí)候能擁有智能,并且這種智能是我們?nèi)祟?lèi)可以理解,可以相信的呢?
在此描述一下AI智能的正確打開(kāi)方式,首先從計(jì)算機(jī)視覺(jué)開(kāi)始討論。實(shí)驗(yàn)心理學(xué)家赤瑞特拉做過(guò)心理實(shí)驗(yàn)證實(shí):人類(lèi)獲取的信息83%來(lái)自視覺(jué),11%來(lái)自聽(tīng)覺(jué),這兩個(gè)加起來(lái)就有94%。其它途徑是嗅覺(jué)、觸覺(jué)和味覺(jué)。在人工智能領(lǐng)域,計(jì)算機(jī)視覺(jué)的重要性不言而喻。
現(xiàn)在主流的卷積神經(jīng)網(wǎng)絡(luò),從AlexNet,GoogLeNet,ResNet,到DenseNet,不停變化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不管有多復(fù)雜,整體來(lái)看其實(shí)只有兩層:各個(gè)神經(jīng)元之間的回歸函數(shù)層,及最后的分類(lèi)層?;貧w函數(shù)層起到的作用是提取不同層次的特征,最后由分類(lèi)函數(shù)進(jìn)行相似度計(jì)算,得出分類(lèi)結(jié)果。由于提取特征的過(guò)程不透明,不可解釋?zhuān)c人類(lèi)的思考方式不一致,自然就不容易相信。
我們?nèi)祟?lèi)觀察一個(gè)物體或一張圖片,歷史的經(jīng)驗(yàn)會(huì)起到很重要的參考作用,而對(duì)于沒(méi)有見(jiàn)過(guò)的物體通過(guò)想象來(lái)推理其用處。這是一種學(xué)習(xí)和推理能力,是智能的一部分,而神經(jīng)網(wǎng)絡(luò)顯然不是這樣的工作方式。
例如看到一張從未見(jiàn)過(guò)的貓的圖片,我們是從有皮毛的動(dòng)物,有四肢,有尾巴,臉部形狀等來(lái)推測(cè)。那么AI能不能用類(lèi)似的方法呢?答案是可以的,已經(jīng)有團(tuán)隊(duì)在嘗試。具體請(qǐng)參考[1802.00121] Interpreting CNNs via Decision Trees。
智能的整體架構(gòu)
對(duì)于AI智能,僅僅擁有可解釋的觀察能力是不夠的。整體的AI智能架構(gòu)包括七層,分別是初始任務(wù)、知識(shí)和常識(shí)、感知和認(rèn)知、學(xué)習(xí)人類(lèi)的價(jià)值函數(shù)、決策機(jī)制、頭腦和語(yǔ)言。我們一層一層來(lái)解釋。
初始任務(wù)
初始任務(wù)就是AI智能努力的目標(biāo)。以自然界的一只小松鼠為例,首先要解決的是活下來(lái),要有食物,不要被其它天敵吃掉,長(zhǎng)大成熟后找到配偶,撫育下一代,這些就是小松鼠的初始任務(wù)。那么一個(gè)智能機(jī)器人的初始任務(wù)可以是家務(wù)機(jī)器人,可以是運(yùn)動(dòng)陪伴機(jī)器人,可以是溺水救援機(jī)器人等等。這是智能的起點(diǎn)。
知識(shí)和常識(shí)
常識(shí)就是我們?cè)谶@個(gè)世界和社會(huì)生存的最基本的知識(shí)。它使用頻率最高,并且它可以舉一反三,推導(dǎo)出并且?guī)椭@取其它知識(shí)。包括社會(huì)常識(shí)和物理常識(shí)/視覺(jué)常識(shí),例如房間內(nèi)的物體可以是被地板支撐,可以?huà)煸趬ι希梢缘踉陧斉锏取?/p>
感知和認(rèn)知
在AI智能領(lǐng)域,研究最多的就是智能識(shí)別和感知。與當(dāng)前CV領(lǐng)域三大基本能力不同,智能感知并不是從目標(biāo)識(shí)別、目標(biāo)定位和目標(biāo)分割三方面去努力,而是選擇了完全不同的道路。
AI智能要做的第一步是二維圖像的三維重建,而且是基于單張二維圖像的三維重建。這在數(shù)學(xué)上很難做到,因?yàn)槿S重建需要雙視角的信息輸入。但是我們?nèi)祟?lèi)有這種能力,看到一張照片就能在腦海里進(jìn)行三維還原,基本原理就是我們知道每件物品在現(xiàn)實(shí)社會(huì)里的大小。例如門(mén)高80英寸,椅子和小腿高度一樣,約16英寸等。
3D重建完成后,對(duì)于每一個(gè)物品的識(shí)別,并不是依賴(lài)大量標(biāo)注好的圖片訓(xùn)練,而是從人類(lèi)視角,推測(cè)這個(gè)物品我們?nèi)绾问褂?。如果可以存放物品,并且高度是人眼的高度,形狀是立方體,那就是壁櫥。如果從力學(xué)角度人坐上去會(huì)感覺(jué)舒服,那就是椅子,以此類(lèi)推,而不是簡(jiǎn)單貼上標(biāo)簽。
識(shí)別物體之后,還要理解物體的擺放是否合理和安全。這會(huì)影響之后的動(dòng)作決策。
對(duì)于各種容器內(nèi)的物體或液體,要根據(jù)人類(lèi)的動(dòng)作和容器的狀態(tài)進(jìn)行推理。如果在倒水,那壺里一定是有水的。這里漸漸能看到智能的影子。
對(duì)于各種可見(jiàn)不可見(jiàn)的物體識(shí)別完之后,如果圖像里有人或動(dòng)物,就可以觀察他/她/它在關(guān)注什么,知道什么,喜歡什么,猜測(cè)之后可能的動(dòng)作是什么。
上面是對(duì)單張圖片的感知內(nèi)容。如果是視頻,可以了解更多的信息。
學(xué)習(xí)人類(lèi)的價(jià)值函數(shù)
在一定時(shí)間的觀察之后,可以得到被觀察者做事方式的價(jià)值函數(shù),例如喜歡喝啤酒還是飲料?喜歡多互動(dòng)還是少打擾?喜歡每天掃地一次還是只要有臟東西就要清理?等等。
決策機(jī)制
了解了各種物體,了解了被觀察者的喜好,為了達(dá)成初始任務(wù),AI智能體就能決定自己的具體任務(wù)鏈,例如去開(kāi)門(mén),去拿啤酒,去打開(kāi)電視等等。隨著仿生機(jī)器人的快速發(fā)展,已經(jīng)可以完美寫(xiě)成這些動(dòng)作。
頭腦
為了更好地完成任務(wù),AI智能體需要理解被觀察者知道什么,正在做什么,打算做什么等等。還要清楚對(duì)方知道什么,對(duì)方知道自己知道什么,雙方共同知道什么,這是溝通和決定下一步行動(dòng)的基礎(chǔ)。在這個(gè)過(guò)程中,需要進(jìn)行溝通,而語(yǔ)言是溝通的一種主要方式。
語(yǔ)言
人類(lèi)用語(yǔ)言溝通的基礎(chǔ)是要完成共同的任務(wù),所以語(yǔ)言是任務(wù)驅(qū)動(dòng)的。通過(guò)觀察和認(rèn)知,了解這個(gè)世界,并且知道自己能做什么,就可以對(duì)具體任務(wù)進(jìn)行溝通。這是基于理解的語(yǔ)言,而不是為了說(shuō)而說(shuō)。現(xiàn)在自然語(yǔ)言處理領(lǐng)域基本上是從語(yǔ)言開(kāi)始,到語(yǔ)言結(jié)束,與現(xiàn)實(shí)社會(huì)脫節(jié),成為無(wú)源之水。
總結(jié)
上面說(shuō)明的智能,并不是紙上談兵,已經(jīng)有很多國(guó)際團(tuán)隊(duì)在2010年之在致力于AI智能體的實(shí)現(xiàn)。電影中描繪的強(qiáng)人工智能離我們還很遙遠(yuǎn),但是通用人工智能(Artificial General Intelligence,AGI)時(shí)代已經(jīng)來(lái)臨!
在通用人工智能時(shí)代,計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)都是融為一體的,這個(gè)融合劑就是感知(Recognition)和認(rèn)知(Congnition),或者叫做理解和推理。
讓我們擁抱這個(gè)時(shí)代!
參考文獻(xiàn)
[1] ?M. S. Arulampalam,S. Maskell,N. Gordon,and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP,50(2):174–188,2002.
[2] ?A. Belardinelli,O. Herbort,and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search,106:47–57,2015.
[3] ?A. Borji,D. N.Sihite,and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR,pages 470–477,2012.
[4] ?A. Borji,D. N. Sihite,and L. Itti. What/where to look next? modeling top-down visual attention in complex interactive environments. IEEE TSMCS.,44(5):523–538,2014.
作者簡(jiǎn)介:王悅林(1973.2—),男,漢族,黑龍江人,本科生,現(xiàn)任職于聯(lián)想數(shù)據(jù)智能事務(wù)部,研究方向是人工智能。