+ 張鈸
大家“金句”
· 滿足這五個限制條件的工作,總有一天會被計算機取代,也就是那些照章辦事,不需要任何活性的工作。
· 現(xiàn)在的人工智能基本方法有缺陷,我們必須走向具有理解的AI,這才是真正的人工智能。
· 只依靠深度學習很難到達真正的智能。在決策系統(tǒng)里不能使用這樣的系統(tǒng),因為它會犯大錯人類最大的優(yōu)點是“小錯不斷、大錯不犯”,機器最大的缺點是“小錯不犯,一犯就犯大錯
我們現(xiàn)在離真正的人工智能還有一段很長的路。為了清晰地闡述這個思想,必須回答下面三個問題:
第一,什么叫做真正的人工智能?我們的目標是什么?
第二,為什么我們需要真正的人工智能?
第三,我們?nèi)绾巫呦蛘嬲娜斯ぶ悄埽?/p>
如何評價目前人工智能取得的成果,主要針對下面的五件事:①深藍打敗人類國際象棋冠軍;②IBM的Watson機器人在電視知識競賽中打敗了美國的前兩個冠軍;③2015年微軟在ImageNet上做圖象識別,它的誤識率略低于人類;④百度、訊飛都宣布,在單句的中文語音識別上,人工智能的誤識率略低于人類;⑤AlphaGo打敗了圍棋世界冠軍李世石。這五件事情都是機器在一定的范圍內(nèi)超過了人類,我們?nèi)绾蝸碓u價?
大家一致認為,這五件事得以發(fā)生的三要素是:大數(shù)據(jù)、算力的提升和非常好的人工智能算法。但我認為大家忽略了一項因素,就是這所有的成果必須建立在一個合適的場景下。這五件事雖然領(lǐng)域很不一樣,但是它們都滿足完全一樣的條件,必須有豐富的數(shù)據(jù)或者豐富的知識,如果沒有或者很少,要實現(xiàn)人工智能相當于“無米之炊”。或滿足下面的五個限制條件:確定性信息、完全信息、靜態(tài)的、單任務和有限領(lǐng)域。任何一個條件不滿足,現(xiàn)在的人工智能就會遇到很大困難。
這五個限制條件下的應用場景是什么?就是照章辦事,不需要任何靈活性,這顯然不是智能的核心。
下象棋是完全信息博弈,信息完全和確定;其次,它遵循著完全確定的游戲規(guī)則演化,滿足靜態(tài)條件。Watson機器人也是這樣,知識競賽提的問題都沒有二義性,所以這樣的問答對機器人來講是非常容易的;它涉及的領(lǐng)域雖然比較寬,但也是有限的。圍棋也完全符合上面五個條件,所以對計算機來說也是很容易的。目前計算機打麻將就不行,因為牌類是不完全信息博弈,所以比棋類要難??傊?,對目前人工智能取得的成果要有一個正確的評價。
目前的人工智能技術(shù)在交通、服務、教育、娛樂等等領(lǐng)域開展了應用。但這些領(lǐng)域里面只有滿足上述五個條件的事情,計算機的工作才會容易。如果不滿足這些條件,計算機的工作就困難了。
大家常常關(guān)心什么樣的工作會被機器所替代,滿足這五個限制條件的工作,總有一天會被計算機取代,也就是那些照章辦事,不需要任何靈活性的工作,比如說出納員、收銀員等等。不滿足這五個條件的工作,不排斥有一部分會被計算機取代,但不可能被完全代替,例如老師、企業(yè)家。
為什么有這五個限制條件?原因在于現(xiàn)在的人工智能是沒有理解能力的人工智能。
首先看符號模型,理性行為的模型。Watson是個對話系統(tǒng),我們現(xiàn)在所有做的對話系統(tǒng)都和它近似。但是Watson做得更好些,它有知識庫、有推理機制。它的知識庫包含百科全書、有線新聞、文學作品等等,所有的知識用紙質(zhì)來表示有2億頁,用存儲量表示達到了4TB。它能回答什么問題呢?第一個問題,1974年9月8日誰被總統(tǒng)赦免?這對美國人來講很好回答,同樣對計算機來講也非常容易,用這幾個關(guān)鍵字“1974年9月8日”、“被總統(tǒng)赦免”,就能在文獻里查出來是尼克松。也就是說根據(jù)問題中的關(guān)鍵字,可以在已有的文獻中直接找到答案。第二個問題,熒光粉受到電子撞擊以后,它的電磁能以什么方式釋放出來?用“熒光粉”、“電子撞擊”、“釋放電磁能”等關(guān)鍵詞,也可以找到答案:光或者光子。這種方法就是平時網(wǎng)絡搜索的原理,應該說沒有什么智能。
回答下面的問題就需要“智能”了:智利陸地邊界最長的是哪個國家?跟智利有陸地邊界的國家可以檢索到,它們是阿根廷和玻利維亞,但是誰的邊境長?通常查不到。Watson具備一定的推理能力,它從邊界間發(fā)生的事件、邊界的地理位置等等,經(jīng)過分析推理以后就可以找出答案,是阿根廷。
下一個問題也屬于這類性質(zhì):跟美國沒有外交關(guān)系的國家中哪個最靠北?檢索可知,跟美國沒有外交關(guān)系的國家有4個。哪個國家最靠北,沒有直接答案。但可以從其它信息中推導出來,比如各個國家所處的緯度、氣候寒冷的程度等等分析出來,答案是朝鮮。
又如全球有名的索菲亞機器人,她的對話是面向開放領(lǐng)域,人可以隨便提問,這樣問題就暴露出來了。大家在電視上看到索菲亞侃侃而談,問什么問題都能答得很好。其實這些問題都是預先準備的,有明確答案,以便在電視上演示出最佳效果。
如果臨時提問題,索菲亞的缺陷就暴露了。一個中國記者給索菲亞提的四個問題中,它只答對了一個。“你幾歲了?”這個問題很簡單,但它答不上來,它的回答是“你好,你看起來不錯”,答非所問,因為它不理解所問的問題。只有第二個問題“你的老板是誰”它是有準備的,所以答得很好。第三個問題,“你能回答多少問題呢?”它說“請繼續(xù)”,沒聽懂!第四個問題“你希望我問你什么問題呢?”它說“你經(jīng)常在北京做戶外活動嗎?”
索菲亞(Sophia)是美國公司Hanson Robotics制造的機器人,擁有橡膠皮膚,能夠表現(xiàn)出超過62種面部表情,“她”的“大腦”中的計算機算法能夠識別面部,并與人進行眼神接觸。她甚至在2017年10月,獲得了沙特阿拉伯授予的公民身份。
智能體現(xiàn)在推理能力上。但是很不幸,以上兩個例子充分表明,當前的對話系統(tǒng)推理能力都很差,基本上沒有理解能力。Watson系統(tǒng)稍好,但也比較有限。換句話說,我們現(xiàn)在的對話系統(tǒng)離真正的智能還很遠。
為什么會這樣?也就是說現(xiàn)在的人工智能基本方法有缺陷,我們必須走向具有理解的AI,這才是真正的人工智能。什么是真正的人工智能?與目前的“強人工智能”概念有什么區(qū)別?首先,我們都試圖去準確地描述人類的智能行為,希望人工智能跟人類的智能相近。但是強人工智能只是提出概念,并沒有從方法上提出怎么解決。這一理念提出的最核心的概念就是“通用人工智能”,怎么個通用法?沒有答案。現(xiàn)在我們提出“有理解的人工智能”,是可操作的,不只是概念。
人機對話的時候,機器為什么不能理解人們提的問題。看一個例子就可以知道。在計算機的知識庫里把“特朗普是美國總統(tǒng)”這個事實,以“特朗普-總統(tǒng)-美國”三元組的形式儲存。如果提的問題是“誰是美國總統(tǒng)?”機器馬上回答:“特朗普?!钡侨绻麊柶渌嘘P(guān)的問題,如“特朗普是一個人嗎?”“特朗普是一個美國人嗎?”“美國有沒有總統(tǒng)?”它都回答不了。
機器為什么回答不了后面的三個問題呢?因為這個系統(tǒng)沒有常識,也沒有常識推理。既然特朗普是美國的總統(tǒng),美國當然有總統(tǒng),但是它連這一點常識的推理能力都沒有。所以要解決這個問題,必須在系統(tǒng)中加上常識庫、常識推理,沒有做到這一步,人機對話系統(tǒng)中機器不可能具有理解能力。
但是大家知道,建立常識庫是一項“AI的曼哈頓工程”。美國在1984年就開始建造這樣的常識庫,現(xiàn)在還沒有完全實現(xiàn)??梢姡呦蛘嬲娜斯ぶ悄?,有理解的人工智能,是一條很漫長的路。
我國在這方面也已有研究進展,基本做法是建立一個常識圖譜,用圖譜幫助理解提出的問題,同時利用常識圖譜幫助產(chǎn)生合適的答案。結(jié)果表明,有了常識以后,系統(tǒng)性能有了顯著的改善,對話的質(zhì)量顯著提高。
另一方面是準符號模型。深度學習、神經(jīng)網(wǎng)絡主要用來模擬感性行為,感性行為一般很難采用符號模型,因為感性(感覺)無法精確描述。
比如,如何告訴計算機什么樣才叫做“馬”?說馬有四條腿,什么叫做腿?細長的叫做腿,什么叫細?什么叫做長?非定量的概念機器是無法識別的。
目前的解決辦法是神經(jīng)網(wǎng)絡或者準符號模型,也就是用與人類相同的模式去學習、訓練。不告訴機器什么叫做馬,只是給它提供不同的馬的圖像進行訓練。然后再用其它馬的圖片給它看,如果回答正確就是識別正確。如果90%是對的,就說明識別率是90%。
目前,淺層的神經(jīng)網(wǎng)絡已發(fā)展到多層的神經(jīng)網(wǎng)絡。從淺層到多層有兩個本質(zhì)性的變化,一是輸入信息的不同,深層網(wǎng)絡一般不需要人工選擇的特征,用原始數(shù)據(jù)就可以。所以深度學習的應用門檻降低了,操作者不需要有專業(yè)知識,只需要把原始數(shù)據(jù)輸進去。二是多層神經(jīng)網(wǎng)絡與淺層相比,性能有明顯提升。因此深度學習得以大量應用。
通過數(shù)據(jù)驅(qū)動建立的系統(tǒng)能不能算是有智能呢?這是存疑的。即使人臉識別系統(tǒng)的識別率比人還高,也不能說它有智能。因為這種通過數(shù)據(jù)驅(qū)動實現(xiàn)的系統(tǒng),性能與人類智能差別非常大,魯棒性很差、容易受干擾,會發(fā)生重大的錯誤,需要大量的訓練樣本。
前文說到,給定一個圖像庫,機器的識別率比人還要高。但是這樣的系統(tǒng),如果輸入噪音,就會把馬識別成為知更鳥,換一個噪音又可能把馬識別成為獵豹。這樣的系統(tǒng)只是一個機械的分類器,根本不是感知系統(tǒng)。盡管把各種各樣動物分得很清楚,但是它不認識這個動物,只到達了“感覺”的水平,并沒有達到“感知”。
我們的結(jié)論是,只依靠深度學習很難到達真正的智能。這是很嚴峻的結(jié)論。在決策系統(tǒng)里不能使用這樣的系統(tǒng),因為它會犯大錯。人類的最大的優(yōu)點是“小錯不斷、大錯不犯”,機器最大的缺點是“小錯不犯,一犯就犯大錯”。
人們一度對自動駕駛很樂觀,但目前發(fā)現(xiàn)存在不少問題。一般的實現(xiàn)方法是通過數(shù)據(jù)驅(qū)動的學習方法,學習不同場景下的圖象分割,并判別車輛、行人、道路等,然后建立三維模型,在三維模型上規(guī)劃行駛路徑?,F(xiàn)在用硬件已經(jīng)可以做到實時。如果路況比較簡單,行人、車輛很少,勉強可以實現(xiàn)自動駕駛。但復雜的路況就無法奏效了。很多人總結(jié)經(jīng)驗說,行人或者司機都會有意無意地破壞交通規(guī)則,無論國內(nèi)國外都一樣。這就使得數(shù)據(jù)驅(qū)動方法失效。
如何解決這個問題?實際上就是要解決從“Without”到“With”理解的問題。人工智能現(xiàn)在有兩種基本方法,一種是用符號模型來模擬理性行為。但是非常不幸,離散的符號表示很難用上很多數(shù)學工具,所以發(fā)展很慢。在模擬感性行為的時候,使用特征空間的向量,可以使用所有的數(shù)學工具。所以數(shù)據(jù)驅(qū)動方法這幾年發(fā)展非??臁5撬幸粋€非常大的缺陷,它是在特征空間里,缺乏語義。我們用數(shù)據(jù)去訓練一個模型,即所謂“黑箱學習法”,如果數(shù)據(jù)質(zhì)量不高,很難學出有用的東西。什么叫概率統(tǒng)計?重復多了就是真理。如果數(shù)據(jù)質(zhì)量差,充滿了“謊言”。謊言重復多了,就變成真理了。
我們現(xiàn)在給出的解決辦法是,把這兩個空間投射到一個空間里,叫做語義的向量空間。也就是說把符號變成向量,同時把特征空間的向量變成語義空間的向量。具體方法,一是通過Embedding(嵌入)把符號變成向量,盡量保持語義不變,但現(xiàn)在的方法都會引起語義的丟失。第二方面就是Raising(提升),把特征空間提升到語義空間去,這主要靠學科交叉,靠跟神經(jīng)科學的結(jié)合。只有這些問題解決以后,才能夠建立一個統(tǒng)一的理論。但是這項工作是非常艱巨的。
為什么人工神經(jīng)網(wǎng)絡不能得到語義信息,而人腦的神經(jīng)網(wǎng)絡可以呢?差別就在于目前的人工神經(jīng)網(wǎng)絡太簡單了,人們正設(shè)法把腦神經(jīng)網(wǎng)絡的許多結(jié)構(gòu)與功能加入人工智能。
還可以把數(shù)據(jù)驅(qū)動跟知識驅(qū)動結(jié)合起來。加上知識,讓人工智能有推理的能力和決策的能力,這樣就能解決突發(fā)事件。
“我們正在通往真正AI的路上”,現(xiàn)在走得并不遠,在出發(fā)點附近。而人工智能永遠在路上。這些問題一旦解決了,人類的社會進步、人類的生活就會發(fā)生本質(zhì)上的改變。
人工智能剛剛起步,離真正的AI還很遙遠,我們?nèi)沃氐肋h。