呂之品
將一輛黃色出租車和一副雙筒望遠(yuǎn)鏡區(qū)別開是很容易的,大多數(shù)人哪怕倒立時都能做到這一點(diǎn)。但對于人工智能(AI)可不是這樣:把出租車翻過來,它就會將之認(rèn)作雙筒望遠(yuǎn)鏡。
這只是美國人工智能專家阮安收集到的幾十個例子中的一個,這些例子表明AI識別物體的本領(lǐng)比我們想象的要差遠(yuǎn)了。這讓我們對AI在某些領(lǐng)域的應(yīng)用(如無人駕駛汽車)更加謹(jǐn)慎。
圖像識別是人工智能的一個重要領(lǐng)域。對于人來說,識別圖像并不是一件難事。我們通常是依靠圖像本身所具有的特征來將它們識別出來的。每個圖像都有它的特征,如字母A有個尖,P有個圈,而Y的中心有個銳角等。研究表明,當(dāng)我們識別一個圖像時,視線總是集中在圖像的主要特征上,也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方——這些地方的信息量最大。如果圖像有多個特征,眼睛的掃描路線也總是依次從一個特征轉(zhuǎn)到另一個特征上。
由此可見,在我們識別圖像的過程中,知覺必須排除多余的輸入信息,只抽取出關(guān)鍵的信息。然后將這些關(guān)鍵信息進(jìn)行分門別類,存儲在記憶中。當(dāng)下次遇到類似圖像時,將陌生圖像中的關(guān)鍵信息提取出來,與存儲在記憶中的信息進(jìn)行比較,從而將其識別出來。依據(jù)這種辦法,我們不僅能識別某個具體的字母A,也能識別印刷體的、手寫體的、方向不正的(甚至倒立過來)、大小不同的各種字母A。
但是,當(dāng)前的AI圖像識別技術(shù)還遠(yuǎn)遠(yuǎn)達(dá)不到人類的水平。它們更多地依賴模式識別。
所謂模式識別,就是說識別某個圖像,必須在過去的經(jīng)驗(yàn)中有這個圖像的記憶模式(又叫模板)。當(dāng)前的圖像如果能與記憶中的模板相匹配,這個圖像就能被識別。例如有一個字母A,如果在記憶中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。這種方法強(qiáng)調(diào)圖像必須與記憶中的模板完全符合才能加以識別。
這就怪不得AI經(jīng)常會被人為篡改的圖片迷惑。比如,將圖片上的一只烏龜配上特殊的外殼之后,并不影響人類的基本判斷,但AI卻很容易將其誤認(rèn)為是一把槍。
然而,這還好說。這些圖像畢竟是專門設(shè)計(jì)用來迷惑AI的,它們在現(xiàn)實(shí)中不太可能存在,現(xiàn)在問題嚴(yán)重的是,你幾乎不需要專為AI篡改一個圖象,就足以引起它混亂。
阮安和他的同事從一個用來訓(xùn)練AI的數(shù)據(jù)庫中選擇了一些常見物體的圖像,然后隨機(jī)旋轉(zhuǎn)并改變物體在圖片中的位置。他們發(fā)現(xiàn),這足以難倒目前世界上最先進(jìn)的幾個圖像識別系統(tǒng),所有系統(tǒng)平均97%的時間里都識別錯了。在一個案例中,原始圖像是一輛校車,所有圖像識別系統(tǒng)能正確識別。但是,把圖像特寫放大之后,卻被它們誤認(rèn)為是一只口袋;當(dāng)圖像被倒置著立在道路上時,又被它們誤認(rèn)作是一輛鏟雪機(jī)。
這是因?yàn)锳I的圖像識別本領(lǐng)是通過大數(shù)據(jù)訓(xùn)練出來的,但當(dāng)初接受訓(xùn)練的時候,在海量的圖片里,物體很少有倒立或放大的。
這種狀況向我們提出了一個重要問題:使用AI是否安全?
比如在戰(zhàn)場或者地震現(xiàn)場,你希望圖像識別系統(tǒng)能從多個不同角度識別物體。同樣,基于AI的機(jī)場安檢掃描儀也需要能夠從多個角度識別行李中的物體。
對于無人駕駛汽車,這個問題尤其關(guān)鍵。對一輛車來說,當(dāng)遇到一個不能識別的物體,避開就行了。但是,假如把前方路上的一個可樂罐誤認(rèn)作消防車而緊急剎車,那就很危險(xiǎn)。
遺憾的是,迄今沒有人知道該如何解決這些問題。最大的障礙是,當(dāng)AI看到一個圖像時,它還無法抽取出有關(guān)該對象的關(guān)鍵信息,或者分不清什么是關(guān)鍵信息,什么是次要信息。
所以,為了達(dá)到人類的推理水平,我們還需要賦予AI一種能從圖像中抽取關(guān)鍵信息的本領(lǐng)。