暗號大老爺
這幅圖讓我很好奇,你們機器人是如何確定一個物體的呢?換句話說,你們有視覺這種東西存在嗎?
當(dāng)然有!機器可以實現(xiàn)多譜段拍攝,能同時從紅外光譜和可見光譜里獲取信息,你們?nèi)祟愋袉幔?/p>
那如果這個機器人要炸掉房子,但是不想傷到少年和貓怎么辦?
這個操作難度……還是從圖像識別說起吧,大概分這么幾步,跟把大象裝進冰箱差不多:
首先是目標(biāo)分割,按照攝像頭拍到的像素,把貓、人、背景的圖層分出來;第二是目標(biāo)檢測,確定貓和人的那堆像素是我們要的目標(biāo);第三是目標(biāo)識別,確定那堆像素在我們的定義里叫做貓和人;最后就可以進行目標(biāo)追蹤了,畢竟貓很容易跑……
完美!那如果我需要把貓和人攥在手里救出來呢?
這就涉及對空間位置的標(biāo)定了。因為上面所說的只是貓和人在成像中的位置而已,如果需要機器人去干涉,還需要確定攝像頭、機械臂跟目標(biāo)的相對位置、姿態(tài)等等。
那豈不是要無數(shù)程序員來加班修正手眼齊到的過程?
現(xiàn)在是機器自主學(xué)習(xí)的時代了。我來打個比方,告訴你那些工業(yè)機械臂是怎么熟悉自己的工作的:你晚上把一堆花生米和一個碗放在它面前,然后給它一雙筷子,第二天早上起來就會發(fā)現(xiàn)它們已經(jīng)學(xué)會了把花生米夾進碗里。晚上發(fā)生了什么呢?它們每練習(xí)一次“手到眼到”的夾花生米過程,無論成功與否都會記下自己的動作策略,修正自我控制的策略,最后得出一個夾花生米的學(xué)習(xí)模型。這個過程叫作深度學(xué)習(xí),可以說是一種深度人工神經(jīng)網(wǎng)絡(luò)。
據(jù)說目前實用的深度學(xué)習(xí)領(lǐng)域,在語音和圖像方面進步最大。
因為在生活中接受信息,人們最依賴的就是視覺和聽覺。說起來碳基生命的視覺經(jīng)過幾億年的進化,已經(jīng)形成了一套自己的體系,不光精確度值得我們AI學(xué)習(xí),連一些bug我們也得捎帶著學(xué)了。
哪有什么bug呀……
就是“視錯覺”。人和機器會“看”到相同的東西,但對它的“解釋”可能完全不同。比如經(jīng)典的“兩個瓶子之間的空間就像一張人臉”的圖,那是只有你們?nèi)祟惒拍躦et的點!因為人類有一個思維習(xí)慣是從具體的圖像里面提取出抽象的意義,這種不確定性是我們AI目前尚不能理解的。所以,暫時只能分析下貓貓狗狗了。