許暉
通常人們提起汽車的眼睛,很自然地會聯(lián)想到汽車大燈。從象形學說來講,這沒毛病,然而伴隨著自動駕駛技術逐步普及,“眼睛”已經(jīng)愈發(fā)被指代為負責感知車輛外部環(huán)境的各種傳感器了,譬如本刊于2018年初所刊登的《自動駕駛的天眼—激光雷達是個啥》一文為讀者所介紹的激光雷達傳感器。倘若非要在各種傳感器之中選出最為貼合“眼睛”的一款,那么非攝像頭傳感器莫屬了,因為其所記錄下來的畫面正是人類自身所見到的情景。不同衣著的行人、色彩變換的信號燈、蜿蜒曲折的車道線、種類多樣的交通標識牌或車輛……感知變化多端的道路環(huán)境是自動駕駛中最為基礎的任務。而以上的那些復雜交通物體,都可以通過攝像頭來感知。在眾多用于感知環(huán)境的傳感器中,攝像頭所記錄下來的數(shù)據(jù)最為直接,日益精細的分辨率也要高出毫米波雷達或激光雷達兩個量級,正因為其能帶來更多維度、更細節(jié)化的信息,因此要想在復雜的城市道路中實現(xiàn)自動駕駛,攝像頭是必不可少的傳感工具。
計算機視覺識別技術需求最早可以追溯到1966年。人工智能學家、MIT教授馬文·明斯基給他的本科學生布置了一道的暑假作業(yè):“請諸位將一個攝像頭與電腦相連,讓計算機告訴我們攝像頭看到了什么?”這道難題代表了計算機視覺幾乎全部內(nèi)容,用攝像頭模擬人眼、計算機模擬人腦,然后讓這套系統(tǒng)像人一樣去感知周邊環(huán)境。可以說誰也沒有想到,視覺識別技術的起源居然因為一項大學暑假作業(yè)。
進入到七十年代,學術界對于計算機視覺的研究領域逐步收窄到一些特殊場景。當時的主流思想認為,人是通過物體中具有代表性的部分和結構來生成模板,然后將所看到的目標去和這個模板匹配來實現(xiàn)識別的。用古人所說的“窺一斑而知全豹”來形容還挺貼切。之后的十幾年,行業(yè)重新回歸到了一些更加基礎課題的研究上,這段時期的積累對于未來目標識別技術的發(fā)展起到了至關重要的作用。
1990年以后,目標識別技術的發(fā)展進入了快車道,技術的演進也幫助目標識別走出實驗室,進入人們的生活。法國科學家Yann LeCun教授開發(fā)的基于神經(jīng)網(wǎng)絡的手寫數(shù)字識別系統(tǒng)成功應用到美國郵政和銀行系統(tǒng)中。這個方法正是當下十分流行的CNN(卷積神經(jīng)網(wǎng)絡)的前身。1999年以色列大學教授Amnon Shashua創(chuàng)立了Mobileye,雖然當時并未引起廣泛的關注,今日的Mobileye已然成長為無人駕駛領域最重要的玩家之一。
21世紀之后,計算機視覺領域不斷取得革命性的技術進步。MIT的兩位教授——Paul Viola與Michael Jones在視覺領域的最頂級會議CVPR上發(fā)表了一篇震驚業(yè)界的論文,文中所提出的方法成功將人臉識別算法實時化,使得視覺識別在一些對實時性要求較高的場景應用成為可能。
2006年以后,深度學習逐步受到追捧,它的最大優(yōu)勢在于能夠讓計算機去提取目標的特征。只要樣本足夠豐富,就能更為有效地克服角度多變、尺寸多變、光照復雜等影響識別的特征,Deep learning出現(xiàn)以后,對各種各樣的視覺識別任務的精度都進行了大幅度的提升。這與我們的成語“觸類旁通”又多么相似。
盡管目前目標識別技術已經(jīng)發(fā)展得相當成熟,但想要其像人腦一樣工作,除了需要解決感知層面的問題,還需要在認知層面做研究,讓計算機理解它所看到的東西。幸運的是,如今學術界和工業(yè)界都在積極地推動計算機視覺技術白勺發(fā)展。
攝像頭技術其實并不是什么新鮮玩意,但是從出現(xiàn)至今,經(jīng)過近半個世紀的發(fā)展,其背后的視覺識別技術已經(jīng)變得越來越精準、也越來越穩(wěn)定成熟,這一切恰好也為它在無人駕駛領域的運用奠定了堅實的基礎。在自動駕駛領域而言,基于攝像頭技術而來的目標識別包含了三個層次的任務,由淺到深分別是:圖像分類、邊界框檢測與像素標注。
通常而言,自動駕駛研發(fā)工程師們會依據(jù)各個傳感器的特點進行算法設計,利用傳感器采集的信息,對其進行時間軸對齊、匹配、可信度融合等操作,從而完成對周圍環(huán)境的感知?;谶@些環(huán)境信息,最終實現(xiàn)自動緊急制動、車道保持、車距監(jiān)控等自動駕駛功能,從而提升駕駛的安全。
下面讓我們以高級輔助駕駛中的車輛識別為例,來了解目標識別具體是怎樣進行的。
這起事故的主因眾說紛紜,并催化了事故后沒多久特斯拉于Mobileye的全面分手,盡管雙方各執(zhí)一詞,馬斯特認為Mobileye阻礙特斯拉自行研發(fā)視覺識別系統(tǒng),Mobileye則認為特斯拉的自動駕駛功能“越過了安全的底線”,令自己的視覺識別技術蒙??涩F(xiàn)在回頭看來主要的鍋還是讓視覺識別系統(tǒng)背了。這也難怪后來Mobileye被英特爾收購了。
塞翁失馬,焉知非福,視覺識別系統(tǒng)的背鍋對于后來自動駕駛領域的多傳感器融合以及多系統(tǒng)冗余起到了極大的推進作用。譬如對于需要進化到自動駕駛的車輛,激光雷達是十分好的補充,不光對靜止的目標,它對所有的障礙物都能清晰的檢測出輪廓,而且它的探測距離也非常遠。即使攝像頭不能辨別,激光掃描器也會檢測到障礙物而去制動車輛。而各式傳感器的增加也能以互補長短的方式令自動駕駛解決方案日益健全。
自動駕駛技術所需的攝像頭到底應該朝哪里看,以及看什么?也許不少人第一反應會是朝前看,偵測路面情況;而少部分思維更為縝密的會提出向后看以預警來自后方的威脅,甚至會覺得朝四面八方看全無死角就好。但能想到朝車內(nèi)看的肯定不多。僅僅依靠判斷駕駛員雙手是否在方向盤上來斷定駕駛狀態(tài)是遠遠不夠的。實際上許多車主可能會因為疲勞而眼睛飄忽或者精神放空。所以在目前的自動駕駛技術階段。與其讓車輛自己看懂車外路面情況,倒不如先讓車輛看清楚座艙內(nèi)是否有一個正常清醒的司機,讓汽車了解司機的實時狀態(tài),清楚其對控制汽車的能力更為實際。只要一天無法徹底達到L4級別自動駕駛技術,那么駕駛員仍將是車輛最直接的“眼睛”,而實現(xiàn)這個功能最簡單的辦法就是在駕駛艙內(nèi)安裝以攝像頭為基礎的駕駛員檢測系統(tǒng)(Driver Monitoring)。
DM系統(tǒng)是一種基于人體生理反應特征的駕駛員疲勞監(jiān)測預警系統(tǒng)。目前從整體架構來講分為直接檢測和間接檢測兩類。相對于車外周遭環(huán)境識別的樣本數(shù)據(jù)來說,DM系統(tǒng)識別相對數(shù)據(jù)量并沒有如此巨大。為此已經(jīng)越來越多王機廠將DM的功能列為ADAS系統(tǒng)之中的一項。而Tier One們也在不遺余力地提供全套系統(tǒng),比如大陸集團所提供單目攝像機能夠涵蓋旋轉頭±60。的范圍,藝術化圖像處理技術能夠識別駕駛員的頭部姿勢、視線和眼球運動。通過單目攝像機監(jiān)測駕駛員是否存在分心駕駛和疲勞駕駛,這是通過一項處理眨眼持續(xù)時間和眼球運動速度的模糊邏輯實現(xiàn)的。當然,通過分析頭部方向和眼球注視方向,判斷駕駛員是否注意到人或物體(潛在的注意力分散)也是可能的。除了駕駛員疲勞監(jiān)測外,該技術還能夠進行駕駛員面部識別,比如通過識別駕駛員的面部分析出哪位駕駛者在駕駛車輛等,該應用受到共享汽車領域的青睞。
要看東西用一只眼睛就足夠了,瞇起一只眼看東西估計大家都能輕易做到,可從生物的進化歷史而言,眼睛成對出現(xiàn)并非多余的,獨眼觀察的后果往往是缺乏應有的空間距離感,那么多一只眼睛能否看得更清?答案是必然的。也許針對車內(nèi)情況監(jiān)控所需的攝像頭采用單目即可,畢竟車內(nèi)空間并不大,適當可覆蓋整個車內(nèi)的攝像頭便已經(jīng)足夠??蓪τ趥蓽y車外路面的視覺識別系統(tǒng)來說,多少只眼睛才算夠呢?仿佛也有著自己的進化發(fā)展一說。
市場上以攝像頭為核心的視覺解決方案層出不窮,不但有以Moblieye為代表的單目攝像頭技術,還有類似斯巴魯為代表的雙目攝像頭技術,當然也少不了如國際主要Tier One供應商ZF采埃孚所推進的三目攝像頭技術了。
目前,大多數(shù)圖像算法的研究都是基于單目攝像開發(fā)的,不僅開發(fā)成本低,算法的成熟與穩(wěn)定程度也遠勝過其他視覺解決方案。不過在測量范圍與測量精度萬面,單目攝像頭卻難以實現(xiàn)平衡。攝像頭的探測范圍越廣,探測的距離就越短,好比人眼看得越遠時,視線范圍也就越窄。同時,單目攝像頭在精度萬面也有先天缺陷,由于攝像頭無法像人眼一樣,根據(jù)物體的距離與大小自由變焦,越遠的物體,成像就越小,僅僅幾個像素點所能描繪出的物體,識別精度自然不高,單目攝像頭的探測據(jù)離也就限于200米之內(nèi)。為了克服單目攝像頭的缺點,一些公司選擇了雙目乃至多目攝像頭作為解決方案。雙目攝像頭是通過拍攝同一場景下左右兩幅圖像,再運用立體匹配算法獲取視差圖,進而獲取深度圖。
更高級的解決方案如采埃孚與Mobileye合作研發(fā)的Tri-Cam攝像頭車輛攝像頭系統(tǒng)。舉個簡單的例子,眾所周知的鷹眼能夠在約350米外發(fā)現(xiàn)小如老鼠的獵物。但是,在公路交通中,如此高的精確度帶來的更多是麻煩而不是幫助。在這種情況下,寬視野與良好分辨率的結合更為重要,尤其是與行進方向呈直角的時候。作為采埃孚S-Cam4家族的下一代產(chǎn)品,Tri-Cam攝像頭使用了三鏡頭,專為支持高級自動駕駛功能而設計。這款第四代攝像頭物體探測范圍和視場更廣,可以滿足對高級駕駛員輔助系統(tǒng)技術日益嚴格的法規(guī)要求。Tri-Cam增加了一個長焦鏡頭使其傳感距離更遠,而魚眼鏡頭則改善了短距離探測。這樣的組合能夠更好地為自動駕駛功能(比如高速公路駕駛輔助和交通擁堵輔助)提供支持。S-Cam4系列配置的攝像頭都配備了Mobileye的EyeQ4芯片以及物體識別算法,并結合采埃孚的橫向與縱向控制算法,進一步增強了其在高級駕駛輔助系統(tǒng)和半自動駕駛應用中的性能。因此能夠更好地識別靠近的物體。上述傳感器系統(tǒng)與動物界的感應高手相比有一個重大優(yōu)勢:它們不限于單一技術,而是可以依靠多種集成的傳感器系統(tǒng)。雷達、激光雷達和攝像頭系統(tǒng)可以互補所長,從而覆蓋每種可以想象到的交通狀況。安裝所有這些系統(tǒng)的車輛具有360度全萬位視野。要知道,即使動物界中具有最寬視野的記錄保持者變色龍,也“只”能夠?qū)⒀劬πD342度。盡管隆起的眼睛能夠獨立移動,這種動物仍然有頭后18度的小小盲區(qū)。
相比單目攝像頭,雙目攝像頭的精度更高,而多目攝像頭更有過之而無不及。同時,攝像頭融合得越多,對芯片的要求也更高、計算量更大,這這使得雙目乃至多目系統(tǒng)的產(chǎn)品化、小型化的難度較大,成本也顯著高于單目系統(tǒng),因此目前幣場上大多數(shù)視覺解決萬案仍然以單目為主。不過既然提到了多目系統(tǒng)所需要的龐大計算量,就有必要提及地平線公司了。在感知計算領域它們可算玩出了花,地平線面向智能駕駛,推出了征程(Journey)系列嵌入式人工智能視覺芯片,成為中國最早實現(xiàn)量產(chǎn)的人工智能芯片,該芯片具備同時對行人、機動車、非機動車、車道線、交通標志牌、紅綠燈等多類目標進行精準實時檢測與識別的處理能力,可以用于L2級別的高級駕駛輔助系統(tǒng)(ADAS)。同時地平線為之進一步研發(fā)了Matrix自動駕駛計算平臺。利用地平線Al加速IP最大化了嵌入式Al計算性能,可支持激光雷達、毫米波雷達的接入和多傳感器融合。以視覺感知能力為例,該平臺能夠基于稀疏化和定點化神經(jīng)網(wǎng)絡實現(xiàn)8類不同類型物體的目標檢測和多達25類像素級語義分割。有助于預測和深度估計的三維車輛檢測,能夠更好地理解復雜場景,可輕松應對高度遮擋,且需快速響應場景下的自動駕駛。而在保證高性能的前提下,其可在31W的低功耗下運行,無需水冷系統(tǒng),滿足了高性能和低功耗的行業(yè)應用級需求,非常適合嵌入式自動駕駛的應用和產(chǎn)品化。
2018年中,自動駕駛開始回歸理性。在L4級別以上的自動駕駛遇到了不小的技術瓶頸、市場前景不甚明確的當下,以完善基于攝像頭的視覺識別技術為基礎,結合對高精度地圖、駕駛策略方面的研究,不斷探索更高階的自動駕駛技術,不失是一種更為現(xiàn)實和理智的選擇。