王灶紅 蘭雁
【摘 要】人類正處在信息化的時(shí)代,計(jì)算機(jī)的應(yīng)用也隨著時(shí)代的變遷幾乎進(jìn)入所有領(lǐng)域。計(jì)算機(jī)視覺是人工智能的一個(gè)重要分支領(lǐng)域,它在人工智能中扮演著越來越重要的作用,對現(xiàn)如今人們的生活和認(rèn)識世界的方式有著越來越重要的作用。隨著深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使計(jì)算機(jī)視覺在各個(gè)領(lǐng)域發(fā)揮了重要作用。本文主要介紹關(guān)于計(jì)算機(jī)視覺技術(shù)以及在各個(gè)行業(yè)的應(yīng)用。
【關(guān)鍵詞】深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);計(jì)算機(jī)視覺
現(xiàn)代科學(xué)研究表明,人類的學(xué)習(xí)和認(rèn)識活動(dòng)中,至少80%以上都是通過視覺完成的。也就是說,視覺感知是人類理解和認(rèn)識世界的主要手段。視覺對人類如此重要,對于計(jì)算機(jī)的研究當(dāng)然也不能少了視覺相關(guān)領(lǐng)域,即計(jì)算機(jī)視覺。
一、計(jì)算機(jī)視覺概述
計(jì)算機(jī)視覺研究對象之一是如何利用二維投影圖像恢復(fù)三維景物世界,其基本目的可以歸結(jié)為從單幅或多福二維投影圖像(或視頻序列)計(jì)算出觀察點(diǎn)和目標(biāo)對象之間的空間位置關(guān)系及目標(biāo)對象的物理屬性。從人工智能誕生之日起,視覺相關(guān)的應(yīng)用就一直是該領(lǐng)域內(nèi)科學(xué)家偏愛的方向。深度學(xué)習(xí)始于神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)始于感知機(jī)。感知機(jī)是1957年由FrankRosenblat提出的,感知機(jī)事實(shí)上就是人工神經(jīng)網(wǎng)絡(luò)的最小單元,這個(gè)結(jié)構(gòu)里有最兩個(gè)基本的成分:計(jì)算輸入向量的線性變化;對線性組合的結(jié)果進(jìn)行閾值判斷,實(shí)際上就是非線性變換?;蛘吒唵蝸碚f把閾值和線性變換放一起,則是仿射變換,所以感知機(jī)本質(zhì)上就是一個(gè)仿射變換接一個(gè)非線性變換。而神經(jīng)網(wǎng)絡(luò)其實(shí)就是一種模仿生物神經(jīng)的連接模型,運(yùn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)內(nèi)部十分復(fù)雜,也正是依靠著這些復(fù)雜,通過調(diào)整內(nèi)部節(jié)點(diǎn)相互連接的關(guān)系,從而達(dá)到處理信息的目的,神經(jīng)網(wǎng)絡(luò)的出現(xiàn)無疑于給機(jī)器算法奠定了基礎(chǔ)。而伴隨著各種機(jī)器學(xué)習(xí)算法的全面開花,機(jī)器學(xué)習(xí)開始成為計(jì)算機(jī)視覺,尤其是識別、檢測和分類等應(yīng)用中的一個(gè)不可分割的重要工具。計(jì)算機(jī)視覺應(yīng)用也成為了我們?nèi)粘I钪胁豢扇鄙俚陌閭H。
二、計(jì)算機(jī)視覺與卷積神經(jīng)網(wǎng)絡(luò)
計(jì)算機(jī)視覺技術(shù)是使計(jì)算機(jī)模擬人類的視覺過程,具有感受環(huán)境的能力和人類視覺功能的技術(shù),是一門綜合性較強(qiáng)的技術(shù),設(shè)計(jì)的學(xué)科和技術(shù)非常廣泛。主要包括圖像處理、人工智能、模式識別、計(jì)算機(jī)科學(xué)、物理學(xué)、生物學(xué)和心理學(xué)等學(xué)科的綜合。
和計(jì)算機(jī)視覺最緊密聯(lián)系的就是卷積神經(jīng)網(wǎng)絡(luò)。但其實(shí)卷積神經(jīng)網(wǎng)絡(luò)也是受到了人類視覺神經(jīng)系統(tǒng)的啟發(fā)。人類神經(jīng)系統(tǒng)是一個(gè)非常復(fù)雜的系統(tǒng),至今還沒有比完全的理解,而且大多數(shù)的人類視覺系統(tǒng)視覺特性不是憑直覺獲知的。人類視覺系統(tǒng)是人們理解和認(rèn)知自然世界的關(guān)鍵工具。所以我們先來簡單了解一下視覺神經(jīng)系統(tǒng)。眼睛是一個(gè)成像系統(tǒng),圖像通過瞳孔、晶狀體最終在視網(wǎng)膜上成像,這一部分是視覺的光學(xué)系統(tǒng)。視網(wǎng)膜上布滿了大量的光感受細(xì)胞,可以把光刺激轉(zhuǎn)換成神經(jīng)沖動(dòng),然后進(jìn)入視覺神經(jīng)系統(tǒng)傳遞進(jìn)大腦的初級視覺皮層。從視覺皮層開始對圖像信息分層,這些層從v1~v5,每一層處理特定的信息。而在1958年對貓視覺皮層的研究發(fā)現(xiàn)了簡單細(xì)胞和復(fù)雜細(xì)胞,這兩種細(xì)胞的特點(diǎn)就是每個(gè)細(xì)胞質(zhì)只對特定方向的條形圖樣有刺激反應(yīng),也就是說這種細(xì)胞是有方向選擇性的,兩者區(qū)別則是,簡單細(xì)胞對應(yīng)的視網(wǎng)膜的光感受細(xì)胞所在區(qū)域很小,而復(fù)雜細(xì)胞相對大,這個(gè)區(qū)域被稱為感受野。簡單來說卷積層用來模擬對特定圖案的響應(yīng),而池化層模擬感受野。卷積神經(jīng)網(wǎng)絡(luò)對計(jì)算機(jī)視覺的應(yīng)用非常廣泛,比如圖像的分類、物體檢測、人臉識別、圖像搜索、圖像分割等。
三、計(jì)算機(jī)視覺的應(yīng)用
計(jì)算機(jī)視覺的相關(guān)技術(shù)給計(jì)算機(jī)帶來了更多廣泛的應(yīng)用,擁有“視覺”的智能計(jì)機(jī)不但使計(jì)算機(jī)更便于為人們所使用,同時(shí)如果用這樣的計(jì)算機(jī)來控制各種自動(dòng)化裝置特別是智能機(jī)器人就可以是這些自動(dòng)化裝置和機(jī)器人具有使用環(huán)境和自主決策的能力。下面來介紹關(guān)于計(jì)算機(jī)視覺的應(yīng)用。
安防。安防是最早應(yīng)用于計(jì)算機(jī)視覺的領(lǐng)域之一。人臉識別和指紋識別在許多國家都有應(yīng)用,常見的應(yīng)用有利用人臉庫和公共攝像頭對犯罪嫌疑人進(jìn)行識別和布控。如利用公共攝像頭捕捉到的畫面,在其中查找可能出現(xiàn)的犯罪嫌疑人,用超分辨率技術(shù)對圖像進(jìn)行修復(fù),并自動(dòng)或輔助人工進(jìn)行識別以追蹤犯罪嫌疑人的蹤跡。移動(dòng)監(jiān)測也是計(jì)算機(jī)視覺在安防中的重要應(yīng)用,利用攝像頭監(jiān)控畫面移動(dòng)用于防盜和監(jiān)控監(jiān)獄。
交通。比如利用計(jì)算機(jī)視覺技術(shù)對違章車輛的照片進(jìn)行分析提取車牌號碼并登記在案。這是大家都熟知的一項(xiàng)應(yīng)用。此外很多停車場和收費(fèi)站也用到車牌識別。除了車牌識別,還有利用攝像頭分析交通擁堵狀況或者隧道橋梁監(jiān)控等技術(shù)。
工業(yè)生產(chǎn)。工業(yè)生產(chǎn)也是最早應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域之一。如利用攝像頭拍攝的圖片對長度進(jìn)行非精密測量。利用識別技術(shù)識別工業(yè)部件上的缺陷和劃痕等。
在線購物。事實(shí)上計(jì)算機(jī)視覺在電商領(lǐng)域的應(yīng)用也非常多。比如當(dāng)我們一打開購物時(shí),我們最先看到的一定是圖片,而為了看到這些精美的圖片,電商背后的計(jì)算機(jī)視覺就成了非常重要的技術(shù)。還有我們熟知的掃描照片提取相似寶貝,也用了圖像識別技術(shù)。
醫(yī)療。醫(yī)學(xué)影像是醫(yī)療領(lǐng)域中一個(gè)非?;钴S的研究方向,各種影像和視覺技術(shù)在這個(gè)領(lǐng)域中至關(guān)重要。計(jì)算機(jī)斷層成像,核磁共振成像中重建三維圖像,并進(jìn)行一些三維表面渲染都有涉及一些計(jì)算機(jī)視覺的基礎(chǔ)手段。細(xì)胞識別和腫瘤識別用于輔助診斷,一些細(xì)胞或者體液中小型顆粒物的識別,還可以用來量化分析血液或其它體液中的指標(biāo)。
當(dāng)然計(jì)算機(jī)視覺的應(yīng)用不止于此,也遠(yuǎn)不止于此。在未來它還會(huì)開拓出更多、更廣、更深層次的應(yīng)用。
四、計(jì)算機(jī)視覺未來發(fā)展趨勢
計(jì)算機(jī)視覺在人工智能里面可以類比于人類的眼睛,是在感知層上最為重要的核心技術(shù)之一。它在各個(gè)行業(yè)都有或多或少的應(yīng)用,涉及的技術(shù)、學(xué)科都非常的廣泛。隨著5G時(shí)代的到來,將會(huì)推動(dòng)醫(yī)療、自動(dòng)駕駛發(fā)揮發(fā)展,同時(shí)會(huì)加大推動(dòng)計(jì)算機(jī)視覺在這些行業(yè)的應(yīng)用,例如醫(yī)療影像識別、自動(dòng)駕駛中的影響識別等等。隨著算法的更迭、硬件升級、大數(shù)據(jù)的爆發(fā),計(jì)算機(jī)視覺也將會(huì)有更大的想象空間。
【參考文獻(xiàn)】
[1] (美)薩利斯基著.艾海舟,興軍亮等譯.計(jì)算機(jī)視覺—算法與應(yīng)用[M].北京:清華大學(xué)出版社,2012.
[2] 張波.數(shù)字圖像處理技術(shù)的發(fā)展與應(yīng)用[J].品牌 :理論月刊,2011(Z2):158-158.
[3] 甄棟志,朱永偉,蘇楠等.基于計(jì)算機(jī)視覺對目標(biāo)識別檢測的研究[J].機(jī)械工程與自動(dòng)化,2014(1):129-130.
[4]楊雪.基于紋理基元快的圖像語義分割[D].西南科技大學(xué),2015.
[5]吳 璟 莉,劉 袁 靜.一種基于顏色拮抗感受野的輪廓檢測模型[J].計(jì) 算 機(jī) 科 學(xué),2016,43(7):319-323.
[6]160-183.姜楓,顧慶,郝慧珍.基于內(nèi)容的圖像分割方法綜述[J].軟件學(xué)報(bào),2017,28(1):160-183.
[7]王嫣然,陳清亮,吳俊君.面向復(fù)雜環(huán)境的圖像語義分割方法綜述[J].計(jì)算機(jī)科學(xué),2019,46(9):36-46.[3]KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classifica.