浙江省紹興魯迅中學(xué) 倪晨旭
視覺(jué)是人類理解認(rèn)識(shí)外部世界的重要途徑。在人類認(rèn)知的過(guò)程中,有超過(guò)80%的信息量來(lái)自視覺(jué)系統(tǒng)[1],如物體的形狀、大小、顏色、空間位置等。但是,由于主觀和客觀條件限制,很多信息不能由人類視覺(jué)系統(tǒng)直接或者準(zhǔn)確的獲取,人類自然的希望借助外部設(shè)備幫助人類處理或者理解信息,這就為人類科學(xué)技術(shù)發(fā)展帶來(lái)一個(gè)嶄新的研究課題——計(jì)算機(jī)視覺(jué)。計(jì)算機(jī)視覺(jué)是研究如何讓機(jī)器“看”的科學(xué),其可以模擬、擴(kuò)展或者延伸人類智能,從而幫助人類解決大規(guī)模復(fù)雜的問(wèn)題。計(jì)算機(jī)視覺(jué)任務(wù)應(yīng)用相當(dāng)廣泛,如人類識(shí)別、車輛或行人檢測(cè)、目標(biāo)跟蹤、圖像生成等,其在科學(xué)、工業(yè)、農(nóng)業(yè)、醫(yī)療、交通、軍事等等領(lǐng)域都有著廣泛的應(yīng)用前景。
隨著并行計(jì)算、云計(jì)算、機(jī)器學(xué)習(xí)等軟硬件技術(shù)的發(fā)展,計(jì)算機(jī)的圖像處理能力不斷提高,計(jì)算機(jī)視覺(jué)近幾年獲得了快速的發(fā)展,各項(xiàng)應(yīng)用在各個(gè)領(lǐng)域落地生根,學(xué)術(shù)界和工業(yè)界的研究也如火如荼。本文從計(jì)算機(jī)視覺(jué)發(fā)展、研究技術(shù)、面臨的挑戰(zhàn)等方法對(duì)計(jì)算機(jī)視覺(jué)進(jìn)行研究,為計(jì)算機(jī)視覺(jué)研究奠定基礎(chǔ)。
計(jì)算機(jī)視覺(jué)是從圖像或者視頻中提出符號(hào)或者數(shù)值信息,分析計(jì)算該信息以進(jìn)行目標(biāo)的識(shí)別、檢測(cè)和跟蹤等。更形象的說(shuō),計(jì)算機(jī)視覺(jué)就是讓計(jì)算機(jī)像人類一樣能看到圖像,并看懂理解圖像。
計(jì)算機(jī)視覺(jué)開(kāi)始于20世紀(jì)50年代,主要用于分析和識(shí)別二維圖像,如光學(xué)字符識(shí)別、顯微圖片的分析解釋等。到60年代,通過(guò)計(jì)算機(jī)程序可以將二維圖像轉(zhuǎn)換成三維結(jié)構(gòu)進(jìn)行分析,從此開(kāi)啟三維場(chǎng)景下計(jì)算機(jī)視覺(jué)研究。到70年代,麻省理工學(xué)的人工智能實(shí)驗(yàn)室院首次開(kāi)開(kāi)設(shè)計(jì)算機(jī)視覺(jué)課程,由著名的Horn教授主講,同實(shí)驗(yàn)室的Marr教授首次提出表示形式(representation)是視覺(jué)研究最重要的問(wèn)題。到80,90年代,計(jì)算機(jī)視覺(jué)迅速發(fā)展,形成感知特征的新理論框架并逐漸應(yīng)用到工業(yè)環(huán)境中。到21世紀(jì),計(jì)算機(jī)視覺(jué)領(lǐng)域呈現(xiàn)許多新的趨勢(shì),計(jì)算機(jī)視覺(jué)與計(jì)算機(jī)圖形學(xué)深度結(jié)合,基于計(jì)算機(jī)視覺(jué)的應(yīng)用也呈爆炸性增長(zhǎng),除了在手機(jī)、電腦上的應(yīng)用,計(jì)算機(jī)視覺(jué)技術(shù)在交通、安防、醫(yī)療、機(jī)器人上有各種各樣形態(tài)的應(yīng)用。
計(jì)算機(jī)視覺(jué)是讓計(jì)算機(jī)獲取圖像到看懂圖像的過(guò)程。圖像處理能力賦予了計(jì)算機(jī)看即獲取的能力,是人工智能的重要輸入。這里主要介紹數(shù)字圖像處理技術(shù),即將圖像信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)再用計(jì)算機(jī)進(jìn)行處理的技術(shù)[2]。圖像處理的目的,是將輸入的低質(zhì)量的圖像轉(zhuǎn)化成高質(zhì)量的圖像輸出,常用的方法有圖像壓縮編碼、圖像變換、圖像描述、圖像增強(qiáng)和復(fù)原。圖像壓縮編碼是減少描述圖像的比特?cái)?shù),以節(jié)省傳輸和存儲(chǔ)消耗。圖像變換旨在減少計(jì)算量,如將空間域的圖像陣列變換成頻域空間去處理。圖像描述(representation)是圖像理解的前提,其作用是挖掘一般或主要信息去描述圖像。圖像增強(qiáng)和復(fù)原主要用于提高圖像質(zhì)量,如去除噪聲,強(qiáng)化高頻信息等。以上圖像處理技技術(shù)主要依賴一些數(shù)學(xué)變換。
模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法賦予計(jì)算機(jī)看懂的能力,是人工智能的核心,更形象的說(shuō)就是讓計(jì)算機(jī)像人的大腦去理解圖像。模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)是讓機(jī)器感知或?qū)W習(xí)的工具或方法,本文不對(duì)它們進(jìn)行區(qū)別,主要幫助讀者理解這些方法是如何幫助計(jì)算機(jī)理解圖像或者視頻的。讓計(jì)算機(jī)看懂的過(guò)程,就是根據(jù)圖像或者視頻數(shù)據(jù)建模的過(guò)程,建模就是用數(shù)學(xué)符號(hào)或者公式推理數(shù)據(jù)之中的一般模式或者規(guī)律,從而可以對(duì)新輸入的數(shù)據(jù)進(jìn)行分類或者回歸,分類就是輸出數(shù)據(jù)的類別,回歸類似與數(shù)學(xué)中的映射函數(shù),輸出數(shù)據(jù)的可能值。
隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)視覺(jué)應(yīng)用在人們的日常生活中、學(xué)術(shù)界和工業(yè)界已屢見(jiàn)不鮮,計(jì)算機(jī)視覺(jué)應(yīng)用呈爆炸式增長(zhǎng),本文重點(diǎn)介紹計(jì)算機(jī)視覺(jué)任務(wù)的三大應(yīng)用,分別是圖像識(shí)別、目標(biāo)檢測(cè)和圖像分割。
圖像識(shí)別又叫圖像分類,就是輸入一張圖片,輸出該圖像的類別,讓計(jì)算機(jī)識(shí)別人、交通信號(hào)燈、動(dòng)物等這些信息,這是廣義上的圖像識(shí)別[3]。在工業(yè)界和學(xué)術(shù)界還有針對(duì)特定目標(biāo)的識(shí)別,比如車牌識(shí)別,在高速公路的ETC口,不需要人工收費(fèi),攝像頭會(huì)識(shí)別你的車牌并收取相應(yīng)的費(fèi)用。另外人臉識(shí)別在日常生活中也得到了廣泛的應(yīng)用,如支付寶的人臉支付等。
計(jì)算機(jī)視覺(jué)任務(wù)中另一個(gè)常見(jiàn)的應(yīng)用是目標(biāo)檢測(cè),其目的是輸出給定圖像中特定目標(biāo)的位置,類別等。由此可見(jiàn),目標(biāo)檢測(cè)是對(duì)目標(biāo)識(shí)別的進(jìn)一步發(fā)展,計(jì)算機(jī)不僅要輸出圖像中目標(biāo)的位置,還要給出目標(biāo)的類別。目標(biāo)檢測(cè)一個(gè)常見(jiàn)的應(yīng)用是行人檢測(cè),比如在一個(gè)交通路口,快速地檢測(cè)出攝像頭中拍到的所有行人,可以估計(jì)人流數(shù),從而對(duì)異常事件進(jìn)行預(yù)警。
與計(jì)算機(jī)視覺(jué)任務(wù)相關(guān)的第三個(gè)任務(wù)是目標(biāo)分割,圖像分割又可分為圖像語(yǔ)義分割和個(gè)體分割。圖像語(yǔ)義分割是將圖像分割成一個(gè)個(gè)獨(dú)立的個(gè)體,每個(gè)個(gè)體具有一定的語(yǔ)義意義[4]。圖像個(gè)體分割是比圖像語(yǔ)義分割更進(jìn)一步的任務(wù),其是圖像語(yǔ)義分割和圖像檢測(cè)的結(jié)合,即不僅要獨(dú)立出所有的物體,還要輸出所有物體的位置。圖像分割是計(jì)算機(jī)解釋圖像的過(guò)程,這類似于人理解圖像,就需要找出圖像中一個(gè)個(gè)的物體,找出物體之間的關(guān)系等。
以上三個(gè)計(jì)算機(jī)視覺(jué)任務(wù)的難度逐漸增加,并逐漸模擬人類理解圖像的過(guò)程。另外,計(jì)算機(jī)視覺(jué)任務(wù)并不局限于上述三個(gè)應(yīng)用,還有許多有用的應(yīng)用,如目標(biāo)跟蹤。
未來(lái)計(jì)算機(jī)視覺(jué)任務(wù)發(fā)展面臨的挑戰(zhàn)主要來(lái)自三個(gè)方面:1)有標(biāo)注的圖像和視頻數(shù)據(jù)較少,機(jī)器在模擬人類智能進(jìn)行認(rèn)知或者感知的過(guò)程中,需要大量有標(biāo)注的圖像或者視頻數(shù)據(jù)指導(dǎo)機(jī)器學(xué)習(xí)其中一般的模式。當(dāng)前,主要依賴人工標(biāo)注海量的圖像視頻數(shù)據(jù),不僅費(fèi)時(shí)費(fèi)力而且沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),可用的有標(biāo)注的數(shù)據(jù)有限,這使機(jī)器的學(xué)習(xí)能力受限;2)計(jì)算機(jī)視覺(jué)技術(shù)的精度有待提高,如在物體檢測(cè)任務(wù)中,當(dāng)前最好的檢測(cè)正確率為66%,這樣的結(jié)果只能應(yīng)用于對(duì)正確率要求不是很高的場(chǎng)景下;3)提高計(jì)算機(jī)視覺(jué)任務(wù)處理的速度迫在眉睫,圖像和視頻信息需要借助高維度的數(shù)據(jù)進(jìn)行表示,這是讓機(jī)器看懂圖像或視頻的基礎(chǔ),這就對(duì)機(jī)器的計(jì)算能力和算法的效率提出很高的要求。
計(jì)算機(jī)視覺(jué)是人工智能的核心,在學(xué)術(shù)界和工業(yè)界有著廣泛的應(yīng)用。本文簡(jiǎn)述計(jì)算機(jī)視覺(jué)的發(fā)展歷程,研究意義,分析計(jì)算機(jī)視覺(jué)的核心技術(shù)和挑戰(zhàn)。讓計(jì)算機(jī)看得懂,看得遠(yuǎn)是未來(lái)視覺(jué)的重中之重,計(jì)算機(jī)視覺(jué)研究任重而道遠(yuǎn)。
[1]塞利斯基艾海舟,興軍亮.計(jì)算機(jī)視覺(jué)#:#算法與應(yīng)用[M].清華大學(xué)出版社,2012.
[2]張波.數(shù)字圖像處理技術(shù)的發(fā)展及應(yīng)用[J].品牌:理論月刊,2011(Z2):158-158.
[3]甄棟志,朱永偉,蘇楠等.基于計(jì)算機(jī)視覺(jué)對(duì)目標(biāo)識(shí)別檢測(cè)的研究[J].機(jī)械工程與自動(dòng)化,2014(1):129-130.
[4]楊雪.基于紋理基元塊的圖像語(yǔ)義分割[D].西南科技大學(xué),2015.