李翔
摘 要:人工智能(AI)已經(jīng)成為一種熱門、一種潮流、一種趨勢,各行業(yè)已經(jīng)形成了“誰掌握AI,誰就掌握未來”的默契。而計(jì)算機(jī)視覺(CV)作為人工智能最有力的表現(xiàn)形式,為人工智能技術(shù)的順利落地開辟了道路。計(jì)算機(jī)視覺已廣泛應(yīng)用于醫(yī)療、安防監(jiān)控、交通、工業(yè)生產(chǎn)、互聯(lián)網(wǎng)、游戲、軍事等各個(gè)領(lǐng)域。在電子商務(wù)領(lǐng)域中,為了提高運(yùn)營效率,提升客戶在線購物的滿意度和體驗(yàn)度,各大電商巨頭們也不斷創(chuàng)新和變革,其中計(jì)算機(jī)視覺技術(shù)發(fā)揮了重要作用。
關(guān)鍵詞:計(jì)算機(jī)視覺;電子商務(wù);人工智能;應(yīng)用
視覺對于人類是必不可少的,同樣視覺對于計(jì)算機(jī)也是不可或缺的。但是知之非艱、行之惟艱,計(jì)算機(jī)視覺的實(shí)現(xiàn)沒有想象中那么簡單,不像人類與生俱來的本領(lǐng),它需要經(jīng)過推理、計(jì)算、建模、學(xué)習(xí)等一系列過程。經(jīng)過五六十年的努力,科學(xué)家們發(fā)揮聰明才智,計(jì)算機(jī)視覺已經(jīng)在圖像識別、分類、檢測、分割、搜索、合成等方面取得了巨大成果。在日常生活中,人們隨處可見計(jì)算機(jī)視覺帶來的便利,比如指紋識別、人臉識別、掃碼支付、車輛識別、美顏照相、醫(yī)療CT和MRI等。同時(shí),在人人網(wǎng)購的當(dāng)代,計(jì)算機(jī)視覺在電子商務(wù)領(lǐng)域的貢獻(xiàn)也是可圈可點(diǎn)。本文針對計(jì)算機(jī)視覺的相關(guān)概念及應(yīng)用展開論述,希望對讀者有所幫助。
一、計(jì)算機(jī)視覺
1.概念
計(jì)算機(jī)視覺,是對生物視覺的一種模擬,是研究讓機(jī)器如何“看”的學(xué)科,是用攝影機(jī)和計(jì)算機(jī)代替人眼對目標(biāo)進(jìn)行跟蹤、識別、分析、處理等,它的目標(biāo)和挑戰(zhàn)是具有人類一樣的視覺來觀察和理解事物。但需要說明的是,計(jì)算機(jī)視覺系統(tǒng)并不一定按照人類視覺系統(tǒng)那樣來處理信息,它會(huì)根據(jù)計(jì)算機(jī)本身的特點(diǎn)來處理,比如圖像感知、圖像預(yù)處理、圖像特征提取、檢測分割等。
2.視覺理論方法的發(fā)展
幫助計(jì)算機(jī)擁有“視覺”,讓它能夠理解圖片、看懂圖片,是艱巨的、富有挑戰(zhàn)性的任務(wù)。計(jì)算機(jī)視覺歷經(jīng)五六十年的不斷更新,其方法理論的發(fā)展也是坎坷不平、好事多妨的。
計(jì)算機(jī)視覺隨著人工智能的誕生而興起,最早要追溯到19世紀(jì)60年代,美國科學(xué)家拉里·羅伯茨(Larry Roberts)提出計(jì)算機(jī)視覺識別模式與生物的識別類似,認(rèn)為邊緣是用來描述物體形狀的最關(guān)鍵信息。20世紀(jì)70年代,出現(xiàn)了計(jì)算機(jī)視覺的代表性人物——英國的戴維·馬爾(David Marr),他提出了計(jì)算機(jī)視覺由計(jì)算理論、表達(dá)和算法、硬件實(shí)現(xiàn)三個(gè)層次組成。馬爾認(rèn)為計(jì)算理論應(yīng)該充分挖掘圖像所蘊(yùn)含的對應(yīng)物理空間的內(nèi)在屬性,運(yùn)用這些屬性來實(shí)現(xiàn)物體的三維表達(dá)。
20世紀(jì)80年代,出現(xiàn)了主動(dòng)視覺理論和定性視覺理論,這些理論認(rèn)為計(jì)算機(jī)視覺應(yīng)該是主動(dòng)的,有目的性的。同時(shí)在這個(gè)時(shí)期,偏重計(jì)算和數(shù)學(xué)的計(jì)算機(jī)視覺方法開始發(fā)展,如圖像金字塔、Canny邊緣檢測、離散馬爾科夫隨機(jī)模型、三維距離數(shù)據(jù)處理等。20世紀(jì)90年代,計(jì)算機(jī)視覺識別、檢測、分割、分類、跟蹤等技術(shù)蓬勃發(fā)展。
到21世紀(jì)初,計(jì)算機(jī)視覺已然是個(gè)大學(xué)科了,比較活躍發(fā)展的有計(jì)算攝影學(xué)、基于特征的識別方法等。2012年開始,隨著ImageNet競賽中卷積神經(jīng)網(wǎng)絡(luò)AlexNet的出現(xiàn),計(jì)算機(jī)視覺進(jìn)入了一個(gè)全新的時(shí)代。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法幾乎占領(lǐng)了計(jì)算機(jī)視覺各個(gè)領(lǐng)域,賦予了該領(lǐng)域無限生機(jī)和可能,特別是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,發(fā)揮了重要作用。
深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,是通過簡單的概念構(gòu)建復(fù)雜的概念。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)經(jīng)典的模型之一,由輸入層、卷積層、激活層、池化層、全連接層、輸出層組成。圖像輸入后,首先經(jīng)過卷積層和激活層進(jìn)行特征提取,然后進(jìn)入池化層進(jìn)行特征統(tǒng)計(jì)和過濾,最后通過全連接層輸出結(jié)果。目前,效果較好的經(jīng)典的視覺卷積神經(jīng)網(wǎng)絡(luò)模型有2012年的AlexNet、2014年的VGGNet和GoogleNet、2015年的ResNet、2017年的SENet等,其中SENet的分類結(jié)果top-5錯(cuò)誤率降低到了2.25%,這些模型的演變和發(fā)展,為計(jì)算機(jī)視覺帶來了全新格局。
二、計(jì)算機(jī)視覺關(guān)鍵任務(wù)和技術(shù)
計(jì)算機(jī)視覺研究分為三個(gè)層次:低層特征研究,以識別和提取內(nèi)容簡單圖像中的性能特征為目標(biāo);中層語義特征表達(dá),除了能夠識別圖像中的對象,還需要分析、區(qū)分圖像中不同區(qū)域的語義信息;高層語義理解,能夠分析和理解復(fù)雜圖像的語義。
目前,計(jì)算機(jī)視覺比較熱門的關(guān)鍵任務(wù)有圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)跟蹤、圖像搜索、圖像美化、三維重建等。
1.圖像分類
圖像分類是計(jì)算機(jī)視覺中最基礎(chǔ)的一個(gè)任務(wù),是通過算法對輸入的圖像進(jìn)行特征提取,然后判斷并將其歸分到已知的一個(gè)類別中。比如一張哈士奇狗的圖片,計(jì)算機(jī)通過算法將其歸到“哈士奇”類別中,而不是藏獒等其它種類狗,也不是其它物體類別。目前大部分圖像分類技術(shù)在ImageNet數(shù)據(jù)集上訓(xùn)練,ImageNet數(shù)據(jù)集有超過1400萬的圖像,包含2萬多個(gè)類別,計(jì)算機(jī)的圖像分類技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)超過了人類。
2.目標(biāo)檢測
目標(biāo)檢測與圖像分類相類似,但有區(qū)別,它們的側(cè)重點(diǎn)不同。圖像分類側(cè)重于圖像的內(nèi)容是什么,而目標(biāo)檢測側(cè)重于圖像中特定的目標(biāo),既要識別是什么又要標(biāo)出目標(biāo)位置,包含了分類和定位兩個(gè)子任務(wù)。比如一張有貓和狗的圖片,通過目標(biāo)檢測算法,可以識別貓?jiān)谀睦铩⒐吩谀睦?。基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)Faster-R-CNN模型,是計(jì)算機(jī)目標(biāo)檢測的經(jīng)典。
3.圖像分割
圖像分割是計(jì)算機(jī)視覺傳統(tǒng)領(lǐng)域,是以像素為單位,根據(jù)顏色和紋理等特性,對每個(gè)像素進(jìn)行分類和劃分,將圖像劃分成不同的子區(qū)域。同樣圖像分割方法也從閾值法、水平集法、GraphCut法等等傳統(tǒng)方法轉(zhuǎn)到了深度學(xué)習(xí)法,較熱門有全卷積神經(jīng)網(wǎng)絡(luò)(FCN)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)等。
4.目標(biāo)跟蹤
目標(biāo)跟蹤,是對視頻或者現(xiàn)實(shí)場景中的對象進(jìn)行檢測和跟蹤,常應(yīng)用于視頻監(jiān)控、無人駕駛等。傳統(tǒng)的目標(biāo)跟蹤算法分為生成算法和判別算法。生成算法針對指定目標(biāo)進(jìn)行跟蹤,而判別算法考慮目標(biāo)和背景的區(qū)分來跟蹤,后者魯棒性更高。目前常用的深度學(xué)習(xí)目標(biāo)跟蹤算法有基于堆棧自編碼器(SAE)的算法、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的算法等。
5.圖像搜索
圖像搜索是一個(gè)比較復(fù)雜的過程,常見的應(yīng)用平臺(tái)有Google、百度等搜索平臺(tái)以及淘寶、京東等在線購物平臺(tái)。傳統(tǒng)的圖像搜索方法是哈希編碼,而將其結(jié)合深度學(xué)習(xí)法,可以讓圖像搜索更高效。
6.圖像美化
生活中常見的各種美顏、濾鏡等功能都屬于計(jì)算機(jī)圖像美化技術(shù),通過計(jì)算機(jī)視覺算法,不僅可以給圖像降噪、對比度增強(qiáng)、超分辨處理、修復(fù)瑕疵等,還可以快速制作各種風(fēng)格化效果。近幾年,基于深度學(xué)習(xí)的人臉?biāo)惴?,可以很快很穩(wěn)定地識別人臉屬性,并可以靈活編輯和轉(zhuǎn)換,諸如此類的美顏APP風(fēng)起云涌。
7.三維重建
三維重建,是運(yùn)用一個(gè)或多個(gè)場景圖片或視頻來重新建立三維模型,該技術(shù)在地圖、電影、游戲等領(lǐng)域應(yīng)用廣泛。
三、計(jì)算機(jī)視覺在電子商務(wù)中的應(yīng)用
我國電子商務(wù)始于20世紀(jì)90年代初,經(jīng)過30年的發(fā)展,隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的不斷更新,它的成長是迅速的,它的變革是巨大的,同時(shí)人們對電子商務(wù)的要求也隨之越來越高。“足不出戶”購物的便利,已經(jīng)不是電子商務(wù)在線購物的唯一要求。在線購物的隨時(shí)隨地性、尋找商品的快速準(zhǔn)確性、商品描述的真實(shí)性、網(wǎng)絡(luò)購物的安全性、快遞物流的高速及時(shí)性等等,都是人們對電子商務(wù)提出的更高要求。為提高消費(fèi)者的在線購物滿意度,計(jì)算機(jī)視覺在電子商務(wù)中的主要貢獻(xiàn)有商品識別與搜索、內(nèi)容監(jiān)管、智能快遞等。
1.商品識別與搜索
商品識別與搜索,即“以圖搜圖”,是計(jì)算機(jī)視覺在電子商務(wù)領(lǐng)域中的重要應(yīng)用。特別是在這移動(dòng)電商的時(shí)代,“以圖搜圖”極大提升了人們的購物效率,同時(shí)也增加了商品的附加值。傳統(tǒng)的商品文字搜索,只能帶人們找到與輸入的文字描述相關(guān)的產(chǎn)品,如果文字描述不準(zhǔn)確或者跟商品設(shè)置的關(guān)鍵詞不匹配,將難以搜到自己想要的商品,即使文字描述準(zhǔn)確且與商品關(guān)鍵詞匹配,也要花一段時(shí)間才有可能找到。而運(yùn)用圖片搜索商品,就顯得方便快捷很多,消費(fèi)者通過移動(dòng)設(shè)備,將想要的商品圖片或者類似款式圖片上傳到網(wǎng)購平臺(tái),平臺(tái)的視覺計(jì)算功能通過提取圖片的顏色、款式、形狀等特征,為用戶快速地找到相同的或相似的商品。另外,“以圖搜圖”也增強(qiáng)了線上線下銷售的聯(lián)系,為消費(fèi)者提供自主購物體驗(yàn)的同時(shí),也促進(jìn)了商家線上線下營銷模式的融合。
2.內(nèi)容監(jiān)管
電商領(lǐng)域的內(nèi)容監(jiān)管是必要的,不僅有利于維護(hù)商家和消費(fèi)者的合法利益,而且有利于保護(hù)電商平臺(tái)的生態(tài)健康。傳統(tǒng)的人工監(jiān)管工作量太大,特別是對于現(xiàn)在大規(guī)模數(shù)量商品和信息,人工監(jiān)管費(fèi)時(shí)費(fèi)力費(fèi)成本。在此,計(jì)算機(jī)視覺的識別、分類、檢測技術(shù)就顯得非常重要、有效了。比如違規(guī)商品監(jiān)管,運(yùn)用視覺算法對易燃易爆品、涉黃低俗品、部分藥品等電商禁止銷售商品進(jìn)行識別、檢測,就像市場監(jiān)督管理員一樣,對線上商品進(jìn)行嚴(yán)格高效摸排,一旦發(fā)現(xiàn)違規(guī)品,可直接下架、扣分、封店等。比如違禁詞、敏感詞監(jiān)管,有些商家會(huì)把無法加入商品標(biāo)題中的違禁詞、敏感詞放到圖片或視頻中,計(jì)算機(jī)視覺的文字識別技術(shù)可以很好地消除商家的僥幸心理。再比如重復(fù)、侵權(quán)圖片監(jiān)管,計(jì)算機(jī)視覺技術(shù)可以對電商平臺(tái)中出現(xiàn)一樣的重復(fù)的圖片進(jìn)行監(jiān)管,可以有效監(jiān)督商家盜圖行為,另外計(jì)算機(jī)視覺中常用的人臉識別技術(shù)可以發(fā)現(xiàn)商家非法使用明星臉做廣告宣傳的圖片,以此有效保護(hù)了名人明星的權(quán)益。
3.智能快遞
快遞和電子商務(wù)雖然不屬于同一行業(yè),但是它們緊密相連。電子商務(wù)從誕生之日起,就需要快遞物流的支持,快遞行業(yè)也隨著電子商務(wù)的興起和發(fā)展而有了新的機(jī)遇。然而,電商在線購物消費(fèi)數(shù)量在日益增長,人們對在線購物體驗(yàn)的要求日益提高,這就需要更高效化、智能化的快遞服務(wù)來支撐。運(yùn)用計(jì)算機(jī)視覺技術(shù),可以快速識別收寄件人信息、快遞面單號等,相比較傳統(tǒng)的手寫面單,現(xiàn)在的電子面單更快更準(zhǔn)確。另外,基于計(jì)算機(jī)視覺的快遞分揀機(jī)器人,可以對快遞包裹進(jìn)行自動(dòng)識別、分類、搬運(yùn)等,大大降低了人力成本和資金成本。
四、總結(jié)
21世紀(jì)是智能化的時(shí)代,各種智能產(chǎn)品和智能服務(wù)正在走進(jìn)人們生活的方方面面,其中計(jì)算機(jī)視覺技術(shù)功高不賞,特別是深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的引入,更是讓其突飛猛進(jìn)。本文介紹了計(jì)算機(jī)視覺的相關(guān)基礎(chǔ)知識,以及在電子商務(wù)領(lǐng)域中的應(yīng)用,希望能幫助讀者了解計(jì)算機(jī)視覺,投入到更深的研究中。
參考文獻(xiàn):
[1]李彥冬.基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺關(guān)鍵技術(shù)研究[D].電子科技大學(xué),2017.
[2]葉韻.深度學(xué)習(xí)與計(jì)算機(jī)視覺:算法原理、框架應(yīng)用與代碼實(shí)現(xiàn)[M].機(jī)械工業(yè)出版社,2017.
[3]西蒙J.D.普林斯.計(jì)算機(jī)視覺模型、學(xué)習(xí)和推理[M].機(jī)械工業(yè)出版社,2019.
[4]Richard Szeliski.計(jì)算機(jī)視覺-算法與應(yīng)用[M].清華大學(xué)出版社,2012.
[5]倪晨旭.計(jì)算機(jī)視覺研究綜述[J].電子世界,2018(01):91,93.
[6]劉哲.論計(jì)算機(jī)視覺技術(shù)[J].數(shù)字化用戶,2019(08):159.
[7]汪亞楠.基于卷積神經(jīng)網(wǎng)絡(luò)的電商圖像識別研究[D].華中科技大學(xué),2018.
[8]馬雪東.基于深度學(xué)習(xí)的電商產(chǎn)品圖像識別系統(tǒng)的研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2017.
[9]盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016(01):1-17.
[10]鄧小桂,黃睿,何金成,蒲海波.人工智能:快遞行業(yè)創(chuàng)新發(fā)展的新路徑[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(11):101-102.
[11]林劍宏.淺析人工智能技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用[J].中國商論,2019(01):19-20.