"/>
陳 瑋 鐘書華
(華中科技大學(xué)公共管理學(xué)院,武漢430074)
圖像理解技術(shù)可用于軍事目標(biāo)識別、自然災(zāi)害監(jiān)測、土地資源管理、醫(yī)學(xué)圖像輔助診斷、無人自動駕駛等場景中,涉及國防安全、社會治理、醫(yī)療民生、工業(yè)互聯(lián)網(wǎng)等多個核心領(lǐng)域,代表著未來科技發(fā)展方向,是當(dāng)下各國爭奪技術(shù)制高點(diǎn)的重要戰(zhàn)場。2018年,美國商務(wù)部發(fā)布對國家安全至關(guān)重要的特定新興技術(shù)清單,圖像理解技術(shù)作為人工智能與機(jī)器學(xué)習(xí)領(lǐng)域的核心技術(shù)被納入在內(nèi),是美國對中國封鎖的重要出口管制技術(shù)之一[1]。
中國政府十分重視圖像理解技術(shù)的發(fā)展。2017年,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,進(jìn)一步明確加快以圖像理解為代表的計算機(jī)視覺為重點(diǎn)智能技術(shù)發(fā)展;2018年,發(fā)改委發(fā)文《我國將加快打造一批人工智能產(chǎn)業(yè)集群》;2020年3月,工信部辦公廳印發(fā)《中小企業(yè)數(shù)字化賦能專項(xiàng)行動方案》;2020年7月,網(wǎng)信辦等五部門印發(fā)《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》,為人工智能應(yīng)用提供領(lǐng)域技術(shù)支撐。
對相關(guān)文獻(xiàn)進(jìn)行整理與概括,發(fā)現(xiàn)目前全球圖像理解技術(shù)發(fā)展很快,并已取得較多高水平的研究成果。其中,中國、美國、日本、韓國、德國在圖像理解技術(shù)領(lǐng)域發(fā)展水平較高,五國的圖像理解專利申請量位居全球前五,合計占全球總量的87%,代表著圖像理解技術(shù)的研究方向。
本文數(shù)據(jù)來源于德溫特全球?qū)@麛?shù)據(jù)庫(DerwentWorld Patents Index,DII)。清華大學(xué)章毓晉教授在其系列綜述《中國圖像工程》中將圖像理解技術(shù)劃分為五個子技術(shù)——圖像匹配與融合技術(shù)、時空技術(shù)、場景恢復(fù)技術(shù)、圖像感知和解釋技術(shù)、基于內(nèi)容的圖像和視頻檢索技術(shù)[2]。這里以圖像理解技術(shù)及其五種子技術(shù)為關(guān)鍵詞,以“image understanding”“imagematching and fusion”“space-time technology”“scene recovery”“image perception and interpretation”“content-based image and visual information retrieval”等作為關(guān)鍵詞在DII數(shù)據(jù)庫內(nèi)綜合檢索,檢索期限為1963—2019年。經(jīng)過數(shù)據(jù)清洗與整理,發(fā)現(xiàn)專利共7686條。其中,中國、美國、日本、韓國、德國專利數(shù)量共計6664條,超過總量的80%,表明這些國家是圖像理解技術(shù)的研究中心。
專利文獻(xiàn)中包含大量的科技、經(jīng)濟(jì)、法律和戰(zhàn)略信息,是科技創(chuàng)新的重要推動力。本文采取專利計量學(xué)方法,以專利數(shù)量、被引頻次、高被引專利為主要衡量指標(biāo),分析各國在該領(lǐng)域的專利技術(shù)整體特征。進(jìn)一步采用技術(shù)競爭力模型,從技術(shù)影響指數(shù)、專利分享指數(shù)與技術(shù)強(qiáng)度三個指標(biāo)評估中美日韓德技術(shù)競爭力,得出中國在圖像理解領(lǐng)域的國際發(fā)展水平及其發(fā)展瓶頸,為中國圖像理解技術(shù)的發(fā)展提供戰(zhàn)略支持。
作為圖像理解技術(shù)的發(fā)源地,美國掌握著圖像理解領(lǐng)域的核心技術(shù)。1963年麻省理工學(xué)院Roberts成功識別多面體[3],被認(rèn)為是圖像理解技術(shù)的里程碑。1974年哈佛大學(xué)PaulWerbos提出反向傳播算法,后經(jīng)進(jìn)一步發(fā)展,現(xiàn)已成為該研究領(lǐng)域的主要算法[4]。1980年美國庫爾特電子公司率先開展圖像感知和解釋技術(shù)研究,設(shè)計了計算機(jī)化圖像解釋系統(tǒng),以識別圖像中各種對象的延續(xù)、創(chuàng)建、終止和合并條件。1986年麻省理工學(xué)院John Canny提出邊緣檢測算法,準(zhǔn)確地定位了邊緣的位置[5]。1993年,IBM公司開發(fā)了全球第一個基于內(nèi)容的圖像檢索系統(tǒng)QBIC,按顏色、紋理和形狀,實(shí)現(xiàn)通過內(nèi)容查詢圖像,這是基于內(nèi)容的圖像和視頻檢索技術(shù)最早期應(yīng)用[6]。2006年麻省理工學(xué)院Geoffrey E等人提出的卷積神經(jīng)網(wǎng)絡(luò)已成為圖像理解、機(jī)器學(xué)習(xí)等領(lǐng)域的主流算法[7]。2012年,在斯坦福大學(xué)主辦的代表著圖像領(lǐng)域最高水平的ILSVRC競賽上,使用AlexNet模型的Hinton團(tuán)隊(duì)顯著降低了物品分類錯誤率,比以往降低8個百分點(diǎn),引發(fā)學(xué)術(shù)界與產(chǎn)業(yè)界的巨大關(guān)注。2014年,F(xiàn)acebook公司基于Deepface的項(xiàng)目達(dá)到了97%的人臉識別準(zhǔn)確率,降低狀態(tài)誤差27%以上,接近人類辨識水平[8]。2016年,Google公司基于深度學(xué)習(xí)的工作原理開發(fā)了AlphaGo,在圍棋類游戲中以4:1擊敗世界圍棋冠軍李世石,成為第一個戰(zhàn)勝圍棋世界冠軍的人工智能機(jī)器人。2019年美國高通公司在場景恢復(fù)技術(shù)研究領(lǐng)域取得突破,申請了虛擬現(xiàn)實(shí)系統(tǒng)的渲染技術(shù)相關(guān)專利,該技術(shù)基于二維或三維模型創(chuàng)建圖像,從而在顯示屏上準(zhǔn)確高效地生成對象和角色,可在虛擬現(xiàn)實(shí)系統(tǒng)的渲染設(shè)備中執(zhí)行頻率同步和相位校正。由美國圖像理解技術(shù)發(fā)展脈絡(luò)可知,幾乎每次重大的技術(shù)突破均發(fā)生于美國,美國引領(lǐng)著圖像理解技術(shù)的發(fā)展方向。
日本緊隨美國步伐,是全球較早發(fā)展圖像理解技術(shù)的國家之一。1979年,Nobuyuki Otsu提出有名的大津算法,該算法基于直方圖實(shí)現(xiàn)簡單圖像的分割,這是最早期的圖像分割技術(shù)[9]。1980年K Fukushima類比生物視覺皮層原理提出具有網(wǎng)絡(luò)深度學(xué)習(xí)算法的“neocognitron”,這一研究被認(rèn)為是深度學(xué)習(xí)的先驅(qū)[10]。1996年,松下電器產(chǎn)業(yè)株式會社開展圖像匹配與融合技術(shù)研究,申請了“立體圖像匹配方法”專利,用立體攝像機(jī)檢測圖像拾取空間位置信息。1998年,岡山大學(xué)N Kondo將圖像理解視覺理論應(yīng)用到農(nóng)場采摘機(jī)器人中,使用圖像采集卡組成的視覺系統(tǒng)來識別農(nóng)場果實(shí),順利繞過障礙物完成了采摘任務(wù)[11]。2002年,弘前大學(xué)T Takahashi基于凝視和清晰的概念合成圖像,類似于人類視覺系統(tǒng),建立了一種雙目立體視覺三維測量方法[12]。2009年,富士膠片公司根據(jù)圖像匹配與融合技術(shù)設(shè)計了診斷閱讀支持設(shè)備,可在較低處理能力的廉價便攜式終端中實(shí)現(xiàn)平滑顯示醫(yī)學(xué)圖像[13]。2012年,日本電氣股份有限公司開發(fā)了圖像匹配系統(tǒng),以識別和搜索圖像信息中包含的對象。2019年,SECOM公司研制人臉圖像匹配設(shè)備,通過計算檢測對象的相似度以檢測特定人員。通過在學(xué)術(shù)界和產(chǎn)業(yè)界的雙向發(fā)力,日本現(xiàn)已培育一批以三菱電機(jī)、松下電器、富士、佳能為代表的掌握圖像理解核心技術(shù)的企業(yè),在世界范圍內(nèi)具有較高影響力。
相比于美日兩國在圖像理解技術(shù)理論及產(chǎn)業(yè)應(yīng)用的協(xié)同發(fā)展,韓國則更關(guān)注圖像理解技術(shù)在各行業(yè)的應(yīng)用。2005年,韓國農(nóng)機(jī)學(xué)會將計算機(jī)與機(jī)器人互聯(lián),進(jìn)行了采收實(shí)驗(yàn),基于圖像理解技術(shù)原理成功研制了農(nóng)業(yè)采摘機(jī)器人[14]。2007年,PARK S等人利用圖像感知技術(shù)發(fā)明火力發(fā)電廠火災(zāi)傳感器,用于檢測火災(zāi)事故中產(chǎn)生的火焰和紫外線,并提示滅火。2012年,KIM K S將圖像判讀裝置與車輛號碼識別系統(tǒng)連接,開發(fā)了停車控制系統(tǒng)。2016年,首爾大學(xué)YOO B C發(fā)明醫(yī)用掃描器,可提高X射線圖像的判讀精度,從而減少X射線的重拍次數(shù),避免檢查員的疲勞,提高醫(yī)療服務(wù)質(zhì)量。2018年,SRD KOREA設(shè)計了基于圖像傳感的液體型除雪劑噴灑系統(tǒng),適用于冬季各種場所。通過深度挖掘圖像理解技術(shù)在各個場景中的應(yīng)用,韓國企業(yè)在該領(lǐng)域占據(jù)全球重要市場份額,具有較強(qiáng)競爭力。
德國在圖像理解技術(shù)領(lǐng)域的發(fā)展較為成熟。早在1997年,西門子公司即發(fā)明了使用計算機(jī)執(zhí)行圖像處理和圖像解釋的裝置。2002年,Gerber R等人在基于內(nèi)容的視頻檢索技術(shù)上取得突破,使用自然語言量詞生成全面的行為概念描述,主要應(yīng)用于交通和運(yùn)動領(lǐng)域[15]。2005年,西門子公司將在計算機(jī)輸入側(cè)接收的2D數(shù)據(jù)集分配給N維數(shù)據(jù)集,以簡單安全的方式將體內(nèi)檢測到的2D檢測結(jié)果與手術(shù)前檢測的3D檢測結(jié)果進(jìn)行圖像融合,拓展了圖像理解技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用。2008年,F(xiàn)raunhofer Institute引入情感語義分析圖像場景及內(nèi)容中的情感,按照人的認(rèn)知形式理解圖像高層語義[16]。2010年,杜伊斯堡-埃森大學(xué)A Aker提出新的方法建立自然語言標(biāo)注生成系統(tǒng),可將靜態(tài)圖像描述與自然文本語言結(jié)合[17]。2017年,F(xiàn)otoFinder公司發(fā)明了用于評估人體皮膚的全身圖像采集和圖像處理系統(tǒng),可用于早日發(fā)現(xiàn)人體皮膚病變。總體上看,經(jīng)過多年的技術(shù)積累,德國在圖像理解技術(shù)上取得較多突破,尤其是在醫(yī)療和交通領(lǐng)域。
中國在圖像理解技術(shù)上雖起步較晚,但發(fā)展迅猛,近年來逐漸邁入圖像理解研究的第一梯隊(duì)。2007年,南京大學(xué)周志華團(tuán)隊(duì)提出著名的MLKNN算法,并在2009年進(jìn)一步發(fā)展提出BP-MLL算法[18]。2010年,北京郵電大學(xué) Benjamin Z Yao提出了一個圖像解析到文本描述(I2T)框架,該框架基于圖像理解的原理生成圖像和視頻內(nèi)容的文本描述[19]。2015年,中國科學(xué)院自動化研究所提出了MLML學(xué)習(xí)框架,明確區(qū)分了噪聲標(biāo)簽和缺失標(biāo)簽,用于圖像標(biāo)注和人臉面部動作單元識別[20]。2016年,公安部第三研究所選派的“搜神”(Trimps-Soushen)在ILSVRC大賽CLS-LOC項(xiàng)目中獲得冠軍,首次將目標(biāo)定位的錯誤率降至8%以內(nèi)。2018年,西安理工大學(xué)王偉斌提供了一種通過不同照片特征匹配來測量距離信息的方案,完成了復(fù)雜環(huán)境中目標(biāo)輪廓的識別與定位實(shí)驗(yàn)。2019年,北京天達(dá)智能科技有限公司申請了“基于圖像感應(yīng)定位車輛方法”的專利,通過獲取車輛所在道路的圖像并對其進(jìn)行特征識別,實(shí)現(xiàn)了車輛在自動駕駛導(dǎo)航電子地圖中根據(jù)目標(biāo)位置重新定位的功能。同年,騰訊科技(深圳)有限公司開發(fā)了智能模糊群組照片圖像的技術(shù),有效提高了圖像合成速度,提升了圖像融合效果。雖然近些年來中國在圖像理解技術(shù)領(lǐng)域取得較多進(jìn)展,但其研究主體大多集中在高校和科研院所,與產(chǎn)業(yè)脫節(jié)情況較為普遍,能夠充分利用好國內(nèi)圖像理解技術(shù)發(fā)展的企業(yè)較少。
在DII數(shù)據(jù)庫綜合檢索圖像理解及其子技術(shù),對圖像理解技術(shù)專利申請趨勢進(jìn)行統(tǒng)計分析,繪制了圖像理解技術(shù)專利申請數(shù)量趨勢圖(圖1),中美日韓德圖像理解專利數(shù)量對比圖(圖2),中美日韓德圖像理解技術(shù)專利平均被引頻次圖(圖3)。因2000年前圖像理解各技術(shù)分支專利申請量較少,且與計算機(jī)視覺下圖像理解技術(shù)內(nèi)涵有所區(qū)別,故在圖表中省略,不影響分析結(jié)果。
如圖1所示,除基于內(nèi)容的圖像和視頻檢索技術(shù)發(fā)展較為緩慢外,其余四個子技術(shù)均隨著年份呈現(xiàn)波動上升趨勢,說明圖像理解技術(shù)整體處于快速發(fā)展期。其中,圖像匹配與融合技術(shù)發(fā)展態(tài)勢最好,在所有年份中均處于絕對領(lǐng)先地位。一方面是因?yàn)閳D像匹配與融合技術(shù)與圖像技術(shù)的低層、中層操作——圖像處理和圖像分析關(guān)系密切[21],另一方面是由于產(chǎn)業(yè)界對圖像匹配與融合技術(shù)的需求量大,在產(chǎn)業(yè)界的廣泛應(yīng)用反向促進(jìn)了圖像匹配與融合技術(shù)的研發(fā)。
圖1 圖像理解技術(shù)專利申請數(shù)量趨勢Fig.1 Trend of Patent Applications for Image Understanding Technology
基于內(nèi)容的圖像和視頻檢索技術(shù)專利申請量明顯相對較少,其于2005年、2010年出現(xiàn)了專利申請的小高峰,主要得益于數(shù)字圖像存檔自動索引技術(shù)的深入發(fā)展以及在醫(yī)學(xué)領(lǐng)域——炎癥性腸病診斷上的重要進(jìn)展。圖像感知和解釋、場景恢復(fù)、時空技術(shù)發(fā)展趨勢大致保持一致,早期發(fā)展不夠完善,專利申請量較少,近年來逐漸受到研究者的關(guān)注,專利申請量逐年增多。從發(fā)展趨勢來看,以上四個子技術(shù)均處于起步階段,隨著技術(shù)的不斷進(jìn)步及應(yīng)用場景的不斷深化,可預(yù)見在未來將得到爆發(fā)式增長。
圖2為中國、美國、日本、韓國、德國圖像理解技術(shù)專利申請數(shù)量對比圖。中國的圖像理解技術(shù)專利申請數(shù)量排名第一,超過了美國、日本、韓國、德國的專利數(shù)量總和。這主要是因?yàn)橹袊趫D像匹配與融合技術(shù)領(lǐng)域?qū)@暾埩烤薮?,帶動了圖像理解技術(shù)的總體申請量提升。除去圖像匹配與融合技術(shù),中國在其余四個子技術(shù)的申請總量落后于美國,但強(qiáng)于日韓德三國。
圖2 中美日韓德圖像理解技術(shù)專利數(shù)量對比Fig.2 Comparison of Patent Number of Image Understanding Technology among China,the United states,Japan,South Korea and Germany
圖3為五國圖像理解技術(shù)專利平均被引頻次對比圖??傮w上看,美國在圖像理解技術(shù)領(lǐng)域的專利平均被引次數(shù)為7.47,反映出美國的圖像理解技術(shù)專利影響力較高;日本的專利平均被引次數(shù)為4.17,位居第二,德國與中國的專利平均被引次數(shù)相近,分別為2.49和2.14,韓國在五國中排名最后,每篇專利僅有1.55次引用。中國的專利平均被引次數(shù)與技術(shù)發(fā)達(dá)的美國、日本還有較大距離,說明中國圖像理解技術(shù)整體層次較低,技術(shù)影響力較弱。進(jìn)一步分析各個國家的強(qiáng)勢技術(shù),美國圖像理解各子技術(shù)平均被引頻次均排名靠前,其中時空技術(shù)、圖像感知和解釋技術(shù)排名第一,基于內(nèi)容的圖像和視頻檢索技術(shù)也排名靠前,僅落后于日本。值得注意的是,雖然日本、韓國在基于內(nèi)容的圖像和視頻檢索技術(shù)上的專利平均被引次數(shù)較高,但這主要是因?yàn)閮蓢募夹g(shù)申請基數(shù)小。同樣地,德國在圖像匹配與融合技術(shù)的平均被引上占據(jù)優(yōu)勢,但美國在該技術(shù)的專利申請量遠(yuǎn)超德國,且平均被引次數(shù)不低,美國實(shí)際上占據(jù)該技術(shù)龍頭地位。中國缺乏強(qiáng)勢技術(shù),在其申請量最高的圖像匹配與融合技術(shù)方面也落后于美日德三國,進(jìn)一步說明了中國圖像理解技術(shù)發(fā)展質(zhì)量不高。
圖3 中美日韓德圖像理解技術(shù)專利平均被引頻次Fig.3 Average Citation Frequency of China,the United States,Japan,South Korea and Germany Image Understanding Technology Patents
高被引專利是指某時間內(nèi)研究區(qū)域中被引頻次靠前的專利,專利的被引頻次越高,對于該技術(shù)領(lǐng)域的影響力越大[22]。表1為圖像理解各技術(shù)分支被引頻次排名前5的專利,通過高被引專利分析,可以識別出普通專利和關(guān)鍵專利,為進(jìn)一步研發(fā)提供理論和實(shí)踐參考。
由表1可知,圖像理解各技術(shù)分支的高被引專利絕大部分來自美國,這些專利技術(shù)被廣泛借鑒,更具有影響力,代表著該技術(shù)領(lǐng)域的核心創(chuàng)新技術(shù)。在圖像匹配與融合技術(shù)領(lǐng)域,斯坦福大學(xué)研究的“移動場景的實(shí)時結(jié)構(gòu)化光范圍掃描”提出了范圍掃描方法,可在機(jī)器人或車輛上實(shí)現(xiàn)導(dǎo)航功能,已經(jīng)成為實(shí)現(xiàn)人工智能的重要依托技術(shù)。在時空技術(shù)領(lǐng)域,三菱電機(jī)實(shí)驗(yàn)室公司研究的“靜態(tài)和動態(tài)手勢識別系統(tǒng)”,使用出現(xiàn)頻率與空間方位角的一維或二維直方圖來檢測動態(tài)和靜態(tài)手勢,可用于電話會議、監(jiān)視、基于內(nèi)容的多媒體數(shù)據(jù)庫訪問等場景。場景恢復(fù)技術(shù)中,美國衛(wèi)生及公共服務(wù)部申請的“分析醫(yī)學(xué)圖像和檢測解剖結(jié)構(gòu)表面異常的方法”中,利用計算機(jī)模型分析解剖曲面異常,可用于糾正實(shí)操中可能出現(xiàn)的問題。圖像感知和解釋技術(shù)中,馬爾茨格雷戈里研制出一種“單一、視覺控制、無線眼鏡收發(fā)器”的獨(dú)立設(shè)備,該設(shè)備可允許用戶在不顯眼的情況下發(fā)送和接收無線信息(通常是短文本消息)并傳輸靜態(tài)圖像和視頻,利用眼睛跟蹤系統(tǒng)跟蹤用戶眼睛的運(yùn)動和凝視,在一些特殊的場所有重要作用。基于內(nèi)容的圖像和視頻檢索技術(shù)中,賓州研究基金會提出了一種抗攻擊、用戶友好的圖像驗(yàn)證碼系統(tǒng)——基于映像的CAPTCHA生成系統(tǒng),便于用戶安全地輸入驗(yàn)證碼,該項(xiàng)技術(shù)已經(jīng)進(jìn)入市場,在用戶信息安全領(lǐng)域發(fā)揮重要作用。
表1 圖像理解各技術(shù)分支被引頻次排名前5的專利1)Tab.1 Top 5 Patents Cited by Image Understanding Technology Branches1)
高被引專利的分析可以反映技術(shù)競爭格局,也可以反映當(dāng)下圖像理解技術(shù)的研究熱點(diǎn)。從以上分析可以看出,美國掌握著圖像理解領(lǐng)域的核心技術(shù),且美國的技術(shù)研究與人們?nèi)粘I盥?lián)系緊密,有很多專利已經(jīng)轉(zhuǎn)化為市場技術(shù)。中國作為后起之秀,需要在鞏固已有規(guī)模優(yōu)勢的同時,提升技術(shù)質(zhì)量,增強(qiáng)整體實(shí)力。
中國、美國、日本、韓國、德國的技術(shù)規(guī)模不同,技術(shù)質(zhì)量也有差異,不能單以專利申請數(shù)量或?qū)@骄灰l次來評估其技術(shù)競爭力。因此需要綜合考慮專利申請數(shù)量以及專利被引數(shù)量的雙重影響,根據(jù)競爭力評價模型,分析不同國家的技術(shù)影響指數(shù)、專利分享指數(shù)與技術(shù)強(qiáng)度。
引用 Dora Marinova和 Michael McAleer在2002年建立的技術(shù)競爭力評價模型[23],該模型包含以下指標(biāo)體系:
1)當(dāng)前影響指數(shù) CII(Current Impact Index):
2)專利分享指數(shù) PS(Patent Share):
該指標(biāo)用于測算某國家/地區(qū)在某技術(shù)上的全球影響力。
3)技術(shù)強(qiáng)度 TS(Technological Strength):
該指標(biāo)由CII引申而來,該指標(biāo)可用于評估國家/地區(qū)專利組合的實(shí)力。
根據(jù)基礎(chǔ)數(shù)據(jù)可以測算中國、美國、日本、韓國、德國的當(dāng)前影響指數(shù)CII指標(biāo)、專利分享指數(shù)PS指標(biāo)與技術(shù)強(qiáng)度TS指標(biāo),以此進(jìn)行技術(shù)競爭力分析。
表2顯示中國、美國、日本、韓國、德國的CII、PS及TS值,可以看出在圖像匹配與融合技術(shù)領(lǐng)域,中國、美國、日本、韓國、德國技術(shù)強(qiáng)度依次遞減,中國技術(shù)強(qiáng)度排名第一,但這主要得益于中國專利申請量大,Pij指數(shù)高,同時中國的PS指數(shù)大幅領(lǐng)先于其他四國;但在CII指數(shù)上,中國僅有0.75,排在德國(2.73)、美國(1.91)、日本(0.87)后,反映出中國圖像匹配與融合專利技術(shù)多而不強(qiáng)的特征。此外,德國在該技術(shù)領(lǐng)域?qū)@暾埩枯^少,但技術(shù)影響指數(shù)較高,其影響力不可忽視。
表2 中美日韓德的CII、PS及TS值1)Tab.2 CII,PS and TS values of China,the United States,Japan,South Korea and Germany1)
除圖像匹配與融合技術(shù)外的四個子技術(shù),美國的技術(shù)強(qiáng)度均以壓倒性優(yōu)勢排名第一,比其他國家的技術(shù)強(qiáng)度高了一個數(shù)量級。在圖像感知和解釋技術(shù)中,中國與美國的專利申請量接近,專利分享指數(shù)PS值相差不大,但中國影響力指標(biāo)CII與美國差距較大,與之相對應(yīng),技術(shù)強(qiáng)度僅為美國的八分之一。這一問題在時空技術(shù)領(lǐng)域的中美比較中體現(xiàn)更為明顯,中國在該領(lǐng)域的專利分享指數(shù)PS值為0.33,專利申請量大幅領(lǐng)先于德美日韓。但與此同時,技術(shù)影響力指標(biāo)僅有0.4,而美國技術(shù)影響力指數(shù)則有5.34,使得美國在該領(lǐng)域依舊取得壓倒性優(yōu)勢。此外,雖然日韓德三國在以上四個技術(shù)領(lǐng)域的技術(shù)強(qiáng)度落后于美國,但也發(fā)展各自的特色。譬如,日本在場景恢復(fù)技術(shù)領(lǐng)域CII大于期待值1.00,遠(yuǎn)超中韓德三國;韓國的圖像感知和解釋技術(shù)PS值為0.21,相比其他子技術(shù)份額較大;德國在時空技術(shù)上獨(dú)樹一幟,CII與PS值均在上游水平,在五國中具有較強(qiáng)競爭力。
在整個圖像理解技術(shù)領(lǐng)域,中國技術(shù)強(qiáng)度以微弱優(yōu)勢超過美國,排名第一,且中美兩國以較大優(yōu)勢領(lǐng)先于日韓德三國。但中國的優(yōu)勢主要體現(xiàn)在專利申請數(shù)量上,其專利分享指數(shù)PS值已經(jīng)大于0.5,說明中國在圖像理解技術(shù)領(lǐng)域貢獻(xiàn)了50%以上的專利量。從技術(shù)影響指數(shù)CII值上來看,僅美國、日本CII指數(shù)大于期望值1.00,而中韓德三國CII指數(shù)均低于期望值,中國的CII指數(shù)僅為0.63,反映了中國圖像理解技術(shù)對現(xiàn)行專利的影響不足,專利質(zhì)量有待提高。
研究表明,中國在專利申請數(shù)量上遙遙領(lǐng)先,但在專利平均被引頻次上僅有2.14,遠(yuǎn)低于美國和日本的7.47與4.17;各子技術(shù)的高被引專利幾乎全部來源于美國。從技術(shù)強(qiáng)度TS看,中國以微弱優(yōu)勢領(lǐng)先于美國成為第一,其專利分享指數(shù)PS值超過0.5,貢獻(xiàn)了超過50%的專利量;但其技術(shù)影響指數(shù)CII值僅為0.63,低于期待值1.00,遠(yuǎn)低于美國、日本的2.19和1.22。以上結(jié)果體現(xiàn)了中國的圖像理解技術(shù)專利多而不強(qiáng)的特征,在專利質(zhì)量上與美國、日本等強(qiáng)國仍存在較大差距。此外,日韓德三國雖然在整體技術(shù)強(qiáng)度上落后于中美,但也在圖像理解某一子技術(shù)上占據(jù)優(yōu)勢地位。日本在場景恢復(fù)技術(shù)領(lǐng)域CII值大于期待值1.00,遠(yuǎn)超中韓德三國;韓國的圖像感知和解釋技術(shù)PS值為0.21,相比其他子技術(shù)份額較大;德國在時空技術(shù)上獨(dú)樹一幟,CII與PS值均在上游水平,在五國中具有較強(qiáng)競爭力。
可從四個方面推動中國圖像理解技術(shù)的發(fā)展,提升國際競爭力。
1)推進(jìn)圖像理解技術(shù)研究向縱深發(fā)展。積極培育本土的圖像理解技術(shù)領(lǐng)域人才,高校應(yīng)適當(dāng)調(diào)整學(xué)科配置,開設(shè)圖像理解技術(shù)系列課程,為我國提供更多的圖像理解技術(shù)人才儲備,同時大力支持從事圖像理解研究的相關(guān)科研工作者,鼓勵其加強(qiáng)底層基礎(chǔ)理論研究。進(jìn)一步推進(jìn)圖像理解領(lǐng)域的“產(chǎn)-學(xué)-研”合作,由高?;蜓芯吭核峁┤瞬偶案咝录夹g(shù),企業(yè)提供技術(shù)推廣及場景應(yīng)用,同時發(fā)揮高校及企業(yè)的特長,以社會需求為導(dǎo)向強(qiáng)化圖像理解技術(shù)在現(xiàn)實(shí)生活的應(yīng)用,推動中國圖像理解技術(shù)朝高水平、高質(zhì)量領(lǐng)域邁進(jìn)。
2)推動圖像理解技術(shù)領(lǐng)域各子技術(shù)的均衡發(fā)展。一方面,科技部或基金委等相關(guān)部門應(yīng)有意識地引導(dǎo)高?;蜓芯吭核溆嗨膫€圖像理解子技術(shù)方向進(jìn)行課題研究,提升其資助比例,鼓勵科研工作者發(fā)表高水平文章或申請有應(yīng)用前景的發(fā)明專利;另一方面,需深入挖掘各子技術(shù)在市場中的應(yīng)用場景,通過市場的積極反饋不斷敦促技術(shù)進(jìn)步,形成一個新技術(shù)與新市場互為補(bǔ)充相互提升的正循環(huán)。
3)加強(qiáng)圖像理解技術(shù)領(lǐng)域國際合作。密切關(guān)注國內(nèi)外圖像理解技術(shù)領(lǐng)域的發(fā)展態(tài)勢,追蹤該領(lǐng)域重要團(tuán)隊(duì)的研究進(jìn)展,重視關(guān)鍵技術(shù)的突破,鼓勵國內(nèi)科研工作者與國外團(tuán)隊(duì)同臺競技。同時,與技術(shù)發(fā)達(dá)的美國、日本、韓國、德國開展廣泛交流合作,譬如定期舉辦線上或線下的國際學(xué)術(shù)會議,與國外相關(guān)研究機(jī)構(gòu)達(dá)成長期合作關(guān)系,鼓勵國內(nèi)學(xué)生公派到海外進(jìn)行交流等。通過廣泛的國際合作縮短與發(fā)達(dá)國家的技術(shù)差距,進(jìn)而提升中國圖像理解技術(shù)國際競爭力。
4)創(chuàng)新政府服務(wù)體系,營造技術(shù)發(fā)展良好環(huán)境。創(chuàng)新政府服務(wù)體系,為圖像理解領(lǐng)域科技型企業(yè)發(fā)展提供有針對性的高企培育與輔導(dǎo),積極培育壯大圖像技術(shù)全產(chǎn)業(yè)鏈的龍頭企業(yè),包括上游的圖像識別與分析、下游的互聯(lián)網(wǎng)公司等,精準(zhǔn)扶持引導(dǎo)重點(diǎn)企業(yè)的發(fā)展。
致謝 中國圖像圖形學(xué)學(xué)會理事、華中科技大學(xué)電子信息與通信學(xué)院劉文予教授對本文進(jìn)行了專業(yè)技術(shù)審定,謹(jǐn)此致謝!