中國(guó)科學(xué)院自動(dòng)化研究所紫東太初多模態(tài)中心常務(wù)副主任,研究員,博士生導(dǎo)師,武漢人工智能研究院院長(zhǎng),中國(guó)科學(xué)院大學(xué)人工智能學(xué)院崗位教授,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟秘書長(zhǎng)。 主要從事多模態(tài)大模型、視頻分析與檢索和大規(guī)模目標(biāo)識(shí)別等方面的研究。 發(fā)表包括IEEE 國(guó)際權(quán)威期刊和頂級(jí)會(huì)議論文300 余篇。 完成國(guó)家標(biāo)準(zhǔn)提案3 項(xiàng),發(fā)明專利36 項(xiàng),國(guó)際視覺(jué)算法競(jìng)賽冠軍10 項(xiàng)。 獲北京市科技進(jìn)步一等獎(jiǎng),吳文俊人工智能科技進(jìn)步二等獎(jiǎng),中國(guó)發(fā)明創(chuàng)新銀獎(jiǎng)。
內(nèi)容導(dǎo)讀
隨著AI 與計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的視覺(jué)識(shí)別在智能交通、遙感測(cè)繪、醫(yī)療健康以及安防監(jiān)控等場(chǎng)景下取得了廣泛的應(yīng)用,極大地促進(jìn)了各行各業(yè)的轉(zhuǎn)型升級(jí)和迭代創(chuàng)新。 然而,現(xiàn)實(shí)世界是一個(gè)未經(jīng)結(jié)構(gòu)化梳理的、長(zhǎng)尾分布的、開放類別的復(fù)雜場(chǎng)景。 在這樣的視覺(jué)環(huán)境下,如何設(shè)計(jì)視覺(jué)感知與理解算法解決AI 落地中的長(zhǎng)尾、噪聲、災(zāi)難遺忘、場(chǎng)景泛化和無(wú)監(jiān)督語(yǔ)義發(fā)現(xiàn)等問(wèn)題,實(shí)現(xiàn)視覺(jué)技術(shù)從“可用”到“好用”,是一個(gè)非常具有挑戰(zhàn)的課題。
當(dāng)前,以云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈和AI 等為代表的新一代信息技術(shù)蓬勃發(fā)展和廣泛滲透,為發(fā)展開放環(huán)境下的視覺(jué)感知與理解技術(shù)帶來(lái)了難得的機(jī)遇。 在此背景下,學(xué)術(shù)界和工業(yè)界的研究人員為了解決下一代智能視覺(jué)系統(tǒng)中的一些關(guān)鍵問(wèn)題,研究開放環(huán)境下的視覺(jué)智能感知與理解的新理論、新方法和新技術(shù),不斷增強(qiáng)視覺(jué)智能感知與理解能力,使其能夠靈活響應(yīng)不同的任務(wù)需求,為實(shí)現(xiàn)全天候、全天時(shí)、全地域快速信息分析理解提供方法支撐。
為集中展現(xiàn)開放環(huán)境下的視覺(jué)感知與理解領(lǐng)域的最新研究成果,《無(wú)線電工程》2023 年第3 期推出“開放環(huán)境下的視覺(jué)感知與理解”專題。 專題采用公開征稿的方式組織稿件,在所有通過(guò)專家評(píng)審的稿件中,最終確定錄用稿件7 篇。 專題主要展示了文本檢索、超分網(wǎng)絡(luò)加速、紅外與可見光單應(yīng)性估計(jì)、路面質(zhì)量分析、銷量預(yù)測(cè)、目標(biāo)檢測(cè)和人體姿態(tài)估計(jì)等領(lǐng)域的研究成果。
在文本檢索方面,李巖等針對(duì)某些場(chǎng)景中文本時(shí)常呈現(xiàn)彎曲、壓縮和拉伸等不規(guī)則形態(tài),文本區(qū)域提取與匹配面臨極大挑戰(zhàn)的問(wèn)題,提出了一個(gè)端到端的網(wǎng)絡(luò)模型,將不規(guī)則文本提取和跨模態(tài)相似度學(xué)習(xí)統(tǒng)一到一個(gè)框架內(nèi),利用學(xué)習(xí)到的相似度對(duì)檢測(cè)的文本實(shí)例排序,從而實(shí)現(xiàn)對(duì)不規(guī)則文本的檢索。
在超分網(wǎng)絡(luò)加速方面,劉智軒等針對(duì)基于分治策略的圖像超分加速問(wèn)題,提出了基于像素級(jí)分治策略的超分網(wǎng)絡(luò)加速方法,為不同像素所對(duì)應(yīng)區(qū)域分配不同規(guī)模的計(jì)算量來(lái)實(shí)現(xiàn)超分過(guò)程,實(shí)現(xiàn)了更加高效的超分加速策略。 同時(shí),提出了一個(gè)聯(lián)合困難像素挖掘的重建損失函數(shù),使網(wǎng)絡(luò)在重建超分辨率圖像的同時(shí),通過(guò)無(wú)監(jiān)督自適應(yīng)的學(xué)習(xí)預(yù)測(cè)出每個(gè)像素的超分難易程度,用于為每個(gè)像素點(diǎn)所在位置的超分分配更加合理的計(jì)算量。
在紅外與可見光單應(yīng)性估計(jì)等方面,羅銀輝等針對(duì)紅外與可見光圖像灰度差異較大、配準(zhǔn)精度低等問(wèn)題,提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的紅外與可見光圖像單應(yīng)性估計(jì)方法,利用淺層特征提取網(wǎng)絡(luò)提取紅外與可見光圖像的精細(xì)特征;將精細(xì)特征進(jìn)行通道級(jí)聯(lián)輸入到生成器中,以預(yù)測(cè)得出單應(yīng)性矩陣;對(duì)單應(yīng)性矩陣變換后的扭曲圖像提取精細(xì)特征,送入判別器進(jìn)行判斷,從而建立一個(gè)對(duì)抗博弈過(guò)程。
在路面質(zhì)量分析方面,孫玉龍等針對(duì)全自動(dòng)化路面質(zhì)量評(píng)估和分析的實(shí)際場(chǎng)景需求,提出了基于大型卷積核模型和自監(jiān)督預(yù)訓(xùn)練的路面質(zhì)量分析方法,采用基于重參數(shù)化大型卷積核的U 型網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)像素級(jí)別的高精度路面病害識(shí)別,并采集了一個(gè)大型的路面病害分割數(shù)據(jù)集。
在銷量預(yù)測(cè)方面,劉雁兵等針對(duì)零售終端卷煙營(yíng)銷的實(shí)際場(chǎng)景需求,提出了基于卷煙陳列識(shí)別和品牌文本表示的銷量預(yù)測(cè)方法。 在樣本選擇階段,建立零售終端運(yùn)行質(zhì)量評(píng)估體系,實(shí)現(xiàn)高質(zhì)量樣本點(diǎn)篩選。
在目標(biāo)檢測(cè)方面,武德彬等針對(duì)SSD 單階段目標(biāo)檢測(cè)算法未充分利用不同特征層之間的語(yǔ)義關(guān)系以及獲取語(yǔ)義信息和位置信息能力不夠好的問(wèn)題,提出了一種多注意力單階段目標(biāo)檢測(cè)改進(jìn)算法,采用并行殘差多尺度特征提取網(wǎng)絡(luò)增強(qiáng)淺層特征層的語(yǔ)義信息和中間層的上下文信息,使用雙重注意力機(jī)制加強(qiáng)對(duì)關(guān)鍵信息的學(xué)習(xí),提高各特征層對(duì)語(yǔ)義信息和空間位置信息的獲取能力。
在人體姿態(tài)估計(jì)方面,周偉等面向無(wú)約束場(chǎng)景的人體姿態(tài)估計(jì)任務(wù)中無(wú)規(guī)則變化的人物服飾、復(fù)雜場(chǎng)景和高靈活度的姿態(tài)等因素導(dǎo)致樣本分布極其復(fù)雜的問(wèn)題,提出了在回歸網(wǎng)絡(luò)中通過(guò)度量學(xué)習(xí)方法來(lái)優(yōu)化高層特征對(duì)人體姿態(tài)的判別性。 同時(shí),為了更好地在人體姿態(tài)估計(jì)的框架下建模該判別學(xué)習(xí)任務(wù),進(jìn)一步提出了基于點(diǎn)特征優(yōu)化的局部樣本關(guān)系模塊。 該方法可對(duì)樣本間的相似度進(jìn)行更合理的建模,從而有效地輔助度量學(xué)習(xí)優(yōu)化人體姿態(tài)估計(jì)算法的性能和泛化能力。
綜上所述,專題所收錄的這7 篇論文,分別針對(duì)特定的研究問(wèn)題,從不同視角,使用不同方法研究了開放環(huán)境下的視覺(jué)感知與理解問(wèn)題,得到了有意義的研究結(jié)論,能夠提供較好的參考作用。 當(dāng)然,視覺(jué)識(shí)別所涵蓋的子領(lǐng)域非常多,這些論文也不能窮盡所有的方面,希望通過(guò)這些論文的刊出,讓更多的專家學(xué)者和研究人員關(guān)注該領(lǐng)域的發(fā)展,從而促進(jìn)產(chǎn)生更多的研究成果。
最后,感謝參與稿件評(píng)審的各位專家學(xué)者的辛勤工作,感謝《無(wú)線電工程》編輯部各位老師的大力支持,衷心希望專題的出版能夠?qū)σ曈X(jué)識(shí)別的研究起到有益的作用。