李沛卓,萬 雪,李盛陽
(中國科學(xué)院大學(xué)中國科學(xué)院空間應(yīng)用工程與技術(shù)中心中國科學(xué)院太空應(yīng)用重點實驗室,北京 100094)
中國空間站核心艙于2021 年4 月29 日成功發(fā)射,其上搭載了10 余個科學(xué)實驗柜,用于開展空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)等11 個方向的科學(xué)實驗。面對海量的數(shù)據(jù),如何快速的自動提取大量數(shù)據(jù)中的目標(biāo),對專業(yè)性較強的空間科學(xué)實驗圖像/視頻自動添加描述性內(nèi)容、對其進行圖像描述,讓科學(xué)家快速定位實驗關(guān)鍵過程、獲取豐富的語義信息,使復(fù)雜的科學(xué)知識與應(yīng)用成果信息以可視化形式進行交互,已經(jīng)成為空間科學(xué)與應(yīng)用數(shù)據(jù)管理以及眾多專家學(xué)者共同關(guān)注的話題。
近年來,隨著人工智能的飛速發(fā)展,深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展。目標(biāo)分割算法通過對興趣區(qū)域進行分類和分割,已經(jīng)成為計算機視覺的重要任務(wù),廣泛應(yīng)用到農(nóng)業(yè)種植[1]、遙感影像處理[2]、自動駕駛[3]等多個領(lǐng)域。按照分割結(jié)果是否具有語義信息,目標(biāo)分割主要分為語義分割,如Mask R-CNN[4]、U-Net[5]等,和非語義分割,如傳統(tǒng)的Ostu[6]、改進的Canny 邊緣檢測[7]、DSS 顯著性檢測[8]等。
計算機學(xué)會了識別物體,為了使計算機能真正看懂圖像,將視覺信息和自然語言相融合,使計算機對圖像進行深層次理解,生成自然語言描述。從圖像中生成視覺內(nèi)容的自然語言描述的任務(wù),就是“圖像描述”[9]。常見的圖像描述算法如Neuraltalk2[10]、“show and tell”[11]、DenseCap[12]等只能處理訓(xùn)練時見過的語料庫里的物體,訓(xùn)練過程非常依賴于圖像和對應(yīng)的描述,模型的輸入均是圖像和描述成對出現(xiàn),在只有圖像和類別的情況下,無法進行遷移學(xué)習(xí)。因此圖像描述一個重要的任務(wù)是如何在保持模型生成句子的能力的同時,僅告訴模型新的類別,來進行遷移學(xué)習(xí)。在此情況下,DCC[13]、NOC[14]、Nocaps[9]等應(yīng)運而生。其中,DCC、NOC 這些模型需要加入新類別重新訓(xùn)練,較為復(fù)雜,且需要強大的計算資源支持。Nocaps 使用自上而下的描述模型[15]、NBT[16]、Constrained Beam Search(CBS)[17]等基準模型,通過將解碼問題轉(zhuǎn)換為具有對應(yīng)于約束滿足轉(zhuǎn)換條件的有限狀態(tài)機,來使語言模型含有稱為約束的特定單詞,然而Nocaps 需要提供每一張圖像中新類別的邊界框等相關(guān)人工標(biāo)注信息,過于依賴人工標(biāo)注。
面對海量的數(shù)據(jù),如何讓科學(xué)家快速定位實驗關(guān)鍵過程,獲取豐富的語義信息,對空間科學(xué)實驗對象進行語義分割只是第一步,屬于低層次感知層面,未考慮各個對象之間的關(guān)聯(lián)。為了讓科學(xué)家快速定位實驗關(guān)鍵過程,獲取更為詳細的實驗過程信息,將語義分割結(jié)果和自然語言相結(jié)合,對空間科學(xué)實驗數(shù)據(jù)進行專業(yè)性的一句話描述,這對于快速提取實驗過程相關(guān)信息、自動理解實驗數(shù)據(jù)數(shù)據(jù)中的內(nèi)容非常重要。同時也為科學(xué)家開展科學(xué)研究提供輔助參考,促進科學(xué)發(fā)現(xiàn)與成果產(chǎn)出。
如何在保持模型具有生成句子的能力下,融入新的空間科學(xué)實驗類別,對空間科學(xué)實驗進行專業(yè)性描述,實現(xiàn)自動化的淺層類別感知到深層場景理解,是本文的主要研究內(nèi)容。
空間科學(xué)實驗圖像描述存在以下難點:(1)空間科學(xué)實驗對象一般尺寸較小,往往會在深層神經(jīng)網(wǎng)絡(luò)中發(fā)生目標(biāo)消失的情況,較難有效地將其檢測出來;(2)空間科學(xué)實驗類別繁多,但總體數(shù)據(jù)樣本較少,沒有大量數(shù)據(jù)積累,深度學(xué)習(xí)所用的大規(guī)模數(shù)據(jù)學(xué)習(xí)方式就不適用;(3)空間科學(xué)實驗場景偏向于科學(xué)性和專業(yè)性,與通用場景差別較大,實驗類別也較為罕見,通用的圖像描述模型并不能準確地對空間科學(xué)實驗數(shù)據(jù)進行圖像描述。
針對以上問題,本文面向空間科學(xué)實驗數(shù)據(jù),構(gòu)建基于多模態(tài)學(xué)習(xí)的空間科學(xué)實驗圖像描述模型,自動化的對空間科學(xué)實驗對象進行語義分割,進而對整張實驗圖像進行描述,實現(xiàn)智能化地從淺層語義感知到深層場景理解。本文的創(chuàng)新點如下:
(1)構(gòu)建空間科學(xué)實驗數(shù)據(jù)集
本文從國際空間站以及天舟一號和天宮二號的公開實驗數(shù)據(jù)中收集數(shù)據(jù),最終標(biāo)注3 016張圖片,包含空間植物實驗、空間細胞組織類實驗、空間燃燒實驗和空間流體實驗四大類。對數(shù)據(jù)分別進行語義掩碼的標(biāo)注和圖像描述的標(biāo)注,每一張圖像均標(biāo)注一張彩色掩碼和3 句不同的英文描述。
(2)提出基于多模態(tài)學(xué)習(xí)的空間科學(xué)實驗圖像描述模型
本文基于改進U-Net 語義分割模型和No?caps 圖像描述算法,融合圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù)。利用語義分割結(jié)果自動化地提取出空間科學(xué)實驗對象的語義和邊界框信息,融合基于語義分割的空間科學(xué)實驗詞匯候選和自下而上的通用場景圖像特征向量提取,在圖像描述過程中,不需要人工標(biāo)注空間科學(xué)實驗對象的位置等信息,實現(xiàn)空間科學(xué)實驗圖像的自動解譯。
圖1 為基于多模態(tài)學(xué)習(xí)的空間科學(xué)實驗圖像描述算法框架圖。它融合了圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù),主要由基于改進U-Net 的空間科學(xué)實驗語義分割、基于語義分割的空間科學(xué)實驗詞匯候選、自下而上的通用場景圖像特征向量提取和空間科學(xué)實驗圖像描述的學(xué)習(xí)四部分構(gòu)成。首先對空間科學(xué)實驗利用改進U-Net 的語義分割模型進行語義分割;利用語義分割結(jié)果對空間科學(xué)實驗?zāi)繕?biāo)進行語義和邊界框提取,得到空間科學(xué)實驗詞匯候選;利用自下而上的注意力機制模型對空間科學(xué)實驗數(shù)據(jù)中的通用場景特征進行提取,得到通用圖像特征向量;將前兩步得到的相關(guān)特征信息輸入到自上而下的描述模型中,并利用CBS 進行詞匯約束,得到最終的描述結(jié)果。
圖1 算法框架圖Fig.1 Framework of the algorithm
對空間科學(xué)實驗的實驗對象進行分割主要是為科學(xué)家用戶提供定制化圖像檢測識別服務(wù),而科學(xué)家用戶通常更關(guān)注自己領(lǐng)域內(nèi)的實驗,需要的是特定實驗對象在地面實驗與空間站實驗的對比,因此分割模型不需要具有良好的普適性。由于空間科學(xué)實驗通常在實驗艙或是實驗柜中進行,實驗對象通常為小目標(biāo),這些小目標(biāo)在經(jīng)過卷積和池化操作后通常會發(fā)生目標(biāo)消失的現(xiàn)象。
針對空間科學(xué)實驗樣本較少和目標(biāo)較小的問題,研究應(yīng)用基于U-Net 的語義分割框架:UNet 是最早針對醫(yī)療影像提出的圖像分割模型,其網(wǎng)絡(luò)結(jié)構(gòu)簡單,適合醫(yī)療影像數(shù)據(jù)量少,圖像語義簡單結(jié)構(gòu)較為固定的特點??臻g科學(xué)實驗數(shù)據(jù)恰好與醫(yī)療影像的數(shù)據(jù)特點類似。因此本文采用基于U-Net 的結(jié)構(gòu)從空間站的圖像/視頻數(shù)據(jù)中學(xué)習(xí)有效的語義特征,以地面數(shù)據(jù)為訓(xùn)練集,對空間站實驗進行測試,實現(xiàn)對空間科學(xué)實驗對象的精準分割。
以U-Net 的U 型結(jié)構(gòu)和跳躍連接結(jié)構(gòu)為基礎(chǔ),如圖2 所示,(a)圖為原始U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖,(b)圖為改進的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖。具體改進如表1 所示,將其輸入層的網(wǎng)絡(luò)大小調(diào)整為256×256,進行6 次上采樣和6 次下采樣,設(shè)置激活函數(shù)為sigmoid 函數(shù),損失函數(shù)為BCEDice 損失函數(shù),使其更適用于空間科學(xué)實驗的語義分割。
圖2 原始U-Net 與改進U-Net 網(wǎng)絡(luò)結(jié)構(gòu)對比圖Fig.2 Comparison of original U-Net and improved U-Net
表1 原始U-Net 和改進U-Net 對比Tab.1 Comparison between original U-Net and advanced U-Net
對空間科學(xué)實驗進行圖像描述,由于實驗的專業(yè)性和科學(xué)性,采用通用模型,并不能準確檢測出空間科學(xué)實驗對象,往往還會進行誤識別。
為了使描述模型在不加人工標(biāo)注的情況下自動識別出空間科學(xué)實驗對象,本文利用2.1 生成的語義分割結(jié)果獲得空間科學(xué)實驗的詞匯候選Ws,包括空間科學(xué)實驗對象的標(biāo)簽信息Ls及位置信息bboxs,以此獲取空間科學(xué)實驗數(shù)據(jù)的專業(yè)性圖像特征。
具體的詞匯候選生成方法為,利用語義分割結(jié)果的掩碼圖像Masks,提取空間科學(xué)實驗對象的邊界區(qū)域,獲得目標(biāo)區(qū)域的左上點坐標(biāo)(x1,y1)和右下點坐標(biāo)(x2,y2),以此確定空間科學(xué)實驗對象的位置信息bboxs(x1,y1,x2,y2)。和語義分割結(jié)果得到的語義標(biāo)簽Ls一起構(gòu)成空間科學(xué)實驗詞匯候選結(jié)果Ws={Ls,bboxs(x1,y1,x2,y2)}。
為了獲取空間科學(xué)實驗中的其他通用場景中的常見特征,如天宮二號擬南芥和水稻生長實驗中的窗口等信息,本文采用UpDown[15]算法中提到的自下而上的注意力機制模型對空間科學(xué)實驗數(shù)據(jù)進行通用場景圖像特征提取。
自下而上的注意力機制、自上而下的注意力機制,這兩種類型的注意力機制存在于人類的視覺系統(tǒng)中。其中,基于自下而上的注意力機制關(guān)注圖像興趣區(qū)域,屬于“硬”注意力機制;而基于自上而下的注意力集中關(guān)注圖像的整體內(nèi)容,利用先驗知識或任務(wù),來創(chuàng)建注意力所應(yīng)在的視覺區(qū)域的標(biāo)準,屬于“軟”注意力機制。因此對于計算機視覺而言,將圖像中顯著區(qū)域提取出圖像特征,就是基于自下而上的注意力模型的首要任務(wù),這一步類似于對圖像進行特征編碼。如圖3所示,(a)為自下而上的注意力模型效果圖,(b)為傳統(tǒng)CNN 模型提取特征效果圖。相對于自下而上的的注意力模型,基于CNN 的模型檢測到了更多的特征,但是這些特征往往是無用的,且需消耗更多的時間和資源,因此本文選擇自下而上的注意力機制對圖像進行特征提取。
圖3 自下而上注意力機制和傳統(tǒng)CNN 特征提取效果圖Fig.3 Bottom-up attention and CNN attention results
UpDown 的自下而上的注意力模型框架采用嵌入ResNet-101 的Faster R-CNN[18]結(jié) 構(gòu),該模型在Visual Genome 圖像語義理解數(shù)據(jù)集中進行訓(xùn)練。Faster R-CNN 是目標(biāo)檢測網(wǎng)絡(luò),它預(yù)先找到圖像中目標(biāo)可能出現(xiàn)的位置,提取候選區(qū)域,并對候選區(qū)域進行分類。主要分為四個步驟:特征提取,區(qū)域提取網(wǎng)絡(luò),目標(biāo)區(qū)池化,目標(biāo)分類。在這個過程中,F(xiàn)aster R-CNN 在框架中有效地起到了“硬”注意力機制的作用,僅從大量的可能中選擇了相對較少的圖像邊界框特征。
通過該模型提取出整張圖像的通用場景特征向量Fg={Lg,bboxg,fg},Lg和bboxg為提取到的通用場景對象的類別和邊界框信息,格式與Ls及bboxs相同,相對于Ws,F(xiàn)g增加了2 048 維的特征向量fg,包含檢測到對象的一些屬性信息,如顏色、材質(zhì)等。
空間科學(xué)實驗描述語句的生成,是基于多模態(tài)學(xué)習(xí)實現(xiàn)的,融合了圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù),從多種模態(tài)的數(shù)據(jù)中學(xué)習(xí)語義特征和。利用2.2 節(jié)的空間科學(xué)實驗語義分割結(jié)果得到的空間科學(xué)實驗的專業(yè)性詞匯候選Ws,與2.3 節(jié)得到的通用場景圖像特征向量Fg一起輸入到自上而下的描述模型中,并利用CBS 進行詞匯約束,進行模態(tài)共享混合遷移,得到跨媒體統(tǒng)一表征,以此來獲取最終的描述結(jié)果。基于自上而下的注意力集中關(guān)注圖像的整體內(nèi)容,利用先驗知識或任務(wù),來創(chuàng)建注意力所應(yīng)在的視覺區(qū)域的標(biāo)準。相對于自下而上的注意力機制,屬于高級感知。
UpDown 中的自上而下的描述模型主要由語言LSTM 和自上而下注意力LSTM 兩部分組成:自上而下的注意力LSTM 用來確定圖像特征的權(quán)重,在描述生成過程中對每個特征進行加權(quán);語言LSTM 的輸入由注意力模型生成的特征加權(quán)和以及當(dāng)前時刻注意力模型的隱藏狀態(tài)組合而成,最終輸出到Softmax 分類器中,得到每一個單詞的概率分布。
為了使描述模型能包含空間科學(xué)實驗的專業(yè)性信息,使用CBS 進行詞匯約束。CBS 使用有限狀態(tài)機FSM 來包含2 個或3 個空間科學(xué)實驗詞匯作為約束,如擬南芥、水稻、液滴等,在解碼后選擇至少包含2 個約束的句子作為最終的專業(yè)性描述。
針對空間科學(xué)實驗圖像描述的任務(wù),本文首先構(gòu)建了空間科學(xué)實驗數(shù)據(jù)集,利用該數(shù)據(jù)集進行語義分割和圖像描述模型,以此解決空間科學(xué)實驗數(shù)據(jù)目標(biāo)較小,樣本較少的問題。
本文從國際空間站、天舟一號和天宮二號的公開實驗數(shù)據(jù)中收集視頻,每隔5 幀進行抽幀處理,得到的相關(guān)類別和圖片數(shù)量如圖4 所示。
圖4 空間科學(xué)實驗圖片類別數(shù)量圖Fig.4 Space science experiment picture categroy quantity chart
經(jīng)過對視頻進行抽幀和篩選,最終確定標(biāo)注數(shù)據(jù)共3 016 張圖片,數(shù)據(jù)標(biāo)注類別為:空間植物實驗(327 張),空間細胞組織類實驗(293 張),空間燃燒實驗(881 張)和空間流體實驗(1 515 張)。其中空間植物實驗為天宮二號擬南芥和水稻生長實驗,國際空間站蕪菁種子生長實驗;空間細胞組織類實驗為空間細胞融合實驗,空間硅藻運動實驗;空間燃燒實驗為零重力火焰燃燒實驗,國際空間站燃燒實驗;空間流體實驗為國際空間站試管流體實驗,空間液滴乒乓實驗和空間液滴游動實驗。標(biāo)注的數(shù)據(jù)集部分展示如圖5 所示。
圖5 空間科學(xué)實驗數(shù)據(jù)集部分數(shù)據(jù)圖Fig.5 Samples of space science experiment dataset
3.1.1 空間科學(xué)實驗數(shù)據(jù)語義分割的標(biāo)注
針對空間科學(xué)實驗所需的目標(biāo)分割任務(wù),按照VOC 數(shù)據(jù)集的標(biāo)注格式,對數(shù)據(jù)分別進行語義掩碼的標(biāo)注,背景為黑色,目標(biāo)掩碼為其他顏色。其中空間植物實驗中,標(biāo)注目標(biāo)為擬南芥,水稻和蕪菁,標(biāo)簽分別為Arabidopsis thaliana,rice,Brassica rapa;空間細胞組織類實驗中,目標(biāo)標(biāo)注為細胞,標(biāo)簽為cell;空間燃燒實驗中,目標(biāo)標(biāo)注為火焰,標(biāo)簽為flame;空間流體實驗中,目標(biāo)標(biāo)注為液滴和氣泡,標(biāo)簽分別為droplet,bub?ble。
部分標(biāo)注結(jié)果如圖6 所示,(a)天宮二號擬南芥和水稻生長實驗中,綠色標(biāo)注為水稻,黃色標(biāo)注為擬南芥;(b)國際空間站試管流體實驗中,深藍色標(biāo)注為液滴,淺藍色標(biāo)注為氣泡。
圖6 空間科學(xué)實驗數(shù)據(jù)集語義分割標(biāo)注示例Fig.6 Samples of semantic segmentation annotations of the dataset
3.1.2 空間科學(xué)實驗數(shù)據(jù)圖像描述的標(biāo)注
針對圖像描述算法,本文對天宮二號擬南芥和水稻生長實驗、零重力火焰燃燒實驗、國際空間站液滴乒乓實驗、國際空間站火焰燃燒實驗進行標(biāo)注,分別記 為T2、ZeroG-Flame、Droplet-Ping-Pong、ISS-Flame。對實驗視頻每隔10 幀進行抽幀處理,分別得到321 幀圖像、54 幀圖像、55幀圖像、77 幀圖像,包含擬南芥(Arabidopsis thaliana)、水稻(rice)、火焰(flame)、液滴(droplet)四種空間科學(xué)實驗對象,相對于包含80 個類別的通用圖像描述數(shù)據(jù)集COCO Captions 來說,也是四種罕見類別。
對每一張圖像進行人工標(biāo)注,分別標(biāo)注三句不同的描述,得到真值數(shù)據(jù)集。如圖7 所示,為天宮二號擬南芥和水稻生長實驗,包含擬南芥和水稻兩種空間科學(xué)實驗對象,因此對應(yīng)的真值標(biāo)注為:“there are rice and Arabidopsis thaliana in the experimental cabinet”,“rice and Arabidopsis thali?ana are growing in the laboratory cabinet”,“rice and Arabidopsis thaliana thrive in the experimental cabinet”。
圖7 天宮二號擬南芥和水稻生長實驗Fig.7 Growth experiment of Arabidopsis thaliana and rice in Tiangong-2
天宮二號擬南芥和水稻生長實驗視頻幀率30 幀/秒,每幀圖像大小296×360,將視頻逐幀轉(zhuǎn)為圖像序列,共計3 270 張圖像。本實驗從天宮二號擬南芥和水稻生長實驗中隨機選取45 張圖像,將對應(yīng)標(biāo)注的45 張實驗真值數(shù)據(jù)作為訓(xùn)練模型的輸入,利用改進U-Net 的語義分割模型進行模型訓(xùn)練,對剩余的圖像序列進行模型測試,得到擬南芥和水稻的分割結(jié)果。
3.2.1 數(shù)據(jù)處理
對標(biāo)注后的45 張掩碼信息,按照4∶1 的方式進行隨機分配,其中36 張作為訓(xùn)練數(shù)據(jù),9 張作為測試數(shù)據(jù)。同時,對訓(xùn)練集內(nèi)的圖像進行擴充處理:對輸入的原始圖像和掩碼進行旋轉(zhuǎn)、翻轉(zhuǎn)、色相、飽和度等調(diào)整,以提高后續(xù)分割的準確度。使用keras 深度學(xué)習(xí)框架進行訓(xùn)練,分別訓(xùn)練擬南芥和水稻兩個語義分割模型,在GPU 為Titan X 12G 顯存的硬件條件下,模型在訓(xùn)練164 個ep?och 時學(xué)習(xí)率下降到0.000 001,訓(xùn)練停止。相應(yīng)的訓(xùn)練過程中,訓(xùn)練損失和驗證損失變化曲線如圖8 所示,(a)圖為訓(xùn)練集loss 變化曲線,(b)圖為驗證集的loss 變化曲線,可以看出損失在平穩(wěn)下降。
圖8 天宮二號擬南芥和水稻生長實驗loss 曲線圖Fig.8 Loss curves of Arabidopsis thaliana and rice growth experiment on Tiangong-2
3.2.2 實驗結(jié)果
本文利用傳統(tǒng)圖像分割算法,Canny 邊緣檢測,對天宮二號擬南芥和水稻生長實驗數(shù)據(jù)進行測試;同時還利用和改進U-Net 相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練參數(shù),基于Mask R-CNN 訓(xùn)練天宮二號擬南芥和水稻生長實驗語義分割模型,對天宮二號擬南芥和水稻實驗數(shù)據(jù)進行測試。如圖9 所示,(a)為Canny 邊緣檢測算法的分割結(jié)果,(b)為訓(xùn)練的基于Mask R-CNN 天宮二號擬南芥和水稻生長實驗語義分割模型對相應(yīng)實驗圖像的分割結(jié)果,(c)為本文提出的基于改進U-Net 的天宮二號擬南芥和水稻生長實驗語義分割模型的對相應(yīng)實驗圖像的分割結(jié)果。
圖9 天宮二號擬南芥和水稻生長實驗語義分割結(jié)果對比Fig.9 Comparisons between segmentation results of be?tween Arabidopsis thaliana and rice growth experi?ment in Tiangong-2
通過對比實驗結(jié)果可以看出,傳統(tǒng)的分割方法不能將背景信息和所需目標(biāo)進行分離,檢測結(jié)果中包含大量背景信息,并不能分割出所需目標(biāo);Mask R-CNN 只能在部分場景中識別出擬南芥,且對水稻的邊緣信息處理結(jié)果較差,只能檢測出水稻的大概位置;本課題提出的算法可以很好地識別出水稻和擬南芥,并對其邊緣信息進行了較好地處理。
3.2.3 精度評定
使用剩余實驗圖像序列中標(biāo)注的62 張真值結(jié)果,對Mask R-CNN 和改進U-Net 的天宮二號擬南芥和水稻生長實驗結(jié)果分別進行精度評定,采用DAVIS[19]數(shù)據(jù)集提出的評價指標(biāo):區(qū)域分割相似度J,輪廓相似度F。為了測量基于區(qū)域的分割相似度,即錯誤像素的數(shù)量,使用區(qū)域相似度J,J 定義為估計分割和真值掩膜之間的IoU(Intersection over Union):
其中:M為測試后的輸出分割結(jié)果,G為預(yù)先標(biāo)注的真值掩膜,M和G均表示為二值圖像中的白色區(qū)域。計算M和G重合區(qū)域的面積,也就是像素個數(shù),記作M交G;計算M和G相并區(qū)域的面積,記作M 并G。
從基于輪廓的角度來看,可以將M 解釋為一組限定掩??臻g范圍的閉合輪廓c(M)。因此,通過一個二分圖匹配以提高對小誤差的魯棒性,可以比較c(M)和c(G)的邊緣點計算基于輪廓的精度PC和召回RC。PC為M 中為真實分割結(jié)果的像素的比例,RC為G中被模型檢測為分割結(jié)果的像素的比例。輪廓相似度F 可以取得精度和召回之間較好的權(quán)衡,定義為:
精度評定結(jié)果如表2 所示。其中:下標(biāo)M表示均值精度mean;O表示召回recall,測量得分高于閾值0.5 的序列的分數(shù);D表示衰減decay,主要衡量隨時間變化的損失或增益。
表2 天宮二號擬南芥和水稻生長實驗語義分割算法精度評定對比表Tab.2 Comparison table for evaluation of semantic seg?mentation algorithm in Tiangong-2 Arabidopsis thaliana and rice growth experiment
精度評定結(jié)果如表2 所示。從精度評定結(jié)果中可以看出,相對于Mask R-CNN,本課題提出的算法在輪廓相似度和區(qū)域相似度方面得到了40%~70%的提升,分割效果更加精確。
3.3.1 數(shù)據(jù)處理
利用語義分割結(jié)果進行空間科學(xué)實驗詞匯候選,過程如圖10 所示,圖(a)為天宮二號擬南芥和水稻生長實驗,圖(b)為本文提出的基于改進U-Net 的語義分割算法得到的相應(yīng)語義分割結(jié)果。利用語義分割結(jié)果,提取空間科學(xué)實驗?zāi)繕?biāo)(擬南芥和水稻)對應(yīng)的類別標(biāo)簽和位置信息,生成json 文件輸入給圖像描述模型,提取效果圖如(c)所示,為類別和位置信息提取結(jié)果。
圖10 天宮二號擬南芥和水稻生長實驗詞匯候選提取Fig.10 Vocabulary candidate extraction for Tiangong-2 Arabidopsis thaliana and rice growth experiment
3.3.2 實驗結(jié)果
基于多模態(tài)學(xué)習(xí)的空間科學(xué)實驗圖像描述算法,分別對天宮二號擬南芥和水稻生長實驗、零重力火焰燃燒實驗、國際空間站液滴乒乓實驗、國際空間站火焰燃燒實驗進行圖像描述,對比Neuraltalk2 的相應(yīng)的描述結(jié)果如圖11所示。
圖11 本文提出的圖像描述算法和Neuraltalk2 在空間科學(xué)實驗場景的結(jié)果對比Fig.11 Comparison of image caption between Neural?talk2 and this paper in space science experiment
通過對比結(jié)果可以看出,本文采用的基于多模態(tài)的空間科學(xué)實驗圖像描述算法可以識別出擬南芥、水稻、火焰、液滴等專業(yè)性科學(xué)實驗詞匯和特征,并將其和自然語言進行結(jié)合,實現(xiàn)對空間科學(xué)實驗的專業(yè)性描述。
空間液滴游動實驗的前后變化描述結(jié)果如圖12 所示,上圖的液滴為藍色,中圖中航天員對液滴進行染色后為綠色,下圖為航天員離開后只有綠色液滴特寫的場景??臻g科學(xué)實驗圖像描述模型可以檢測出視頻前后,宇航員以及液滴顏色的變化,從而實現(xiàn)了對空間科學(xué)實驗的圖像描述。
圖12 本文算法和Neuraltalk2 在空間液滴游動實驗的圖像描述結(jié)果對比Fig.12 Comparison results of image caption between this paper and Neuraltalk2 in space droplet experi?ment
3.3.3 精度評定
自然語言處理中常用的Bleu[20]的評價標(biāo)準過于依賴真值,對每一個單詞及其位置進行評判,而真值的標(biāo)定具有很大的人為主觀因素。在這種情況下,算法生成的描述很大程度上所表達的意思是正確的,然而因為用詞及表述方式與真值不一致則會導(dǎo)致其評定出的精度非常低。因此,對實驗結(jié)果進行精度評定,采用METEOR[21]和SIPCE[22]評價指標(biāo)。
METEOR 全稱為Metric for Evaluation of Translation with Explicit Ordering,通過計算算法描述和真值之間的召回率和準確率的調(diào)和平均,解決了Bleu 中的一些問題。使用了WordNet 等進行同義詞擴充處理;考慮了詞性的變化,引入了句子連續(xù)性的考慮。
SPICE 使用基于圖的語義表示(場景圖)來評估算法描述的質(zhì)量,它通過依賴關(guān)系解析樹對算法描述和真值之間建立語義場景圖,對存在的對象、屬性和關(guān)系進行顯示編碼,提取描述中的大部分詞匯和語法特征。
本文利用METEOR 和SPICE 對天宮二號擬南芥和水稻生長實驗、零重力火焰燃燒實驗、國際空間站液滴乒乓實驗、國際空間站火焰燃燒實驗進行圖像描述,分別記為T2、ZeroGFlame、Droplet-Ping-Pong、ISS-Flame。對實驗視頻每隔10 幀進行抽幀處理,分別得到321 幀圖像、54 幀圖像、55 幀圖像、77 幀圖像,對每一幀圖像進行人工標(biāo)注,分別標(biāo)注三句不同的描述,得到真值數(shù)據(jù)集。相應(yīng)的精度評定結(jié)果如表3 所示。
表3 本文提出算法和Neuraltalk2 的精度評定結(jié)果Tab.3 Evaluation results of this paper and Neuraltalk2
通過表3 可以看出,只有在Droplet-Ping-Pong 實驗中,本文提出的算法在METEOR 指標(biāo)中略低于經(jīng)典圖像描述算法Neuraltalk2,其他實驗中均高于Neuraltalk2。本文提出算法的ME?TEOR 結(jié)果平均為0.176 3,SPICE 結(jié)果平均為0.214,相對于Neuraltalk2 分別提升了0.088 5 和0.173 5,表明該算法可以對空間科學(xué)實驗在句子連續(xù)性、準確性、專業(yè)性方面均有明顯提升。
針對空間科學(xué)實驗小樣本和小目標(biāo)的問題,構(gòu)建空間科學(xué)實驗數(shù)據(jù)集,并提出了基于多模態(tài)學(xué)習(xí)的空間科學(xué)實驗圖像描述算法,然后詳細介紹了該算法的流程,并進行了實驗驗證和精度評定。實驗結(jié)果證明:天宮二號擬南芥和水稻生長實驗中,擬南芥的語義分割結(jié)果的區(qū)域相似度為0.882 2,輪廓相似度為0.966 4,水稻的語義分割結(jié)果的區(qū)域相似度為0.663 9,輪廓相似度為0.927 2;空間科學(xué)實驗的圖像描述METEOR 結(jié)果平均為0.176 3,SPICE 結(jié)果平均為0.214,相對于經(jīng)典的Neuraltalk2 算法分別提升了0.088 5和0.173 5,可以對空間科學(xué)實驗進行專業(yè)性科學(xué)性的描述。實現(xiàn)了從低層次感知到深層場景理解的能力,智能化自動解譯空間科學(xué)實驗的場景。然而,空間科學(xué)實驗數(shù)據(jù)圖像描述目前是對單張圖像進行圖像描述,缺乏對場景的連續(xù)性和變化性的感知。因此,后續(xù)的研究中考慮對視頻進行描述,重點關(guān)注實驗?zāi)繕?biāo)的生長、運動等變化趨勢,以此來感知整個實驗過程,以實現(xiàn)對整個實驗過程的理解。