李必成,張晨曦,季鈺翔,孫錟鋒,丁屹旻,張 偉,謝漢賓,王軍馥,張?jiān)骑w,李雪梅,王小明,楊 剛,①
(1.上海科技館/ 上??萍拣^長三角城市群生態(tài)安全與生物多樣性保護(hù)實(shí)驗(yàn)室,上海 200127;2.上海海洋大學(xué)海洋學(xué)院,上海 201306;3.上海交通大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,上海 200240)
紅外相機(jī)技術(shù)作為一種可靠且易于推廣的生物多樣性監(jiān)測手段,近年來已在全國大部分自然保護(hù)區(qū)廣泛應(yīng)用[1],用于監(jiān)測大中型野生動(dòng)物,特別是哺乳動(dòng)物和鳥類[2-3]。隨著該技術(shù)的大規(guī)模普及應(yīng)用,數(shù)據(jù)存儲、識別和鑒定日益成為亟待解決的主要問題[4]。傳統(tǒng)人工篩選對識別人員的專業(yè)水平有較高要求,雖然專業(yè)人員對一定數(shù)量圖像的鑒定準(zhǔn)確率較高,但隨著工作量的不斷增大,誤判率就可能明顯上升[5]。隨著紅外相機(jī)技術(shù)特別是靈敏度的不斷提高,在野生動(dòng)物活動(dòng)頻繁的地點(diǎn)布設(shè)紅外相機(jī),其年均照片數(shù)量往往數(shù)以萬計(jì)[6],因此,運(yùn)用機(jī)器學(xué)習(xí)等人工智能識別技術(shù)對海量數(shù)據(jù)進(jìn)行快速、準(zhǔn)確分析就顯得尤為迫切。
早在21世紀(jì)初,人工智能識別技術(shù)就已經(jīng)被科學(xué)界提出,并逐步應(yīng)用于包括人臉識別在內(nèi)的多種圖像識別領(lǐng)域[7]。近年來,隨著人工智能技術(shù)應(yīng)用場景不斷多元化,生物多樣性研究與人工智能圖像識別技術(shù)交叉學(xué)科已經(jīng)逐漸成為研究熱點(diǎn)之一[8-10]。宮一男等[4]基于YOLO v3模型深度學(xué)習(xí)識別了東北虎豹國家公園的部分野生動(dòng)物。史春妹等[11]開展了自動(dòng)識別人工飼養(yǎng)繁育的東北虎個(gè)體的研究。謝將劍等[12]基于鳴聲樣本集提出了多特征融合的鳥類物種識別方法。人工智能識別技術(shù)要求一定算力和可訓(xùn)練樣本量,并且對樣本的清晰度和背景的單一化程度具有較高要求。而紅外相機(jī)拍攝的野生動(dòng)物圖像往往由于生境原因背景復(fù)雜,清晰度一般,這給人工智能識別帶來一定挑戰(zhàn)[12]。因此,有關(guān)野生動(dòng)物紅外圖像的準(zhǔn)確率研究一直是亟待解決的問題之一。另外,人工智能圖像識別與人工識別的準(zhǔn)確率、效率比較也是關(guān)系到該技術(shù)能否大規(guī)模推廣應(yīng)用的關(guān)鍵因素[13]。
因此,筆者選擇上海大金山島的獼猴(Macacamulatta)及其野外紅外影像作為研究對象,應(yīng)用YOLO v3模型進(jìn)行訓(xùn)練與測試,探討利用YOLO v3模型識別大量紅外相機(jī)圖像的可行性。同時(shí),對比人工智能圖像識別與人工識別的準(zhǔn)確率與識別效率,找出特定樣本容量條件下識別方式的最優(yōu)解。
實(shí)驗(yàn)數(shù)據(jù)來自2018年上海大金山島紅外相機(jī)拍攝的影像圖片。上海大金山島位于杭州灣東北角,面積為0.22 km2,是上海市海拔最高和面積最大的基巖島,是上海金山三島海洋生態(tài)自然保護(hù)區(qū)的核心區(qū)[14]。由于歷史原因,大金山島分布有一定數(shù)量的獼猴種群[15]。大金山島植被以亞熱帶常綠林為主,人為干擾較少,且是一個(gè)較為封閉的島嶼,是研究野生動(dòng)物種群的理想場所。2018年7—10月,研究團(tuán)隊(duì)利用網(wǎng)格法在大金山島布設(shè)29臺紅外相機(jī),用于獼猴野外監(jiān)測,共獲得紅外影像97 244張,經(jīng)初篩判讀,發(fā)現(xiàn)照片中獼猴和人類(Homosapiens)的影像較多,因此以獼猴和人類分別設(shè)計(jì)模型。
在所有29臺相機(jī)拍攝的影像中隨機(jī)選擇訓(xùn)練集和測試集,共選出2 400張圖片,其中400張作為訓(xùn)練集,另外2 000張作為測試集,照片不區(qū)分晝(RGB)、夜(灰度)圖像。對圖片進(jìn)行統(tǒng)一標(biāo)準(zhǔn)的清洗和人工打框(圖1),將動(dòng)物和人所在區(qū)域用矩形框選,使其盡可能與動(dòng)物或人軀體所在范圍貼合,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),采用深度學(xué)習(xí)算法YOLO v3模型實(shí)現(xiàn)對紅外相機(jī)影像中獼猴和人類的自動(dòng)識別[16]。在對模型進(jìn)行校正的過程中,可在原有訓(xùn)練集基礎(chǔ)上下載其他來源的清晰圖像。
圖1 對圖片進(jìn)行人工打框示意
通過對YOLO v3模型的研究發(fā)現(xiàn),YOLO v3模型有自身算法的“準(zhǔn)確率”,是采用人工智能算法通過模擬計(jì)算出的精確率(精度),是基于測試集計(jì)算出的準(zhǔn)確率[4-5]。而對于測試集之外新的樣本集的準(zhǔn)確率有待檢驗(yàn),因此,該研究采用同一場景下的新樣本集(圖片集)驗(yàn)證模型的準(zhǔn)確率,進(jìn)而探討人工智能識別大量照片的可行性。
1.3.1圖片集選擇
在所有29臺相機(jī)中,部分相機(jī)由于自然及人為原因,拍攝的照片數(shù)量較少(<100張),去除這些相機(jī)的數(shù)據(jù)后,在剩余的相機(jī)中隨機(jī)選擇500張(≤500張的則全部選擇)圖片進(jìn)行人工智能識別與人工識別。
1.3.2人工智能識別圖像
固定專業(yè)人員利用1.2節(jié)中研發(fā)的模型對1.3節(jié)中提及的圖像進(jìn)行人工智能識別,判讀圖像中有無獼猴或人類,記錄人工智能識別所有圖像的總時(shí)長。
1.3.3人工識別圖像
固定專業(yè)人員采用人眼識別方法對1.3節(jié)圖片集中所有圖片進(jìn)行判讀,人眼判別圖像中有無猴或人,判別時(shí)間不做限制,可以對圖像進(jìn)行反復(fù)觀看以保證準(zhǔn)確率,記錄人工識別所有圖像的總時(shí)長。
1.3.4準(zhǔn)確率測定及計(jì)算方法
組織兩名以上的專業(yè)人員對圖片進(jìn)行再次判讀,作為最終專家判讀結(jié)果,并將其與1.3.2和1.3.3節(jié)的識別結(jié)果進(jìn)行比較。人工智能識別和人工識別準(zhǔn)確率的計(jì)算方法:人工智能識別準(zhǔn)確率為人工智能識別與專家判讀結(jié)果一致的照片張數(shù)與總張數(shù)的比值,人工識別準(zhǔn)確率為人工識別與專家判讀結(jié)果一致的照片張數(shù)與總張數(shù)的比值。
對拍攝照片進(jìn)行目視判讀,如相機(jī)拍攝照片中有一半以上的面積為同一植被層次(喬木層、灌木層、地被層)或同一人工生境(道路等),則定義為簡單生境,其他則定義為復(fù)雜生境[17]。
經(jīng)單樣本 Kolmogorov-Smirnov 檢驗(yàn)確認(rèn)數(shù)據(jù)符合正態(tài)分布的情況下,采用配對樣本t檢驗(yàn)分析人工識別準(zhǔn)確率與人工智能識別準(zhǔn)確率的差異。采用Mann-Whitney 檢驗(yàn)分析簡單生境的人工智能識別準(zhǔn)確率與復(fù)雜生境之間是否存在顯著差異[18]。
由于野外固定地點(diǎn)拍攝的照片具有高相似度,且獼猴和人類的姿勢或是側(cè)身,或是在樹林中難以分辨,所以提取有用特征的難度較大,在未加入具有明顯特征的獼猴照片之前,訓(xùn)練出來的模型在測試集上分類的錯(cuò)誤率較高。因此,在原有訓(xùn)練集基礎(chǔ)上挑選164張照片并將其與網(wǎng)上下載的67張照片共同組成231張照片的數(shù)據(jù)集,包含獼猴和人類。在加入下載的照片之后,在前100輪訓(xùn)練中,模型的訓(xùn)練指標(biāo)損失函數(shù)(loss)的下降速率比加入照片前明顯加快,且loss的波動(dòng)幅度較小。該實(shí)驗(yàn)使用的顯卡為單張RTX 3060,顯存為12 GB。以5×10-5的學(xué)習(xí)率開始訓(xùn)練,在經(jīng)過700輪的訓(xùn)練后達(dá)到最優(yōu)解,后續(xù)7 000輪訓(xùn)練中的最優(yōu)解均與之相近,提升微小。在閾值為0.5的情況下,對獼猴識別的精確率為85%,對人類識別的精確率為82.35%,模型的平均精確率(mAP)為83.02%。
在所有29臺相機(jī)中,由于自然及人為原因,有6臺相機(jī)拍攝照片較少(<100張),分析不具備統(tǒng)計(jì)學(xué)意義,因此,僅對23臺相機(jī)中的圖片進(jìn)行人工智能識別與人工識別的比較。最終,23臺相機(jī)中的11 106 張照片進(jìn)入該研究的圖片集(表1)。人工識別共用時(shí)12個(gè)工作日,人工智能識別模型研發(fā)及校正共用時(shí)10個(gè)工作日,識別圖片集共用時(shí)2 h。人工智能識別總準(zhǔn)確率為69.0%,均值為68.2%。人工識別總準(zhǔn)確率為99.0%,均值為99.1%。人工識別準(zhǔn)確率顯著高于人工智能識別準(zhǔn)確率(t=-9.256,df=22,P<0.01)。
表1 人工智能識別與人工識別準(zhǔn)確率比較
圖片背景為簡單生境的相機(jī)共有9個(gè),圖片背景為復(fù)雜生境的相機(jī)共有14個(gè)(圖2)。簡單生境背景的人工智能識別準(zhǔn)確率顯著高于復(fù)雜生境(Z=-2.270,P=0.023)。簡單生境背景的人工識別準(zhǔn)確率與復(fù)雜背景無顯著差異(Z=-0.406,P=0.685)。
圖2 典型的簡單生境與復(fù)雜生境示意
與人工識別相比,人工智能識別誤判率較高,主要是因?yàn)橹脖?、石頭或欄桿等的遮擋對識別對象的圖像完整性造成一定程度的改變,如只有尾巴等較少部位等。這些照片特異性較高,無法形成有效的訓(xùn)練集[19],因此導(dǎo)致誤判率較高。而對于拍攝模糊的對象,由于紅外相機(jī)照片中模糊對象的比例較高[20],容易建立有效的訓(xùn)練集,因此,人工智能對模糊對象的識別準(zhǔn)確率較高。人工智能識別簡單生境中拍攝的照片準(zhǔn)確率高于平均值,這是因?yàn)楹唵紊持信臄z對象大多出現(xiàn)在視野中央并且沒有遮擋物遮擋,在圖片中較明顯。以DJS020為例,其識別準(zhǔn)確率高達(dá)94.0%。該相機(jī)拍攝的背景生境大部分為道路,背景極其簡單,有利于人工智能識別。在復(fù)雜生境背景中,獼猴多出現(xiàn)于視野四周并且大多數(shù)圖片中獼猴被植被等遮擋,出現(xiàn)完整獼猴個(gè)體的比例小,不易被人工智能識別。另外,以DJS016為例,幼猴比例高也可能導(dǎo)致識別準(zhǔn)確率下降。若圖片上出現(xiàn)其他生物,也可能導(dǎo)致人工智能判斷識別錯(cuò)誤。綜上,人工智能識別可用于生境及背景單一的紅外影像,但需謹(jǐn)慎用于識別復(fù)雜的生境背景。另外,人工智能識別還可用于對大量照片的初篩。
由于人具有自動(dòng)檢索分析圖像的能力,更容易對復(fù)雜圖像進(jìn)行快速判斷[21-22]。因此,人工識別更容易識別復(fù)雜的生境背景、不完整的對象和多個(gè)個(gè)體[23]。并且,在上述特殊情況下,人工會更加集中注意力搜尋目標(biāo)[24],而對于簡單目標(biāo)的重復(fù)反而會產(chǎn)生一定程度的視覺疲勞[25]。人工識別可用于識別復(fù)雜生境背景的照片和對人工智能初篩后照片的復(fù)核。筆者研究中,對11 106張照片的人工智能識別總時(shí)間(包含模型訓(xùn)練階段)略少于人工識別時(shí)間,且準(zhǔn)確率顯著低于人工識別。對于萬張級的樣本量,人工智能并未顯示出明顯的時(shí)間優(yōu)勢,人工識別反而具有準(zhǔn)確率優(yōu)勢。因此,人工識別紅外相機(jī)照片的優(yōu)勢在于對一定樣本量的復(fù)雜背景照片的識別準(zhǔn)確率較高,而對大量確定的存在目標(biāo)物種的背景單一照片更易產(chǎn)生視覺疲勞。
人工智能識別紅外影像應(yīng)用的物種主要包括非洲草原象(Loxodontaafricana)、歐亞野豬(Susscrofa)、北美駝鹿(Alcesamericanus)和草原松雞(Tympanuchuscupido)等大型脊椎動(dòng)物[13,26],這些物種往往體型較大,易于拍攝;并且紅外相機(jī)機(jī)位可選擇拍攝背景簡單的空地區(qū)域,便于人工智能識別,筆者研究結(jié)論與之一致。另外,對于獼猴,特別是其面部識別較為深入[5,26],這是因?yàn)楂J猴不僅是野生動(dòng)物,也是實(shí)驗(yàn)動(dòng)物。對于實(shí)驗(yàn)動(dòng)物,采用特寫拍照方式形成的訓(xùn)練集有效樣本量很大,因此準(zhǔn)確率往往可以達(dá)到90%,甚至95%以上[27]。而紅外相機(jī)照片中面部特寫照片少,目標(biāo)各部位(面部、身體、尾部、側(cè)身等)樣本量分布較為平均,這就需要對不同部位照片分別單獨(dú)建立訓(xùn)練集進(jìn)行訓(xùn)練。對于動(dòng)物的人工識別,專業(yè)人員一般比非專業(yè)人士更準(zhǔn)確[28]。專業(yè)人員在看到動(dòng)物整個(gè)身體時(shí)比只看到臉部時(shí)表現(xiàn)出更好的識別能力,在看到動(dòng)物全身圖像時(shí),會花費(fèi)更長時(shí)間觀察面部以外的區(qū)域,因此耗時(shí)較長[28]?;诖?推測隨著各類訓(xùn)練數(shù)據(jù)集的不斷建立與開放應(yīng)用,對于大型脊椎動(dòng)物,特別是一些公眾熟知的明星物種的人工智能識別可能會率先代替人工識別。