陳雷,袁媛
1. 中國(guó)科學(xué)院合肥智能機(jī)械研究所,合肥 230031
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
數(shù)據(jù)庫(kù)(集)組成??;小麥病害5個(gè)文件夾,包括小麥白粉病、小麥赤霉病、小麥梭條斑花葉病、小麥雪霉葉枯病、小麥葉銹??;玉米病害4個(gè)文件夾,包括玉米大斑病、玉米南方銹病、玉米小斑病、玉米銹病。每個(gè)文件夾中包含該病害圖像以流水號(hào)命名的原始JPG文件,以及介紹該病害基本信息與防治方法的intro.txt文件。本數(shù)據(jù)集共有高質(zhì)量的jpg圖像17 624張。
近些年來(lái),利用計(jì)算機(jī)視覺(jué)和人工智能等技術(shù)進(jìn)行農(nóng)作物病蟲(chóng)害防治,為農(nóng)作物病蟲(chóng)害的無(wú)損檢測(cè)和智能化診斷提供了新的方式和思路。尤其是2006年Hinton提出深度學(xué)習(xí)以來(lái),在諸多領(lǐng)域尤其是圖像分類(lèi)方面取得了顯著的效果,為進(jìn)一步提高基于計(jì)算機(jī)視覺(jué)技術(shù)的農(nóng)業(yè)病蟲(chóng)害圖像識(shí)別效果提供了新的思路。而深度學(xué)習(xí)方法的效果依賴于大規(guī)模的訓(xùn)練數(shù)據(jù),因此出現(xiàn)了圖像識(shí)別最大數(shù)據(jù)庫(kù)ImageNet、最有影響的人臉圖像數(shù)據(jù)庫(kù)LFW等著名的標(biāo)準(zhǔn)圖像數(shù)據(jù)集。同樣,在農(nóng)業(yè)病蟲(chóng)害圖像識(shí)別領(lǐng)域則是需要大規(guī)模的農(nóng)業(yè)病蟲(chóng)害基礎(chǔ)圖像資源。農(nóng)業(yè)病蟲(chóng)害圖像數(shù)據(jù)庫(kù)的規(guī)模和質(zhì)量在很大程度上決定了病蟲(chóng)害圖像識(shí)別系統(tǒng)的效果。建設(shè)規(guī)模化、標(biāo)準(zhǔn)化、可共享的農(nóng)業(yè)病蟲(chóng)害圖像資源是該領(lǐng)域應(yīng)當(dāng)先行的基礎(chǔ)研究。
目前現(xiàn)有的農(nóng)業(yè)病蟲(chóng)害圖像資源大多是圖譜的形式,如紙質(zhì)出版物的病蟲(chóng)害圖譜包括《中國(guó)蔬菜病蟲(chóng)原色圖譜》[1]《中國(guó)果樹(shù)病蟲(chóng)原色圖譜》[2]《中國(guó)經(jīng)濟(jì)作物、糧食作物、藥用植物病蟲(chóng)害原色圖鑒》[3]等。幾經(jīng)改版,現(xiàn)已成為主流的病蟲(chóng)害圖譜書(shū)籍。本世紀(jì)以來(lái),網(wǎng)絡(luò)版的農(nóng)業(yè)病蟲(chóng)草害數(shù)據(jù)庫(kù)在國(guó)內(nèi)外開(kāi)始出現(xiàn)并應(yīng)用,國(guó)際上最權(quán)威的是國(guó)際農(nóng)業(yè)和生物科學(xué)中心編輯出版的作物保護(hù)大全檢索系統(tǒng)(CABI-CPC, Center of Agriculture and Biological International-Crop Protection Compendium)[4],收錄了世界上150多個(gè)國(guó)家和地區(qū)、3000多種有害昆蟲(chóng)、病害和天敵的信息,部分配有圖片。國(guó)內(nèi)電子版的病蟲(chóng)害圖譜有中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所建立的作物病蟲(chóng)害數(shù)據(jù)庫(kù)、河北科技師范學(xué)院研制的智能蔬菜病蟲(chóng)害診斷與防治專家系統(tǒng)[5]、安徽省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所開(kāi)發(fā)的農(nóng)業(yè)病蟲(chóng)草害圖文基礎(chǔ)數(shù)據(jù)庫(kù)、中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所植物保護(hù)中心開(kāi)發(fā)的藥用植物病蟲(chóng)害數(shù)據(jù)庫(kù)等。以上這類(lèi)圖譜,對(duì)每種病蟲(chóng)害僅給出幾張典型癥狀圖片,主要是以科普介紹和形象對(duì)照應(yīng)用為主,不能作為機(jī)器學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù)集,無(wú)法應(yīng)用于后續(xù)的病蟲(chóng)害圖像計(jì)算機(jī)識(shí)別方法的研究。由于農(nóng)作物品種繁多、地域差別以及學(xué)科交叉等原因,目前我國(guó)還沒(méi)有建立起可供機(jī)器學(xué)習(xí)使用的農(nóng)作物病蟲(chóng)害識(shí)別研究標(biāo)準(zhǔn)圖像數(shù)據(jù)集。
文章作者在有關(guān)項(xiàng)目的支持下,通過(guò)采集、整合數(shù)據(jù),建設(shè)了農(nóng)業(yè)病蟲(chóng)害研究圖庫(kù)(IDADP)。此次公開(kāi)的數(shù)據(jù)集包含大量的水稻、小麥、玉米等作物病害圖像資源,每種病害有幾百乃至上千幅圖片,其原始圖片分辨率達(dá)到2000萬(wàn)像素,建立了一個(gè)可為機(jī)器學(xué)習(xí)建模提供訓(xùn)練和測(cè)試樣本的農(nóng)作物病蟲(chóng)害識(shí)別研究圖像數(shù)據(jù)集。
本研究中圖像采集設(shè)備為Canon EOS 6D型數(shù)碼單反相機(jī),配備佳能EF 17-40mm f/4L USM鏡頭與佳能EF 100mm f/2.8L IS USM微距鏡頭,以及索尼DSC-RX100M3數(shù)碼相機(jī)。拍攝時(shí)采用相機(jī)的最優(yōu)畫(huà)質(zhì)與最大分辨率5472×3648,其中佳能數(shù)碼單反相機(jī)采用原始的RAW格式,其后在計(jì)算機(jī)上使用佳能Digital Photo Professional軟件將RAW文件轉(zhuǎn)化為JPG圖像文件,索尼數(shù)碼相機(jī)直接采用JPG格式進(jìn)行拍攝。拍攝時(shí)采用光圈優(yōu)先模式,調(diào)整適當(dāng)?shù)墓馊κ沟脠D像景深足夠大,以保障被拍攝的作物器官在畫(huà)面中有一定的清晰度。
在采集作物病害圖像時(shí),主要是在露天或大棚的自然光照條件下,拍攝角度使光路盡量垂直于作物器官所在平面,并利用側(cè)面光保證作物器官受光均勻,所拍攝的作物器官占據(jù)畫(huà)面的中央主要位置。
本數(shù)據(jù)集以圖像數(shù)據(jù)庫(kù)的形式進(jìn)行存儲(chǔ)與管理。其中第一層圖像數(shù)據(jù)詞典以 Microsoft SQL Server的數(shù)據(jù)表形式存儲(chǔ),數(shù)據(jù)表的各字段說(shuō)明以示例如表1所示,其中圖像路徑是指向存放在計(jì)算機(jī)硬盤(pán)上的原始圖像文件的索引,作為數(shù)據(jù)庫(kù)的主鍵。此外還有一些圖像數(shù)據(jù)的關(guān)鍵信息,如拍攝時(shí)間、拍攝地點(diǎn)、圖像大小等,已經(jīng)蘊(yùn)含在圖像文件的exif信息中,因此不在數(shù)據(jù)表中重復(fù)表示。本數(shù)據(jù)集結(jié)構(gòu)設(shè)計(jì)較簡(jiǎn)單,便于數(shù)據(jù)集管理人員的日常維護(hù)與農(nóng)業(yè)病害識(shí)別研究人員與農(nóng)技專家等用戶的直接使用。
表1 作物病害圖像數(shù)據(jù)詞典的數(shù)據(jù)表字段與示例
第二層是圖像基礎(chǔ)數(shù)據(jù),保存在計(jì)算機(jī)硬盤(pán)上。本數(shù)據(jù)集按照作物病害名稱建立文件夾,共有15個(gè)文件夾。其中水稻病害6個(gè)文件夾,包括水稻白葉枯病、水稻稻曲病、水稻稻瘟病、水稻胡麻斑病、水稻紋枯病、水稻細(xì)菌性條斑??;小麥病害5個(gè)文件夾,包括小麥白粉病、小麥赤霉病、小麥梭條斑花葉病、小麥雪霉葉枯病、小麥葉銹?。挥衩撞『?個(gè)文件夾,包括玉米大斑病、玉米南方銹病、玉米小斑病、玉米銹病。每個(gè)文件夾中包含該病害圖像以流水號(hào)命名的原始JPG文件,以及介紹該病害基本信息與防治方法的intro.txt文件,每張圖像代表一個(gè)數(shù)據(jù)樣本。例如本數(shù)據(jù)集中水稻白葉枯病有974張圖像,則文件夾“水稻白葉枯病”中含有974張JPG圖像樣本以及1個(gè)介紹水稻白葉枯病基本信息與防治方法的intro.txt文件。本數(shù)據(jù)集中的部分圖像樣本示例如圖1所示。
圖1 大田作物病害識(shí)別研究圖像數(shù)據(jù)集中的樣本示例
本研究中采集的作物病害圖像來(lái)源主要有兩種方式:一種是人工接種,該方式下所拍攝的作物病害圖像完全能夠保障分類(lèi)準(zhǔn)確;另一種方式是拍攝各類(lèi)生產(chǎn)基地的作物病害圖像,并沒(méi)有經(jīng)過(guò)人工接種,病害是自然發(fā)生的,因此所拍攝的病害圖像后期經(jīng)過(guò)植保專家的實(shí)驗(yàn)室分析與鑒定,以保障病害圖像的分類(lèi)準(zhǔn)確。同時(shí),圖像采集工作由從事農(nóng)業(yè)病害圖像識(shí)別研究的專業(yè)技術(shù)人員按照標(biāo)準(zhǔn)操作流程和規(guī)范進(jìn)行,并在后期對(duì)所采集的圖像進(jìn)行人工篩選,將不符合要求的文件剔除,保證本數(shù)據(jù)集中作物病害圖像數(shù)據(jù)來(lái)源的質(zhì)量和可靠性。
本數(shù)據(jù)集與現(xiàn)有作物病蟲(chóng)害圖譜的最主要區(qū)別是本數(shù)據(jù)集中的每種病害圖像具有幾百乃至上千張,可以通過(guò)機(jī)器學(xué)習(xí)方法建立病害識(shí)別相關(guān)的模型,為作物病害圖像研究領(lǐng)域提供基礎(chǔ)數(shù)據(jù)資源。隨著本數(shù)據(jù)集的發(fā)展,今后將建設(shè)成為國(guó)內(nèi)標(biāo)準(zhǔn)的農(nóng)業(yè)病蟲(chóng)害圖像識(shí)別研究數(shù)據(jù)資源,為業(yè)內(nèi)相關(guān)研究人員提供統(tǒng)一的訓(xùn)練集與測(cè)試集數(shù)據(jù),從而使得不同的方法可以在同一數(shù)據(jù)集下進(jìn)行比較,推動(dòng)農(nóng)業(yè)病蟲(chóng)害圖像識(shí)別研究的發(fā)展。
由于作物病害發(fā)生是一個(gè)復(fù)雜的過(guò)程,同種病害在不同品種、不同部位上的表現(xiàn)癥狀也不完全相同,因此使用本數(shù)據(jù)集的圖像數(shù)據(jù)時(shí)可按照具體需求進(jìn)行二次篩選。同時(shí)由于作物病害圖像原始數(shù)據(jù)文件較大,建立在用于機(jī)器學(xué)習(xí)模型訓(xùn)練時(shí)根據(jù)所選取的框架進(jìn)行相應(yīng)的壓縮或裁剪。
本數(shù)據(jù)集中的大田作物病害圖像沒(méi)有對(duì)病害位置進(jìn)行人工標(biāo)記,在構(gòu)建模型時(shí)需要一定數(shù)量的無(wú)病害的作物圖像作為正樣本,所需的正樣本圖像數(shù)據(jù)可前往 IDADP網(wǎng)站下載(http://www.icgroupcas.cn/website_bchtk/index.html),因此正樣本數(shù)據(jù)不單獨(dú)在本數(shù)據(jù)集中提供。
此外,由于數(shù)據(jù)版權(quán)原因,本文中所上傳的圖像數(shù)據(jù)均帶有水印,如需獲取無(wú)水印的原始圖像數(shù)據(jù)需要前往圖庫(kù)網(wǎng)站聯(lián)系數(shù)據(jù)庫(kù)負(fù)責(zé)人,下載并簽署相應(yīng)的使用協(xié)議。
致 謝
感謝安徽省農(nóng)業(yè)科學(xué)院的戚仁德、王士梅、王大剛、張愛(ài)芳、陸麗娟、黃亮、汪濤、董偉和安徽農(nóng)業(yè)大學(xué)金秀提供作物病害圖像拍攝基地,協(xié)助對(duì)作物病害圖像進(jìn)行鑒定與分類(lèi)。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2019年4期