董小龍,胡修棉*,賴文
1.南京大學(xué)地球科學(xué)與工程學(xué)院,南京 210023
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
數(shù)據(jù)庫(kù)(集)名稱 雅魯藏布江砂粒顯微圖像數(shù)據(jù)集數(shù)據(jù)作者 董小龍,胡修棉,賴文數(shù)據(jù)通信作者 胡修棉(huxm@nju.edu.cn)數(shù)據(jù)時(shí)間范圍 河流砂樣品采集的時(shí)間為2016年6月;河流砂薄片偏光顯微照片拍攝于2019年。地理區(qū)域 樣品采自中國(guó)西藏自治區(qū)日喀則地區(qū)雅魯藏布江干流;GPS坐標(biāo)為:29°19′13.5″N,88°51′28.4″E。偏光顯微鏡分辨率 4908×3264像素?cái)?shù)據(jù)量 10.3 GB數(shù)據(jù)格式 *.jpg,*.xls,*.xml數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 https://dx.doi.org/10.11922/sciencedb.j00001.00035基金項(xiàng)目 第二次青藏高原科學(xué)考察研究項(xiàng)目(STEP,2019QZKK0204)數(shù)據(jù)庫(kù)(集)組成數(shù)據(jù)集共包括3個(gè)數(shù)據(jù)文件,它們分別為:碎屑單顆粒標(biāo)記圖片集data.zip、標(biāo)記底圖.zip、砂粒信息表.zip。其中:(1) data是標(biāo)記的圖像坐標(biāo)文件(xml格式)和原始薄片偏光顯微照片(jpg格式),共1876張照片,數(shù)據(jù)量9.49 GB;(2)標(biāo)記底圖是標(biāo)記的顆粒的編號(hào)及其對(duì)應(yīng)的顯微照片拍照視域,共120張照片,數(shù)據(jù)量911 MB;(3) 砂粒信息表是標(biāo)記的砂粒的類型,共2份,數(shù)據(jù)量162 KB。
砂或砂巖中碎屑顆粒的組分和含量是判定碎屑物源的重要依據(jù)。要獲得碎屑顆粒的組分和含量,傳統(tǒng)工作需要將砂或砂巖磨制成標(biāo)準(zhǔn)薄片,在偏光顯微鏡下采用Gazzi-Dickinson方法統(tǒng)計(jì)約400個(gè)顆粒[1]。然而,這種靠人眼在顯微鏡下逐顆粒識(shí)別統(tǒng)計(jì)的方法不僅所耗時(shí)間長(zhǎng),勞動(dòng)強(qiáng)度大,而且受人的主觀認(rèn)識(shí)和經(jīng)驗(yàn)的影響,所得到的統(tǒng)計(jì)數(shù)據(jù)的對(duì)比性較差。如何能把地質(zhì)工作者從繁瑣耗時(shí)的碎屑統(tǒng)計(jì)中解脫出來(lái),從而提高工作效率,是一個(gè)亟待解決的問(wèn)題。
近年來(lái),使用機(jī)器學(xué)習(xí)技術(shù)的計(jì)算機(jī)輔助方法已應(yīng)用于煤巖組分的自動(dòng)鑒定[2],礦石礦物的自動(dòng)鑒定[3]和重礦物的自動(dòng)識(shí)別[4],這不僅可以減少地質(zhì)學(xué)家的工作量,并且可以提高鑒定的準(zhǔn)確性,實(shí)現(xiàn)不同實(shí)驗(yàn)室的數(shù)據(jù)對(duì)比?;跈C(jī)器學(xué)習(xí)算法的地質(zhì)圖像分類方法首先通過(guò)提取地質(zhì)圖像特征,如顏色、解理、結(jié)構(gòu)和形狀等信息,在特征空間中構(gòu)建對(duì)地質(zhì)圖像的特征表示。然后使用機(jī)器學(xué)習(xí)算法學(xué)習(xí)不同類別特征間的差異,構(gòu)建特征分類器,從而實(shí)現(xiàn)基于顯微圖像的碎屑顆粒自動(dòng)鑒定和分類統(tǒng)計(jì)。
基于顯微圖像的碎屑組分自動(dòng)鑒定技術(shù),前期需要大量的由專業(yè)地質(zhì)人員所標(biāo)記的圖像數(shù)據(jù)集作為機(jī)器學(xué)習(xí)的樣本。然而,該類型的數(shù)據(jù)現(xiàn)在還處于空白,有許多想要利用已標(biāo)記好的碎屑顆粒圖像數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)的計(jì)算機(jī)工作者苦于找不到公開(kāi)發(fā)表的數(shù)據(jù)基礎(chǔ)。基于數(shù)據(jù)共享,公開(kāi)利用的原則,筆者將前期耗費(fèi)大量時(shí)間和精力所拍照并逐一標(biāo)記的顯微圖像數(shù)據(jù)集進(jìn)行整理,并與大家共享。
選取2016年6月采集于雅魯藏布江干流心灘河流砂樣品16A063(圖1),采樣標(biāo)準(zhǔn)參考[5-8],采集砂樣約2公斤,分成2份分別編號(hào)16A063-1和16A063-2。16A063-1用2000 μm和63 μm的篩網(wǎng)濕篩得到粒徑在63-2000 μm的砂樣,16A063-2用500μm和63μm的篩網(wǎng)濕篩得到粒徑在63-500 μm的砂樣。然后用分樣器多次均分樣品,最終得到約5 g砂樣,前后分兩批送往河北省廊坊誠(chéng)信地質(zhì)服務(wù)有限公司進(jìn)行標(biāo)準(zhǔn)薄片磨制,獲得厚度為0.03 mm的標(biāo)準(zhǔn)光學(xué)薄片,其中薄片16A063-1顆粒膠結(jié)物為藍(lán)色環(huán)氧樹(shù)脂,薄片16A063-2顆粒膠結(jié)物為無(wú)色環(huán)氧樹(shù)脂。
拍攝顯微圖像時(shí),先在薄片上畫出一定的矩形區(qū)域,以去掉邊緣不均勻的部分。然后在標(biāo)準(zhǔn)偏光顯微鏡下(顯微鏡型號(hào)Nikon ECLIPSE LV 100POL,目鏡10倍)進(jìn)行底圖拍照,同時(shí)拍攝單偏光和正交偏光照片。拍照時(shí)有小部分重疊以便能完整拼接。根據(jù)砂粒大小,薄片16A063-1選用2.5倍物鏡進(jìn)行底圖拍攝,選用10倍物鏡進(jìn)行單顆粒圖像拍照。薄片16A063-2選用5倍物鏡進(jìn)行底圖拍攝,選用20倍物鏡逐一拍攝單顆粒圖像。薄片拍照和信息采集方法統(tǒng)一按《巖石顯微圖像專題》的標(biāo)準(zhǔn)執(zhí)行[9],系統(tǒng)采集了砂薄片顯微圖像。采集的每張單顆粒圖像視域均在底圖上框出,以便能快速找到每張顯微照片的位置。采集完偏光顯微圖像后,按照劃分的17種顆粒類型進(jìn)行逐顆粒鑒定,將鑒定的結(jié)果在底圖上標(biāo)出,用折線將標(biāo)記的顆粒相連,折線中每個(gè)拐點(diǎn)所在的位置代表一個(gè)顆粒,按照順序以間距為10進(jìn)行編號(hào),同時(shí)在Excel表中對(duì)每個(gè)顆粒進(jìn)行編號(hào),以方便后期顆粒標(biāo)記(圖2)。將拍攝的單顆粒圖像文件用專業(yè)標(biāo)記軟件LabelImg打開(kāi)并對(duì)每張圖片上的每一個(gè)顆粒進(jìn)行標(biāo)記,得到樣本的標(biāo)記數(shù)據(jù)集。LabelImg是一款開(kāi)源的標(biāo)注工具,使用版本為windows_v1.5.0(下載網(wǎng)址:http://tzutalin.github.io/labelImg/)。
圖1 樣品位置圖(改自[10])
圖2 砂粒顯微圖像拍照編號(hào)流程圖
本數(shù)據(jù)集由3部分組成,分別為data文件夾、標(biāo)記底圖文件夾和砂粒信息表文件夾。共包含不同類別的砂粒8734顆,砂薄片顯微圖像1996張,其中單顆顯微圖像1876張,標(biāo)記底圖照片120張。粒砂粒按照6大類17小類進(jìn)行分類(表1),分類標(biāo)準(zhǔn)參考[1],對(duì)于石英僅區(qū)分單晶石英和多晶石英,長(zhǎng)石區(qū)分斜長(zhǎng)石和鉀長(zhǎng)石,本數(shù)據(jù)集未再進(jìn)行細(xì)分。不同類型的砂粒數(shù)量見(jiàn)表2。
表1 砂粒分類及縮寫表
表2 薄片16A063-1和16A063-2顆粒數(shù)量和顯微圖片數(shù)量統(tǒng)計(jì)表(顆??s寫見(jiàn)表1)
總數(shù) 45 7 120 107 2 2 702 8734 1876備注16A063-1 其他=重礦物(187)+不透明礦物(7)+無(wú)法識(shí)別礦物(2)16A063-2 其他=重礦物(338)+不透明礦物(163)+無(wú)法識(shí)別礦物(5)
全部數(shù)據(jù)集信息保存為data壓縮文件。data文件中包含:image文件夾,annotation文件夾和類別注釋 predefined classes文件。annotation文件夾包含與 image文件夾中圖片一一對(duì)應(yīng)的標(biāo)注文件(圖3)。這樣的文件組織格式方便計(jì)算機(jī)進(jìn)行讀取。
圖3 顯微圖像數(shù)據(jù)組成圖
圖像標(biāo)注工作使用LabelImg軟件完成,在LabelImg軟件中打開(kāi)砂粒圖像,手動(dòng)標(biāo)注顆粒位置及類別。由于單偏光圖像與正交偏光圖像顆粒位置一一對(duì)應(yīng),故僅需對(duì)單偏光圖像進(jìn)行標(biāo)記。計(jì)算機(jī)可以根據(jù)單偏光標(biāo)記的位置坐標(biāo)自動(dòng)提取正交偏光顯微照片的顆粒位置。標(biāo)記信息以xml格式保存在 annotation文件中。annotation文件中的每個(gè)顆粒標(biāo)記坐標(biāo)文件可用軟件 Notepad++,版本為windows_v7.8.8(下載地址:https://notepad-plus-plus.org/downloads/v7.8.8/)打開(kāi)。標(biāo)記的圖片位置用LabelImg打開(kāi)時(shí),需要將圖片文件夾名稱與標(biāo)記保存的xml文件夾名稱對(duì)應(yīng)(圖4A兩個(gè)紅色方框位置),才能顯示標(biāo)記位置。
砂粒照片數(shù)據(jù)集image文件夾共包含1876張單顆粒偏光顯微照片組成,每一個(gè)單顆粒視域都包含單偏光顯微照片和正交偏光顯微照片各一張,顯微照片編號(hào)樣式為“a1-”和“a1+”,“a1”為對(duì)應(yīng)底圖拍照視域的位置,“-”表示單偏光照片,“+”表示正交偏光照片(圖 4B)。顯微照片顏色與偏光顯微鏡下的肉眼觀察一致。顯微照片的分辨率為4908×3264,保存格式為JPG。
圖4 顆粒標(biāo)記示意圖
標(biāo)記底圖文件夾中共有120張標(biāo)記好的顯微圖像照片。其中文件名“a*標(biāo)”為10倍或20倍鏡下拍攝的單顆粒照片視域(圖5A);文件名“a*-1”為對(duì)應(yīng)的“a*標(biāo)”視域,用折線將每個(gè)鑒定編號(hào)的顆粒相連,以10為間距依次編號(hào)(圖5B)。
圖5 標(biāo)記底圖示例
砂粒信息表為兩張薄片16A063-1和16A063-2的顆粒鑒定結(jié)果,信息表中的編號(hào)與底圖“a*-1”的編號(hào)順序相一致(圖 5B)。單顆粒的鑒定結(jié)果按照底圖標(biāo)定的順序以縮寫的形式填寫在砂粒信息表中。在薄片16A063-1將強(qiáng)烈蝕變的斜長(zhǎng)石(P)和鉀長(zhǎng)石(K)分別標(biāo)記為P1和K1,以示區(qū)別。不同的顆粒所占總體的比例如圖6。
圖6 薄片16A063-1和薄片16A063-2不同類型砂粒組成比例圖(顆??s寫見(jiàn)表1)
巖石薄片樣本符合國(guó)家與國(guó)際標(biāo)準(zhǔn)的厚度。在本次顯微照片拍攝和薄片鑒定過(guò)程中,同一批次的巖石薄片中觀察到石英顆粒的干涉色均為一級(jí)干涉色,說(shuō)明薄片的厚度符合0.03 mm的國(guó)家標(biāo)準(zhǔn)。顯微照片高清且無(wú)色差。在顯微鏡拍攝過(guò)程中,采用自動(dòng)曝光和自動(dòng)白平衡,使得肉眼觀察和系統(tǒng)照片顏色盡量保持一致;且顯微照片的分辨率統(tǒng)一采用拍照系統(tǒng)的最高值4908×3264像素,圖片統(tǒng)一保存為jpg格式;故而顯微照片的質(zhì)量與清晰度是可靠的。每張照片都添加有比例尺,為后期顆粒大小的測(cè)量、圓度計(jì)算、面積計(jì)算提供便利。
砂粒的鑒定是研究者共同討論的結(jié)果,以確保鑒定結(jié)果的準(zhǔn)確性。
本數(shù)據(jù)集提供大量的已標(biāo)記的砂粒圖像和標(biāo)記的坐標(biāo)文件,每張顆粒顯微照片的每個(gè)顆粒均進(jìn)行標(biāo)記,可以獲得每個(gè)顆粒的坐標(biāo)值和對(duì)應(yīng)的顆粒類型。同時(shí)標(biāo)記過(guò)程中在底圖上標(biāo)出顆粒圖像的視域位置并進(jìn)行顆粒編號(hào),使得每個(gè)標(biāo)記顆粒的位置和類型可追蹤。后面的使用者可以進(jìn)行校驗(yàn)。
數(shù)據(jù)的不足之處在于數(shù)據(jù)結(jié)構(gòu)不均衡,有的顆粒類型數(shù)量非常多,如石英顆粒,有的顆粒類型非常少,如變質(zhì)巖巖屑(圖6)。這使得基于機(jī)器學(xué)習(xí)技術(shù)的圖像識(shí)別結(jié)果的準(zhǔn)確性參差不齊,有待下一步繼續(xù)對(duì)數(shù)據(jù)集進(jìn)行補(bǔ)充,減少數(shù)據(jù)庫(kù)內(nèi)各顆粒類型的數(shù)量差距。由于人工移動(dòng)載物臺(tái),拍照視域和底圖視域稍有偏差,但不影響快速定位。部分顆粒在底圖上未標(biāo)出,但用LabelImg標(biāo)記時(shí)每張圖片中出現(xiàn)的顆粒均標(biāo)出其坐標(biāo)位置和顆粒類型,以利于計(jì)算機(jī)讀取。
本數(shù)據(jù)集包含大量標(biāo)記好的單顆粒圖片和坐標(biāo)文件,是利用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)砂粒中的礦物和巖屑自動(dòng)鑒定的重要數(shù)據(jù)基礎(chǔ)。大量已鑒定的單顆粒照片可以作為鑒定圖版使用。砂粒的分類可為后續(xù)的河流砂研究提供參考標(biāo)準(zhǔn),提高不同實(shí)驗(yàn)室所獲碎屑數(shù)據(jù)的可比較性?,F(xiàn)代河流砂砂粒的鑒定特征可以為砂巖成分的鑒定提供參考依據(jù),幫助我們理解古代砂巖的特征。
本數(shù)據(jù)集中3個(gè)文件的關(guān)聯(lián)性較強(qiáng),內(nèi)容相對(duì)應(yīng),使用時(shí)注意一下幾點(diǎn):
(1)數(shù)據(jù)集中出現(xiàn)的薄片,都集中統(tǒng)一保存在南京大學(xué)胡修棉教授課題組。如果以上數(shù)據(jù)集中提供的顯微照片不能滿足進(jìn)一步的研究需要,可以聯(lián)系通信作者申請(qǐng)進(jìn)一步使用。
(2)數(shù)據(jù)使用時(shí)3個(gè)文件應(yīng)同時(shí)下載使用,以便能迅速找到每個(gè)顆粒的位置信息和顆粒類型,在使用標(biāo)記的 annotation標(biāo)記文件時(shí),應(yīng)提前下載好標(biāo)記軟件 LabelImg(具體安裝步驟可參考https://blog.csdn.net/qq_38451119/article/details/83036495)和坐標(biāo)文件讀取軟件Notepad++,以讀取顆粒圖像和坐標(biāo)。用LabelImg打開(kāi)圖像文件時(shí),應(yīng)將標(biāo)記的保存目錄更改為與圖像文件想對(duì)應(yīng)的文件名下,才能顯示標(biāo)記的圖框位置。如在使用中有任何問(wèn)題請(qǐng)聯(lián)系本文作者。
(3)單顆粒的砂粒照片可以作為河流砂碎屑鑒定的標(biāo)準(zhǔn)圖版,部分具有典型結(jié)構(gòu)的碎屑顆??梢灾苯佑糜诮虒W(xué)和圖書出版。