摘""要:瓊州海峽是廣東海區(qū)與北部灣海上交通的重要通道,溝通北部灣和南海中、東部的海上走廊,以其為研究區(qū),作者對決策樹在瓊州海峽沉積物地球化學(xué)分區(qū)中的應(yīng)用進(jìn)行探究。用采集的391件表層沉積物中的53種元素含量建立決策樹模型,依托決策樹獲得了11條對研究區(qū)進(jìn)行地球化學(xué)分區(qū)的規(guī)則,同時(shí)還探究出了在分區(qū)過程中Cl、N、TFe2O3、Sb、Al2O3和Hg等6種元素是主要影響因素。
關(guān)鍵詞:決策樹"地球化學(xué)"瓊州海峽"表層沉積物
Exploration"of"Sedimentary"Geochemical"Zoning"in"Qiongzhou"Strait"Based"on"Decision"Tree"Algorithm
WU"Xiaoxia1,2""YANG"Yi1,2*"LIN"Chuanshan1,2"WAN"Mingming1,2"WANG"Xiaolong1,2
(1.Hainan"Key"Laboratory"of"Marine"Geological"Resources"and"Environment;"2."Hainan"Geological"Data"Institute,"Haikou,"Hainan"Province,"570206"China)
Abstract:The"Qiongzhou"Strait"is"an"important"passage"for"maritime"transportation"between"the"Guangdong"Sea"and"the"Beibu"Gulf,"connecting"the"Beibu"Gulf"and"the"central"and"eastern"parts"of"the"South"China"Sea."Taking"it"as"the"research"area,"the"authors"explore"the"application"of"decision"trees"in"the"sedimentary"geochemical"zoning"of"the"Qiongzhou"Strait."A"decision"tree"model"was"established"using"the"content"of"53"elements"collected"from"391"surface"sediments."Based"on"thenbsp;decision"tree,"11"rules"for"geochemical"zoning"of"the"study"area"were"obtained,"and"6"elements"including"Cl,"N,"TFe2O3,"Sb,"Al2O3,"and"Hg"were"identified"as"the"main"influencing"factors"during"the"zoning"process.
KeyWords:Decision"tree;"Geochemistry;"Qiongzhou"Strait;Surface"sediment
1""前言
1.1""研究現(xiàn)狀
海洋因其富饒的資源、廣袤的空間,在全球經(jīng)濟(jì)活動和社會可持續(xù)發(fā)展中占有重要的地位[1]。開展區(qū)域地球化學(xué)研究可以為環(huán)境評價(jià)、元素異常圈定、成礦遠(yuǎn)景區(qū)等研究提供依據(jù)和參考。許多學(xué)者進(jìn)行了大量的科學(xué)研究,并積累了豐富的研究成果。孟憲偉等人[2]采用R型因子分析方法對沖繩海槽中段進(jìn)行地球化學(xué)分區(qū);劉彬昌等人[3]采用PFS模糊聚類及模型識別貼近度的分析方法,對渤海沉積物進(jìn)行地球化學(xué)分區(qū);成海燕等人[4]采用聚類分析方法對渤海海峽進(jìn)行地球化學(xué)分區(qū)。在以往的地球化學(xué)研究中,多采用經(jīng)典的數(shù)理統(tǒng)計(jì)方法,也大量使用了數(shù)據(jù)挖掘方法,如上文提及的因子分析、聚類分析、模糊算法等。本次探究將決策樹應(yīng)用于地球化學(xué)研究中,則是提出了一種新的嘗試。
1.2""研究區(qū)概況
瓊州海峽是我國三大海峽之一,位于雷州半島和海南島之間,海峽長約80"km,寬20~40"km,面積約2"379"km2,平均水深約44"m,最大深度120"m,西接北部灣,東連南海北部[5],其既是重要的交通樞紐,同時(shí)也蘊(yùn)含著豐富的自然資源。瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查獲取了瓊州海峽沉積物豐富的區(qū)域地球化學(xué)資料。本次探究將基于瓊州海峽表層沉積物樣品的元素含量建立決策樹,從而獲得對研究區(qū)進(jìn)行地球化學(xué)分區(qū)的規(guī)則。
1.3""決策樹算法
決策樹學(xué)習(xí)算法是以一組樣本數(shù)據(jù)集為基礎(chǔ)的一種歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)中推出決策樹表示形式的分類規(guī)則[6]。決策樹的一個(gè)優(yōu)點(diǎn)是在實(shí)際應(yīng)用中決定分類結(jié)果可能只是幾個(gè)主要影響因素取值,不依賴全部因素變量,因此,可同時(shí)探求樣品中對分區(qū)起關(guān)鍵作用的元素。建立決策樹模型有ID3、C4.5、CART等算法。在此次探究中,將使用C4.5算法建立決策樹。
2""決策樹的建立
2.1""數(shù)據(jù)來源
數(shù)據(jù)來源于瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查采集的391件表層沉積物樣品,樣品檢測包括Ag、As、Au、B、Ba、Be等53種元素和pH值。建立決策樹將使用到樣品中的元素含量。
2.2""數(shù)據(jù)處理
由于表層沉積物中個(gè)別元素與其同族元素在沉積物中分布特征受??匦?yīng)等因素影響存在明顯差異,為更好地體現(xiàn)地球化學(xué)分區(qū)的規(guī)律性、合理性、科學(xué)性和應(yīng)用性,故pH、Ag、As、Ge和Mn5項(xiàng)指標(biāo)地球化學(xué)數(shù)據(jù)在地球化學(xué)分區(qū)過程中暫不考慮,利用剩下的49種元素含量建立模型。瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查采用因子分析、聚類分析等方法將研究區(qū)劃分為多元素富集區(qū)、過渡區(qū)和多元素貧化區(qū)3個(gè)地球化學(xué)區(qū)。分析樣品所處的位置發(fā)現(xiàn)其中有17個(gè)樣品同時(shí)處在兩個(gè)分區(qū)處,為考慮分區(qū)的準(zhǔn)確性,在建模時(shí)暫不考慮這17個(gè)樣品的數(shù)據(jù),故將使用374個(gè)樣品數(shù)據(jù)進(jìn)行建模。
表層沉積物樣品的元素含量數(shù)據(jù)是數(shù)值型的,而決策樹算法主要針對“以離散型變量作為屬性類型進(jìn)行分類”[6],這就需要將數(shù)據(jù)離散化。置信區(qū)間是指由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,引入“置信區(qū)間”的概念,使用以下公式[7]分別計(jì)算出樣品中各元素含量高的置信區(qū)間以及含量低的置信區(qū)間。
式(1)中:表示樣本平均值;S表示樣本標(biāo)準(zhǔn)差;n為樣本數(shù);(n-1)表示顯著性水平為;自由度為n-1的分布。在這里令置信度為98%,則=1-98%=2%=0.02。
根據(jù)實(shí)際情況,當(dāng)各元素含量高于含量高的置信區(qū)間最低值時(shí),則可說明該元素在樣品中含量高,用A表示;若各元素含量低于含量低的置信區(qū)間最高值,則可說明該元素在樣品中含量低,用C表示;介于以上2個(gè)范圍之間的含量即元素含量在過渡范圍,用B表示。按照此標(biāo)準(zhǔn),可將各元素含量劃分為3個(gè)等級,從而實(shí)現(xiàn)了對數(shù)據(jù)的離散化處理。對比各元素含量高的置信區(qū)間和含量低的置信區(qū)間,發(fā)現(xiàn)Sr、Zr、C、SiO2和CaO5種元素的兩種置信區(qū)間存在重合部分,將影響元素含量劃分等級的準(zhǔn)確性,因此在建立模型時(shí)暫不考慮這5種元素。分區(qū)結(jié)果有多元素富集區(qū)、過渡區(qū)和多元素貧化區(qū)3種,于是樣品被劃分為3類,處于多元素富集區(qū)用“Ⅰ”表示,處于過渡區(qū)用“Ⅱ”表示,處于多元素貧化區(qū)用“Ⅲ”表示。有374個(gè)樣品的數(shù)據(jù),相當(dāng)于有374個(gè)樣本,隨機(jī)選取其中30個(gè)作為檢驗(yàn)樣本,則剩下的344個(gè)為學(xué)習(xí)樣本。
2.3""模型建立
本次探究使用由SPSS生產(chǎn)商推出的數(shù)據(jù)挖掘軟件Clementine"12.0建立決策樹。在Clementine"12.0中,支持建立決策樹的算法有2種:一種是C5.0;另外一種則是CART,其中,C5.0是C4.5算法的實(shí)現(xiàn)。將學(xué)習(xí)樣本導(dǎo)入軟件中,采用C5.0算法建立決策樹并加入剪枝和誤分類損失等優(yōu)化方法。經(jīng)過多次嘗試,得到了最優(yōu)決策樹。各剪枝程度下決策樹的準(zhǔn)確率如表1所示,各成本組合下的準(zhǔn)確率如表2所示。
雖然一棵完整的決策樹能夠非常準(zhǔn)確地反映學(xué)習(xí)樣本集中數(shù)據(jù)的特征,但是因?yàn)槭チ艘话愦硇远鵁o法對新的數(shù)據(jù)進(jìn)行分類或預(yù)測,這種現(xiàn)象一般稱為過度訓(xùn)練[8]。另外,決策樹構(gòu)造得越小,存儲所花代價(jià)也越小,對其某些操作相對來說也就越簡單省時(shí)[9],所以建立有效的決策樹,不僅需要考慮分類的正確性,而且要考慮決策樹的復(fù)雜程度,在保證正確率的前提下盡量構(gòu)造簡單的決策樹。
綜合決策樹的準(zhǔn)確率、可移植性和復(fù)雜度等方面考慮,從表1和表2中得出,在剪枝程度為84%~85%、判斷錯(cuò)誤的成本為1時(shí),決策樹最優(yōu)。
3""結(jié)果與討論
通過決策樹得到的分區(qū)規(guī)則為:
(1)當(dāng)樣品中Cl含量高,則該樣品在富集區(qū);
(2)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量高,則該樣品在富集區(qū);
(3)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量高,則該樣品在富集區(qū);
(4)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量高,則該樣品在富集區(qū);
(5)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量在過渡范圍,Al2O3含量高,則該樣品在富集區(qū);
(6)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量在過渡范圍,Al2O3的含量無論是在過渡范圍還是低,則該樣品都在過渡區(qū);
(7)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量高,則該樣品在貧化區(qū);
(8)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量在過渡范圍,則該樣品在貧化區(qū);
(9)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量低,則該樣品在過渡區(qū);
(10)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量低,則該樣品在貧化區(qū);
(11)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量低,則該樣品在貧化區(qū);
(12)當(dāng)樣品中Cl含量低,則該樣品在貧化區(qū)。
觀察決策樹,發(fā)現(xiàn)在第7條規(guī)則的情形下沒有數(shù)據(jù),剔除這條規(guī)則,于是得到11條分區(qū)規(guī)則。
最優(yōu)決策樹的自檢驗(yàn)準(zhǔn)確率為86.92%,即用決策樹得到的分區(qū)規(guī)則判斷學(xué)習(xí)樣本時(shí),判斷正確299個(gè),判斷錯(cuò)誤45個(gè);檢驗(yàn)樣本的準(zhǔn)確率為86.67%。雖然此時(shí)的自檢驗(yàn)準(zhǔn)確率不是最高的,但是檢驗(yàn)樣本的準(zhǔn)確率卻是最高的,說明可移植性最好。決策樹有5層,對比其他決策樹簡單了許多。用到Cl、N、TFe2O3、Sb、Al2O3和Hg6種元素建模,可見這6種元素在決策樹分區(qū)過程中起到較為關(guān)鍵的作用,尤其是作為根節(jié)點(diǎn)的Cl元素,起到了最關(guān)鍵的作用。
此次探究是數(shù)據(jù)挖掘技術(shù)應(yīng)用于解決實(shí)際科學(xué)問題的一次探究。在以往的地球化學(xué)研究中,大多使用因子分析、聚類分析等算法,而國內(nèi)目前有關(guān)決策樹的研究多是圍繞算法的改進(jìn)以及決策樹在商業(yè)、工業(yè)等領(lǐng)域的運(yùn)用[10],嚴(yán)軍峰[11]基于權(quán)重項(xiàng)對決策樹算法進(jìn)行研究;夏安林等人[12]通過決策樹算法對銀行目標(biāo)客戶進(jìn)行分類和預(yù)測;張世良等人[13]提出了基于決策樹的供應(yīng)商全鏈路動態(tài)特征挖掘算法;袁單等人[14]提出基于改進(jìn)決策樹的充電樁故障預(yù)測方法。本文為決策樹應(yīng)用于地球化學(xué)研究中提供了一種新的解決問題思路。當(dāng)然,此次探究還有許多待改進(jìn)之處,如優(yōu)化對各元素含量進(jìn)行離散化處理的方法,在建立模型時(shí)充分考慮瓊州海峽的地質(zhì)背景、洋流環(huán)流、生態(tài)環(huán)境等因素,使決策樹的分區(qū)更科學(xué)、實(shí)用、準(zhǔn)確。
4""結(jié)論
通過將決策樹應(yīng)用于瓊州海峽沉積物地球化學(xué)中的探究,得到以下結(jié)論:(1)基于瓊州海峽表層沉積物樣品數(shù)據(jù),建立了一棵最優(yōu)決策樹;(2)最優(yōu)決策樹有5層,僅用到Cl、N、TFe2O3、Sb、Al2O3和Hg6種元素建模,其中Cl元素是根節(jié)點(diǎn);(3)通過決策樹獲得了11條研究區(qū)地球化學(xué)分區(qū)規(guī)則,僅用到6種元素進(jìn)行分區(qū),在保證準(zhǔn)確率的同時(shí),又提高了分區(qū)效率。
參考文獻(xiàn)
[1]"廖永杰.渤海中南部沉積地球化學(xué)特征和黃河改道事件[D].青島:中國海洋大學(xué),2014.
[2]"孟憲偉,王永吉,呂成功.沖繩海槽中段沉積地球化學(xué)分區(qū)及其物源指示意義[J].海洋地質(zhì)與第四紀(jì)地質(zhì),1997(3):38-44.
[3]"劉彬昌,盧中發(fā),張守法.渤海沉積物地球化學(xué)分區(qū)的模糊分析[J].海洋與湖沼,1992(5):561-565.
[4]"成海燕,姜?jiǎng)佥x,張超,等.渤海海峽表層沉積物地球化學(xué)特征[J].海洋地質(zhì)前沿,2020,36(8):19-28.
[5]"馬榮林,何玉生,楊奕,等.瓊州海峽表層沉積物元素地球化學(xué)特征[J].海洋通報(bào),2012,31(2):131-135.
[6]"廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010:150-152.
[7]"徐云龍,李劍英,陳玲熙.概率中置信區(qū)間在腎炎診斷中的應(yīng)用[EB/OL].(2008-04-29)[2024-04-22].http://www.paper.edu.cn/index.php/default/releasepaper/content/200804-1003.
[8]"薛薇.數(shù)據(jù)挖掘中的決策樹技術(shù)及其應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2002,(2):4-10.
[9]"王熙照,游自英.決策樹簡化(剪切)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2004,(27):66-69.
[10]"徐蕾,賀佳,孟虹,等.決策樹技術(shù)及其在醫(yī)學(xué)中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2004,(2):161-164.
[11]"嚴(yán)軍峰.基于權(quán)重項(xiàng)的決策樹算法研究[J].無線互聯(lián)科技,2023,20(23):115-117.
[12]"夏安林,杜董生,盛遠(yuǎn)杰,等.基于決策樹的銀行目標(biāo)客戶預(yù)測算法[J].電腦知識與技術(shù),2022,18(24):8-11,28.
[13]"張世良,孫剛,唐良運(yùn).基于決策樹的供應(yīng)商全鏈路動態(tài)特征挖掘算法[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2023,45(4):447-452.
[14]"袁單,劉鴻鵬,陳良亮,等.基于改進(jìn)決策樹的充電樁故障預(yù)測方法[J].電氣自動化,2023,45(6):92-94,103.