• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于決策樹算法的瓊州海峽沉積物地球化學(xué)分區(qū)探究

      2025-03-15 00:00:00吳曉霞楊奕林川善萬明明王小龍
      科技資訊 2025年2期
      關(guān)鍵詞:瓊州海峽決策樹沉積物

      摘""要:瓊州海峽是廣東海區(qū)與北部灣海上交通的重要通道,溝通北部灣和南海中、東部的海上走廊,以其為研究區(qū),作者對決策樹在瓊州海峽沉積物地球化學(xué)分區(qū)中的應(yīng)用進(jìn)行探究。用采集的391件表層沉積物中的53種元素含量建立決策樹模型,依托決策樹獲得了11條對研究區(qū)進(jìn)行地球化學(xué)分區(qū)的規(guī)則,同時(shí)還探究出了在分區(qū)過程中Cl、N、TFe2O3、Sb、Al2O3和Hg等6種元素是主要影響因素。

      關(guān)鍵詞:決策樹"地球化學(xué)"瓊州海峽"表層沉積物

      Exploration"of"Sedimentary"Geochemical"Zoning"in"Qiongzhou"Strait"Based"on"Decision"Tree"Algorithm

      WU"Xiaoxia1,2""YANG"Yi1,2*"LIN"Chuanshan1,2"WAN"Mingming1,2"WANG"Xiaolong1,2

      (1.Hainan"Key"Laboratory"of"Marine"Geological"Resources"and"Environment;"2."Hainan"Geological"Data"Institute,"Haikou,"Hainan"Province,"570206"China)

      Abstract:The"Qiongzhou"Strait"is"an"important"passage"for"maritime"transportation"between"the"Guangdong"Sea"and"the"Beibu"Gulf,"connecting"the"Beibu"Gulf"and"the"central"and"eastern"parts"of"the"South"China"Sea."Taking"it"as"the"research"area,"the"authors"explore"the"application"of"decision"trees"in"the"sedimentary"geochemical"zoning"of"the"Qiongzhou"Strait."A"decision"tree"model"was"established"using"the"content"of"53"elements"collected"from"391"surface"sediments."Based"on"thenbsp;decision"tree,"11"rules"for"geochemical"zoning"of"the"study"area"were"obtained,"and"6"elements"including"Cl,"N,"TFe2O3,"Sb,"Al2O3,"and"Hg"were"identified"as"the"main"influencing"factors"during"the"zoning"process.

      KeyWords:Decision"tree;"Geochemistry;"Qiongzhou"Strait;Surface"sediment

      1""前言

      1.1""研究現(xiàn)狀

      海洋因其富饒的資源、廣袤的空間,在全球經(jīng)濟(jì)活動和社會可持續(xù)發(fā)展中占有重要的地位[1]。開展區(qū)域地球化學(xué)研究可以為環(huán)境評價(jià)、元素異常圈定、成礦遠(yuǎn)景區(qū)等研究提供依據(jù)和參考。許多學(xué)者進(jìn)行了大量的科學(xué)研究,并積累了豐富的研究成果。孟憲偉等人[2]采用R型因子分析方法對沖繩海槽中段進(jìn)行地球化學(xué)分區(qū);劉彬昌等人[3]采用PFS模糊聚類及模型識別貼近度的分析方法,對渤海沉積物進(jìn)行地球化學(xué)分區(qū);成海燕等人[4]采用聚類分析方法對渤海海峽進(jìn)行地球化學(xué)分區(qū)。在以往的地球化學(xué)研究中,多采用經(jīng)典的數(shù)理統(tǒng)計(jì)方法,也大量使用了數(shù)據(jù)挖掘方法,如上文提及的因子分析、聚類分析、模糊算法等。本次探究將決策樹應(yīng)用于地球化學(xué)研究中,則是提出了一種新的嘗試。

      1.2""研究區(qū)概況

      瓊州海峽是我國三大海峽之一,位于雷州半島和海南島之間,海峽長約80"km,寬20~40"km,面積約2"379"km2,平均水深約44"m,最大深度120"m,西接北部灣,東連南海北部[5],其既是重要的交通樞紐,同時(shí)也蘊(yùn)含著豐富的自然資源。瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查獲取了瓊州海峽沉積物豐富的區(qū)域地球化學(xué)資料。本次探究將基于瓊州海峽表層沉積物樣品的元素含量建立決策樹,從而獲得對研究區(qū)進(jìn)行地球化學(xué)分區(qū)的規(guī)則。

      1.3""決策樹算法

      決策樹學(xué)習(xí)算法是以一組樣本數(shù)據(jù)集為基礎(chǔ)的一種歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)中推出決策樹表示形式的分類規(guī)則[6]。決策樹的一個(gè)優(yōu)點(diǎn)是在實(shí)際應(yīng)用中決定分類結(jié)果可能只是幾個(gè)主要影響因素取值,不依賴全部因素變量,因此,可同時(shí)探求樣品中對分區(qū)起關(guān)鍵作用的元素。建立決策樹模型有ID3、C4.5、CART等算法。在此次探究中,將使用C4.5算法建立決策樹。

      2""決策樹的建立

      2.1""數(shù)據(jù)來源

      數(shù)據(jù)來源于瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查采集的391件表層沉積物樣品,樣品檢測包括Ag、As、Au、B、Ba、Be等53種元素和pH值。建立決策樹將使用到樣品中的元素含量。

      2.2""數(shù)據(jù)處理

      由于表層沉積物中個(gè)別元素與其同族元素在沉積物中分布特征受??匦?yīng)等因素影響存在明顯差異,為更好地體現(xiàn)地球化學(xué)分區(qū)的規(guī)律性、合理性、科學(xué)性和應(yīng)用性,故pH、Ag、As、Ge和Mn5項(xiàng)指標(biāo)地球化學(xué)數(shù)據(jù)在地球化學(xué)分區(qū)過程中暫不考慮,利用剩下的49種元素含量建立模型。瓊州海峽多目標(biāo)區(qū)域地球化學(xué)調(diào)查采用因子分析、聚類分析等方法將研究區(qū)劃分為多元素富集區(qū)、過渡區(qū)和多元素貧化區(qū)3個(gè)地球化學(xué)區(qū)。分析樣品所處的位置發(fā)現(xiàn)其中有17個(gè)樣品同時(shí)處在兩個(gè)分區(qū)處,為考慮分區(qū)的準(zhǔn)確性,在建模時(shí)暫不考慮這17個(gè)樣品的數(shù)據(jù),故將使用374個(gè)樣品數(shù)據(jù)進(jìn)行建模。

      表層沉積物樣品的元素含量數(shù)據(jù)是數(shù)值型的,而決策樹算法主要針對“以離散型變量作為屬性類型進(jìn)行分類”[6],這就需要將數(shù)據(jù)離散化。置信區(qū)間是指由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間,引入“置信區(qū)間”的概念,使用以下公式[7]分別計(jì)算出樣品中各元素含量高的置信區(qū)間以及含量低的置信區(qū)間。

      式(1)中:表示樣本平均值;S表示樣本標(biāo)準(zhǔn)差;n為樣本數(shù);(n-1)表示顯著性水平為;自由度為n-1的分布。在這里令置信度為98%,則=1-98%=2%=0.02。

      根據(jù)實(shí)際情況,當(dāng)各元素含量高于含量高的置信區(qū)間最低值時(shí),則可說明該元素在樣品中含量高,用A表示;若各元素含量低于含量低的置信區(qū)間最高值,則可說明該元素在樣品中含量低,用C表示;介于以上2個(gè)范圍之間的含量即元素含量在過渡范圍,用B表示。按照此標(biāo)準(zhǔn),可將各元素含量劃分為3個(gè)等級,從而實(shí)現(xiàn)了對數(shù)據(jù)的離散化處理。對比各元素含量高的置信區(qū)間和含量低的置信區(qū)間,發(fā)現(xiàn)Sr、Zr、C、SiO2和CaO5種元素的兩種置信區(qū)間存在重合部分,將影響元素含量劃分等級的準(zhǔn)確性,因此在建立模型時(shí)暫不考慮這5種元素。分區(qū)結(jié)果有多元素富集區(qū)、過渡區(qū)和多元素貧化區(qū)3種,于是樣品被劃分為3類,處于多元素富集區(qū)用“Ⅰ”表示,處于過渡區(qū)用“Ⅱ”表示,處于多元素貧化區(qū)用“Ⅲ”表示。有374個(gè)樣品的數(shù)據(jù),相當(dāng)于有374個(gè)樣本,隨機(jī)選取其中30個(gè)作為檢驗(yàn)樣本,則剩下的344個(gè)為學(xué)習(xí)樣本。

      2.3""模型建立

      本次探究使用由SPSS生產(chǎn)商推出的數(shù)據(jù)挖掘軟件Clementine"12.0建立決策樹。在Clementine"12.0中,支持建立決策樹的算法有2種:一種是C5.0;另外一種則是CART,其中,C5.0是C4.5算法的實(shí)現(xiàn)。將學(xué)習(xí)樣本導(dǎo)入軟件中,采用C5.0算法建立決策樹并加入剪枝和誤分類損失等優(yōu)化方法。經(jīng)過多次嘗試,得到了最優(yōu)決策樹。各剪枝程度下決策樹的準(zhǔn)確率如表1所示,各成本組合下的準(zhǔn)確率如表2所示。

      雖然一棵完整的決策樹能夠非常準(zhǔn)確地反映學(xué)習(xí)樣本集中數(shù)據(jù)的特征,但是因?yàn)槭チ艘话愦硇远鵁o法對新的數(shù)據(jù)進(jìn)行分類或預(yù)測,這種現(xiàn)象一般稱為過度訓(xùn)練[8]。另外,決策樹構(gòu)造得越小,存儲所花代價(jià)也越小,對其某些操作相對來說也就越簡單省時(shí)[9],所以建立有效的決策樹,不僅需要考慮分類的正確性,而且要考慮決策樹的復(fù)雜程度,在保證正確率的前提下盡量構(gòu)造簡單的決策樹。

      綜合決策樹的準(zhǔn)確率、可移植性和復(fù)雜度等方面考慮,從表1和表2中得出,在剪枝程度為84%~85%、判斷錯(cuò)誤的成本為1時(shí),決策樹最優(yōu)。

      3""結(jié)果與討論

      通過決策樹得到的分區(qū)規(guī)則為:

      (1)當(dāng)樣品中Cl含量高,則該樣品在富集區(qū);

      (2)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量高,則該樣品在富集區(qū);

      (3)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量高,則該樣品在富集區(qū);

      (4)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量高,則該樣品在富集區(qū);

      (5)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量在過渡范圍,Al2O3含量高,則該樣品在富集區(qū);

      (6)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量在過渡范圍,Al2O3的含量無論是在過渡范圍還是低,則該樣品都在過渡區(qū);

      (7)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量高,則該樣品在貧化區(qū);

      (8)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量在過渡范圍,則該樣品在貧化區(qū);

      (9)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量在過渡范圍,N含量低,Hg含量低,則該樣品在過渡區(qū);

      (10)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量在過渡范圍,Sb含量低,則該樣品在貧化區(qū);

      (11)當(dāng)樣品中Cl含量在過渡范圍,TFe2O3含量低,則該樣品在貧化區(qū);

      (12)當(dāng)樣品中Cl含量低,則該樣品在貧化區(qū)。

      觀察決策樹,發(fā)現(xiàn)在第7條規(guī)則的情形下沒有數(shù)據(jù),剔除這條規(guī)則,于是得到11條分區(qū)規(guī)則。

      最優(yōu)決策樹的自檢驗(yàn)準(zhǔn)確率為86.92%,即用決策樹得到的分區(qū)規(guī)則判斷學(xué)習(xí)樣本時(shí),判斷正確299個(gè),判斷錯(cuò)誤45個(gè);檢驗(yàn)樣本的準(zhǔn)確率為86.67%。雖然此時(shí)的自檢驗(yàn)準(zhǔn)確率不是最高的,但是檢驗(yàn)樣本的準(zhǔn)確率卻是最高的,說明可移植性最好。決策樹有5層,對比其他決策樹簡單了許多。用到Cl、N、TFe2O3、Sb、Al2O3和Hg6種元素建模,可見這6種元素在決策樹分區(qū)過程中起到較為關(guān)鍵的作用,尤其是作為根節(jié)點(diǎn)的Cl元素,起到了最關(guān)鍵的作用。

      此次探究是數(shù)據(jù)挖掘技術(shù)應(yīng)用于解決實(shí)際科學(xué)問題的一次探究。在以往的地球化學(xué)研究中,大多使用因子分析、聚類分析等算法,而國內(nèi)目前有關(guān)決策樹的研究多是圍繞算法的改進(jìn)以及決策樹在商業(yè)、工業(yè)等領(lǐng)域的運(yùn)用[10],嚴(yán)軍峰[11]基于權(quán)重項(xiàng)對決策樹算法進(jìn)行研究;夏安林等人[12]通過決策樹算法對銀行目標(biāo)客戶進(jìn)行分類和預(yù)測;張世良等人[13]提出了基于決策樹的供應(yīng)商全鏈路動態(tài)特征挖掘算法;袁單等人[14]提出基于改進(jìn)決策樹的充電樁故障預(yù)測方法。本文為決策樹應(yīng)用于地球化學(xué)研究中提供了一種新的解決問題思路。當(dāng)然,此次探究還有許多待改進(jìn)之處,如優(yōu)化對各元素含量進(jìn)行離散化處理的方法,在建立模型時(shí)充分考慮瓊州海峽的地質(zhì)背景、洋流環(huán)流、生態(tài)環(huán)境等因素,使決策樹的分區(qū)更科學(xué)、實(shí)用、準(zhǔn)確。

      4""結(jié)論

      通過將決策樹應(yīng)用于瓊州海峽沉積物地球化學(xué)中的探究,得到以下結(jié)論:(1)基于瓊州海峽表層沉積物樣品數(shù)據(jù),建立了一棵最優(yōu)決策樹;(2)最優(yōu)決策樹有5層,僅用到Cl、N、TFe2O3、Sb、Al2O3和Hg6種元素建模,其中Cl元素是根節(jié)點(diǎn);(3)通過決策樹獲得了11條研究區(qū)地球化學(xué)分區(qū)規(guī)則,僅用到6種元素進(jìn)行分區(qū),在保證準(zhǔn)確率的同時(shí),又提高了分區(qū)效率。

      參考文獻(xiàn)

      [1]"廖永杰.渤海中南部沉積地球化學(xué)特征和黃河改道事件[D].青島:中國海洋大學(xué),2014.

      [2]"孟憲偉,王永吉,呂成功.沖繩海槽中段沉積地球化學(xué)分區(qū)及其物源指示意義[J].海洋地質(zhì)與第四紀(jì)地質(zhì),1997(3):38-44.

      [3]"劉彬昌,盧中發(fā),張守法.渤海沉積物地球化學(xué)分區(qū)的模糊分析[J].海洋與湖沼,1992(5):561-565.

      [4]"成海燕,姜?jiǎng)佥x,張超,等.渤海海峽表層沉積物地球化學(xué)特征[J].海洋地質(zhì)前沿,2020,36(8):19-28.

      [5]"馬榮林,何玉生,楊奕,等.瓊州海峽表層沉積物元素地球化學(xué)特征[J].海洋通報(bào),2012,31(2):131-135.

      [6]"廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010:150-152.

      [7]"徐云龍,李劍英,陳玲熙.概率中置信區(qū)間在腎炎診斷中的應(yīng)用[EB/OL].(2008-04-29)[2024-04-22].http://www.paper.edu.cn/index.php/default/releasepaper/content/200804-1003.

      [8]"薛薇.數(shù)據(jù)挖掘中的決策樹技術(shù)及其應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2002,(2):4-10.

      [9]"王熙照,游自英.決策樹簡化(剪切)方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2004,(27):66-69.

      [10]"徐蕾,賀佳,孟虹,等.決策樹技術(shù)及其在醫(yī)學(xué)中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2004,(2):161-164.

      [11]"嚴(yán)軍峰.基于權(quán)重項(xiàng)的決策樹算法研究[J].無線互聯(lián)科技,2023,20(23):115-117.

      [12]"夏安林,杜董生,盛遠(yuǎn)杰,等.基于決策樹的銀行目標(biāo)客戶預(yù)測算法[J].電腦知識與技術(shù),2022,18(24):8-11,28.

      [13]"張世良,孫剛,唐良運(yùn).基于決策樹的供應(yīng)商全鏈路動態(tài)特征挖掘算法[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2023,45(4):447-452.

      [14]"袁單,劉鴻鵬,陳良亮,等.基于改進(jìn)決策樹的充電樁故障預(yù)測方法[J].電氣自動化,2023,45(6):92-94,103.

      猜你喜歡
      瓊州海峽決策樹沉積物
      晚更新世以來南黃海陸架沉積物源分析
      渤海油田某FPSO污水艙沉積物的分散處理
      海洋石油(2021年3期)2021-11-05 07:43:12
      水體表層沉積物對磷的吸收及釋放研究進(jìn)展
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      珠江航務(wù)管理局瓊州海峽辦事處在??诮遗?/a>
      交通運(yùn)輸部珠江航務(wù)管理局瓊州海峽辦事處下月將掛牌成立
      瓊州海峽春運(yùn)圓滿收官
      基于決策樹的出租車乘客出行目的識別
      討論用ICP-AES測定土壤和沉積物時(shí)鈦對鈷的干擾
      江华| 即墨市| 自治县| 海原县| 齐河县| 曲麻莱县| 大厂| 呼伦贝尔市| 平湖市| 峨眉山市| 交口县| 双桥区| 门源| 新沂市| 桂东县| 海晏县| 鄂伦春自治旗| 清镇市| 温泉县| 扎鲁特旗| 富阳市| 太和县| 长沙县| 华阴市| 府谷县| 奇台县| 池州市| 铜陵市| 靖安县| 湖口县| 太和县| 潮安县| 宜春市| 古蔺县| 郴州市| 仙游县| 海安县| 娱乐| 雷山县| 连江县| 光山县|