• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于拉曼光譜技術(shù)的海水微塑料快速識別技術(shù)研究

    2021-08-17 02:51:26楊思節(jié)馮巍巍蔡宗岐
    光譜學(xué)與光譜分析 2021年8期
    關(guān)鍵詞:曼光譜決策樹交叉

    楊思節(jié),馮巍巍,蔡宗岐,王 清

    1. 哈爾濱工業(yè)大學(xué)(威海),山東 威海 264200 2. 中國科學(xué)院海岸帶環(huán)境過程與生態(tài)修復(fù)重點實驗室(煙臺海岸帶研究所),山東 煙臺 264003 3.中國科學(xué)院海洋大科學(xué)研究中心, 山東 青島 266071 4.中國科學(xué)院大學(xué), 北京 100049

    引 言

    自從發(fā)現(xiàn)微塑料在海洋和海洋生物中無處不在,全球?qū)ξ⑺芰系年P(guān)注已大大增加[1-3]。2015年第二屆聯(lián)合國環(huán)境大會上,微塑料污染被列為與全球氣候變化、 臭氧耗竭和海洋酸化并列的重大全球環(huán)境問題[4]。研究表明微塑料已經(jīng)大量存在于各個大洋、 海灣中,例如在北冰洋中發(fā)現(xiàn)了高濃度的微塑料[5],天津近岸海域微塑料污染嚴(yán)重[4],山東桑溝灣微塑料豐度很高[6]。但是目前國內(nèi)還沒提出成熟的快速智能識別海水中微塑料的方法。

    微塑料是指粒徑小于5 mm的塑料顆粒,由于其粒徑較小,微塑料的識別鑒定仍然是一個挑戰(zhàn)[2]。目前研究表明,光譜分析法(FTIR、 Raman)和熱分析法(Py-GC-MS、 TED-GC-MS)應(yīng)用于微塑料的識別檢測頻率最高。熱分析法容易破壞微塑料的屬性,紅外光譜分辨率較低且容易受海水的干擾,而拉曼光譜作為紅外互補光譜,近年來受到越來越多的關(guān)注。通過拉曼光譜的基團頻率振動峰對微塑料進行分類鑒別,指紋峰明確易于識別,而且不需要制樣、 為非破壞性,避免了樣品制備過程中可能造成的污染和保持樣品的完整性[7]。因此本文基于拉曼光譜探測技術(shù),提出了一種結(jié)合小波處理、 隨機森林算法實現(xiàn)海水中微塑料快速識別的智能分類方法。

    1 實驗部分

    激光拉曼系統(tǒng)可實現(xiàn)對微塑料的直接測量,不需要對樣品進行預(yù)處理,并且檢測速度快,可以很好地實現(xiàn)微塑料的快速識別。圖1為激光拉曼探測系統(tǒng)完成微塑料光譜數(shù)據(jù)收集的過程。有光源控制電路、 探測單元和信號處理傳輸單元,其中探測單元包括激發(fā)光源、 入射光纖、 探頭、 接收光纖、 光譜采集模塊,信號處理傳輸單元包括光譜處理模塊、 光電轉(zhuǎn)換模塊、 數(shù)據(jù)處理模塊和數(shù)據(jù)傳輸接口。采用785 nm的激發(fā)光源。

    1.1 原始拉曼數(shù)據(jù)獲取

    選取環(huán)境中比較常見的六種微塑料: 丙烯腈(A)-丁二烯(B)-苯乙烯(S)的三元共聚物(ABS)、 聚酰胺(PA)、 聚對苯二甲酸乙二醇酯(PET)、 聚丙烯(PP)、 聚苯乙烯(PS)、 聚氯乙烯(PVC)。選取激發(fā)波長為785 nm的激光探測器固定在距離標(biāo)準(zhǔn)樣品2 cm處進行測量,光譜采集模塊的光譜范圍為768~1 190 nm,拉曼光譜的積分時間為500 ms。

    1.2 數(shù)據(jù)預(yù)處理

    1.2.1 標(biāo)準(zhǔn)差歸一化處理

    標(biāo)準(zhǔn)差歸一化是對拉曼光譜數(shù)據(jù)進行中心平移變換和無量綱壓縮處理,可以用來消除拉曼光譜中激光光源功率變化、 光強衰減等影響。分別取波數(shù)在0~4 000 cm-1共1 745個光譜數(shù)據(jù)進行標(biāo)準(zhǔn)差歸一化運算。

    1.2.2 小波分析處理

    拉曼采集微塑料光譜數(shù)據(jù)時存在的噪聲和熒光背景是影響分析拉曼光譜的主要問題。本文利用小波分析來降低采集的微塑料拉曼光譜的噪聲。小波變換(wavelet transform, WT)通過伸縮平移運算對信號(函數(shù))逐步進行多尺度細化,可以局部化分析非平穩(wěn)信號[8]。根據(jù)常用去噪小波函數(shù)選取了Daubechies(DBN)小波。實驗發(fā)現(xiàn)用DB7小波基,分解次數(shù)選擇3次分析微塑料的拉曼光譜最合適。圖2分別是聚丙烯(PP)原始光譜和經(jīng)過標(biāo)準(zhǔn)差歸一化、 DB7小波分析后的拉曼光譜圖。

    1.2.3 數(shù)據(jù)壓縮預(yù)處理

    原始拉曼光譜具有1 745個數(shù)據(jù)點,不同的屬性對光譜分析具有不同的重要程度,為了提高模型識別速度需要對原始光譜進行數(shù)據(jù)壓縮。利用隨機森林算法能評估各個屬性在分類問題上的重要性程度,選出重要性重要程度高的屬性,達到數(shù)據(jù)壓縮的目的。

    圖2 聚丙烯原始拉曼光譜和經(jīng)預(yù)處理后的拉曼光譜

    1.3 構(gòu)建分類識別算法

    選擇機器學(xué)習(xí)中的決策樹算法和隨機森林算法分別構(gòu)建識別模型,他們都比較適合小樣本集的分類識別。決策樹(decision tree,DT)算法實現(xiàn)分類的原理[9-10]: 構(gòu)造一種模型,使模型能夠從樣本數(shù)據(jù)的特征屬性中,通過學(xué)習(xí)簡單的決策規(guī)則,從而預(yù)測目標(biāo)變量的值。隨機森林(random forest,RF)算法是建立了多個決策樹,并將它們合并在一起,最終葉節(jié)點是分類問題的多數(shù)類。

    利用訓(xùn)練數(shù)據(jù)根據(jù)損失函數(shù)最小化的原則建立決策樹模型。把輸入數(shù)據(jù)集劃分成訓(xùn)練集(train)和測試集(test)兩部分,模型通過fit方法從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí),然后調(diào)用score方法在測試集上進行評估,打分; 從分?jǐn)?shù)上我們可以知道模型當(dāng)前的訓(xùn)練水平如何。用精度(accuracy)來判斷分類(classification)模型的好壞。其中決策樹分割算法選擇ID3。

    隨機森林算法中樹的個數(shù)需要事先指定,這種需要人工選擇的參數(shù)稱為超參數(shù)。超參數(shù)選擇不恰當(dāng),就會出現(xiàn)欠擬合或者過擬合的問題。使用網(wǎng)格搜索(GridSearchCV)來找到一個合適的樹個數(shù)。最終用GridSearchCV確定隨機森林算法中樹的個數(shù)為100個。為了調(diào)整超參數(shù),測試集的數(shù)據(jù)會“泄漏”給模型。選擇交叉驗證(cross-validation,CV)作為精度測試方法,可以很好的解決這些問題。常用k折交叉驗證,即數(shù)據(jù)集被劃分成k個子集,每次訓(xùn)練的時候,用其中k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測試,重復(fù)k次,然后取k次精度的平均值。交叉驗證通過多次劃分,大大降低了這種由一次隨機劃分帶來的偶然性,同時通過多次訓(xùn)練,模型也能遇到各種各樣的數(shù)據(jù),從而提高其泛化能力。

    數(shù)據(jù)處理模塊流程圖如圖3所示。

    圖3 數(shù)據(jù)處理模塊流程圖Fig.3 Flow chart of data processing module

    2 結(jié)果與討論

    采用精度(accuracy)、 交叉驗證精度(CV accuracy)、 均方誤差(MSE)作為判定決策樹算法、 隨機森林算法識別模型的指標(biāo),模型的普通精度、 交叉驗證精度越接近1,均方誤差越接近0,表明模型具有越好的識別精度和性能。

    2.1 數(shù)據(jù)壓縮結(jié)果與討論

    利用隨機森林算法中的屬性重要性排列(feature_importances)返回特征的重要性,feature_importances越高代表特征越重要,然后保留重要程度高的屬性,去掉重要程度低的屬性,達到數(shù)據(jù)壓縮的目的。

    利用拉曼光譜1 745個光譜點中的排名前64,128,256,512和1 024的光譜點分別形成的數(shù)據(jù)作為決策樹算法和隨機森林算法的訓(xùn)練數(shù)據(jù)集,結(jié)果如圖4所示,可以為實際工程應(yīng)用中選擇數(shù)據(jù)壓縮點數(shù)提供參考。

    圖4 不同光譜點個數(shù)決策樹(DT)算法和隨機森林(RF)算法的交叉驗證精度

    由圖4可以看出光譜點個數(shù)在512之前,隨著光譜點個數(shù)的增多交叉驗證精度增加幅度較大,而在512個光譜點之后隨著點個數(shù)的增加,決策樹算法和隨機森林算法的交叉驗證精度都基本維持不變。最終選取512個光譜點,此時的光譜點個數(shù)較少,既能提高計算速度且又能保證微塑料識別的交叉驗證精度,有利于實際工程應(yīng)用。

    圖5 不同k值時決策樹(DT)算法模型和隨機森林(RF)算法模型交叉驗證精度

    2.2 折次(參數(shù)k)對模型精度影響分析

    k折交叉驗證中數(shù)據(jù)集被劃分成k個子集,每次訓(xùn)練的時候,用其中k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測試,重復(fù)k次,然后取k次精度的平均值。不同模型具有不同的最優(yōu)k值。實驗分別取k=4,7,10,15,20,25對比交叉驗證精度,如圖5,來選取識別微塑料模型的最優(yōu)k值。

    由圖5可以看出,不論決策樹算法模型還是隨機森林算法模型,并不是k值越高精度越高,而是隨著k值的增加精度都會出現(xiàn)拐點,具體模型出現(xiàn)拐點的k值可能會有差異。實驗結(jié)果表明,針對微塑料拉曼光譜識別決策樹算法模型智能識別的最優(yōu)k值是10,此時交叉驗證精度可以達到93.55%。隨機森林算法模型智能識別塑料拉曼光譜的最優(yōu)k值是20,此時交叉驗證精度可以達到97.24%。

    2.3 決策樹、 隨機森林算法比較分析

    表1是選取5個不同的拉曼光譜數(shù)據(jù)集時,決策樹(DT)和隨機森林(RF)算法對同一數(shù)據(jù)集訓(xùn)練后的普通精度、 交叉驗證精度和均方誤差結(jié)果對比。

    表1 決策樹(DT)和隨機森林(RF)算法運行結(jié)果對比Table 1 Comparison of operation results between decision tree (DT) and random forest (RF) algorithm

    圖6 決策樹(DT)和隨機森林(RF)算法的運行結(jié)果Fig.6 Operation results of decision tree (DT) and random forest (RF)

    由表1和圖6可以看出,在同等條件下,隨機森林算法的普通精度和交叉驗證精度始終都高于決策樹算法,且隨機森林算法的均方誤差低于決策樹算法。所以在基于拉曼光譜識別分類微塑料時,選取隨機森林算法來建立快速識別模型。這是由于隨機森林算法采用自舉隨機采樣技術(shù),而且通過交叉驗證避免隨機采樣結(jié)果的偶然性,對非平衡數(shù)據(jù)具有較好的模型預(yù)測性能。

    3 結(jié) 論

    利用激光拉曼檢測系統(tǒng)對海水中常見的六種微塑料樣品進行了分析,利用DB7小波分析方法,標(biāo)準(zhǔn)差預(yù)處理對拉曼光譜數(shù)據(jù)集進行了預(yù)處理,為了提高識別速度,同時對光譜數(shù)據(jù)進行了數(shù)據(jù)壓縮,分別進行了數(shù)據(jù)壓縮點為64,128,256,512和1 024點的數(shù)據(jù)壓縮比較,它們的決策樹算法識別精度分別為91.51%,91.67,92.35%,93.17%和93.21%,隨機森林算法識別精度分別為93.12%,93.92%,94.83%,96.81%和96.81%?;诰群托士紤],最終光譜數(shù)據(jù)壓縮點數(shù)選擇512個點。研究了參數(shù)k對識別精度的影響。分別比較了決策樹、 隨機森林兩種算法識別微塑料。研究結(jié)果表明,針對海水中典型的微塑料樣品,當(dāng)k值為20,隨機森林算法可以達到97.24%。可以為實際海水中微塑料的快速識別提供技術(shù)參考。

    猜你喜歡
    曼光譜決策樹交叉
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    “六法”巧解分式方程
    決策樹和隨機森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    連一連
    基于決策樹的出租車乘客出行目的識別
    基于Fast-ICA的Wigner-Ville分布交叉項消除方法
    計算機工程(2015年8期)2015-07-03 12:19:54
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    雙線性時頻分布交叉項提取及損傷識別應(yīng)用
    BMSCs分化為NCs的拉曼光譜研究
    便攜式薄層色譜-拉曼光譜聯(lián)用儀重大專項獲批
    报价| 永善县| 四平市| 荥经县| 察雅县| 离岛区| 丹寨县| 咸阳市| 古田县| 南通市| 巴中市| 海淀区| 丹寨县| 从江县| 佛教| 双城市| 安阳市| 丁青县| 仙游县| 泰州市| 泰安市| 赞皇县| 滨州市| 竹溪县| 清水河县| 康保县| 三江| 新建县| 万载县| 玉田县| 杭锦旗| 宁化县| 蓝田县| 南和县| 曲靖市| 宁强县| 察雅县| 海南省| 武城县| 额济纳旗| 屏山县|