張志業(yè),葛志強(qiáng),趙小娟,林永江
(國(guó)能(泉州)熱電有限公司,福建泉州 362804)
氣體傳感器具有交叉敏感性,容易受溫度、濕度、環(huán)境條件等因素影響,且穩(wěn)定性和選擇性較差,僅限于精度較低、分辨率低、氣體組分簡(jiǎn)單的應(yīng)用中[1]。在復(fù)雜氣體或氣味的定性和定量檢測(cè)中應(yīng)用較少。受氣體傳感陣列識(shí)別環(huán)境影響,僅使用單種傳感器無法對(duì)某種氣體進(jìn)行精準(zhǔn)識(shí)別[2]。為此,采用多種傳感器進(jìn)行氣體傳感陣列的識(shí)別成為重要方式。通過氣體識(shí)別技術(shù)能夠?qū)崿F(xiàn)氣體成分檢測(cè),這是當(dāng)前氣體識(shí)別技術(shù)改進(jìn)的主要方向[3]。目前,使用主元統(tǒng)計(jì)方法識(shí)別氣體傳感陣列,能夠在最小均方計(jì)算模式下分析氣體數(shù)據(jù),雖然該方法能夠自動(dòng)分離不同氣體,但該方法受氣體主成分影響,缺乏自主學(xué)習(xí)能力,無法完成數(shù)據(jù)預(yù)處理,導(dǎo)致氣體識(shí)別結(jié)果不精準(zhǔn);使用基于人工神經(jīng)網(wǎng)絡(luò)理論識(shí)別時(shí),利用MATLAB 軟件對(duì)所采集的氣體實(shí)驗(yàn)數(shù)據(jù)進(jìn)行識(shí)別與分析。該方法雖然識(shí)別速度較快,但缺少對(duì)冗余數(shù)據(jù)處理步驟,導(dǎo)致氣體識(shí)別結(jié)果不精準(zhǔn)。
為此,該文提出基于梯度提升決策樹的氣體傳感陣列識(shí)別方法。
利用某公司生產(chǎn)的RCS2000-A 型號(hào)氣體分配系統(tǒng),獲取需要識(shí)別的混合氣體[4]。該設(shè)備采用世界上最先進(jìn)的氣體配氣技術(shù),可輸出高質(zhì)量、高精度的混合標(biāo)準(zhǔn)氣體,并由計(jì)算機(jī)自動(dòng)分配[5]。多組分混合氣體從配氣方案制定到實(shí)施,通過計(jì)算機(jī)監(jiān)控,實(shí)現(xiàn)了多組分混合氣體的自動(dòng)分配過程,該方法自動(dòng)化程度高,能夠分類處理多種氣體數(shù)據(jù),具有穩(wěn)定性較強(qiáng)的優(yōu)勢(shì)[6-8]。
通過配置多組混合氣體,將高純度N2作為研究對(duì)象,配制多組分混合氣時(shí),原料氣G1~G6為高純度稀釋氣體,原料氣濃度為s1~s6。配制不同濃度混合氣體時(shí),稀釋比為:
在式(1)所示的組分氣體稀釋比下,對(duì)比分析原料氣G1~G6的流量fG1~fG6和高純度N2稀釋后流量fN2的比值,計(jì)算結(jié)果為:
依據(jù)式(2)計(jì)算結(jié)果可知,氣體流量控制器采用流量比控制各組分原料氣、稀化氣流量,可準(zhǔn)確、動(dòng)態(tài)地分析多種組分混合氣[9]。
以變壓器油為例,通過對(duì)氣體傳感陣列數(shù)據(jù)的分析,確定變壓器工作狀態(tài)[10]。變壓器工作產(chǎn)生CO 時(shí),說明該設(shè)備工作不靈敏,但仍能繼續(xù)工作;當(dāng)出現(xiàn)H2時(shí),說明該設(shè)備工作時(shí)產(chǎn)生的摩擦熱較高,此時(shí)氣體濃度高于150 ppm,需要考慮變壓器是否被燒壞;當(dāng)出現(xiàn)C2H2時(shí),應(yīng)嚴(yán)格檢查變壓器能否正常工作,一旦濃度超過5 ppm時(shí),應(yīng)考慮該設(shè)備是否已經(jīng)損壞[11-12]。
利用SVM 直接分析傳感器陣列測(cè)得的變壓器油色譜數(shù)據(jù)中氣體濃度,可直接獲得潛在有價(jià)值的微小量信息[13]。因此,對(duì)氣體傳感陣列數(shù)據(jù)進(jìn)行歸一化處理,采取這種處理方法是為了盡可能完整地保留數(shù)據(jù)信息,使數(shù)據(jù)差異降到最低[14]。
經(jīng)過歸納分析,發(fā)現(xiàn)氣體樣本的標(biāo)準(zhǔn)化范圍介于[0,1]和[-1,1]之間,[0,1]之間的數(shù)據(jù)按統(tǒng)計(jì)概率依次分布,[-1,1]之間的數(shù)據(jù)按坐標(biāo)分布依次分布[15]。模型建立與計(jì)算的基本度量單位相同,該文使用梯度提升決策樹,通過訓(xùn)練步驟和預(yù)測(cè)步驟,獲取統(tǒng)計(jì)樣本坐標(biāo)。根據(jù)scale 函數(shù)對(duì)傳感陣列識(shí)別數(shù)據(jù)進(jìn)行歸一化處理,其公式為:
式(3)中,yi表示歸一化數(shù)據(jù),ci表示傳感陣列數(shù)據(jù),cmax、cmin分別表示傳感陣列數(shù)據(jù)最大值與最小值。
經(jīng)過scale 函數(shù)對(duì)識(shí)別數(shù)據(jù)進(jìn)行歸一化處理后,獲取存儲(chǔ)氣體傳感陣列數(shù)據(jù),并將陣列進(jìn)行數(shù)字編號(hào)[16]。
在獲取的數(shù)據(jù)集中,經(jīng)歸一化的氣體數(shù)據(jù)均在[-1,1]的范圍內(nèi),有效地減小了不同數(shù)據(jù)間的差異,從而提高歸一化模型的收斂性。在使用測(cè)試樣本檢驗(yàn)現(xiàn)有模型時(shí),數(shù)據(jù)的標(biāo)準(zhǔn)化是為了保證數(shù)據(jù)的一致性。
將梯度提升決策樹識(shí)別方式看成是數(shù)據(jù)處理、分類與回歸的過程,梯度提升決策樹是由若干決策樹組成,采用加法模型和正態(tài)分布算法對(duì)模型進(jìn)行修正,并逐步逼近最佳解,可以有效地降低各因素間的冗余,對(duì)離群點(diǎn)具有較好的魯棒性[17-19]。該方法能夠消除異常點(diǎn),彌補(bǔ)傳感器脆弱性引起的信號(hào)異常缺陷,提高氣體最終識(shí)別的準(zhǔn)確性。
假設(shè)氣體傳感陣列P中包含R個(gè)傳感陣列,每個(gè)傳感陣列中有xj個(gè)識(shí)別項(xiàng)目,其中,xi為第i個(gè)傳感陣列的識(shí)別項(xiàng)目。輸入向量可表示為:
式(4)、(5)中,X表示輸入向量;wij表示第i個(gè)傳感陣列的第j個(gè)識(shí)別項(xiàng)目權(quán)重,其計(jì)算公式為:
式(6)中,ej表示第j個(gè)識(shí)別項(xiàng)目的輸出熵。
采用梯度提升決策樹融合多個(gè)決策樹模型,通過比較迭代損失函數(shù)梯度,構(gòu)建高精度識(shí)別模型。其中,損失函數(shù)表達(dá)式為:
式(7)中,pk表示預(yù)測(cè)概率;F(X)表示比較迭代損失函數(shù)的梯度。
此時(shí),第t輪第i個(gè)樣本對(duì)應(yīng)種類的負(fù)梯度誤差,計(jì)算公式為:
累加梯度提升決策樹,對(duì)負(fù)梯度誤差進(jìn)行修復(fù),并逐步趨近最優(yōu)解。
基于此,結(jié)合SVM-predict 識(shí)別程序識(shí)別出六組氣體,如表1 所示。
表1 氣體傳感陣列識(shí)別結(jié)果
為了檢驗(yàn)基于梯度提升決策樹的氣體傳感陣列識(shí)別方法的合理性,選擇七組實(shí)驗(yàn)樣本進(jìn)行測(cè)試。這七組實(shí)驗(yàn)樣本分別模擬變壓器工作時(shí)出現(xiàn)故障時(shí)不同組分氣體含量,如上述表1 所示。
利用六種不同材料的碳納米管氣敏傳感器,將H2、CO、CH4、C2H4、C2H2和C2H6進(jìn)行分類處理。實(shí)驗(yàn)傳感裝置使用碳納米金叉指電極結(jié)構(gòu),以此識(shí)別氣體傳感陣列。實(shí)驗(yàn)測(cè)試裝置結(jié)構(gòu)如圖1 所示。
圖1 氣體監(jiān)測(cè)實(shí)驗(yàn)裝置
由圖1 可知,通過電化學(xué)分析儀在恒溫情況下分析流入氣體。
為了驗(yàn)證該方法比主元統(tǒng)計(jì)方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識(shí)別方法更優(yōu),分別采用三種方法進(jìn)行氣體識(shí)別,其經(jīng)過傳感陣列后獲取氣體濃度值,分別采用主元統(tǒng)計(jì)方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法和基于梯度提升決策樹的方法進(jìn)行識(shí)別,將識(shí)別結(jié)果與實(shí)際值比較分析,表1 數(shù)據(jù)為實(shí)際值,識(shí)別結(jié)果如圖2 所示。
圖2 三種方法識(shí)別結(jié)果對(duì)比分析
由圖2(a)可知,使用基于主元統(tǒng)計(jì)方法在第7 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為150 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第6 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為125 μL/L;使用基于梯度提升決策樹的方法在7 次測(cè)試情況下,均與實(shí)際值一致,誤差為0。
由圖2(b)可知,使用基于主元統(tǒng)計(jì)方法在第6次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為40 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為110 μL/L;使用基于梯度提升決策樹的方法在7 次測(cè)試情況下,均與實(shí)際值一致,誤差為0。
由圖2(c)可知,使用基于主元統(tǒng)計(jì)方法在第6 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為45 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第4 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差約為32.9 μL/L;使用基于梯度提升決策樹的方法在第5 次測(cè)試時(shí),最大誤差為0.7 μL/L。
由圖2(d)可知,使用基于主元統(tǒng)計(jì)方法和基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法均在第7 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差分別為90、120 μL/L;使用基于梯度提升決策樹的方法在第3 次測(cè)試時(shí),最大誤差為0.05 μL/L。
由圖2(e)可知,使用基于主元統(tǒng)計(jì)方法在第7 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差為10.2 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第3 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差為25 μL/L;使用基于梯度提升決策樹的方法在7 次測(cè)試情況下,均與實(shí)際值一致,誤差為0。
由圖2(f)可知,使用基于主元統(tǒng)計(jì)方法在第3 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差為38.5 μL/L;使用基于人工神經(jīng)網(wǎng)絡(luò)理論的模式方法在第5 次測(cè)試時(shí),與實(shí)際值相差最大,最大誤差為33.1 μL/L;使用基于梯度提升決策樹的方法在7 次測(cè)試情況下,均與實(shí)際值一致,誤差為0。
通過上述分析可以看出,采用該文所提的基于梯度提升決策樹的氣體傳感陣列識(shí)別方法,對(duì)實(shí)驗(yàn)中樣本數(shù)據(jù)進(jìn)行識(shí)別,得到的結(jié)果均優(yōu)于主元統(tǒng)計(jì)方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識(shí)別方法,充分驗(yàn)證了所提方法的有效性,說明該文方法在實(shí)際應(yīng)用中具有一定優(yōu)勢(shì)。
由于氣體傳感陣列中存在敏感數(shù)據(jù),使用主元統(tǒng)計(jì)方法、基于人工神經(jīng)網(wǎng)絡(luò)理論的模式識(shí)別方法識(shí)別的結(jié)果存在較大誤差。因此,提出基于梯度提升決策樹的氣體傳感陣列識(shí)別方法。該方法主要以梯度提升決策樹作為主體算法,借助scale 函數(shù)構(gòu)造歸一化模型,標(biāo)準(zhǔn)化預(yù)處理敏感數(shù)據(jù),縮小敏感數(shù)據(jù)與其他數(shù)據(jù)的差異,并通過決策樹構(gòu)建最終的識(shí)別模型,提升識(shí)別的精度。實(shí)驗(yàn)中以變壓器油中溶解氣體為例,對(duì)氣體傳感陣列進(jìn)行深入識(shí)別。實(shí)例結(jié)果表明,該方法精度高,穩(wěn)定性好。
雖然該文方法在現(xiàn)階段具有一定可行性,但仍存在一些有待進(jìn)一步研究的問題:不同方向氣敏傳感陣列對(duì)氣體的響應(yīng)存在一定不同,只選取氣敏元件陣列對(duì)氣體濃度的響應(yīng)作為特征量。在下一步工作中可深入研究不同布置方式對(duì)氣體濃度的影響。