辛忠洋
(中國(guó)移動(dòng)通信集團(tuán)山東有限公司濟(jì)寧分公司,山東 濟(jì)寧 272000)
作為對(duì)氣體進(jìn)行檢測(cè)的技術(shù)之一,機(jī)器嗅覺可被拆分成兩部分,分別是對(duì)傳感數(shù)據(jù)進(jìn)行采集、對(duì)采集數(shù)據(jù)進(jìn)行處理,其中,對(duì)系統(tǒng)輸出起決定作用的環(huán)節(jié)為數(shù)據(jù)處理。氣體數(shù)據(jù)是指氣體傳感器以陣列為依托,通過長(zhǎng)期收集所得到數(shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行收集期間,相關(guān)人員應(yīng)對(duì)壓力、溫度等外部環(huán)境嚴(yán)加控制。
對(duì)氣體數(shù)據(jù)加以表示所用音頻及圖像數(shù)據(jù),通常有顯著差異存在,相關(guān)人員考慮到氣體數(shù)據(jù)的獲得途徑是陣列采樣,故提出用以下公式對(duì)數(shù)據(jù)樣本進(jìn)行表達(dá):
式中,si為數(shù)據(jù)特征i;m為特征數(shù)量。由此可見,要想使特征數(shù)據(jù)集得到準(zhǔn)確表示,可采用以下公式:
式中,gj為樣本數(shù)據(jù)j;n為樣本數(shù)量。要想使機(jī)器學(xué)習(xí)算法取得符合心理預(yù)期的良好分類效果,關(guān)鍵是提前處理氣體數(shù)據(jù)。對(duì)諸多因素加以考慮后,相關(guān)人員提出以下處理策略:一是數(shù)據(jù)標(biāo)準(zhǔn)化,二是PCA。其中,PCA需要尤為注意,作為著重分析主成分的技術(shù),PCA強(qiáng)調(diào)以降維思想為指導(dǎo),確保單指標(biāo)能夠被有效轉(zhuǎn)變成綜合指標(biāo)。
2.1.1 評(píng)價(jià)指標(biāo)
對(duì)回歸模型進(jìn)行評(píng)價(jià)的指標(biāo),主要有MSE、MAE和RMSE,其中,對(duì)MSE進(jìn)行計(jì)算的公式為:
由上述公式可知,該指標(biāo)強(qiáng)調(diào)先對(duì)真實(shí)值、預(yù)測(cè)值進(jìn)行減法計(jì)算,獲得偏方后,再對(duì)平均值進(jìn)行求解。由于回歸模型的損失函數(shù)多為MSE,這也表明在預(yù)測(cè)環(huán)節(jié)將MSE視作評(píng)價(jià)指標(biāo)有實(shí)際意義。
對(duì)MAE進(jìn)行計(jì)算的公式為:
作為線性分?jǐn)?shù)的一種,MAE的特點(diǎn)是個(gè)體誤差對(duì)應(yīng)平均值有相等權(quán)重,即:個(gè)體誤差均要接受線性懲罰。上文提到的MSE和下文即將介紹的RMSE,其誤差懲罰均為非線性懲罰,這點(diǎn)較易被忽略。
RMSE是以MSE為基礎(chǔ)所進(jìn)行的開根計(jì)算,其公式為:
如果數(shù)據(jù)有偏大的數(shù)量級(jí),將有一定概率出現(xiàn)較高平方誤差,對(duì)MES進(jìn)行開根計(jì)算,可保證誤差結(jié)果與數(shù)據(jù)始終處于相同數(shù)量級(jí)。
2.1.2 人工神經(jīng)網(wǎng)絡(luò)
將ANN和回歸問題相結(jié)合,損失函數(shù)往往為MSE,要求相關(guān)人員以梯度下降法為依托,對(duì)模型進(jìn)行優(yōu)化訓(xùn)練。除特殊情況外,網(wǎng)絡(luò)輸出層均不對(duì)激活函數(shù)加以使用,這是因?yàn)轭A(yù)測(cè)數(shù)值范圍有一定概率出現(xiàn)超出常用值域范圍的問題,進(jìn)而使預(yù)測(cè)計(jì)算無法更進(jìn)一步。對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練較易出現(xiàn)過擬合情況。基于ANN所展開訓(xùn)練可被劃分到監(jiān)督學(xué)習(xí)陣營(yíng),要想使訓(xùn)練效果達(dá)到預(yù)期,關(guān)鍵是要有充足的標(biāo)簽樣本提供支持。本文所研究氣體傳感器相關(guān)數(shù)據(jù),通常要經(jīng)過數(shù)年的收集或累積,可被用來輔助訓(xùn)練展開的樣本數(shù)量有限,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的難度不言而喻。要想使上述問題得到解決,關(guān)鍵是以實(shí)際情況為依據(jù),通過提前終止或是數(shù)據(jù)增強(qiáng)等方法,確保過擬合問題可得到有效預(yù)防[1]。
2.1.3 支持向量機(jī)
回 歸 數(shù) 據(jù) 集 固 定,通 常 是T={(x1,y1),(x2,y2),…,(xN,yN),},其中,xi的取值范圍是Rn,i的取值范圍是1至N。相關(guān)人員希望能夠得到取值與y相近的回歸模型:
在該模型中,w、b均屬于模型參數(shù)。常規(guī)回歸模型用來展開損失計(jì)算所依托對(duì)象,通常以真實(shí)值、模型輸出值為主,只有二者數(shù)值相等,才能得出損失是0的結(jié)論。本文所討論支持向量機(jī)的特點(diǎn),則是能夠容忍二者有誤差ε存在,只有二者誤差較ε更大時(shí),才會(huì)對(duì)損失進(jìn)行計(jì)算。
基于支持向量機(jī)所建立回歸模型、分類模型,在優(yōu)化問題的處理方面,通常會(huì)采取相同的方法,即:先借助拉格朗日乘子將優(yōu)化問題轉(zhuǎn)變成對(duì)偶問題,再對(duì)問題進(jìn)行解答。求解時(shí),相關(guān)人員可根據(jù)實(shí)際情況決定是否用核函數(shù)對(duì)內(nèi)積進(jìn)行替代,確保特征能夠得到自低維至高維的有序映射。但要注意一點(diǎn),計(jì)算對(duì)象首選低維,這樣做可降低計(jì)算難度,保證計(jì)算準(zhǔn)確。
2.2.1 實(shí)驗(yàn)說明
相關(guān)人員出于對(duì)比不同算法所取得分類效果的考慮,決定以前人研究所得氣體傳感器相關(guān)數(shù)據(jù)為依據(jù),通過隨機(jī)挑選的方式,確定本次實(shí)驗(yàn)所需乙醇樣本,共600個(gè),樣本的乙醇濃度在10至600間。將乙醇樣本平均分成3組,每組的樣本數(shù)量為200個(gè),僅對(duì)第1組樣本進(jìn)行訓(xùn)練,剩余兩組作為測(cè)試組。為確保實(shí)驗(yàn)有實(shí)際意義,相關(guān)人員還制定了以下對(duì)比方案:方案1,僅利用Z-score對(duì)數(shù)據(jù)進(jìn)行處理。方案2,在利用Z-score進(jìn)行處理的基礎(chǔ)上,借助PCA完成降維與特征提取操作。
2.2.2 人工神經(jīng)網(wǎng)絡(luò)
在參數(shù)過多的情況下,ANN有一定概率出現(xiàn)過擬合情況。而較多的網(wǎng)絡(luò)層數(shù)所帶來的問題,通常是梯度消失。對(duì)諸多因素加以考慮后,相關(guān)人員提出以隱藏層數(shù)量為一個(gè)的網(wǎng)絡(luò)為依據(jù),對(duì)回歸任務(wù)進(jìn)行落實(shí),將該網(wǎng)絡(luò)隱藏層共設(shè)128個(gè)神經(jīng)元并接入ReLU,用來對(duì)函數(shù)進(jìn)行激活,輸出層則不對(duì)激活函數(shù)加以使用。另外,相關(guān)人員還計(jì)劃通過提前終止的方式,對(duì)過擬合問題進(jìn)行控制。本次實(shí)驗(yàn)的結(jié)果如下:
表1 回歸結(jié)果
由實(shí)驗(yàn)結(jié)果可知,基于人工神經(jīng)網(wǎng)絡(luò)所建立回歸模型,對(duì)方案1加以使用,通??扇〉幂^為理想的效果,簡(jiǎn)單來說,就是憑借Z-score處理特征數(shù)據(jù)。這表明PCA降維所造成影響,往往集中在特征表達(dá)領(lǐng)域,方案2優(yōu)勢(shì)的發(fā)揮自然會(huì)受到制約。
2.2.3 支持向量機(jī)
相關(guān)人員出于對(duì)傳感器數(shù)據(jù)所存在聯(lián)系進(jìn)行準(zhǔn)確表達(dá)的考慮,決定利用徑向基函數(shù)完成回歸實(shí)驗(yàn),借助網(wǎng)格搜索法,對(duì)C和gamma的最優(yōu)值加以確定,作出這一決定的原因,主要是徑向基函數(shù)有極強(qiáng)的映射能力。表2為網(wǎng)格搜索結(jié)果。
表2 不同方案的最優(yōu)超參數(shù)
相關(guān)人員可借助最優(yōu)超參數(shù),基于不同方案分別訓(xùn)練第1組數(shù)據(jù),將R2視為評(píng)價(jià)回歸結(jié)果的核心指標(biāo),對(duì)比其他組數(shù)據(jù),得出表3的結(jié)果。
表3 回歸結(jié)果
對(duì)上述計(jì)算公式進(jìn)行分析能夠發(fā)現(xiàn),R2≤1,這表明R2的取值越靠近1,模型效果越理想,如果R2=1,則表明當(dāng)前預(yù)測(cè)結(jié)果無誤差存在,若R2=0,該模型則具備成為基準(zhǔn)模型的條件。這里提到的基準(zhǔn)模型,主要是指并未對(duì)特征取值加以考慮,而是以樣本均值為依據(jù),對(duì)預(yù)測(cè)值加以確定的模型。由此可見,將R2視為評(píng)價(jià)模型質(zhì)量的指標(biāo),即便評(píng)價(jià)對(duì)象不同,最終結(jié)果仍有實(shí)際意義。
結(jié)合表3所給出數(shù)據(jù)可知,方案2所取得回歸效果較方案1更符合預(yù)期,這表明基于PCA做降維處理,可使支持向量機(jī)效果得到優(yōu)化,對(duì)氣體樣本相關(guān)特征進(jìn)行提取時(shí),同樣可選擇引入PCA降維,為回歸精度提供保證。
2.2.4 比較分析
上文分別分析了基于不同算法所進(jìn)行實(shí)驗(yàn)的結(jié)果,從不同維度對(duì)上述方法進(jìn)行分析可得出以下結(jié)論:其一,將方案2與支持向量機(jī)結(jié)合,可獲得最接近預(yù)期的回歸效果。其二,將方案2與ANN結(jié)合,其回歸效果往往差強(qiáng)人意。其三,基于方案1所展開實(shí)驗(yàn)的效果和方案2相反。從全局視角來看,相關(guān)人員所采取方案并不會(huì)給最終效果帶來決定性影響,即:支持向量機(jī)所取得效果,均較人工神經(jīng)網(wǎng)絡(luò)更接近理想水平。
現(xiàn)將本次實(shí)驗(yàn)所得到結(jié)論歸納如下,供相關(guān)人員參考:首先是對(duì)氣體濃度回歸而言,支持向量機(jī)所取得效果明顯較人工神經(jīng)網(wǎng)絡(luò)更符合實(shí)驗(yàn)要求。其次是PCA降維與網(wǎng)絡(luò)特征表達(dá)的關(guān)聯(lián)十分密切。最后是PCA降維+Z-score的組合,在多數(shù)情況下,均可被用來對(duì)氣體濃度進(jìn)行準(zhǔn)確預(yù)測(cè)。
持續(xù)發(fā)展的機(jī)械嗅覺技術(shù),現(xiàn)已被應(yīng)用在航天航空、食品安全還有環(huán)境檢測(cè)等領(lǐng)域,作為組成機(jī)器嗅覺不可缺少的部分,識(shí)別氣體濃度的重要性有目共睹。本文著重討論了如何利用機(jī)器學(xué)習(xí)對(duì)氣體數(shù)據(jù)進(jìn)行處理,通過實(shí)驗(yàn)分析的方式,對(duì)不同算法所取得效果進(jìn)行對(duì)比,并得出可使效果最接近預(yù)期的算法,即邏輯回歸+人工神經(jīng)網(wǎng)絡(luò)。