季玉潔,李 祥,劉翠茹
1.國(guó)電科學(xué)技術(shù)研究院有限公司; 2.國(guó)電南京煤炭質(zhì)量監(jiān)督檢驗(yàn)有限公司,江蘇 南京 210031)
煤的熱值、工業(yè)分析與元素分析數(shù)據(jù)間有著密切的關(guān)系,只要用熱值和工業(yè)分析數(shù)據(jù)將這種關(guān)系定量表示出來(lái),則煤中各元素含量完全可以由熱值和工業(yè)分析結(jié)果從理論上進(jìn)行近似計(jì)算[1]。經(jīng)驗(yàn)法、回歸分析法和算法等[1-6]已經(jīng)提出了煤的熱值與工業(yè)分析及元素分析數(shù)據(jù)之間較精準(zhǔn)的預(yù)測(cè)模型。但這些預(yù)測(cè)模型往往未能全面系統(tǒng)地考慮煤的熱值和工業(yè)分析數(shù)據(jù)間的交互作用和綜合關(guān)聯(lián)關(guān)系,特別是通過(guò)線(xiàn)性回歸法直接獲得預(yù)測(cè)模型時(shí),這種交互作用和綜合關(guān)聯(lián)關(guān)系的損失尤為明顯。而主成分分析法可將原始變量重新組合成一組新的互相無(wú)關(guān)的綜合變量,同時(shí)根據(jù)實(shí)際需要,從中取出幾個(gè)綜合變量,盡可能多地反映原始變量的信息[7]。
鑒于此,本文擬以主成分分析法對(duì)煤的發(fā)熱量和工業(yè)分析數(shù)據(jù)進(jìn)行預(yù)處理,在不損失原始變量信息的情況下對(duì)變量進(jìn)行壓縮,獲得煤的發(fā)熱量和工業(yè)分析數(shù)據(jù)的綜合作用參數(shù)(即主成分),研究所得主成分與煤的元素分析數(shù)據(jù)間的關(guān)系,進(jìn)而提出煤元素分析的通用預(yù)測(cè)模型,并檢驗(yàn)?zāi)P瓦m應(yīng)性。
以2016年4月至2017年10月間國(guó)電南京煤炭質(zhì)量監(jiān)督檢驗(yàn)有限公司所測(cè)561個(gè)煤樣的煤質(zhì)分析數(shù)據(jù)(見(jiàn)表1)為研究對(duì)象。表2表明研究所用煤質(zhì)分析數(shù)據(jù)具有較廣的覆蓋范圍。
表1 煤質(zhì)分析數(shù)據(jù)
注:*由“差減法”得到。
表2 煤質(zhì)分析數(shù)據(jù)范圍
注:*由“差減法”得到。
為提高科學(xué)性和嚴(yán)謹(jǐn)性,本文對(duì)原始數(shù)據(jù)進(jìn)行了以下處理:
(1)對(duì)原始數(shù)據(jù)進(jìn)行隨機(jī)重排,重排后結(jié)果見(jiàn)表1;
(2)以表1中前500組數(shù)據(jù)為訓(xùn)練組,后61組數(shù)據(jù)為檢驗(yàn)組;
(3)對(duì)訓(xùn)練組數(shù)據(jù)進(jìn)行主成分分析;
(4)將檢驗(yàn)組數(shù)據(jù)進(jìn)行去中心化,進(jìn)而使訓(xùn)練組和檢驗(yàn)組數(shù)據(jù)轉(zhuǎn)換到同一個(gè)坐標(biāo)系下。其原因是:在進(jìn)行主成分分析時(shí)訓(xùn)練組數(shù)據(jù)進(jìn)行了去中心化,即每一個(gè)因變量減去其所在列的平均值[8]。
主成分分析法的基本原理見(jiàn)文獻(xiàn)[4-7]。其主要步驟是:
(1)列出指標(biāo)數(shù)據(jù)矩陣X;
(2)計(jì)算X的協(xié)方差矩陣;
(3)計(jì)算協(xié)方差矩陣的特征值和特征向量;
(4)計(jì)算各成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率;
(5)確定主成分個(gè)數(shù)和主成分方程。
本文借助MATLAB軟件對(duì)訓(xùn)練組中煤的工業(yè)分析和發(fā)熱量數(shù)據(jù)進(jìn)行主成分分析,結(jié)果見(jiàn)表3。
表3 主成分的特征值、貢獻(xiàn)率及累計(jì)貢獻(xiàn)率
根據(jù)主成分特征值大于1的原則[9],確定影響煤的工業(yè)分析和發(fā)熱量數(shù)據(jù)的主要是前3個(gè)主成分,其累計(jì)貢獻(xiàn)率達(dá)100%,已覆蓋原始數(shù)據(jù)的全部信息。前3個(gè)主成分記作Z1、Z2和Z3,其得分見(jiàn)表4。由文獻(xiàn)[8,10,11]和各主成分的表達(dá)式知:第一主成分主要受Ad和Vd的綜合影響,其中Ad和Vd分別有較高程度的負(fù)載荷和正載荷;第二主成分主要受Vd和FCd的綜合影響,其中Vd和FCd分別有較高程度的正載荷和負(fù)載荷;第三主成分主要受Qgr,d的影響,其具有較高的負(fù)載荷。
表4 前3個(gè)主成分的得分
3個(gè)主成分的方程如下:
其中,c為主成分載荷矩陣,
(a)
(b)
(c)
(d)
(e)
(a)~(e)的預(yù)測(cè)效果見(jiàn)圖1。由圖1知,3個(gè)主成分與煤中各元素的三元線(xiàn)性擬合優(yōu)度分別為0.997 8、0.937 3、0.972 2、0.207 6和0.247 9。這表明基于主成分—三元線(xiàn)性回歸分析的Cd、Hd和Od預(yù)測(cè)模型具有極好的適應(yīng)性和有較廣的適應(yīng)范圍,其中Cd∈[13.35,79.05]、Hd∈[1.08,5.04]和Od∈[1.28,21.88]。值得注意的是,不同于文獻(xiàn)[1,2,13],本文中Od預(yù)測(cè)模型的預(yù)測(cè)精度較高,這表明主成分分析在原始數(shù)據(jù)處理時(shí)起到了關(guān)鍵作用。而基于主成分—三元線(xiàn)性回歸分析的Nd和Sd預(yù)測(cè)模型適應(yīng)性比較差,其原因是煤中N、S元素含量少、賦存形式復(fù)雜,且在煤轉(zhuǎn)化(熱解、氣化和燃燒等)中析出規(guī)律相當(dāng)復(fù)雜[14,15],與Ad、Vd、FCd和Qgr,d間并非簡(jiǎn)單的線(xiàn)性關(guān)系,即煤中N、S元素與3個(gè)主成分間并非簡(jiǎn)單的線(xiàn)性關(guān)系。
BP網(wǎng)絡(luò)是基于BP誤差傳播算法的多層前饋網(wǎng)絡(luò),多層BP網(wǎng)絡(luò)有輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)和一層或多層隱含節(jié)點(diǎn)[16]。通常將一個(gè)具有多個(gè)輸出的網(wǎng)絡(luò)模型轉(zhuǎn)化為多個(gè)具有一個(gè)輸出的網(wǎng)絡(luò)模型效果會(huì)更好,訓(xùn)練也更方便[17]。鑒于此,本文以主成分Z1-Z3作為輸入數(shù)據(jù),以Nd和Sd作為輸出數(shù)據(jù),分別建立基于主成分—BP網(wǎng)絡(luò)的煤中Nd和Sd的預(yù)測(cè)模型。
2.3.1 BP網(wǎng)絡(luò)參數(shù)設(shè)置
所建BP網(wǎng)絡(luò)的設(shè)計(jì)函數(shù)為newff,訓(xùn)練函數(shù)為train。輸入層到隱層的激勵(lì)函數(shù)為S型正切函數(shù)tansig,隱含層到輸出層的激勵(lì)函數(shù)為對(duì)數(shù)函數(shù)purelin。訓(xùn)練過(guò)程的其他參數(shù)設(shè)置如下:
net.trainParam.epochs = 500;%訓(xùn)練次數(shù)設(shè)置
net.trainParam.goal = 1e-6;%訓(xùn)練精度設(shè)置
net.trainParam.lr = 0.0001;%學(xué)習(xí)速率設(shè)置
net.trainParam.max_fail = 20;% 驗(yàn)證檢查設(shè)置
理論上,在閉區(qū)間內(nèi)的任何一個(gè)連續(xù)函數(shù)都可以用單隱層的BP網(wǎng)絡(luò)逼近,因此一個(gè)三層的BP網(wǎng)絡(luò)可以完成任意的n維到m維的映射,而隱含層神經(jīng)元數(shù)目往往需要設(shè)計(jì)者根據(jù)經(jīng)驗(yàn)和多次實(shí)驗(yàn)來(lái)確定[18],大多數(shù)學(xué)者認(rèn)為確定隱層最優(yōu)神經(jīng)元數(shù)最有效的方法是通過(guò)反復(fù)試驗(yàn),將能使樣本誤差達(dá)到預(yù)設(shè)精度的隱含層神經(jīng)元數(shù)目作為網(wǎng)絡(luò)模型最優(yōu)的隱含層神經(jīng)元數(shù)目[19]。同時(shí),隱含層神經(jīng)元數(shù)目越多,網(wǎng)絡(luò)越復(fù)雜,泛化能力也就越差,且過(guò)多的網(wǎng)絡(luò)節(jié)點(diǎn)會(huì)增加訓(xùn)練網(wǎng)絡(luò)的時(shí)間;相反,隱含層神經(jīng)元數(shù)目過(guò)少,將使得學(xué)習(xí)在局部最小中搜索,不能得到可靠的結(jié)果[16]。因此,必然存在一個(gè)最佳隱含層神經(jīng)元數(shù)。
鑒于此,本文確定BP網(wǎng)絡(luò)最優(yōu)隱含層節(jié)點(diǎn)數(shù)的方法為:
(2)采用試湊法確定BP網(wǎng)絡(luò)最優(yōu)隱含層節(jié)點(diǎn)數(shù)。即從hn=3開(kāi)始,將輸入層、隱含層節(jié)點(diǎn)數(shù)和輸出層相同的BP網(wǎng)絡(luò)循環(huán)運(yùn)行3 000次,每次運(yùn)行時(shí),BP網(wǎng)絡(luò)初始權(quán)值和閾值不斷變化,保存每次運(yùn)行產(chǎn)生的BP網(wǎng)絡(luò)和相應(yīng)的標(biāo)準(zhǔn)偏差δ;全部運(yùn)行結(jié)束后,獲得δ值最小時(shí)的BP網(wǎng)絡(luò);遞增hn,重復(fù)上述過(guò)程,直到hn=13。
(3)比較hn從3到13過(guò)程中的δ值,其中δ值最小時(shí)所對(duì)應(yīng)的hn值為最優(yōu)隱藏節(jié)點(diǎn)數(shù)(見(jiàn)表5),即BP net-Nd和BP net-Sd最優(yōu)hn值分別為6和7。
表5 不同隱含層節(jié)點(diǎn)數(shù)所對(duì)應(yīng)BP網(wǎng)絡(luò)的最小標(biāo)準(zhǔn)偏差
2.3.2 基于BP網(wǎng)絡(luò)的Nd和Sd預(yù)測(cè)模型適應(yīng)性分析
圖2 基于主成分—BP網(wǎng)絡(luò)的Nd和Sd預(yù)測(cè)模型結(jié)果比較
將檢驗(yàn)組數(shù)據(jù)進(jìn)行主成分變換后,直接加載訓(xùn)練好的最優(yōu)BP網(wǎng)絡(luò),獲得相應(yīng)的Nd和Sd預(yù)測(cè)值。由圖2知,預(yù)測(cè)值和實(shí)驗(yàn)值間的線(xiàn)性擬合優(yōu)度分別為0.561 0和0.542 0。比較圖1和圖2,基于主成分-BP網(wǎng)絡(luò)的Nd和Sd預(yù)測(cè)模型的適應(yīng)性較基于主成分-三元線(xiàn)性回歸分析時(shí)有大幅提升。然而由于煤中N和S元素含量少、賦存形式過(guò)于復(fù)雜,即便是具有高度非線(xiàn)性泛化能力的BP網(wǎng)絡(luò),也未能精準(zhǔn)預(yù)測(cè)煤中N、S元素含量。在預(yù)測(cè)精度允許的情況下,可使用預(yù)測(cè)模型(f)和(g)(見(jiàn)圖2)對(duì)煤中N、S元素含量進(jìn)行預(yù)測(cè)。
(1)基于主成分—三元線(xiàn)性回歸分析的Cd、Hd和Od預(yù)測(cè)模型具有較好的適應(yīng)性和較廣的適應(yīng)范圍;
(2)基于主成分—三元線(xiàn)性回歸分析的Nd和Sd預(yù)測(cè)模型的適應(yīng)性較差,即以主成分—三元線(xiàn)性回歸分析法預(yù)測(cè)煤中的Nd和Sd是失效的;
(3)基于主成分—BP網(wǎng)絡(luò)的Nd和Sd預(yù)測(cè)模型的適應(yīng)性較主成分—三元線(xiàn)性回歸分析時(shí)有大幅提升。然而煤中N和S元素含量少、賦存形式過(guò)于復(fù)雜,即便是具有高度非線(xiàn)性泛化能力的BP網(wǎng)絡(luò),也未能精準(zhǔn)預(yù)測(cè)煤中N和S元素含量。