◎ 韓建軍,南少偉,郭呈周,李建平
(河南工業(yè)大學(xué)土木建筑學(xué)院,河南 鄭州 450001)
糧倉的氣密性是確保安全儲(chǔ)糧的關(guān)鍵,但受倉型類別、墻體結(jié)構(gòu)類型、墻體結(jié)構(gòu)層厚度和機(jī)械通風(fēng)口個(gè)數(shù)等因素的影響,其氣密性不能滿足安全、綠色儲(chǔ)糧的要求。因此,對(duì)糧倉氣密性影響因素的研究具有重要的現(xiàn)實(shí)意義。
針對(duì)糧倉的氣密性問題,學(xué)者們進(jìn)行了大量的研究。丁江濤[1]提出采用排除法查找倉房漏氣的原因,通過空倉氣密性測(cè)試、墻壁掛膜氣密性測(cè)試及地面用塑料薄膜密封后氣密性測(cè)試來對(duì)比500 Pa的壓力半衰期,找出了所研究倉房漏氣部位及比例,并對(duì)漏氣部位進(jìn)行改造,以提高倉房氣密性,達(dá)到綠色儲(chǔ)糧的要求。劉佳等[2]通過分析糧食平房倉氣密性對(duì)糧溫、糧食含水量及熏蒸效果的影響,闡述了糧食平房倉氣密性對(duì)實(shí)現(xiàn)安全儲(chǔ)糧至關(guān)重要,且指出了影響糧食平房倉氣密性的主要因素是門窗、屋面、墻體及工藝孔洞等。崔棟義等[3]研究了高大平房倉氣密性改造對(duì)環(huán)流熏蒸效果的影響,在保證外部條件相同的情況下,定時(shí)檢測(cè)倉房氣體濃度,并對(duì)檢測(cè)數(shù)據(jù)比較分析,表明經(jīng)過氣密性改造的倉房能有效的保持熏蒸濃度。張來林等[4]針對(duì)當(dāng)前我國新建糧倉氣密性差的原因,從合理選用倉房結(jié)構(gòu)、嚴(yán)把施工安裝質(zhì)量關(guān)等方面,提出了從根本上改變倉房密閉方式,達(dá)到新倉建設(shè)提質(zhì)、增效、降耗的目的。閔炎芳等[5]對(duì)不同儲(chǔ)糧、儲(chǔ)糧年限、風(fēng)道型式的高大平房拱板倉進(jìn)行了糧堆單面封負(fù)壓法氣密性測(cè)定,通過分析測(cè)定結(jié)果得出了糧堆氣密性好壞與倉房配置風(fēng)道型式關(guān)系緊密,而與儲(chǔ)存年限、糧堆高度的關(guān)系不是太顯著的結(jié)論,并且探明了影響倉房糧堆負(fù)壓氣密性因素。以上研究主要分為兩類:①通過糧倉氣密性檢測(cè),分析找出氣密性差的原因,并提出改善糧倉氣密性的措施。②通過分析糧倉氣密性對(duì)綠色儲(chǔ)糧的影響,闡明了糧倉氣密性的重要性。但他們的研究對(duì)影響糧倉氣密性的因素與氣密性之間的定量評(píng)價(jià)不曾涉及。因此,建立糧倉氣密性評(píng)價(jià)模型對(duì)有效地提高糧倉氣密性能具有重要意義。
基于此,采用隨機(jī)森林算法建立糧倉氣密性評(píng)價(jià)模型,并結(jié)合相關(guān)調(diào)研數(shù)據(jù)來驗(yàn)證模型的準(zhǔn)確性和適用性,以期為糧倉的氣密性評(píng)價(jià)提供新思路。
隨機(jī)森林(RFR)是由Leo Breiman于2001年提出的將決策樹中CART算法和Bagging算法相結(jié)合的一種新算法[6],它利用bootsrap重采樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)bootsrap樣本進(jìn)行決策樹建模,再通過多棵決策樹的組合,最終以投票的方式得出預(yù)測(cè)結(jié)果[7]。大量的研究證明,隨機(jī)森林算法具有很高的預(yù)測(cè)能力,且較傳統(tǒng)的預(yù)測(cè)算法,不容易出現(xiàn)過擬合現(xiàn)象。同時(shí),對(duì)于小樣本非線性、高維模式的識(shí)別等問題有著其特有的優(yōu)勢(shì)。隨機(jī)森林主要應(yīng)用于分類問題和回歸問題,對(duì)于分類問題,以最終的投票數(shù)決定最后的預(yù)測(cè)結(jié)果;而對(duì)于回歸問題,將所有回歸決策樹輸出值的平均值作為最終的預(yù)測(cè)值[8]。
(1)對(duì)N組樣本數(shù)據(jù)采用bootstrap抽樣法進(jìn)行有放回的隨機(jī)抽樣,抽取出M個(gè)樣本,以取出的M個(gè)樣本形成M顆能夠進(jìn)行模型訓(xùn)練的決策樹,剩余的N-M個(gè)樣本作為袋外數(shù)據(jù)(out of bag,OOB)用來測(cè)試模型的準(zhǔn)確性。
(2)假設(shè)原始數(shù)據(jù)樣本有P個(gè)變量,則在每顆決策樹的每個(gè)節(jié)點(diǎn)隨機(jī)抽取K個(gè)變量作為備選分枝變量,依據(jù)分枝優(yōu)度準(zhǔn)則選擇最佳分枝。
(3)每顆決策樹開始自頂向下進(jìn)行遞歸分枝,葉節(jié)點(diǎn)的最小尺寸設(shè)定為5,以此作為決策樹生長(zhǎng)的終止條件且確保模型建立的準(zhǔn)確性。
(4)將生成的M顆決策樹組成隨機(jī)森林回歸模型,模型的回歸效果采用袋外數(shù)據(jù)(OOB)預(yù)測(cè)的殘差均方進(jìn)行評(píng)價(jià)。
本文樣本數(shù)據(jù)來源于廣東省、湖南省等地糧倉的實(shí)地調(diào)研,通過整理共得45組有效數(shù)據(jù)。糧倉的氣密性評(píng)價(jià)由輸入變量和輸出變量組成。其中,輸入變量為糧倉倉型、門窗密封措施、單倉自然通風(fēng)口個(gè)數(shù)、單倉軸流風(fēng)機(jī)口個(gè)數(shù)和單倉環(huán)流熏蒸孔個(gè)數(shù)等16個(gè)影響因素;輸出變量為500 Pa壓力半衰期。從50組數(shù)據(jù)中隨機(jī)抽取45組作為訓(xùn)練樣本,剩余5組作為測(cè)試樣本。為了避免不同變量之間量級(jí)差異的影響,對(duì)樣本的輸入和輸出量運(yùn)用以下公式歸一化處理到[0,1]區(qū)間:
式(1)中,xmax、xmin分別為xi的最大值和最小值;為標(biāo)準(zhǔn)化后的輸入量;xi為第i個(gè)輸入量。
本文模型的建立采用了科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開發(fā)的randomforest-matlab開源工具箱[11],依托MATLAB R2009b軟件作為操作平臺(tái),通過編程調(diào)用工具箱函數(shù),建立糧倉氣密性評(píng)價(jià)模型。
由于本文數(shù)據(jù)樣本的影響因素較多,為了防止相關(guān)性低的因素影響模型準(zhǔn)確度,首先對(duì)16個(gè)自變量運(yùn)用SPSS進(jìn)行篩選,其篩選方法為:將歸一化后的45組樣本數(shù)據(jù)載入SPSS軟件,采用逐步回歸的方法篩選出與因變量顯著性高的自變量。其結(jié)果見表1。
表1 影響因素篩選結(jié)果表
由表1可知,單倉容積、墻體結(jié)構(gòu)層類型、墻體結(jié)構(gòu)層厚度等6個(gè)因素是影響糧倉氣密性的主要因素,且6個(gè)因素對(duì)因變量均有顯著的預(yù)測(cè)作用(Sig≤0.05),常量為逐步回歸的截距項(xiàng),B為自變量對(duì)應(yīng)的偏回歸系數(shù),對(duì)其進(jìn)行標(biāo)準(zhǔn)化,可比較不同自變量對(duì)因變量的作用大小,其結(jié)果為:?jiǎn)蝹}進(jìn)(卸)糧口個(gè)數(shù)>單倉容積>墻體結(jié)構(gòu)層厚度>墻體結(jié)構(gòu)層類型>單倉機(jī)械通風(fēng)口個(gè)數(shù)>單倉環(huán)流熏蒸孔個(gè)數(shù),正負(fù)號(hào)表示自變量與因變量的正相關(guān)和負(fù)相關(guān),其符號(hào)與實(shí)際相符;t表示偏回歸系數(shù)檢驗(yàn)的統(tǒng)計(jì)量,其對(duì)應(yīng)的P值Sig≤0.05,表明所選擇的6個(gè)自變量均滿足條件。所以本文建模采用以上6個(gè)影響因素作為最終模型的輸入變量。隨機(jī)森林中決策樹顆數(shù)ntree及分裂特征集中的特征個(gè)數(shù)mtry對(duì)隨機(jī)森林回歸模型預(yù)測(cè)精度及泛化能力影響較大[12]。所以,在建模過程中,通過對(duì)兩個(gè)參數(shù)反復(fù)調(diào)試,最終設(shè)定決策樹顆數(shù)ntree為1 500,分裂特征集中的特征個(gè)數(shù)mtry為3,將其帶入模型建立糧倉氣密性評(píng)價(jià)模型,該模型的預(yù)測(cè)效果以均方誤差根(RMSE)和相關(guān)系數(shù)R2來評(píng)價(jià),其測(cè)試樣本回歸擬合曲線如圖1所示。
圖1 測(cè)試樣本回歸擬合曲線圖
由圖1可知,模型對(duì)測(cè)試樣本的預(yù)測(cè)精度較好,真實(shí)值與預(yù)測(cè)值曲線吻合也較好,其均方誤差根(RMSE)為5.244 5(最小為0),相關(guān)系數(shù)(R2)為0.984 66(最大為1),說明該模型泛化性能較好且具備了一定的預(yù)測(cè)能力,將其對(duì)應(yīng)的真實(shí)值與預(yù)測(cè)值按下式計(jì)算相對(duì)誤差(RE):
式(2)中,Yi為真實(shí)值,為預(yù)測(cè)值,i為樣本序號(hào)。通過(2)式計(jì)算的對(duì)比結(jié)果見表2。
表2 真實(shí)值與預(yù)測(cè)值對(duì)比結(jié)果表
在表2中,真實(shí)值和預(yù)測(cè)值為500 Pa壓力半衰期,其單位為秒;通過分析上表可得,隨機(jī)森林預(yù)測(cè)模型對(duì)糧倉氣密性的預(yù)測(cè)值相對(duì)誤差最大值為8.71%,最小值為0.94%,平均相對(duì)誤差值為3.52%,表明該模型具有一定的可靠性。
(1)隨機(jī)森林算法對(duì)小樣本的非線性數(shù)據(jù)具有良好的適應(yīng)性,且可調(diào)參數(shù)較少,對(duì)數(shù)據(jù)的分析更具客觀性,本文基于隨機(jī)森林算法建立的糧倉氣密性評(píng)價(jià)模型,通過真實(shí)值與預(yù)測(cè)值的對(duì)比,表明了該模型預(yù)測(cè)精度較高,魯棒性較好,可以應(yīng)用于糧倉氣密性的評(píng)價(jià)。
(2)通過智能化的算法建立模型來評(píng)價(jià)糧倉氣密性問題,可以為已建倉型的改良提供一定的參考,對(duì)新倉型的建設(shè)具有指導(dǎo)意義,這也為糧倉的氣密性評(píng)價(jià)問題提供了新思路。