尚夢琦
【摘要】? ? 氣候變暖是人類的共同威脅,對氣候及極端天氣相關(guān)數(shù)據(jù)的分析有助于加深人們對全球變暖的理性認識。本文以加拿大為例,結(jié)合數(shù)據(jù)挖掘技術(shù),使用支持向量回歸(SVR)方法對目標地區(qū)的溫度情況進行分析與預測,探索氣候變化規(guī)律,為共同應對全球變暖提供幫助。
【關(guān)鍵詞】? ? 全球變暖? ? SVR? ? 氣候變化
Abstract:Climate warming is a common threat to mankind, and the analysis of climate and extreme weather related data can help deepen peoples rational understanding of global warming. This article takes Canada as an example, combined with data mining technology, uses support vector regression (SVR) methods to analyze and predict the temperature in the target area, explore the laws of climate change, and provide help for the joint response to global warming.
Keywords: Global warming; SVR; climate change
引言
溫室效應不斷增加,導致地氣系統(tǒng)能量失衡,而這些不平衡的能量在地球積聚,導致溫度上升,造成全球氣候變暖。這一問題的出現(xiàn),為世界氣候帶來了相當?shù)挠绊?,例如冰川和凍土消融、海平面上升、極端天氣的出現(xiàn)等等。這些不僅會影響自然生態(tài)的平衡,也威脅著人類的生存環(huán)境。因此,通過相關(guān)數(shù)據(jù)找出溫室效應與全球氣候變化之間的關(guān)系,并由此預測未來溫度的變化具有現(xiàn)實意義。
一、數(shù)據(jù)來源
根據(jù)文獻調(diào)研結(jié)果發(fā)現(xiàn),可能影響氣候變化的因素有:二氧化碳排行量、人口數(shù)量、GDP等。由于氣候是長時間內(nèi)氣象要素的統(tǒng)計狀態(tài),選擇以年為單位進行分析。建模數(shù)據(jù)來自世界銀行公開數(shù)據(jù)和加拿大政府網(wǎng)站。
二、基于SVR的溫度預測模型
支持向量機回歸是基于統(tǒng)計學習理論和結(jié)構(gòu)風險最小化原理而提出的一種由監(jiān)督的新的機器學習方法,適合小樣本下的統(tǒng)計學習分析。因此,本實驗采用如圖1所示的技術(shù)路線進行研究分析。
2.1特征選擇
考慮到現(xiàn)有的數(shù)據(jù)集中包含的特征,選擇1960年至2018年的數(shù)據(jù),同時加入了季節(jié)因素,建模采用的特征分別是:人口、人均二氧化碳排放量、國內(nèi)生產(chǎn)總值、春季氣溫偏移量、夏季氣溫偏移量、秋季氣溫偏移量和冬季氣溫偏移量。
2.2數(shù)據(jù)預處理
數(shù)據(jù)預處理工作主要包括數(shù)據(jù)清洗和數(shù)據(jù)歸一化。
1、數(shù)據(jù)清洗
由于數(shù)據(jù)集中存在缺省值、異常值等,模型建立之前一般要進行數(shù)據(jù)清洗工作,剔除異常值,利用均值填充缺省值。
2、數(shù)據(jù)歸一化
由于不同特征的變化量級存在較大差異,為了便于分析和研究,消除數(shù)量級不同對模型的影響,基于均值和標準差對數(shù)據(jù)進行標準化處理。標準化方法如公式1所示:
其中,xi是原始特征數(shù)據(jù),μ為對應特征的均值信息,σ為標準差,標準化后的數(shù)據(jù)符合正態(tài)分布。
3、數(shù)據(jù)集劃分
為了避免模型過擬合,首先將數(shù)據(jù)集打亂,之后將80%的數(shù)據(jù)作為訓練集用于訓練模型,20%的數(shù)據(jù)作為測試集用于模型優(yōu)化與評估。
2.3 SVR模型構(gòu)建
1、SVR 原理分析
SVR模型通過非線性核函數(shù)將特征數(shù)據(jù)映射到高維度空間G,然后在高維空間中進行線性回歸,如公式2所示。
2、核函數(shù)選擇
目前主流的核函數(shù)主要有:線性核函數(shù)、多項式核函數(shù)和高斯核函數(shù),考慮到目前可用的數(shù)據(jù)量并不是很大,而且避免核函數(shù)映射到無窮維空間導致模型構(gòu)建的失敗,因此,選擇使用較為簡單、易于處理小型數(shù)據(jù)集的線性核函數(shù),如公式3所示。
3、擬合模型
將訓練集數(shù)據(jù)帶入模型,訓練后的溫度模型中各個特征的權(quán)重值如表1所示。
可以發(fā)現(xiàn)除了四季溫度的偏移,二氧化碳的排放量也顯著影響著年氣溫的偏差。
2.4模型優(yōu)化與評估
使用測試集評估模型的泛化性能,為了使模型達到最優(yōu)效果,采用GridSearch網(wǎng)格搜索方法嘗試參數(shù)的可能組合,找到最佳參數(shù)值。
針對構(gòu)建的SVR溫度預測模型,其中有兩個重要的參數(shù),核寬度gamma和正則化參數(shù)C。gamma值在一定程度上決定了數(shù)據(jù)在新特征空間的分布情況,而正則化參數(shù)C用于降低模型擬合的風險程度。根據(jù)sklearn庫中提供的GridSearchCV包,找到了最佳模型參數(shù)值:gamma=0.2,C=0.1。
之后使用新參數(shù)構(gòu)建模型,可以獲得較高的擬合精度,訓練集精度為0.85,測試集精度為0.845。
四、結(jié)果分析
為了便于對結(jié)果進行預測分析,我們將原始數(shù)據(jù)信息和通過SVR溫度預測模型得到的溫度值繪制在一張圖上,如圖2所示。其中藍色折線為原始年氣溫偏差,紅色折現(xiàn)為SVR預測的年氣溫偏差,可以發(fā)現(xiàn)模型的擬合效果較好。
五、結(jié)語
本文通過建立SVR溫度預測模型,探索和分析溫度與多因素的關(guān)系,可以發(fā)現(xiàn)隨著近年來各個國家的快速發(fā)展與人口劇增,人類活動已經(jīng)影響到地球原生的氣溫變化,如果不對二氧化碳的排放量加以限制,則會加快全球變暖的趨勢。
參? 考? 文? 獻
[1] 熱伊萊·卡得爾,伊卜拉伊木·阿卜杜吾普,陳剛.全球氣候變化及其影響因素研究進展[J].農(nóng)業(yè)開發(fā)與裝備,2020(09):81-82.
[2] 趙宗慈,羅勇,黃建斌.全球變暖與氣候突變[J/OL].氣候變化研究進展:1-10[2020-11-09].
[3] 牛書麗,陳衛(wèi)楠.全球變化與生態(tài)系統(tǒng)研究現(xiàn)狀與展望[J].植物生態(tài)學報,2020,44(05):449-460.