馬佳琪 滕國文
摘要:由于近些年來火災(zāi)時有發(fā)生,被稱為“地球之肺”的最大雨林區(qū)亞馬遜也不斷面臨著威脅。因此,了解和分析火災(zāi)發(fā)生的時間和空間勢在必行?;诖?,在亞馬遜火災(zāi)的分析評價中,試采用主成分分析法(PCA)建立數(shù)學(xué)模型,從時間、空間的不同維度對亞馬遜火災(zāi)的發(fā)生情況進行了可視化分析。最終得出具體的時間和地點是火災(zāi)的高峰期。為預(yù)防更多火災(zāi)的發(fā)展,阻止全球氣候變暖的發(fā)展提供參考方向。
關(guān)鍵詞:數(shù)據(jù)可視化;PCA;亞馬遜火災(zāi)
【Abstract】TheAmazon,therainiestforestintheworldandknownasthe"lungsoftheworld",isunderconstantthreatbecauseofirregularfiresinrecentyears.Therefore,itisimperativetounderstandandanalyzethetimeandspaceoffire.Basedonthis,intheanalysisandevaluationofAmazonfire,amathematicalmodelisestablishedbyprincipalcomponentanalysis(PCA),andavisualanalysisisconductedontheoccurrenceofAmazonfirefromdifferentdimensionsoftimeandspace.Soitisconcludedthatthespecifictimeandplaceisthepeakofthefire.Topreventthedevelopmentofmorefiresandthedevelopmentofglobalwarming,theresearchinthepapercouldprovidereferencedirection.
【Keywords】datavisualization;PCA;Amazonfire
作者簡介:馬佳琪(1995-),女,碩士研究生,主要研究方向:數(shù)據(jù)可視化;滕國文(1963-),男,教授,碩士生導(dǎo)師,主要研究方向:人工智能。
0引言
在人工智能發(fā)展的今天,可視化憑借計算機和數(shù)字圖像處理方法,把批量高維數(shù)據(jù)轉(zhuǎn)換為圖表后進行展示和處理。當(dāng)處理科研問題及其數(shù)據(jù)時,人們往往遇到甚至?xí)_到數(shù)百萬維度的真實數(shù)據(jù)[1]。盡管在其原來的高維結(jié)構(gòu)中,數(shù)據(jù)能夠得到最好的表達,但有時就可能需要給數(shù)據(jù)進行降維。降維的需求往往與可視化有關(guān)(減少兩三個維度,方便人們繪圖),但這只是原因之一。有時候,人們認為性能比精度更重要,那么就可以將1000維的數(shù)據(jù)降至10維,從而讓人們可以更快地對這些數(shù)據(jù)進行操作(比如計算距離)。綜上可知,對降維的需求是存在的并且有很多應(yīng)用。
1數(shù)據(jù)可視化
可視化分析作為大數(shù)據(jù)分析的一個重要分支,已經(jīng)廣泛應(yīng)用于科學(xué)計算研究和商業(yè)智能[2]。因此,數(shù)據(jù)可視化分析是大數(shù)據(jù)分析不可缺少的手段和工具[3]??梢暬治觯╒isualanalytics)是科學(xué)可視化、信息可視化、人機交互、數(shù)據(jù)挖掘等研究領(lǐng)域交叉集成而產(chǎn)生的一種新的研究方向[2],也是一種通過交互式可視化界面幫助用戶分析和推理大規(guī)模復(fù)雜數(shù)據(jù)集的科學(xué)技術(shù)[4]。分析過程在數(shù)據(jù)和知識轉(zhuǎn)化的過程中不斷循環(huán),可將大數(shù)據(jù)分析和挖掘方法與視覺信息處理過程相結(jié)合,將計算機的處理能力和人類的認知能力相結(jié)合,最終挖掘出大規(guī)模高維數(shù)據(jù)集所包含的價值[1]。
大部分存儲的原始數(shù)據(jù)都是沒有價值的,只有在提取信息后,才能發(fā)現(xiàn)價值。人類處理視覺信息的速度非???,可以立即捕捉到隱藏在數(shù)字中的關(guān)鍵信息。因此,數(shù)據(jù)可視化已成為提取關(guān)鍵信息的最佳途徑。
2主成分分析法
主成分分析(PrincipalComponentAnalysis,PCA)[4]將包含冗余信息的高維數(shù)據(jù)轉(zhuǎn)化為少量的低維數(shù)據(jù),即主成分,每個主成分包含原始數(shù)據(jù)幾乎所有的有效信息[5]。這將復(fù)雜的數(shù)據(jù)分析問題轉(zhuǎn)化為只需要幾個主成分的問題,不僅能夠?qū)栴}進行更深入的分析,而且使分析過程更加容易[4]。基本思想是在最小均方誤差的約束下,尋找一個最能代表原始數(shù)據(jù)主要特征的投影變換矩陣。在新的投影空間中,可以降低原始數(shù)據(jù)的維數(shù),保留大部分信息[5]。整個轉(zhuǎn)換過程遵循2個原則。一個是近期重構(gòu),即:利用無量綱數(shù)據(jù)重構(gòu)原始數(shù)據(jù)時誤差之和最小。另一個是最大可分性,即:數(shù)據(jù)要在低維投影空間中盡可能分離[5]。其實可以證明,這兩個原理是等價的[5]。
2.2PCA主成分分析降維
亞馬遜雨林區(qū)是世界最大的雨林區(qū),可以消耗大量二氧化碳,阻止氣候變暖;林區(qū)還藏有豐富的動植物資源,種類高達300萬種。但不容忽視的是,雨林生態(tài)系統(tǒng)卻正不斷面臨著眾多的威脅,越來越多的森林砍伐導(dǎo)致雨林面積逐年縮小。同時,全球變暖也增加了發(fā)生野火的可能性和頻率。本文對1999~2019年、總共20年間的亞馬遜雨林火災(zāi)數(shù)據(jù)進行探索分析與可視化。
本次研究將基于在kaggle下載的巴西國家太空研究所(INPE)公開的衛(wèi)星圖像檢測數(shù)據(jù),該數(shù)據(jù)中詳盡記錄了亞馬遜地區(qū)火災(zāi)的情況。研究中,還將用到主成分分析,其目標是旨在找到數(shù)據(jù)中最重要的元素和結(jié)構(gòu),去除噪聲和冗余,降低原始復(fù)雜數(shù)據(jù)的維數(shù),揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)[7]?;煦鐢?shù)據(jù)通常由3部分組成:噪聲、旋轉(zhuǎn)和冗余[7]。區(qū)分噪聲時,可以用信噪比或方差來衡量。方差是主要信號或主要成分。小的方差被認為是噪聲或次要成分;對于旋轉(zhuǎn),旋轉(zhuǎn)基向量,使得具有大信噪比或方差的基向量是主分量方向。在判斷觀測變量之間是否存在冗余時,可以用協(xié)方差矩陣來度量和判斷[7]。
3數(shù)據(jù)分析
將樣本集PCA降維后進行數(shù)據(jù)分析。amazon_fires.csv是按州、月份和年份統(tǒng)計在從1999~2019年巴西亞馬遜地區(qū)發(fā)生的火災(zāi)次數(shù)文件。數(shù)據(jù)共計2104條,各數(shù)據(jù)字段含義見表1。
3.1導(dǎo)入所需的庫并讀取數(shù)據(jù)
研究中可得統(tǒng)計量圖表見表2。由表2可以看到所有字段均為數(shù)字型,且不存在缺失值。對此,研究擬通過描述性統(tǒng)計函數(shù)describe()檢查數(shù)據(jù)中有無明顯異常值。年份、月份的最小最大值分別為(1999,2019),(1,12),且經(jīng)緯度數(shù)據(jù)、火災(zāi)發(fā)生次數(shù)均不存在明顯異常,說明降維后的數(shù)據(jù)較為“干凈”。
3.2火災(zāi)發(fā)生時間的可視化分析
研究中將按年份進行分組,計算1999~2019年間每一年的火災(zāi)發(fā)生總數(shù),并通過折線圖的方法進行可視化。仿真結(jié)果如圖1所示。
由圖1可以看到,亞馬遜地區(qū)的火災(zāi)爆發(fā)在2002年達到了一個高峰,從2002年以來,火災(zāi)情況呈逐年減少態(tài)勢。從2010~2019年,每一年的火災(zāi)爆發(fā)情況出現(xiàn)了小范圍波動。在此基礎(chǔ)上,本次研究又按月來統(tǒng)計了火災(zāi)爆發(fā)的情況,具體結(jié)果如圖2所示。通過統(tǒng)計12月中每月的平均火災(zāi)數(shù)進行分析。
由圖2中可以明顯看出,下半年平均受火災(zāi)的影響比上半年高很多,平均著火點數(shù)目位列前三的月份分別是9月、8月和10月。
一般情況下,亞馬遜的旱季從7月持續(xù)到10月,在9月底達到頂峰。在一年的其他時間里,潮濕的天氣會將火災(zāi)的風(fēng)險降到最低。但在旱季,降雨量的減少可能對火災(zāi)情況有較大影響。
3.3火災(zāi)發(fā)生地點的可視化分析
巴西一級行政區(qū)劃包括26個州和1個聯(lián)邦區(qū),亞馬遜雨林分布在其中的9個州,這里擬通過計算每個州的火災(zāi)發(fā)生總數(shù)來分析哪個州受雨林火災(zāi)影響最大。研究后得到的仿真結(jié)果如圖3所示。
由圖3中可以看到,帕拉州(PARA)和馬托格羅索州(MATOGROSSO)是受亞馬遜河大火影響最大的巴西州,其火災(zāi)著火點總數(shù)是其他州加起來的至少兩倍。后續(xù)可通過經(jīng)緯度數(shù)據(jù)進行地理繪圖,將火災(zāi)發(fā)生地點標記出來。
3.4時間地點分析
為了更好地了解問題和當(dāng)前狀況,現(xiàn)將特征進行組合,更加深入地開展數(shù)據(jù)研究。在此,即根據(jù)州和年份進行組合,分析多年來每個州的火災(zāi)情況。由此得到的時間地點分析后的結(jié)果曲線如圖4所示。對應(yīng)地,也給出了該次研究編寫的部分主要代碼參見如下。
fig,ax=plt.subplots(3,3,figsize=(14,10),sharex=True)
sns.set_style("whitegrid")
ax=ax.flat
i=0
forxinstate_name:
sns.lineplot(data=amazon_fires[amazon_fires['state']==x],x='year',
y='firespots',estimator='sum',ax=ax[i],color='teal',ci=None)
ax[i].set_title(x,size='large')
ax[i].set_xlabel("年份",size='large',fontproperties=font)
ax[i].set_xticks([2000,2005,2010,2015,2020])
ax[i].grid(False)
ax[i].set_xticklabels([2000,2005,2010,2015,2020],fontsize='large')
ifi==0ori==3ori==6:
ax[i].set_ylabel("火災(zāi)爆發(fā)總次數(shù)",size='large',fontproperties=font)
else:
ax[i].set_ylabel("")
i+=1
plt.subplots_adjust(wspace=0.16,hspace=0.12)
plt.show()
由圖4可以看出,每個州在2002年左右都出現(xiàn)了火災(zāi)高峰,因此導(dǎo)致整體上2002年火災(zāi)數(shù)目非常高,2002年后大部分州的火災(zāi)數(shù)目都逐漸減少。但是其他州也有例外,例如AMAZONAS州和RORAIMA州在2002年減少后又開始逐年增加,并且RORAIMA州在2019年達到了頂峰。
接下來再根據(jù)州和月份進行組合,分析不同月份下每個州的火災(zāi)情況,圖5顯示了每個州在每個月爆發(fā)火災(zāi)次數(shù)的平均值。
除羅賴馬州(RORAIMA)之外,所有州的火災(zāi)都集中在下半年(7~10月),即亞馬遜雨林的旱季。綜上研究后,則結(jié)合年份、月份和州三個屬性進行可視化,分析火災(zāi)爆發(fā)的次數(shù),研究得到的熱力圖如圖6所示,該圖顯示了每年各州每月份的火災(zāi)爆發(fā)量,顏色越深代表火災(zāi)爆發(fā)次數(shù)越多。
由圖6可以看出,幾乎每個州在所有年份的火災(zāi)高峰期都在7~10月,這印證了之前的結(jié)論。并且在防范火災(zāi)方面,就需要在1~4月份格外注意RORAIMA州,因為只有該州的火災(zāi)高峰期不在7~10月。從PARA、MATOGROSSO、RONDONIA、MARANHAO和TOCANTINS五個州的數(shù)據(jù)來觀察可知,隨著年份的推移,火災(zāi)爆發(fā)的次數(shù)大大減少了。
4結(jié)束語
近年來,數(shù)據(jù)可視化技術(shù)的發(fā)展日趨成熟,從結(jié)果圖中研究者們能夠直接找出自己所需要的信息。亞馬遜雨林的面積約是印度的兩倍,在調(diào)節(jié)全球氣候和提供諸如水凈化和二氧化碳吸收等其他服務(wù)方面發(fā)揮著至關(guān)重要的作用。在本文中,分別從時間、空間的不同維度對亞馬遜火災(zāi)的發(fā)生情況進行了可視化分析,研究發(fā)現(xiàn)7~10月是火災(zāi)的高峰期。同時,本文繪制了豐富的可視化圖形,對于數(shù)據(jù)的探索性分析可以提供有益參考。
參考文獻
[1]馬佳琪,滕國文.基于Matplotlib的大數(shù)據(jù)可視化應(yīng)用研究[J].電腦知識與技術(shù),2019,15(17):18-19.
[2]馬佳琪,滕國文.基于大數(shù)據(jù)的幸福感可視化技術(shù)研究[J].電腦知識與技術(shù),2020,16(7):263-264.
[3]王振宇,高東健.智慧城市大數(shù)據(jù)平臺[J].中國新通信,2018,20(19):30.
[4]little_angle.主元分析PCA原理以及應(yīng)用[EB/OL].[2012-05-29].https://blog.csdn.net/j123kaishichufa/article/details/7614234.
[5]曲學(xué)超.基于高分辨距離像的雷達目標識別算法研究[D].成都:電子科技大學(xué),2018.
[6]劉浩昌,林匯峯,張英,等.基于PCA法的汽車產(chǎn)業(yè)競爭力的綜合評價[J].科技經(jīng)濟導(dǎo)刊,2020,28(31):224-225.
[7]黃瀟.基于聚類分析的專家分類方法研究[D].南京:東南大學(xué),2017.