梅曉仁 陳 鵬 高永勝
(1.湛江師范學院商學院,廣東省湛江市,524048;2.遼寧工程技術大學資源與環(huán)境工程學院,遼寧省阜新市,123000;3.神華集團有限責任公司安全監(jiān)察局,北京市東城區(qū),100011)
基于SPSS的煤質發(fā)熱量相關因素分析及其回歸模型研究*
梅曉仁1陳 鵬2高永勝3
(1.湛江師范學院商學院,廣東省湛江市,524048;2.遼寧工程技術大學資源與環(huán)境工程學院,遼寧省阜新市,123000;3.神華集團有限責任公司安全監(jiān)察局,北京市東城區(qū),100011)
使用SPSS統(tǒng)計軟件的探索分析和相關分析功能,對某露天煤礦7#煤層的煤質數據進行了統(tǒng)計分析,得出該煤層中干基灰分和可應用基低位發(fā)熱量兩個煤質指標具有很強的負線性相關關系,并使用SPSS統(tǒng)計軟件的線性回歸功能建立了這兩個指標的回歸模型。結果表明,該回歸模型可以對7#煤層的應用基低位發(fā)熱量進行預測。
煤發(fā)熱量 相關分析 回歸模型 SPSS統(tǒng)計軟件
煤的發(fā)熱量不僅是評價煤炭質量的一項重要指標,而且是評價動力用煤的一項重要經濟參數。動力用煤以發(fā)熱量計價能較準確地反映煤炭的使用價值。但是,由于對測定發(fā)熱量的環(huán)境條件和操作人員的專業(yè)水平要求較高,測試儀器的維護難度也較大,因此,發(fā)熱量的測定一般都由專人負責。同時,測定發(fā)熱量需要的時間較長,測定結果滯后,制約了煤炭企業(yè)在生產過程中對發(fā)熱量的監(jiān)控,給煤炭企業(yè)帶來了不必要的損失。
由于形成煤的原始物質和沉積環(huán)境不同,因而煤的性質和成分也各不相同。由于發(fā)熱量與水分、灰分等指標存在相關關系,因此,本文探究用回歸模型計算發(fā)熱量指標,并使用SPSS統(tǒng)計分析軟件對發(fā)熱量的相關因素進行相關分析和回歸模型研究,以求提供一種簡便、實用的測定方法。
SPSS是Statistical Product and Service Solu-tions的縮寫,即統(tǒng)計產品與服務解決方案,是世界著名的統(tǒng)計分析軟件之一。它廣泛用于經濟學、生物學、心理學、教育學、醫(yī)療衛(wèi)生、體育、農業(yè)、林業(yè)、商業(yè)和金融等各個領域。
在實際問題中,變量之間往往有著密切的關系,但又不能由一個或幾個變量的值確定另一個變量的值,即當自變量x取某一值時,因變量y的值可能會有多個。這種變量之間的非一一對應的、不確定性的關系,稱之為相關關系。SPSS通過繪制散點圖和計算相關系數,來有效揭示事物之間相關關系的強弱程度。
在散點圖上,如果兩個變量之間的關系近似地表現為一條直線,則稱為線性相關。如果一個變量x變化,導致另一個變量y明顯變化,稱之為強相關。如果兩個變量之間的關系近似地表現為一條曲線,則稱之為非線性相關。如果兩個變量的數據點分布很分散,無任何規(guī)律,則稱兩個變量之間不相關。
相關系數以數值的方式精確地反映了變量之間線性關系的強弱程度。一般地,相關系數的取值在-1~+1之間。R>0,表示兩變量之間存在正線性相關關系;R<0,表示兩變量之間存在負線性相關關系;R=1,表示兩變量是完全正相關關系;R=-1,表示兩變量是完全負相關關系;R=0,兩變量不存在線性相關關系;|R|>0.8,表示兩變量之間具有較強的線性相關關系;|R|<0.3,表示兩變量之間線性相關關系較弱。
回歸分析是研究一個或者幾個變量的變動對另一個變量的變動的影響程度的方法,根據已知的資料或數據,找出它們之間的關系表達式,用已知的自變量的值去推測因變量的值或范圍。線性回歸的統(tǒng)計學原理如下:
假定對一組變量x1,x2,…,xp,y作了n次觀測,得到觀測值為:
線性回歸的一般數學模型是:
當已知一組自變量和因變量的值后,使用SPSS提供的線性回歸分析方法就可以計算回歸方程的回歸系數和方差分析表中的參數等。
選取山西省某大型露天煤礦的7#煤層的煤質數據作為研究對象。選取的指標包括鉆孔號、煤樣厚度、分析基水分、干基灰分、可燃基揮發(fā)分、干基全硫、氫含量、可燃基高位發(fā)熱量和應用基低位發(fā)熱量等9個指標,共94條數據?!?1.00”代表缺失值,如表1所示。
表1 7#煤層的煤質數據統(tǒng)計表
啟動SPSS后,單擊SPSS左下方的“Variable View”標簽,進入變量定義視圖。定義的變量如圖1所示。在“M issing”列中輸入“-1.00”表示缺失值,分析統(tǒng)計時,SPSS自動忽略該值。
單擊“Data View”標簽,便可在數據編輯視圖中輸入數據。可以將單個的數據一一錄入到SPSS中,也可以使用SPSS提供的導入功能,將已有的數據文件導入SPSS中,如果是Excel文件,則可以直接將Excel中的數據拷貝到SPSS中。
使用SPSS提供的探索分析,能夠檢查數據中的奇異值和極端值。SPSS提供了莖葉圖(Stem-and-Leaf Plots)、箱圖(Boxp lots)、正態(tài)分布檢驗Q-Q概率圖、分層圖(Sp read vs level p lot)等方法對數據進行探索分析。本文使用“箱圖(Boxp lots)”對應用基低位發(fā)熱量指標進行分析,其它指標分析的方法和過程與此相似。
依次單擊菜單“Analyze”→“Descriptive Statistics”→“Exp lore”,打開“Explore(探索分析)”對話框,將應用基低位發(fā)熱量選擇到“Dependent List”,其它選項使用默認值,如圖2所示。單擊“OK”按鈕,計算結果見圖3。從圖3中可以看出,應用基低位發(fā)熱量有2個奇異值(圖中用“○”表示):第84組和第91組數據,必須將其剔除,如果箱圖中出現“★”,則表示該記錄是極端值,也必須剔除。同樣,對其它各項指標也進行探索分析。這個過程可能要重復幾次。最后得到80組數據進行相關性分析和回歸分析。
2.4.1 繪制散點圖
本文僅給出繪制干基灰分和應用基低位發(fā)熱量兩個指標散點圖的方法和過程。依次單擊菜單“Graphs”→“Scatter/Dot”,打開“Scatter/Dot”對話框,選擇簡單散點圖(Simp le Scatter),點擊“Define”按鈕,打開“Simp le Scatterp lot”對話框,將應用基低位發(fā)熱量選擇到Y A xis(Y軸),將干基灰分選擇到X Axis(X軸),其它選項使用默認值,單擊“OK”按鈕,繪制的散點圖如圖4所示??梢钥闯?干基灰分和應用基低位發(fā)熱量具有很強的負線性相關關系,相關系數的平方值為0.986。
2.4.2 使用“二元相關分析”分析煤質各指標的相關性
依次單擊菜單“Analyze”→“Correlate”→“Bivariate”,打開“Bivariate Correlations”對話框,限于篇幅,本文僅選取分析基水分、干基灰分、應用基低位發(fā)熱量3個指標來計算相關系數,將這些指標選擇到“Variables”中,其它選項使用默認值。單擊“OK”按鈕,計算這些指標之間的相關系數,計算結果見表2。由表2可以看出,在顯著性水平0.01下,應用基低位發(fā)熱量與其它指標顯著相關(表中用**標示)。其中,應用基低位發(fā)熱量與干基灰分具有很強的負相關關系,相關系數為-0.993。因此,可以建立應用基低位發(fā)熱量與其它指標之間的回歸模型。
依次單擊菜單“Analyze”→“Regression”→“Linear...”,打開“Linear Regression”對話框,將應用基低位發(fā)熱量選擇到“Dependent(因變量)”中,將分析基水分、干基灰分選擇到“Independent(s)(自變量)”中,在“Method”中選擇向前篩選策略“Forward”,其它選項使用默認值。單擊“OK”按鈕,得到模型綜述結果、方差分析表(見表3)和模型系數表(見表4)。模型綜述結果顯示,回歸過程只選擇了與因變量具有最高線性相關系數的干基灰分作為自變量,而自變量分析基水分沒有通過回歸方程的檢驗,不能進入回歸方程,因此,本例只得到了一個回歸模型,即回歸模型1,其相關系數R=0.995,說明因變量應用基低位發(fā)熱量與自變量干基灰分相關性很強;擬合優(yōu)度ˉR2=0.989,說明自變量可以解釋因變量98.9%的變異性;從表3中可以看出,F統(tǒng)計量的顯著性概率Sig..=0.000,小于置信度0.05,說明因變量和自變量的線性關系是顯著的,可建立線性回歸方程;從表4中可以看出,回歸模型的常數項為30.536,自變量的回歸系數為-0.352,t統(tǒng)計量的顯著性概率Sig.=0.000,小于置信度0.05,同樣說明因變量和自變量的線性關系是顯著的。因此,得到回歸模型:
應用基低位發(fā)熱量=30.536-0.352×干基灰分。
因此,使用該回歸模型可以對應用基低位發(fā)熱量進行預測。
表2 煤質各指標的相關系數表
表3 方差分析表
表4 模型系數表
本文以某露天煤礦的7#煤層的煤質數據作為研究對象,詳細介紹了SPSS軟件在煤質指標數據處理、相關性分析和回歸分析中的使用方法和過程,為廣大礦山地質工作者處理大量復雜數據提供一種簡便易行的方法。
[1] 唐云杰.淺析煤的發(fā)熱量與灰分的對應關系[J].中國煤炭,2004(11)
[2] 劉治青.煤中灰分與發(fā)熱量相關性和回歸方程[J].山西焦煤科技,2006(4)
[3] 陳洪博,白向飛,羅隕飛.煤的發(fā)熱量與水分、灰分的關系研究[J].煤質技術,2010(4)
[4] 馮桂東.用回歸方法研究煤的灰分、水分與發(fā)熱量的關系[J].江蘇煤炭,2001(1)
[5] 譚榮波,梅曉仁.SPSS統(tǒng)計分析實用教程[M].北京:科學出版社,2007
[6] 薛薇.SPSS統(tǒng)計分析方法及應用[M].北京:電子工業(yè)出版社,2004
[7] 高祥寶,董寒青.數據分析與SPSS應用[M].北京:清華大學出版社,2007
Correlative factors analysis and regression model research on coal calorific value using SPSS software
Mei Xiaoren1,Chen Peng2,Gao Yongsheng3
(1.Business School,Zhanjiang Normal University,Zhanjiang,Guangdong 524048,China;2.College of Resource and Environment Engineering,Liaoning Technical University,Fuxin,Liaoning 123000,China;3.Safety Supervision Bureau,Shenhua Group Corporation Limited,Dongcheng,Beijing 100011,China)
The coal quality data of No.7 coal mine of one open pit mine were analyzed using the Exp lore and Correlation Analysis functions of SPSS.It was concluded that the coal quality data of the dry ash and the low calorific value have strong negative linear correlation.The linear model of the two indexes w as built using the Linear Regression function of SPSS.The results show that the regression model can be used to forecast low calorific value of the coal seam.
calorific value,correlation analysis,regression model,SPSS
TQ533
A
廣東省自然科學基金項目(10452404801006352);湛江師范學院博士專項研究項目(ZW 5611)
梅曉仁(1973-),男,博士后,講師,現在湛江師范學院商學院從事企業(yè)管理、管理信息系統(tǒng)、礦業(yè)系統(tǒng)優(yōu)化研究。
(責任編輯 張毅玲)