【摘要】本文利用Logistic回歸分析及主成分分析的方法對(duì)水質(zhì)指標(biāo)進(jìn)行分析研究,通過假設(shè),建立Logistic回歸模型并檢驗(yàn)該模型的有效性,以此來檢驗(yàn)水樣本中有毒有害物質(zhì)的含量,判別水樣品的的質(zhì)量是否達(dá)標(biāo)。
【關(guān)鍵詞】Logistic回歸;回歸模型;假設(shè)檢驗(yàn);指標(biāo)
1、引言
水是我們賴以生存必不可少的物質(zhì),水質(zhì)的好壞直接影響著我們的身心和生活。近年來,由于我國水質(zhì)惡化嚴(yán)重,各地的水污染事件頻頻曝光,嚴(yán)重影響了人們的身體健康和生活水品。因此,如何對(duì)水質(zhì)污染問題進(jìn)行及時(shí)有效地檢測(cè)并判斷水質(zhì)是否達(dá)標(biāo)已經(jīng)成為了當(dāng)前最迫切的需求。本文使用MATLAB隨機(jī)生成90個(gè)水樣本的指標(biāo)檢測(cè)數(shù)據(jù)為研究對(duì)象,通過檢驗(yàn)水中的有毒有害物質(zhì)的含量,建立Logistic回歸模型并檢驗(yàn)該模型的有效性,以此來判斷水質(zhì)是否達(dá)標(biāo),為相關(guān)部門的提供水質(zhì)監(jiān)測(cè)及分析的依據(jù)。
2、數(shù)據(jù)分析并建立Logistic回歸模型
由于水質(zhì)指標(biāo)的判別標(biāo)準(zhǔn)多達(dá)一百多種,本文中我們已經(jīng)通過主成分分析法選取了其中最為重要,對(duì)身心危害最大的七個(gè)指標(biāo)作為主要的影響因素來進(jìn)行分析研究。其中前30個(gè)樣本是已檢測(cè)完的確定達(dá)標(biāo)的水樣本,中間30個(gè)是檢驗(yàn)后沒達(dá)標(biāo)的樣本;后30個(gè)是化驗(yàn)完但沒有檢驗(yàn)的的樣本數(shù)據(jù):(單位:mg/L或個(gè)/L)
我們根據(jù)隨機(jī)生成的的數(shù)據(jù)結(jié)果,建立相應(yīng)的數(shù)學(xué)模型來判斷水質(zhì)情況是否達(dá)標(biāo),并檢驗(yàn)該數(shù)學(xué)模型的有效可行性。首先我們假設(shè)每個(gè)水樣本數(shù)據(jù)之間都是相互獨(dú)立的。為了分析這些水樣本數(shù)據(jù)間的相關(guān)性,我們做出前60個(gè)水樣本物質(zhì)含量數(shù)據(jù)的散點(diǎn)圖1、2、3:
從圖1、2、3中可以明顯的看出樣本數(shù)據(jù)的前30個(gè)與中間30個(gè)樣本數(shù)據(jù)之間存在著較為明顯的界線,即達(dá)標(biāo)水樣本與未達(dá)標(biāo)水樣本的有毒有害物質(zhì)含量之間存在著較為明顯的差異。由此我們假設(shè)這七種指標(biāo)之間存在著某種相關(guān)性,并建立Logistic回歸模型。我們把這七種指標(biāo)作為自變量,把是否達(dá)標(biāo)作為因變量Y,于是應(yīng)變量Y是一個(gè)定性變量,假設(shè):
Logistic回歸的基本思想是:不是直接對(duì)Y進(jìn)行回歸,而是先定義一種概率函數(shù)t,令
t=P(Y=1|X1,X2,...,Xn)
取對(duì)數(shù)令logit(t)=,這就是Logistic變換。大量實(shí)踐證明,logit(t)往往和自變量呈線性關(guān)系,因此,以logit(t)為因變量,建立n維logistic線性回歸模型如下:logit(t)=β0+β1x1+...+βnxn+ε以上即為logistic回歸模型。由上式可得:
其中,ε為隨機(jī)波動(dòng)項(xiàng),β0,β1,...,βn為回歸參數(shù)或系數(shù)。
在此,我們利用SPSS軟件對(duì)已檢測(cè)的水樣本數(shù)據(jù)進(jìn)行Logistic回歸分析,并建立Logistic回歸模型。由此,得到Logistic回歸方程為:
logit(t)=33.47+347.226x1-88.162x2-1479.123x3+233.93x4+15.399x5+21.206x6+0.489x7
3、模型檢驗(yàn)與實(shí)際分析應(yīng)用
我們將前60個(gè)水樣本數(shù)據(jù)分別代入該回歸方程,得到回歸值的散點(diǎn)圖為圖4:
由圖4.及條件,為了驗(yàn)證回歸模型方程的準(zhǔn)確性,我們選擇以第30個(gè)樣本的回歸值16.53為界,對(duì)這60個(gè)樣本進(jìn)行判定,大于16.53即為達(dá)標(biāo),否則不達(dá)標(biāo)。模型的檢驗(yàn)結(jié)果如圖5:
由圖可以看出,只有第13和第27個(gè)水樣本未達(dá)標(biāo)但被誤檢測(cè)為達(dá)標(biāo),模型總的準(zhǔn)確檢測(cè)率為96.667%。于是,我們將未檢測(cè)的30個(gè)水樣本代入Logistic回歸模型中進(jìn)行檢測(cè),其結(jié)果為圖6:
由圖我們看出后30個(gè)水樣本達(dá)標(biāo)的有1,2,4,5,7,8,9,11,12,13,16,23,27。其它的不達(dá)標(biāo)。
4、結(jié)論
本文通過分析水樣本指標(biāo)的檢測(cè)數(shù)據(jù),假設(shè)指標(biāo)間的相關(guān)性,建立了符合判別數(shù)據(jù)類型的Logistic回歸模型,并通過假設(shè)檢驗(yàn)和實(shí)例驗(yàn)證了該模型的有效性。說明我們?cè)诜治鏊|(zhì)質(zhì)量的過程中,能夠使用水質(zhì)判別的Logistic回歸模型。這為相關(guān)部門的水質(zhì)監(jiān)測(cè)及分析、判斷水質(zhì)是否達(dá)標(biāo)等提供了一條有效可行的思路。
參考文獻(xiàn)
[1]Gareth James.An Introduction to Statistical Learning[M].Springer-Verlag.New York Inc.2013.
[2]萬濟(jì)川,郭志剛.Logistic回歸模型—方法與應(yīng)用[M].北京:高等教育出版社,2001,9.
[3]吳曉剛.Paul D.Allison.高級(jí)回歸分析[M].上海:格致出版社,2011,8.