韋碧鵬,黎金清,劉劍鋒,楊雪
(柳州職業(yè)技術(shù)學(xué)院,廣西柳州545006)
比色法是目前常用的一種檢測物質(zhì)濃度的方法,即把待測物質(zhì)制備成溶液后滴在特定的白色試紙表面,等其充分反應(yīng)以后獲得一張有顏色的試紙,再把該顏色試紙與一個(gè)標(biāo)準(zhǔn)比色卡進(jìn)行對比,來確定待測物質(zhì)的濃度檔位。由于每個(gè)人對顏色的敏感差異和觀測誤差,這一方法在精度上存在很大的不確定性。隨著照相技術(shù)和顏色分辨率的提高,希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)量關(guān)系,即只要輸入照片中的顏色讀數(shù)就能夠獲得待測物質(zhì)的濃度。試根據(jù)附件所提供的有關(guān)顏色讀數(shù)和物質(zhì)濃度數(shù)據(jù)完成下列問題:
(1)附件Data1.xls中分別給出了5種物質(zhì)在不同濃度下的顏色讀數(shù),討論從這5組數(shù)據(jù)中能否確定顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系,并給出一些準(zhǔn)則來評價(jià)這5組數(shù)據(jù)的優(yōu)劣。
(2)對附件Data2.xls中的數(shù)據(jù),建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,并給出模型的誤差分析。
(3)探討數(shù)據(jù)量和顏色維度對模型的影響。
具體附件請查看全國大學(xué)生數(shù)學(xué)建模競賽官網(wǎng)(http://mcm.blyun.com/),且下載2017年全國大學(xué)生數(shù)學(xué)建模競賽C題進(jìn)行查看。
結(jié)合附件1(Data1.xls),要研究5種物質(zhì)在不同的濃度下顏色讀取和物質(zhì)濃度的關(guān)系。由于附件1中給出的5種物質(zhì)在不同濃度下顏色讀數(shù)的數(shù)據(jù)有一組,二組或者多組。首先對5種物質(zhì)溶液下的數(shù)據(jù)進(jìn)行求平均值,接著從不同物質(zhì)溶液的角度出發(fā),分別對顏色讀取和物質(zhì)濃度進(jìn)行多元線性回歸分析。對于物質(zhì)濃度不能進(jìn)行回歸分析的數(shù)據(jù),運(yùn)用相關(guān)分析進(jìn)行分析。最后,從方差和極差的兩個(gè)角度出發(fā)對5組數(shù)據(jù)的優(yōu)劣進(jìn)行評價(jià)。
結(jié)合附件2(Data2.xls),要研究顏色讀數(shù)與物質(zhì)濃度的關(guān)系,采用多元線性回歸模型進(jìn)行擬合,當(dāng)采用多元線性回歸模型中的Enter法進(jìn)行擬合時(shí),發(fā)現(xiàn)所得到的模型不滿足顯著條件。為了能夠更好地研究顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,先對附件2中的數(shù)據(jù)進(jìn)行雙變量相關(guān)分析,運(yùn)用Pearson相關(guān)系數(shù),得出二氧化硫的濃度與顏色讀數(shù)R,G,B,H,S的相關(guān)關(guān)系,接著采用多元線性回歸模型中的逐步法進(jìn)行擬合,得出附件2中二氧化硫濃度與顏色讀取的關(guān)系模型。最后,考慮所得出模型的誤差,引入了絕對誤差和相對誤差對其進(jìn)行分析。
為了探討數(shù)據(jù)量對模型的影響,結(jié)合附件2中的數(shù)據(jù),分別從數(shù)據(jù)量多少和顏色維度的多少兩個(gè)角度進(jìn)行分析,做4組數(shù)據(jù)實(shí)驗(yàn)。首先,考慮數(shù)據(jù)量多少對模型的影響,做如下兩組實(shí)驗(yàn)。實(shí)驗(yàn)組A:刪掉二氧化硫濃度為20 ppm與50 ppm的數(shù)據(jù);實(shí)驗(yàn)組B:刪掉二氧化硫濃度為100 ppm與150 ppm的數(shù)據(jù)。通過數(shù)學(xué)軟件SPSS分別對實(shí)驗(yàn)組A、B的數(shù)據(jù)進(jìn)行多元線性回歸,然后用問題(2)所得出原模型的數(shù)據(jù)與實(shí)驗(yàn)組A、B所得出的數(shù)據(jù)進(jìn)行比較,分析數(shù)據(jù)量多少對模型的影響;其次,考慮顏色維度的多少對模型的影響,我們從增加顏色維度和減少顏色維度方向出發(fā),取附件Data2.xls中的數(shù)據(jù)做兩個(gè)實(shí)驗(yàn)組。實(shí)驗(yàn)組C:減少顏色維度,刪除掉H和S兩個(gè)維度的數(shù)據(jù);實(shí)驗(yàn)組D:增加顏色維度I。最后,用問題(2)所得出原模型的數(shù)據(jù)與實(shí)驗(yàn)組C、D所得出的數(shù)據(jù)進(jìn)行比較,分析顏色維度對模型的影響。
(1)假設(shè)題目所給附件1和附件2中的數(shù)據(jù)無誤;
(2)假設(shè)各種物質(zhì)的實(shí)驗(yàn)組數(shù)據(jù)都是在同樣的環(huán)境下進(jìn)行的。
4.1.1 組胺溶液的濃度與顏色讀數(shù)的關(guān)系
在組胺溶液中,題目附件1給出了兩組同一組胺物質(zhì)濃度的數(shù)據(jù),為了減少實(shí)驗(yàn)的誤差,取兩組實(shí)驗(yàn)數(shù)據(jù)的平均值,得出組胺溶液在不同的濃度下的R,B,H,S值,見表1。
表1 兩組組胺溶液的RGBHS平均值
組胺溶液中,為了研究物質(zhì)濃度與顏色讀數(shù)的關(guān)系,對其做多元線性回歸擬合,具體模型如下:
其中y1表示組胺溶液的濃度,xR、xG、xB、xH、xS分別表示變量紅色、綠色、藍(lán)色、色調(diào)、飽和度,a1、a2、a3、a4、a5分別表示它們的系數(shù),b表示常數(shù)。
通過數(shù)學(xué)軟件SPSS22,對表1中的數(shù)據(jù)代入進(jìn)行多元線性回歸擬合,運(yùn)用輸入回歸法可得結(jié)果見表2,3。
表2 變異數(shù)分析a
表3 系數(shù)a
從表2,3中可知,模型的顯著性概率為0.00小于0.01,因此,該線性回歸模型有效。又因?yàn)槟P椭谐?shù)、變量G,R,H,S的顯著性概率為0.00均小于0.01,則該模型通過檢驗(yàn),具體模型為:
4.1.2 溴酸鉀溶液的濃度與顏色讀數(shù)的關(guān)系
在溴酸鉀溶液中,題目附件1給出了兩組同一溴酸鉀物質(zhì)濃度的數(shù)據(jù),為了減少實(shí)驗(yàn)的誤差,取兩組實(shí)驗(yàn)數(shù)據(jù)的平均值,得出溴酸鉀溶液在不同的濃度下的R,G,B,H,S值。為了研究溴酸鉀溶液濃度與顏色讀數(shù)的關(guān)系,同理,對其做多元線性回歸擬合,通過SPSS22軟件,進(jìn)行多元線性中的輸入回歸可得結(jié)果,從中可知,模型的顯著性概率為0.00小于0.01,因此,該線性回歸模型有效。又因?yàn)槟P椭谐?shù)、變量G,R,H,S的顯著性概率為0.00均小于0.01,因此該模型通過檢驗(yàn),具體模型為:
4.1.3 工業(yè)堿溶液的濃度與顏色讀數(shù)的關(guān)系
在工業(yè)堿溶液中,為了研究物質(zhì)濃度與顏色讀數(shù)的關(guān)系,我們首先求出同一個(gè)顏色在不同濃度下的顏色讀數(shù)極差,見表4。
表4 工業(yè)堿的RGBHS值
根據(jù)前面的理論,對其進(jìn)行多元線性回歸,發(fā)現(xiàn)其模型顯著性都大于0.05,模型不顯著。為了更好地分析物質(zhì)濃度與顏色讀數(shù)之間的關(guān)系,對工業(yè)堿溶液中的數(shù)據(jù)進(jìn)行變量之間的相關(guān)分析,具體結(jié)果見表5。
表5 工業(yè)堿溶液中的數(shù)據(jù)進(jìn)行變量之間的相關(guān)分析
從表5中可以看出工業(yè)堿溶液濃度與B,G,R,H,S的相關(guān)系數(shù)都低于0.8,顯著性均大于0.05,所以顯著性不明顯,該線性回歸無效。由表5可知顏色R,G,B都隨著工業(yè)堿溶液濃度的增加而減少,而色調(diào)H和飽和度S則隨著工業(yè)堿溶液濃度的增加而增加,因此工業(yè)堿溶液濃度與顏色R,G,B成負(fù)相關(guān),與H,S成正相關(guān),從極差可以看出飽和度S對工業(yè)堿溶液濃度的影響比較大,R的影響最小。
4.1.4 硫酸鋁鉀溶液的濃度與顏色讀數(shù)的關(guān)系
在硫酸鋁鉀溶液中,題目附件1給出了6組同一硫酸鋁鉀物質(zhì)濃度的數(shù)據(jù),為了減少實(shí)驗(yàn)的誤差,取6組實(shí)驗(yàn)數(shù)據(jù)的平均值,得出硫酸鋁鉀溶液在不同的濃度下的R,G,B,H,S值。根據(jù)前面的做法,對數(shù)據(jù)進(jìn)行多元線性回歸擬合,結(jié)果發(fā)現(xiàn)模型的顯著性不高。為了研究硫酸鋁鉀溶液的濃度與顏色讀數(shù)的關(guān)系,對數(shù)據(jù)進(jìn)行雙變量分析,通過SPSS22軟件計(jì)算,得出結(jié)果見表6。
表6 硫酸鋁鉀溶液的濃度與顏色讀數(shù)的關(guān)系
由表6可以看出硫酸鋁鉀溶液濃度與B,G,R,H,S的相關(guān)系數(shù)都低于0.7,顯著性均大于0.05,線性回歸無效,通過分析表6可以得出R隨著硫酸鋁鉀溶液濃度的增大而減少成負(fù)相關(guān),G隨著硫酸鋁鉀溶液濃度的變化值不明顯,成不相關(guān),顏色B,H,S隨著硫酸鋁鉀溶液的增大而增大,成正相關(guān),其中S與硫酸鋁鉀溶液濃度的極差最大,即影響最大。
4.1.5 奶中尿素溶液的濃度與顏色讀數(shù)的關(guān)系
在奶中尿素溶液中,題目附件1給出了兩組同一奶中尿素物質(zhì)濃度的數(shù)據(jù),為了減少實(shí)驗(yàn)的誤差,取兩組實(shí)驗(yàn)數(shù)據(jù)的平均值,得出奶中尿素溶液在不同的濃度下的R,G,B,H,S值。同理,對其進(jìn)行多項(xiàng)式擬合,通過數(shù)學(xué)軟件SPSS可以得出結(jié)果,該模型的顯著性為0.027小于0.05,回歸系數(shù)B,R,H,S的顯著性均小于0.05,所以線性回歸方程有效,B,R,H,S的線性回歸方程為:
4.1.6 評價(jià)5組數(shù)據(jù)優(yōu)劣性的模型
(1)從方差角度判別數(shù)據(jù)的優(yōu)劣。要判別5種物質(zhì)數(shù)據(jù)的優(yōu)劣,采用整理取平均值后的數(shù)據(jù)進(jìn)行分析,用Excel軟件求取各組物質(zhì)濃度與顏色讀數(shù)關(guān)系的方差,從而求出各種物質(zhì)濃度的方差平均值見表7。
表7 各種物質(zhì)濃度方差
根據(jù)統(tǒng)計(jì)學(xué)知識(shí),數(shù)據(jù)方差的值越小,即數(shù)據(jù)越穩(wěn)定。因此,這5組數(shù)據(jù)從優(yōu)到劣的順序依次為:組胺>奶中尿素>溴酸鉀>硫酸鋁鉀>工業(yè)堿。
(2)從極差角度判斷數(shù)據(jù)的優(yōu)劣性。同上所示,采用整理取平均值后的數(shù)據(jù)進(jìn)行分析,用Excel軟件求各組物質(zhì)的濃度與顏色讀數(shù)關(guān)系的極差,從而求出各種物質(zhì)濃度的極差平均值,見表8:
表8 各種物質(zhì)濃度的極差
研究不同物質(zhì)溶液對不同顏色讀數(shù)數(shù)據(jù)的優(yōu)劣性,根據(jù)極差越小,證明數(shù)據(jù)越穩(wěn)定原則。這5組數(shù)據(jù)從優(yōu)到劣的順序依次為:組胺>硫酸鋁鉀>溴酸鉀>奶中尿素>工業(yè)堿。
4.2.1 建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型
首先對附錄2中的數(shù)據(jù)進(jìn)行補(bǔ)充完整,要研究顏色讀數(shù)與物質(zhì)濃度之間的關(guān)系,根據(jù)問題(1)的思路,建立多元線性回歸模型。運(yùn)用SPSS軟件對其數(shù)據(jù)進(jìn)行擬合,擬合方法選取Enter法,得出如下結(jié)果(見表9,10)。
表9 變異數(shù)分析a
表10 系數(shù)a
根據(jù)以上結(jié)果,雖然該模型的顯著性小于0.01,然而,可以看出模型中顏色變量G,B,S的顯著性大于0.05。因此,運(yùn)用多元線性回歸模型Enter輸入法進(jìn)行擬合的線性回歸模型失效,因此該模型不好。為了能夠更好地研究顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,我們先對附件2中的數(shù)據(jù)進(jìn)行雙變量相關(guān)分析,運(yùn)用Pearson相關(guān)系數(shù),得出相應(yīng)的結(jié)果。從結(jié)果中可以看出,二氧化硫的濃度與R,G,H的相關(guān)系數(shù)較高,從而可判斷,二氧化硫的濃度與R,G,H有關(guān)。接著,通過SPSS22軟件進(jìn)行多元線性中的逐步回歸得出結(jié)果,見表11,12。
表11 模型摘要
表12 系數(shù)a
可以得出,在顯著性相同的情況下,模型2的R值比模型1的R值大,因此選擇模型2更為合理。由此可得數(shù)學(xué)模型:
其中y二氧化硫表示的是二氧化硫的濃度,xG表示顏色綠色的讀數(shù),xH表示色調(diào)的讀數(shù)。
4.2.2 模型的誤差分析
為了考慮所得出模型的誤差,我們引入了絕對誤差和相對誤差對其進(jìn)行分析,具體公式如下:絕對誤差公式為:
其中:L為絕對誤差,N為真實(shí)值,M為預(yù)測值。
相對誤差的公式為:
結(jié)合附件2-1中的數(shù)據(jù),在模型(5)的作用下,我們得出模型(5)的預(yù)測值,接著,運(yùn)用公式(6)和公式(7),得到表13:
從表13可以看出該模型數(shù)據(jù)的相對誤差0~1.8的范圍內(nèi),產(chǎn)生如此大的誤差,可能是由于數(shù)據(jù)的不穩(wěn)定造成的。
表13 預(yù)測、絕對誤差與相對誤差的值
4.3.1 數(shù)據(jù)量對模型的影響
為了探討數(shù)據(jù)量對模型的影響,取附件2中的數(shù)據(jù),做兩組實(shí)驗(yàn),實(shí)驗(yàn)組A:刪掉二氧化硫濃度為20ppm與50ppm的數(shù)據(jù)。實(shí)驗(yàn)組B:刪掉二氧化硫濃度為100ppm與150ppm的數(shù)據(jù)。通過數(shù)學(xué)軟件SPSS對實(shí)驗(yàn)組A中的數(shù)據(jù)進(jìn)行多元線性回歸擬合,運(yùn)用逐步法可得結(jié)果,見表14,15。
表14 模型摘要
表15 系數(shù)a
從問題(2)的模型,可以知道在二氧化硫濃度下,未刪減數(shù)據(jù)時(shí)模型的R值為0.940,顯著性均為0。然而,實(shí)驗(yàn)A模型的顯著性也為0。因此,刪除數(shù)據(jù)的實(shí)驗(yàn)A與未刪除數(shù)據(jù)中問題二模型的顯著性是相同的。但是,通過做回歸發(fā)現(xiàn),實(shí)驗(yàn)組A中的R相比原數(shù)據(jù)的R值大,可以看出數(shù)據(jù)量對模型是有影響的。為了能夠減少實(shí)驗(yàn)中一些非主要因素的干擾,我們在做一組實(shí)驗(yàn)進(jìn)行分析。同理,運(yùn)用實(shí)驗(yàn)組B中的數(shù)據(jù)進(jìn)行多元線性回歸擬合,得出結(jié)果,見表16,17。
表16 模型摘要b
表17 系數(shù)a
在模型顯著性一樣的前提條件下,可以看到實(shí)驗(yàn)組B模型的R值小于原數(shù)據(jù)模型的R值。因此,從兩組實(shí)驗(yàn)組綜合起來比較,可能實(shí)驗(yàn)B中刪除時(shí)刪掉了在濃度中主要的數(shù)據(jù)這種情況。通過用原數(shù)據(jù)與實(shí)驗(yàn)組數(shù)據(jù)之間預(yù)測值差距,進(jìn)一步判斷數(shù)據(jù)量對模型的影響,見表18。
表18 原數(shù)據(jù)與實(shí)驗(yàn)組數(shù)據(jù)預(yù)測值比較
50 80 80 80 100 100 100 150 150 150 150 85.57 184 75.34 260 75.34 260 70.29 437 95.53 553 100.58 377 90.48 730 132.11 332 130.47 484 137.16 155 132.11 332 80 80 80 100 100 100 150 150 150 150 85.91 058 85.91 058 80.86 630 106.08 770 111.13 198 101.04 342 143.75 282 142.00 402 148.79 710 143.75 282 50 80 80 80 55.76 353 59.63 625 59.63 625 59.63 625
從表18中,可以明確地看出,未刪減過的數(shù)據(jù)與刪減過的數(shù)據(jù)對模型有著很明顯的影響,因此,可以得出數(shù)據(jù)量的多少與模型是有顯著影響的。
4.3.2 顏色維度對模型的影響
為了更好探討顏色維度對模型的影響,我們從增加顏色維度和減少顏色維度的兩個(gè)方向出發(fā),同樣,取Data2.xls中處理過的數(shù)據(jù)做兩組實(shí)驗(yàn)。
根據(jù)參考文獻(xiàn)[3]可知,顏色維度I等于顏色維度R、G、B三者的平均值。
實(shí)驗(yàn)組C:減少顏色維度,刪除掉H與S中的數(shù)據(jù);實(shí)驗(yàn)組D:增加顏色維度I的數(shù)據(jù)。通過數(shù)學(xué)軟件SPSS對實(shí)驗(yàn)組C中的數(shù)據(jù)進(jìn)行多元線性回歸擬合,運(yùn)用逐步法可得結(jié)果,見表19,20。
表19 模型摘要
表20 系數(shù)a
從問題(2)的模型,可以知道在二氧化硫濃度下,原來模型的R值為0.940,顯著性均為0。然而,實(shí)驗(yàn)C模型的顯著性也為0。因此,刪除維度的實(shí)驗(yàn)C與問題二模型的顯著性是相同的。同時(shí),我們通過做回歸發(fā)現(xiàn),實(shí)驗(yàn)組C中的R相比原模型的R值相差不大。為了能夠更好地分析顏色維度對模型的影響,同理,繼續(xù)做實(shí)驗(yàn)組D中的數(shù)據(jù)進(jìn)行多元線性回歸擬合,得出結(jié)果。在模型顯著性一樣的前提條件下,實(shí)驗(yàn)D模型的R與原模型相差也不大。因此,我們繼續(xù)通過原模型數(shù)據(jù)與實(shí)驗(yàn)組數(shù)據(jù)之間的預(yù)測值進(jìn)行比較,見表21。
表21 原數(shù)據(jù)與實(shí)驗(yàn)組數(shù)據(jù)預(yù)測值比較
由表21可知,顏色維度的增減對于模型的影響還是較為明顯的。
為了研究顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系,本文結(jié)合2017年全國大學(xué)生數(shù)學(xué)建模競賽C題目,詳細(xì)地對不同物質(zhì)顏色讀數(shù)和濃度之間的關(guān)系進(jìn)行研究,且通過4組實(shí)驗(yàn)探索數(shù)據(jù)量增加與減少、顏色維度增加與減少對模型的影響。其次,本文考慮問題能夠從多個(gè)角度對問題進(jìn)行分析,給出分析結(jié)果,準(zhǔn)確性高;通過數(shù)學(xué)軟件Excel、SPSS對數(shù)據(jù)進(jìn)行分析和處理,操作簡便,適用性強(qiáng);且該模型具有較大的普遍性,便于應(yīng)用到類似的實(shí)際問題中,如:解決有關(guān)醫(yī)學(xué)研究、藥物測量與制作及化學(xué)等領(lǐng)域。