王增波等
摘要:在歸納數學建模競賽歷年試題求解方法的基礎上,從數據分析、插值與擬合、數據仿真和回歸分析4個方面總結了數據處理方法和數學軟件在數據建模競賽中的應用,可為數學建模中合理選擇數據處理方法提供參考借鑒。
關鍵詞:數學建模; 數據處理; 數學軟件; Matlab; SPSS
DOIDOI:10.11907/rjdk.143753
中圖分類號:TP434
文獻標識碼:A 文章編號文章編號:16727800(2015)001020002
0 引言
數學建模通過數學語言對實際問題進行簡化、抽象和描述,建立一個可以求解的數學模型,利用計算機軟件對該數學模型進行分析和求解,并對求解出的結果進行分析和檢驗,最終找到解決實際問題的方案。在數學建模過程中,大量實驗數據需要處理,需要利用計算機軟件來輔助快速整理和分析,這一過程即為數據建模中的數據處理。必須利用一定處理方法從實驗數據中提煉出其內在規(guī)律,甚至可以把表面上看起來毫無關聯(lián)的數據聯(lián)系在一起。
在模型建立初期,通過一定數據處理方法可以分析出問題所描述的模型變量之間的關系,形成初步計劃。部分模型可以利用統(tǒng)計方法從大量的實驗數據中直接建立,例如回歸分析法和時序分析法等。實際建模中,亦可直接利用實驗數據估計出模型參數值,或利用數據進行模型檢驗,用所建立模型計算理論值與實際數據之間的誤差。數據處理是建模的關鍵,直接影響數學建模的效率和結果。本文著重介紹常用數據處理方法及數學軟件在數學建模競賽中的具體應用。
1 數據分析
一般來說,數據建模收集和提供的原始數據絕大多數都是以Excel文件的形式保存,Excel軟件具有數據排序、篩選、有效性、分類匯總、內部函數計算等諸多功能,可用來對數據進行初步處理,如按關鍵字排序、按值或范圍篩選數據,按類匯總,計算最大值、最小值、頻數、方差等,還可以利用其強大的繪圖功能繪制散點圖、曲線圖、直方圖,對數據的發(fā)展趨勢進行觀察分析。
2 插值與擬合方法
在建模競賽中進行數據處理時經常會用到數據插值和數據擬合方法。如1998年美國賽A題中的生物組織切片用到三維插值方法;1994年國賽A題在計算山體海拔高度時也用到了數據插值方法;2001年國賽中血管三維重建問題用到了數據插值和數據擬合方法;2003年國賽“非典”問題用到數據擬合方法觀察數據走向并進行處理;2004年國賽飲酒駕車也是一個擬合問題;2005年國賽雨量預報的評價用到了插值計算;2006年國賽B題艾滋病療法的評價及療效的預測問題也用到了數據擬合方法;2011年國賽中的城市表層土壤重金屬污染問題也用到插值與擬合方法。
擬合問題通過實驗數據確定某已知函數的參數或尋求某個近似函數,使所得到的近似函數與已知數據有較高的擬合度。如果在確認數據有誤差的前提下不要求近似函數通過所有的數據點,只要求得出一定程度上反映數據變化規(guī)律的近似函數即稱為數據擬合。數據插值是根據已知數據點的實驗數據按照某種插值方法確定未知數據點的數據。
(1)數據插值。當受實驗條件限制以及實驗數據量不足,且已有數據可信時,通常利用函數插值方法可插值出兩數據點之間的一系列數據點,所繪制的數據曲線會嚴格地經過每一個實驗數據點。所選用插值函數的類型不同,逼近的效果和光滑程度也有所不同。常用的插值方法有: lagrange插值、分段線性插值、Hermite插值和三次樣插值等,這些插值都是分段插值。Matlab中提供的功能函數可實現分段插值而不需要編制函數程序,如:interp1(一維插值)、interp2(二維)、interp3(三維)、intern(n維) ,其中一維和二維插值用得最多。一維插值函數的格式為:yi=interp1(x,y,xi,'method'),其中(x,y)為插值節(jié)點,xi為被插值點,yi為在xi處的插值結果,默認情況下插值方法為分段線性插值,nearest為最鄰近插值,linear為線性插值,spline為三次樣條插值,cubic為立方插值。值得注意的是,所有插值方法中要求x必須是單調的,并且xi不能超過x的取值范圍。二維插值函數的格式為:z=interp2(x0,y0,z0,x,y,method)。
(2)數據擬合。對于較復雜的問題,可以直接使用實驗數據進行建模,找出因果變量之間的數量關系,從而對未知情形進行預測,所組建的模型稱為擬合模型。通過擬合模型主要將實驗數據誤差控制在一定范圍內,使用數學表達式從數量上近似表達因果變量之間的關系。組建擬合模型需要通過對有關變量的實驗數據進行觀察、分析,選擇恰當的擬合函數。擬合模型大致可分為線性擬合、多項式擬合和曲線擬合。在Matlab中可通過函數polyval()和lsqcurvefit()來實現,在spss中通過菜單和對話框操作可同時選用多種模型實現擬合度對比。為確定合適擬合模型,一般先做散點圖觀察數據的分布情況再確定模型的選取。
3 數據仿真
數學建模中離不開計算機仿真,其中隨機性模擬是常用算法之一。數學建模中的數據仿真主要有數學仿真和計算機仿真。數學仿真以數學方程式為基礎,在一定假設條件下用數學式來模擬被仿真對象。利用計算機對系統(tǒng)的數學模型進行試驗,稱計算機仿真。通過計算機仿真方法可改變被仿真系統(tǒng)的結構和參數,方便實現對模型的分析。計算機仿真方法中蒙特卡羅算法較常用,該算法又稱隨機性模擬算法。
首先利用隨機函數對所研究的實際問題生成隨機抽樣產生樣本,再對樣本值進行觀察、統(tǒng)計分析,最后求出所研究問題的參數。例如全國大學生數學建模競賽1997年A 題“零件參數設計”問題,題目中每個零件都有不同的標定值和容差等級,要求解零件的最優(yōu)組合方案。如利用一個復雜的公式,從108 種容差中選取方案,得到問題的解非常困難,只能通過計算機仿真方法求解。其中的一種方法就是通過隨機性模擬搜索最優(yōu)方案,在每個零件的可行區(qū)間按照正態(tài)分布隨機選取一個標定值和一個容差值,通過蒙特卡羅算法仿真出大量的方案,并從中選取一個最佳方案。
4 回歸分析
回歸分析在數學建模競賽中用得較多,例如國賽2005年A題“長江水質的評價和預測”、2006年的“Hiv病毒問題”、2008年的“大學學費問題”和2011年A題“城市表層土壤重金屬污染分析”中都用到回歸分析?;貧w分析是研究一個因變量與一個或多個自變量之間線性或非線性關系的一種統(tǒng)計分析方法?;貧w分析通過規(guī)定因變量和自變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來估計模型各參數,然后評價回歸模型能否很好地擬合實測數據,并根據自變量作進一步預測。
回歸分析方法理論基礎成熟,它根據采樣數據來確定變量與變量之間的定量關系,反映出統(tǒng)計變量之間的數據變化規(guī)律,并建立出變量間定量關系的數學模型,進行數據變化趨勢預測。它是一種準確把握自變量對因變量的影響方向和影響程度的有效方法,在經濟、金融、醫(yī)學、自然科學和社會科學等領域有廣泛應用,在數據建模競賽中也常用到?;貧w分析主要有線性回歸、曲線回歸、Logistic回歸、非線性回歸等??梢宰骰貧w分析的軟件有Excel、Matlab、SPSS、Eviews、Sas、Systat等,其中使用得最多且最容易掌握的軟件當屬SPSS。
5 結語
數據處理在數學建模競賽中發(fā)揮非常關鍵的作用,合理選擇數據處理方法能提高數據分析的準確性。借助相關數學軟件實施數據處理可大大提高數學建模效率。
參考文獻:
[1] 王庚,王敏生.現代數學建模方法[M].北京:科學出版社,2006.
[2] 姜啟源,謝金星,葉俊.數學模型[M].第三版.北京:高等教育出版社,2003.
[3] 陳勝可. SPSS統(tǒng)計分析從入門到精通 [M].第二版.北京:清華大學出版社,2013.
[4] 胡良劍,孫曉君. MATLAB數學實驗[M].北京:高等教育出版社,2006.