趙金榮
摘 要:最小平方法是一種數(shù)學(xué)優(yōu)化技術(shù).它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)搭配.利用最小平方法可以簡便地球的未知數(shù)據(jù),然后使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小.本文介紹了最小平方法中的最小平方直線.
關(guān)鍵詞:最小平方 最佳匹配 誤差
在整個歷史長河中,人類在努力地理解物質(zhì)世界的本質(zhì).我們一直在努力去發(fā)現(xiàn)決定周圍物體性質(zhì)的規(guī)則和模式,以及這些規(guī)則和模式與人類之間的復(fù)雜的關(guān)系.在上千年里,分布在世界各地的社會都發(fā)現(xiàn)了在其他所有的規(guī)則之上的一種可以幫助人們獲得關(guān)于客觀物質(zhì)世界建立的基礎(chǔ),這就是數(shù)學(xué).可以說數(shù)學(xué)家們實際上就是模式發(fā)現(xiàn)師,他們的目標(biāo)就是發(fā)現(xiàn)看起來雜亂不堪,似乎毫無規(guī)律可循的事物的復(fù)雜性和多樣性背后所依據(jù)的規(guī)則和模式.數(shù)學(xué)在人類生活的各個方面以各種不同的方式在改變著人們看待世界的方式.比如說,十九世紀(jì)早期,在數(shù)學(xué)天文學(xué)上所作出的最大的進(jìn)步很大程度上得益于最小平方方法的建立.同樣的,這個方法是目前在社會科學(xué)研究、經(jīng)濟(jì)學(xué)、生物學(xué)和心理學(xué)問題的研究中占有非常重要位置的觀察誤差微積分(calculus of errors of observations)的基礎(chǔ).
Adrien Marie Legendre(1752-1833)[Legendre 和Carl Friedrich Gauss(1777-1855)獨立地建立了最小平方法則.據(jù)這兩位大師稱,“要得到與某給定數(shù)據(jù)集最佳匹配的直線或直線,在所有我們能夠提出的原理中,我認(rèn)為沒有什么比求得誤差的平方和的最小值更普遍的、更精確的、和更簡單的了.” 在學(xué)生們學(xué)習(xí)多項式和有理函數(shù)時,其中涉及到了使用最小平方(或遞歸)直線,得到了與給定的數(shù)據(jù)點“最佳匹配”的直線.在本文中,我們要解釋“最佳匹配”的意思,還要使用二次函數(shù)了解最小平方直線是如何計算出來得到的.
在圖A中,數(shù)據(jù)點在直線的上方,偏移量是數(shù)據(jù)點到直線的豎直距離.如果數(shù)據(jù)點在這條直線的下方,那么就是這個距離的負(fù)值:把看做使用估算值時產(chǎn)生的誤差.
圖B以及相應(yīng)的計算給出了這個定義的兩個例子.對于數(shù)據(jù)點,結(jié)果表示這個數(shù)據(jù)點與直線之間的豎直距離.對于數(shù)據(jù)點,偏移是,這個值的絕對值給出了這個數(shù)據(jù)點與直線之間的豎直距離.
假設(shè)已知一數(shù)據(jù)集合和一條直線.測量這條直線與這些數(shù)據(jù)點之間的匹配程度的方法之一就是簡單地把這些偏移加和起來.然而,如果按照這個方法,進(jìn)行加和時,正值偏移和負(fù)值偏移會相互抵消.為了避免這種情況,我們采用偏移值的平方和來衡量直線與數(shù)據(jù)點之間的接近程度.(而偏移值的絕對值的和則是另一種選擇,但在微積分中,平方要比使用絕對值更簡單一些兒.)
等式(1)把E表示成了兩個變量,m和b的函數(shù).在涉及到最大值和最小值問題的例子中,要解決問題,總需要把一個變量表示成另一個變量的函數(shù),然后使用二次函數(shù)的相關(guān)知識解決問題.但在這里,m和b之間沒什么聯(lián)系,所以這個策略在這里不適用.實際上,在微積分中一般都需要處理的是雙變量的最值問題.由此,在這里,要使得問題得以解決,我們會假設(shè)在結(jié)果中(根據(jù)計算)問題中的b是2/3.然后往下進(jìn)行,把b=2/3代入等式(1)中.經(jīng)過化簡,得到一個二次函數(shù),于是,就知道了如何求出使得函數(shù)最小化的m的值.然后,使用已知的m和b,就能夠確定出最小平方直線了.作為直觀證據(jù),把這些數(shù)據(jù)點與得到的最小平方直線一起畫出.然后判斷結(jié)果是否合理.最后,可以使用繪圖工具計算出最小平方直線,驗證我們得到的答案.
相關(guān)練習(xí)
在所給的每個練習(xí)中,都會給出一個數(shù)據(jù)集,以及最小平方直線的b值.使用上面給出的方法求出這個數(shù)據(jù)集的最小平方直線.然后使用合適的繪圖工具驗證你的答案.然后把這些數(shù)據(jù)點與得到的最小平方直線畫出.在練習(xí)2中,在給出最終答案之前,和都四舍五入到小數(shù)點后兩位.
2.(“真實”數(shù)據(jù))接下來的表格是研究把空氣污染與呼吸道疾病的發(fā)生率之間的關(guān)系時得到的真實數(shù)據(jù).這些數(shù)據(jù)收集的是在1955、1957和1958年在五個城市內(nèi)的相關(guān)數(shù)據(jù).試驗對象是在RCA工廠中工作的女工.在表格中,x表示某城市空氣中的硫酸鹽(“酸性粉塵”)顆粒的平均濃度,測量單位是微克每立方米().y表示每1000名工人每年由于呼吸疾病缺席的人數(shù).(只有缺席多余7天以上的對象被計入.)
參考文獻(xiàn)
[1]微積分初步-問題引導(dǎo)法,第6版,David Cohen, Ted Lee, David Sklar,2005 Thomson Brooks/Cole, a part of The Thomson Corporation.
[2]數(shù)學(xué)的來源,David Eugene Smith(紐約:Dover出版社,1959)