朱 華
(南京安廈房屋安全鑒定檢測(cè)事務(wù)所有限公司 江蘇南京 210029)
GNSS技術(shù)在工程測(cè)量中被廣泛應(yīng)用,然而GNSS采用的是大地高,與我國規(guī)定的正常高之間存在高程異常,可以通過高程擬合來實(shí)現(xiàn)兩者的轉(zhuǎn)換。
最小二乘支持向量機(jī)(LSSVM)是一種數(shù)據(jù)分類和回歸工具[1],基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,將最小二乘估計(jì)引入支持向量機(jī)中,采用等式約束代替不等式約束,訓(xùn)練過程轉(zhuǎn)化為求解線性方程組,避開了二次歸化問題,求解速度加快,不需要指定逼近精度[2-3]。
LSSVM參數(shù)的取值在很大程度上決定了模型的學(xué)習(xí)和泛化能力,目前還沒有切實(shí)可行的參數(shù)調(diào)節(jié)方法。
本文采用三步搜索法對(duì)LSSVM參數(shù)進(jìn)行優(yōu)化選擇,并用參考文獻(xiàn)[3]的GPS觀測(cè)數(shù)據(jù),對(duì)適應(yīng)度函數(shù)采用學(xué)習(xí)樣本、測(cè)試樣本和總樣本均方誤差的擬合效果進(jìn)行分析比較。
給定M個(gè)訓(xùn)練樣本的集合{xi,yi}(i=1,2,…,M),xi∈Rn,yi∈R。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,回歸問題可表示為約束優(yōu)化問題。
(1)
式中:權(quán)矢量w∈Rn,φ(x)是將x從輸入空間映射到高維特征空間的函數(shù),誤差項(xiàng)ε∈R,C為正則化參數(shù),b為偏差量,s、t、y是約束條件。
引入Lagrange乘子αi,將式(1)轉(zhuǎn)化為無約束目標(biāo)函數(shù):
(2)
結(jié)合式(1)中的約束條件對(duì)式(2)進(jìn)行優(yōu)化,可得
(3)
式中:α=(α1α2…αM)T,Ω=[φ(x1)φ(x2) …φ(xM)]T,Y=(y1y2…yM)T,I=(1 1 … 1)T。
通過引入滿足Mercer條件的核函數(shù)K(x,xi),代替非線性擬合的ΩΩT內(nèi)積運(yùn)算,得到最小二乘支持向量機(jī)的回歸函數(shù):
(4)
LSSVM核函數(shù)選擇徑向基核函數(shù)時(shí),正則化參數(shù)C和核函數(shù)寬度σ的取值在很大程度上決定了模型的學(xué)習(xí)和泛化能力。
確定C和σ的取值范圍,若C和σ的取值點(diǎn)分別有NC和Nσ個(gè),采用完全搜索法則需要計(jì)算NC×Nσ次。而相對(duì)于完全搜索法,三步搜索法計(jì)算簡單,性能良好,能有效降低計(jì)算次數(shù),縮短建模時(shí)間。采用三步搜索法首先需要確定步長。在由C和σ構(gòu)成的二維平面中,通常設(shè)定三步的步長之和為平面邊長的一半。三步搜索法的操作步驟如下:
第一步:首先找到中心點(diǎn)及其周圍8個(gè)點(diǎn),然后計(jì)算每個(gè)點(diǎn)的適應(yīng)值,選擇適應(yīng)值最小的點(diǎn)作為新中心點(diǎn);
第二步:將步長減小一半,計(jì)算新中心點(diǎn)周圍8個(gè)點(diǎn)的適應(yīng)值,然后選擇適應(yīng)值最小的點(diǎn)作為下一個(gè)新的中心點(diǎn);
第三步:重復(fù)第二步,直至步長小于一個(gè)單位。
若學(xué)習(xí)精度沒達(dá)到所需要求,則返回第一步繼續(xù)尋找;若達(dá)到精度要求,則作為選擇的參數(shù)對(duì)[5-6]。
本文采用文獻(xiàn)[3]中的GPS觀測(cè)數(shù)據(jù)進(jìn)行建模分析,對(duì)擬合后的結(jié)果選用內(nèi)、外符合精度作為評(píng)價(jià)指標(biāo)。
(5)
式中:u1、u2為內(nèi)、外符合精度,v1、v2為訓(xùn)練樣本和測(cè)試樣本高程異常擬合殘差,n1、n2為訓(xùn)練樣本和測(cè)試樣本個(gè)數(shù)。
在進(jìn)行GPS高程擬合前,為避免所用數(shù)據(jù)的數(shù)值較大對(duì)擬合結(jié)果產(chǎn)生影響,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[7]。LSSVM參數(shù)在尋優(yōu)時(shí),適應(yīng)度函數(shù)[8]選擇學(xué)習(xí)樣本均方誤差可能會(huì)存在過擬合的情況,使得預(yù)測(cè)效果不理想。本文采用三步搜索法尋找最優(yōu)參數(shù)組合,適應(yīng)度函數(shù)分別選擇學(xué)習(xí)樣本、測(cè)試樣本和總樣本均方誤差,并對(duì)其擬合效果進(jìn)行分析比較。
為了計(jì)算方便,通過多次試驗(yàn)確定C和σ的取值范圍分別為[100,1 500]和[0.5,1.9],則:
第一步:中心點(diǎn)為(800,1.2),步長為(400,0.4),計(jì)算中心點(diǎn)及其周圍8個(gè)點(diǎn)的適應(yīng)值,選擇適應(yīng)值最小的點(diǎn)作為新的中心點(diǎn)。
第二步:將步長減小一半為(200,0.2),計(jì)算新中心點(diǎn)周圍8個(gè)點(diǎn)的適應(yīng)值,選擇適應(yīng)值最小的點(diǎn)作為下一個(gè)新的中心點(diǎn)。
第三步:將步長減小為(100,0.1)(步長小于一個(gè)單位),計(jì)算新的中心點(diǎn)周圍8個(gè)點(diǎn)的適應(yīng)值,適應(yīng)值最小的點(diǎn)即為最終選擇的點(diǎn)。
采用三步搜索法最終獲得C和σ的最優(yōu)組合分別為(1 500,0.5)、(1 500,1.2)和(700,0.9)。
圖1是在尋找最優(yōu)參數(shù)時(shí)訓(xùn)練樣本和測(cè)試樣本的高程異常擬合殘差圖,表1是選擇的幾種適應(yīng)度函數(shù)模型的擬合精度。
圖1 訓(xùn)練樣本和測(cè)試樣本的高程異常擬合殘差
表1 幾種適應(yīng)度函數(shù)模型的擬合精度單位:cmTab.1 Fitting Accuracy of Models in Several Fitness Functions 適應(yīng)度函數(shù)學(xué)習(xí)樣本測(cè)試樣本總樣本內(nèi)符合精度0.070.440.36外符合精度1.010.700.74
從圖1和表1可以看出,適應(yīng)度函數(shù)采用學(xué)習(xí)樣本均方誤差,訓(xùn)練樣本可能存在過擬合的情況,測(cè)試樣本部分點(diǎn)的高程異常擬合值較大,擬合效果不佳;采用測(cè)試樣本和總樣本均方誤差時(shí),訓(xùn)練樣本和測(cè)試樣本的高程異常擬合值都比較穩(wěn)定、一致,擬合效果要優(yōu)于采用學(xué)習(xí)樣本均方誤差,擬合精度相對(duì)更高,能夠達(dá)到四等水準(zhǔn)測(cè)量的精度要求,可以滿足一般的工程測(cè)量的要求。
GNSS高程擬合在工程測(cè)量中有著廣泛的應(yīng)用,最小二乘支持向量機(jī)在GNSS高程擬合中有著一定的優(yōu)勢(shì)。最小二乘支持向量機(jī)參數(shù)尋優(yōu)采用三步搜索法,相對(duì)于完全搜索,計(jì)算簡單,能有效降低計(jì)算次數(shù),縮短建模時(shí)間。通過采用GPS數(shù)據(jù)對(duì)擬合效果進(jìn)行比較,適應(yīng)度函數(shù)選擇測(cè)試樣本和總樣本均方誤差的擬合效果要優(yōu)于選擇學(xué)習(xí)樣本均方誤差。但是如何對(duì)最小二乘支持向量機(jī)參數(shù)進(jìn)行優(yōu)化選擇仍需要進(jìn)一步研究。