王迪,王茂磊,楊宇飛,李海航,葛條
( 1. 北京衛(wèi)星導(dǎo)航中心, 北京 100089;2. 北京開運(yùn)聯(lián)合信息技術(shù)集團(tuán)股份有限公司, 北京 100020;3. 北京工業(yè)大學(xué), 北京 100124 )
GNSS 是指能在地球表面或近地空間的任何地點(diǎn)為用戶提供全天候三維坐標(biāo)和速度以及時間信息的空基無線電導(dǎo)航定位系統(tǒng)[1].目前全球有四大衛(wèi)星導(dǎo)航系統(tǒng):美國的GPS、俄羅斯的GLONASS、歐盟的Galileo 和中國的北斗衛(wèi)星導(dǎo)航系統(tǒng)(BeiDou Navigation Satellite System,BDS).BDS 經(jīng)過“三步走”發(fā)展戰(zhàn)略,實(shí)現(xiàn)服務(wù)性能大幅提升.根據(jù)BDS 公開服務(wù)性能規(guī)范(3.0 版)定義,定位、導(dǎo)航和授時(positioning,navigation and timing,PNT)服務(wù)精度包括定位精度、測速精度、授時精度和服務(wù)可用性等[2].
近年來,機(jī)器學(xué)習(xí)技術(shù)在多個領(lǐng)域得到了廣泛應(yīng)用,在GNSS 方面也有一定的研究進(jìn)展.Hsu[3]采用機(jī)器學(xué)習(xí)的方法探討了多路徑效應(yīng)檢測;Linty 等[4]根據(jù)機(jī)器學(xué)習(xí)決策樹算法研究了GNSS 中的電離層閃爍;周相兵[5]利用城市出租車GNSS 數(shù)據(jù),采用智能聚類學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行了分類,為城市道路規(guī)劃和路網(wǎng)更新提供了新方法;Xia 等[6]研究了基于混合機(jī)器學(xué)習(xí)系統(tǒng)的車輛GNSS 觀測異常檢測.上述研究均為利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)了對GNSS 數(shù)據(jù)進(jìn)行分類或聚類.此外,也有學(xué)者基于機(jī)器學(xué)習(xí),對觀測結(jié)果或某種現(xiàn)象進(jìn)行預(yù)測.如Kiani[7]將機(jī)器學(xué)習(xí)方法應(yīng)用于GNSS 時間序列研究,對地面沉降或隆起進(jìn)行了預(yù)測;駱黎明[8]基于樹模型反演了GNSS-R 海面風(fēng)場.盡管機(jī)器學(xué)習(xí)在上述方面的應(yīng)用百花齊放,但基于機(jī)器學(xué)習(xí)的無源定位導(dǎo)航服務(wù)性能評估卻鮮有人研究.
眾所周知,傳統(tǒng)數(shù)理方法的GNSS 性能評估是基于大地測量與導(dǎo)航測繪原理開展,其所有數(shù)據(jù)依賴于地面測站的觀測與傳輸,導(dǎo)致地面測站的布局對定位精度的評估、預(yù)測存在一定的關(guān)聯(lián)性和局限性,而機(jī)器學(xué)習(xí)可以較好地挖掘這方面的信息,通過對大量數(shù)據(jù)進(jìn)行篩選、特征提取、模型訓(xùn)練、歸納總結(jié)等,探索研究機(jī)器學(xué)習(xí)在導(dǎo)航定位服務(wù)中的應(yīng)用效果.
本文利用機(jī)器學(xué)習(xí)算法,結(jié)合大地測量和導(dǎo)航測繪原理,以與定位精度有關(guān)的數(shù)據(jù)作為特征,對定位精度進(jìn)行擬合,為定位性能的評估與預(yù)測提出了一種新方法和思路.即運(yùn)用特征提取工程模塊自動提取并合理篩選出影響定位精度的相關(guān)數(shù)據(jù)特征,然后將上述特征輸入機(jī)器學(xué)習(xí)工程模塊進(jìn)行模型訓(xùn)練和性能測試,通過特征數(shù)據(jù)擬合定位精度真值,實(shí)現(xiàn)定位精度預(yù)測,使用定位精度預(yù)測值對服務(wù)性能進(jìn)行大致評估.同時,本文工作本身更多的是基于“傳統(tǒng)統(tǒng)計方法”獲得的定位精度結(jié)果進(jìn)行模型訓(xùn)練的,則傳統(tǒng)方法中存在的各種“關(guān)聯(lián)性和局限性”問題在建立的模型中只會放大而不會消失.因此,本文更多的是提供一種新的研究思路,即利用機(jī)器學(xué)習(xí)的思想結(jié)合GNSS 理論實(shí)現(xiàn)對定位精度的評估和預(yù)測.
本文選用武漢大學(xué)國際GNSS 服務(wù)(International GNSS service,IGS)網(wǎng)站2020—2021 兩年全球測站的觀測文件和每日廣播星歷作為原始數(shù)據(jù).選用BDS B1I 頻段信號,以每30s 的時間間隔對測站位置進(jìn)行單點(diǎn)定位,并與測站位置參考值進(jìn)行對比,獲得東(east,E)、北(north,N)、天頂(up,U)三方向上的定位誤差σE、σN、σU.
本文將測站實(shí)際定位精度作為標(biāo)簽值,用于給機(jī)器學(xué)習(xí)模型得出的預(yù)測值提供參考.
定位精度是一段時間內(nèi)定位誤差的統(tǒng)計值.在2.1 節(jié)中描述了計算E、N、U 三個方向上的定位誤差的方法.接著,經(jīng)過下面兩步的處理將三個方向上的定位誤差轉(zhuǎn)換為水平、垂直方向定位精度.
首先將三個方向的誤差轉(zhuǎn)換為水平、垂直兩個方向上的定位誤差,轉(zhuǎn)換方法如下:
式中:σH、σV為水平方向誤差與垂直方向誤差;σE、σN、σU為E、N、U 三個方向上的誤差.
其次,將得到的垂直方向、水平方向定位誤差按一定采樣時長進(jìn)行分段,使用均方差公式對每段時間內(nèi)的定位誤差進(jìn)行統(tǒng)計,得到的統(tǒng)計值作為每日不同時間段內(nèi)的垂直方向、水平方向定位精度.
在本文中,主要采用1h 和3h 的采樣時長進(jìn)行分段統(tǒng)計.對于采樣時長為1h 的數(shù)據(jù)集,一天內(nèi)共有24 組統(tǒng)計值,代表24 個時間段內(nèi)的定位精度.對于采樣時長為3h 的數(shù)據(jù)集,一天內(nèi)共有8 組統(tǒng)計值,代表8 個時間段內(nèi)的定位精度.
考慮到定位精度可能受到天氣、地理位置等因素的影響,將衛(wèi)星幾何構(gòu)型、信號傳播段和信號用戶段等對應(yīng)數(shù)據(jù)作為重要特征值,將其按時間順序添加到數(shù)據(jù)集中,與標(biāo)簽值一一對應(yīng).
衛(wèi)星信號在傳播時會受到傳播路徑上多種因素的干擾,傳播段上的主要影響因素為電離層狀態(tài)和對流層狀態(tài):對于電離層總體狀態(tài),主要受太陽活動與地球地磁活動的影響,因此考慮可反應(yīng)地球地磁活動情況和太陽活動情況的數(shù)據(jù)作為特征值;局部的電離層狀態(tài)則與當(dāng)?shù)靥柟庹涨闆r有關(guān),可由當(dāng)?shù)貢r間間接反應(yīng),因此考慮將定位時間作為特征值.在本文中,地球地磁活動情況和太陽活動情況主要通過德國地磁中心提供的地磁指數(shù)文件獲得,選取文件中的地磁指數(shù)Ap、太陽黑子數(shù)SN、太陽射電輻射通量F10.7作為特征值.時間特征值則通過將各個標(biāo)簽值對應(yīng)的時間分解為定位時間的年積日(day of year,DOY)以及當(dāng)日小時數(shù)(hour of day,HOD)來獲取.此外,通過對國際全球連續(xù)監(jiān)測評估系統(tǒng)(international GNSS Monitoring&Assessment System,iGMAS)網(wǎng)站提供的電離層文件在時間與空間上線性插值,可以直接得到不同定位時間下測站上方的電離層電子總含量(ionospheric total electron content,TEC)值.上述選取特征都直接或間接地反應(yīng)了電離層狀態(tài);對流層狀態(tài)與氣象情況相關(guān),如定位地點(diǎn)周邊溫度T、大氣壓Po、相對濕度U等,由于氣象參數(shù)的獲取受到氣象站分布的限制,許多測站無法獲取周邊準(zhǔn)確氣象參數(shù),故不作為特征值考慮;而用戶段的影響包括接收機(jī)鐘差、接收機(jī)噪聲等,由于不同接收機(jī)型號對定位精度評估受人為技術(shù)影響較大,故此處不作為特征值考慮.
此外,定位時的衛(wèi)星幾何構(gòu)型也將影響定位精度,使用定位時的可見衛(wèi)星位置計算三維位置精度因子(position dilution of precision,PDOP),并作為一種特征值,可以通過數(shù)值大小定量反應(yīng)衛(wèi)星的幾何構(gòu)型的情況.
綜合考量,將衛(wèi)星幾何構(gòu)型和信號傳播段的主要因素作為本文機(jī)器學(xué)習(xí)的特征值,具體為PDOP、測站上方的TEC、地球地磁指數(shù)Ap、每日太陽黑子數(shù)SN、太陽輻射通量F10.7、定位時間DOY 與HOD.
基于GNSS 數(shù)據(jù)處理具有數(shù)據(jù)計算量大、數(shù)據(jù)關(guān)系耦合多、計算類別復(fù)雜等特點(diǎn),采取將數(shù)據(jù)集高維度原始空間投影到低維度特征空間方式,保持樣本類別區(qū)分性,降低計算量,減小參數(shù)估計誤差從而避免過擬合問題.在獲取特征數(shù)據(jù)與定位精度數(shù)據(jù)后,需要將該測站數(shù)據(jù)按時間拼接起來,構(gòu)成可供機(jī)器學(xué)習(xí)模型使用的數(shù)據(jù)集.
將數(shù)據(jù)輸入機(jī)器學(xué)習(xí)模型之前,需要對數(shù)據(jù)做預(yù)處理,以獲取最佳性能.本文采用周期性數(shù)據(jù)編碼和數(shù)據(jù)標(biāo)準(zhǔn)化的處理方式.周期性數(shù)據(jù)編碼主要使用sin、cos 函數(shù)對HOD、DOY 兩種具有周期性的特征進(jìn)行處理,使得模型可以學(xué)習(xí)到其周期性.數(shù)據(jù)標(biāo)準(zhǔn)化則使用以下公式:
式中:為標(biāo)準(zhǔn)化后的第i類數(shù)據(jù)中的第j個數(shù)據(jù);Xij為第i類數(shù)據(jù)中的第j個數(shù)據(jù);μi為第i類數(shù)據(jù)的均值;σi為第i類數(shù)據(jù)的標(biāo)準(zhǔn)差.
通過計算不同數(shù)據(jù)的均值與方差,并使用上式依次進(jìn)行處理,可以根據(jù)不同數(shù)據(jù)的分布,將所有輸入輸出數(shù)據(jù)的分布轉(zhuǎn)化為正態(tài)分布.這有助于加速模型收斂速度并提高模型預(yù)測準(zhǔn)確率.
梯度提升決策樹(gradient boosting decision tree,GBDT)[9]、支持向量回歸(support vector regression,SVR)[10]和多層感知機(jī)(multilayer perceptron,MLP)[11]均具有較強(qiáng)非線性擬合能力,且較為常見.其中GBDT是一種具有很強(qiáng)泛化性能的機(jī)器學(xué)習(xí)模型,具有非線性擬合能力,并適用于所有規(guī)模的數(shù)據(jù)集,在多個領(lǐng)域得到廣泛的應(yīng)用,本文優(yōu)選GBDT 模型進(jìn)行定位精度擬合.
GBDT 通過構(gòu)建多個弱學(xué)習(xí)器組合得到有較強(qiáng)預(yù)測性能的強(qiáng)學(xué)習(xí)器,其中,弱學(xué)習(xí)器指預(yù)測效果較差的模型,GBDT 采用的弱學(xué)習(xí)器為回歸決策樹.圖1展示了一個用于回歸任務(wù)的GBDT 示意圖,其由M棵回歸決策樹組成.
圖1 GBDT 示意圖
對于圖1 中展示的GBDT 模型,其輸出y的表達(dá)式為
式中,βm和Tm(x)分別為第M棵決策樹的輸出權(quán)重與輸出值.
GBDT 在訓(xùn)練時,通過多次迭代逐一生成回歸決策樹并加入到模型中,不斷提高模型預(yù)測能力.對于一個由M棵回歸決策樹組成的GBDT 模型來說,需要進(jìn)行m次迭代生成回歸決策樹.在其中的第m次迭代時,由前m-1 步得到的m-1 棵決策樹組成的強(qiáng)學(xué)習(xí)器fm-1(x)為
式中,βi和θi分別為第i棵決策樹的權(quán)重與參數(shù).此強(qiáng)學(xué)習(xí)器的預(yù)測結(jié)果與訓(xùn)練集中的標(biāo)簽值的偏差用損失函數(shù)L(y,fm-1(x))表示.而對于本次迭代需要生成的決策樹T(x;θm),需要將損失函數(shù)L(y,fm-1(x))的負(fù)梯度γm作為擬合目標(biāo)
對于GBDT 回歸模型來說,使用的損失函數(shù)L(y,fm(x))為均方差函數(shù)
則負(fù)梯度rm可以進(jìn)一步化為
即第m次迭代擬合的決策樹需要以上一個強(qiáng)學(xué)習(xí)器的預(yù)測值與標(biāo)簽值的差值作為擬合目標(biāo).
在得到第m次迭代產(chǎn)生的決策樹T(x;θm)后,將其加入強(qiáng)學(xué)習(xí)器中
通過重復(fù)以上迭代過程,不斷生成新的決策樹并加入強(qiáng)學(xué)習(xí)器中,直到強(qiáng)學(xué)習(xí)器中的決策樹數(shù)量滿足設(shè)定的數(shù)量,即完成了整個模型的訓(xùn)練.
GBDT 完整訓(xùn)練流程可表示為:
1)初始化強(qiáng)學(xué)習(xí)模型f0(x)為訓(xùn)練集標(biāo)簽值的均值.
2)對m=0,1,2,···,M.
a)根據(jù)標(biāo)簽值和上一個強(qiáng)學(xué)習(xí)器的預(yù)測值計算每個訓(xùn)練集樣本殘差rmi=yi-fm-1(xi),i=1,2,···,N;
b)用殘差訓(xùn)練回歸樹,得到T(x;θm);
c)更新當(dāng)前強(qiáng)學(xué)習(xí)器fm(x)=fm-1+βmT(x;θm);
3)得到最終的模型fM(x).
將上述數(shù)據(jù)集,按一定比例分為沒有交集的訓(xùn)練集與驗(yàn)證集.其中訓(xùn)練集用于GBDT 模型的訓(xùn)練工作,驗(yàn)證集則用于驗(yàn)證在未知數(shù)據(jù)下模型的預(yù)測表現(xiàn).
在訓(xùn)練開始前,需要進(jìn)行預(yù)處理.對訓(xùn)練集使用的預(yù)處理方法有:針對時間等周期性數(shù)據(jù),使用cos、sin 函數(shù)映射;對于非數(shù)值型數(shù)據(jù)進(jìn)行獨(dú)熱編碼;對所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化.
在訓(xùn)練時,需要進(jìn)行超參數(shù)的確定,確定模型在數(shù)據(jù)集上表現(xiàn)最佳的超參數(shù).本文使用網(wǎng)格搜索的方法確定GBDT 在訓(xùn)練集上的最佳超參數(shù).首先對整體性能影響最大的決策樹個數(shù)進(jìn)行搜索,在最佳決策樹個數(shù)基礎(chǔ)上,對最大樹深、葉子節(jié)點(diǎn)最小樣本數(shù)等決策樹參數(shù)進(jìn)行搜索,最后在上述最佳超參數(shù)基礎(chǔ)上對劃分時考慮的特征數(shù)、下采樣率和學(xué)習(xí)率進(jìn)行搜索.確定超參數(shù)后,使用最佳超參數(shù)創(chuàng)建模型,并使用訓(xùn)練集進(jìn)行訓(xùn)練.
為了驗(yàn)證GBDT 模型可實(shí)施性與評估性,需要對GBDT 模型進(jìn)行測試.首先使用訓(xùn)練集參數(shù),對驗(yàn)證集進(jìn)行標(biāo)準(zhǔn)化處理.然后將驗(yàn)證集中的特征部分輸入訓(xùn)練好的模型中進(jìn)行預(yù)測,獲取模型預(yù)測值.此處以ENAO 測站水平精度為例闡述模型預(yù)測值生成過程.
1)準(zhǔn)備輸入特征:根據(jù)時間和跟蹤站的經(jīng)緯高,分別獲取輸入特征Ap、SN、F10.7、TEC、HOD、DOY和PDOP,演示樣本的輸入特征如表1 所示,其中DOY 與HOD 已經(jīng)過sin、cos 函數(shù)映射處理.并使用式(3),根據(jù)每類特征的均值與標(biāo)準(zhǔn)差對進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,ENAO 訓(xùn)練集中每類特征的數(shù)據(jù)分布如表2 所示.根據(jù)式(3),對表1 中的每類特征分別減去每類特征對應(yīng)的均值并除以標(biāo)準(zhǔn)差,最終得到的標(biāo)準(zhǔn)化后的輸入特征如表3 所示.
表1 演示樣本的輸入特征
表2 ENAO 的訓(xùn)練集分布
表3 處理后的輸入特征
2)使用模型預(yù)測:加載ENAO 的水平定位精度模型,并獲取預(yù)測值.模型使用實(shí)驗(yàn)中最佳模型GBDT 訓(xùn)練得到.對于GBDT 模型,其由若干決策回歸樹構(gòu)成.GBDT 的預(yù)測過程就是將其中所有的決策回歸樹的輸出乘以一定權(quán)重后累加的過程.對于演示模型,ENAO 的水平精度預(yù)測模型而言,其由400 個決策回歸樹構(gòu)成,這里挑選其中第1 個、第200 個、第400 個決策回歸樹,來演示GBDT 模型中的詳細(xì)預(yù)測過程.第1 個、第200 個、第400 個決策回歸樹的結(jié)構(gòu)如圖2~4 所示.
圖2 第1 個決策樹的結(jié)構(gòu)
圖3 第200 個決策樹的結(jié)構(gòu)
圖4 第400 個決策樹的結(jié)構(gòu)
將樣本輸入決策樹后,根據(jù)樹中每個結(jié)點(diǎn)的條件和樣本的數(shù)據(jù),將滿足條件的樣本分至左節(jié)點(diǎn),不滿足條件的分至右節(jié)點(diǎn).不斷重復(fù)此過程,直至樣本落入葉子節(jié)點(diǎn).最后以葉子節(jié)點(diǎn)上的值value 作為此樣本的預(yù)測值輸出.對于上述的三個決策樹,將三個樣本分至葉子節(jié)點(diǎn)的過程如圖5~7 所示.圖中紅色、綠色、藍(lán)色箭頭的路徑分別代表樣本1、樣本2、樣本3 落入葉子節(jié)點(diǎn)的過程.
圖5 演示樣本在第1 個決策樹上的輸出過程
圖6 演示樣本在第200 個決策樹上的輸出過程
圖7 演示樣本在第400 個決策樹上的輸出過程
將每個樹的輸出值乘以權(quán)重后進(jìn)行累加,即可得到GBDT 的最終輸出.GBDT 模型參數(shù)中的學(xué)習(xí)率即為權(quán)重.演示模型的學(xué)習(xí)率為0.1,其輸出即為400 個樹的結(jié)果累加后乘以0.1.
假設(shè)模型僅由展示的三個決策樹組成,則結(jié)果為:
樣本1:0.1×(-0.234+0.013-0.004)=-0.0225
樣本2:0.1×(-0.074+0.013-0.008)=-0.0069
樣本3:0.1×(1.27+0.013-0.008)=1.275
此結(jié)果為3 個演示樣本在假設(shè)模型上的輸出值.
3)處理輸出值:模型上的輸出值并不能直接作為定位精度的預(yù)測值,需要進(jìn)一步恢復(fù)成未標(biāo)準(zhǔn)化時的數(shù)值,這個過程稱為反標(biāo)準(zhǔn)化.這是由于模型在訓(xùn)練時擬合的都是標(biāo)準(zhǔn)化后的標(biāo)簽值.為了進(jìn)行反標(biāo)準(zhǔn)化,需要得知數(shù)據(jù)平均值與標(biāo)準(zhǔn)差,并將數(shù)值乘以標(biāo)準(zhǔn)差后再加上平均值.對于演示模型來說,訓(xùn)練集中水平定位精度平均值為0.902,標(biāo)準(zhǔn)差為0.165.則對于上述三個預(yù)測值來說,其反標(biāo)準(zhǔn)化結(jié)果為
樣本1:-0.0225×0.165+0.902=0.8982
樣本2:-0.0069×0.165+0.902=0.9008
樣本3:1.275×0.165+0.902=1.1123.
此結(jié)果為3 個樣本在假設(shè)模型上對水平定位精度的預(yù)測值.預(yù)測值將從機(jī)器學(xué)習(xí)模塊中返回.
為了評估模型的預(yù)測性能,本文主要使用1-MAPE作為模型預(yù)測準(zhǔn)確率.其中MAPE 代表平均絕對百分比誤差,其計算公式為
式中:ylabel為樣本的標(biāo)簽值;ypred為樣本的預(yù)測值.
MAPE 主要衡量誤差絕對值與真實(shí)值之間的比值,反應(yīng)預(yù)測值與標(biāo)簽值之間的不符合程度,其值域?yàn)?0,∞).標(biāo)簽值與預(yù)測值越相符,誤差越小,則MAPE 越接近0;反之,越不相符,誤差越大,MAPE越接近正無窮.
而使用1-MAPE 作為模型預(yù)測準(zhǔn)確率指標(biāo),可以直觀反應(yīng)預(yù)測值與標(biāo)簽值之間的符合程度,其值域?yàn)?-∞,1).標(biāo)簽值與預(yù)測值越接近時,預(yù)測準(zhǔn)確率1-MAPE 越接近1;反之越接近負(fù)無窮.
在評估性能時,首先計算所有測試樣本的MAPE的平均值作為模型的MAPE 指標(biāo)值.其次計算1-MAPE作為模型的預(yù)測準(zhǔn)確率.
將測站數(shù)據(jù)分為訓(xùn)練模型學(xué)習(xí)能力的訓(xùn)練集和評估模型泛化能力的驗(yàn)證集.訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)劃分原則:在數(shù)據(jù)集中按一定比例隨機(jī)抽取,但需保證訓(xùn)練集和驗(yàn)證集兩個數(shù)據(jù)集合互斥.
實(shí)驗(yàn)環(huán)境:計算服務(wù)器配置為i9-12900K 和RTX3090 顯卡,利用Python 語言在數(shù)據(jù)分析處理包Pandas 上進(jìn)行數(shù)據(jù)集加載、劃分等,在機(jī)器學(xué)習(xí)包scikit-learn 進(jìn)行模型創(chuàng)建、數(shù)據(jù)標(biāo)準(zhǔn)化、模型訓(xùn)練與測試、模型保存等.
使用ABMF、JFNG、MKEA 等11 個測站數(shù)據(jù)組成的小型數(shù)據(jù)集,對數(shù)據(jù)集上的水平定位精度進(jìn)行擬合計算與評估,從而比較GBDT、支持向量回歸(support vaetor regression,SVR)和多層感知器(multi-layer perceptron,MLP)在本任務(wù)中的性能.其中,由于MLP對數(shù)據(jù)量要求較大,使用的是采樣時間為1h 的數(shù)據(jù)集,GBDT 和SVR 使用的是采樣時間為3h 的數(shù)據(jù)集.將數(shù)據(jù)集按8∶2 的比例分為訓(xùn)練集與驗(yàn)證集,根據(jù)驗(yàn)證集中樣本預(yù)測準(zhǔn)確率指標(biāo)的直方分布圖比較模型性能.三種模型的測試結(jié)果如圖8~10,其中橫坐標(biāo)代表預(yù)測準(zhǔn)確率,縱坐標(biāo)代表相應(yīng)樣本數(shù)量,上方數(shù)字代表驗(yàn)證集的數(shù)據(jù)量.
圖8 GBDT 測試結(jié)果
如圖8 所示,GBDT 的測試結(jié)果如下: 預(yù)測準(zhǔn)確率處于0.9~1 的測試樣本占總樣本的21.5%,處于0.8~0.9 的測試樣本占20.2%,處于0.7~0.8 的測試樣本占16.9%.如圖9 所示,SVR 處于0.9~1 的測試樣本占總樣本的20.8%,處于0.8~0.9 的測試樣本占18.2%,處于0.7~0.8 的測試樣本占16%.如圖10 所示MLP 處于0.9~1 的測試樣本占總樣本的18.4%,處于0.8~0.9 的測試樣本占16.8%,處于0.7~0.8 的測試樣本占14.3%.
圖9 SVR 測試結(jié)果
圖10 MLP 測試結(jié)果
預(yù)測準(zhǔn)確率的值越接近1,代表樣本的預(yù)測值與標(biāo)簽值越接近.因此,預(yù)測準(zhǔn)確率值越靠近1 的測試樣本在總測試樣本中的占比越大代表預(yù)測效果越好.上述結(jié)果表明,三種模型對定位精度預(yù)測性能的排名為GBDT>SVR>MLP.另外,模型訓(xùn)練時間排序?yàn)镾VR>GBDT>MLP.綜合考慮預(yù)測性能與訓(xùn)練時間,結(jié)果表明本文所選GBDT 模型最適合定位性能評估任務(wù).
使用GBDT 模型對DGAR、MIZU、JFNG、CUSV等140 余個測站數(shù)據(jù)集,分別對單測站完成建模,將每個測站的數(shù)據(jù)集按9∶1 的比例分為訓(xùn)練集與驗(yàn)證集,得出訓(xùn)練結(jié)果如下.
在所有測站中,中國及周邊區(qū)域12 個測站模型模擬定位精度預(yù)測準(zhǔn)確率1-MAPE 為92.36%,最差為PTGG 站,預(yù)測準(zhǔn)確率1-MAPE 為89.26%,全球范圍120 個測站模型模擬定位精度預(yù)測準(zhǔn)確率1-MAPE 為86.59%,最差為SCOR 站,預(yù)測準(zhǔn)確率1-MAPE 為81.46%.圖11 為測站評估結(jié)果.
圖11 測站GBDT 模型評估結(jié)果
結(jié)果表明,GBDT 模型用于衛(wèi)星導(dǎo)航全球定位精度評估效果與傳統(tǒng)數(shù)理統(tǒng)計框架下得到的實(shí)測值較為吻合,該方法可為后續(xù)研究機(jī)器學(xué)習(xí)在基于時間和空間條件下對全球定位性能評估問題提供理論基礎(chǔ)和經(jīng)驗(yàn).
本文提出了一種基于機(jī)器學(xué)習(xí)模型評估衛(wèi)星導(dǎo)航系統(tǒng)定位性能的方法,主要通過模型對定位精度實(shí)現(xiàn)高準(zhǔn)確率預(yù)測,進(jìn)而評估定位性能.在相同數(shù)據(jù)集上,選取三種常用于非線性擬合的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到了GBDT 模型更適合衛(wèi)星導(dǎo)航定位性能評估的結(jié)論.同時,對全球共140 余個測站分別進(jìn)行了單獨(dú)建模,結(jié)果表明:機(jī)器學(xué)習(xí)擬合得出的導(dǎo)航定位精度評估效果與實(shí)測值較為吻合,說明基于機(jī)器學(xué)習(xí)模型評估衛(wèi)星導(dǎo)航定位性能的方法可行有效,為下一步對定位性能在時空域的預(yù)測提供了技術(shù)基礎(chǔ).
但是,本文采取的方法還存在諸多不足.如特征值只充分考慮了傳播段,對用戶段和空間段考慮不足;模型超參數(shù)搜索方法較為簡單等.后續(xù)將進(jìn)一步增加對GNSS 數(shù)據(jù)相關(guān)特征選取方面的研究,以提高評估和預(yù)測性能;改進(jìn)模型超參數(shù)搜索方法,使用如遺傳算法(genetic algorithm,GA)等方法尋找模型最佳超參數(shù),避免在超參數(shù)搜索時因手動進(jìn)行網(wǎng)格搜索帶來人為引入的局限性.