支亞京,湯 寧,吳興洋,汪 華,胡興煒,張 軍
(1.貴州省氣象信息中心,貴州 貴陽 550002;2.重慶眾仁科技有限公司,重慶 400021)
實時歷史氣象資料是開展天氣預警預報、氣候預測評估、科學研究的基礎,對國家應對全球氣候變化至關重要[1-2]。氣象要素自記跡線是記錄氣象要素時間上連續(xù)變化的歷史資料,中國氣象要素自記觀測從20世紀50年代開始,包括氣溫、氣壓、相對濕度、降水、風等。在數(shù)字引領科技發(fā)展的趨勢下,紙質(zhì)歷史氣象要素自記資料數(shù)字化是解決其保護和應用的重要途徑。
近年來,隨著圖像處理技術、模式識別以及機器學習等技術的發(fā)展,2004年,王伯民等研發(fā)的降水自記紙彩色掃描數(shù)字化[3-5]處理系統(tǒng)實現(xiàn)了降水曲線自動跟蹤提取相關技術;2017年,李亞麗等采用基于邊緣檢測法[6-7]開發(fā)了EL型電接風自記紙跡線提取軟件系統(tǒng),兩大系統(tǒng)軟件幫助全國各省先后完成了降水自記紙、EL型電接風自記紙數(shù)字化處理,建立了全國氣象觀測站降水、風的歷史分鐘、小時資料數(shù)據(jù)集;薛改萍等[8]利用全國推廣軟件完成了西藏風自記紙數(shù)字化工作,并對提取數(shù)據(jù)進行分析研究;張一博等[9]利用人機交互全國推廣軟件對提取和質(zhì)量檢查過程中的難點進行分析與處理;岑瑤[10]、賀美萍[11]、馬寧等[12]研究了常規(guī)圖像處理技術在氣壓自記紙和氣溫自記紙數(shù)字化處理方面的應用,實現(xiàn)了氣壓和氣溫自記紙曲線數(shù)據(jù)的提取。上述軟件系統(tǒng)只有降水自記紙和EL電接風自記紙跡線提取軟件在全國推廣,但在自記紙出現(xiàn)輕微扭曲、歪斜等情況時,需要人工對自記紙圖像重新掃描,不能實現(xiàn)自動訂正,也未對儀器本身的系統(tǒng)器差進行訂正。針對以上問題,研發(fā)功能全面的氣溫自記跡線數(shù)字化軟件十分必要。
貴州省氣象信息中心按照氣溫自記紙數(shù)字化技術標準,提出了基于SVM和形態(tài)學機器學習算法,以此技術開發(fā)了氣溫自記跡線數(shù)字化提取軟件,實現(xiàn)了氣溫自記跡線智能化跟蹤提取、質(zhì)量控制、檢查修正以及產(chǎn)品生成,極大提高了數(shù)字化工作效率和生產(chǎn)質(zhì)量,節(jié)約了人工資源成本。該文主要介紹氣溫自記跡線數(shù)字化提取軟件的設計、處理流程、主要功能、關鍵技術和評估結果分析。
基于SVM和形態(tài)學機器學習算法,構建圖像識別技術,根據(jù)中國氣象局提出的氣溫自記跡線提取技術規(guī)定,實現(xiàn)對氣溫自記跡線信息全面自動跟蹤、提取,系統(tǒng)智能,操作簡單,自動輸出氣溫自記跡線數(shù)字化成果,即標準化分鐘、小時數(shù)據(jù)文件,為后期氣壓自記跡線、相對濕度自記跡線等圖像檔案的數(shù)字化工作奠定技術基礎。
氣溫自記紙數(shù)字化軟件采用客戶端離線加工,以關系型數(shù)據(jù)庫SQLite[13]為存儲工具,運行在PC及其兼容環(huán)境上。主要功能包括批量預處理、檢查修正和成品數(shù)據(jù)生成等模塊,最終輸出數(shù)字化成果提交國家局。氣溫自記跡線數(shù)字化提取軟件結構如圖1所示。
軟件系統(tǒng)包括:批量處理、檢查修正、成品數(shù)據(jù)等模塊。
(1)A文件導入是用于導入A文件氣溫數(shù)據(jù),根據(jù)N和I字段聯(lián)合判斷定時觀測時次,供數(shù)字化自動識別和對比。其中,如果A文件中存在I7,I8或者N9要素標識符,則默認有北京時08、14、20點三次定時觀測,其他則為02、08、14、20點四次定時觀測。且在1960年6月(含6月)之前的定時觀測時間差1小時,1960年6月前為01、07、13、19時,其后為02、08、14、20時。
(2)批量處理模塊是對選擇自記紙圖像逐張跡線自動提取。第一步:加載圖像列表,系統(tǒng)自動對圖像的基本要素(文件名、日期是否連續(xù)、圖像分辨率以及傾斜度等)進行檢查;第二步:設置跡線、網(wǎng)格的開始結束時間和觀測值范圍,用于創(chuàng)建氣溫自記紙的初始坐標系;第三步:批量自動提取,點擊開始自動提取后,界面顯示不同提取狀態(tài)的文件數(shù)量,同時可以利用異常信息導出異常日期列表。
(3)檢查修正模塊是對批量提取的跡線數(shù)據(jù)進行回放檢查對比,手動修改提取有誤的跡線數(shù)據(jù),針對不同情況合理添加備注,并保存到跡線對應的txt文件。主要步驟包括:跡線矯正、時間記號線矯正、器差訂正、A文件氣溫對比。
(4)成品數(shù)據(jù)模塊是將經(jīng)過檢查修正的數(shù)據(jù)轉換成標準數(shù)據(jù)進行輸出,得到精細化小時、分鐘氣溫數(shù)據(jù)。第一步:將數(shù)據(jù)庫中同站號氣溫跡線提取數(shù)據(jù)進行合并,包括分鐘小時數(shù)據(jù)、圖片、txt數(shù)據(jù)文件;第二步:將數(shù)據(jù)轉換為標準數(shù)據(jù)。
(5)圖像矯正模塊是對臺站異常數(shù)據(jù)如傾斜、扭曲的自記紙進行手動矯正,通過手動的上下、左右拉伸獲取規(guī)范的自記紙圖片,并替換原始異常圖片。
氣溫自記跡線自動識別提取原理主要包括以下三部分:邊框識別、跡線識別和時間記號線識別。下面簡單介紹邊框識別和時間記號線識別原理,重點介紹基于支持向量機和形態(tài)學的跡線識別方法。
根據(jù)前期對貴州省多年多站的氣溫自記紙圖像進行紅色(R)通道、綠色(G)通道、藍色(B)通道三個通道像素統(tǒng)計結果顯示,R通道像素值較大、B通道像素值較小的點對應了橘黃色表格線點,即對應邊框線的像素點。
根據(jù)邊框線呈橫向、豎向分布特征,軟件設計采用橫向和豎向投影方式確定各方向邊框位置,圖2中對應波峰位置分別對應豎向和橫向表格線位置。
圖2 橫向豎向表格線位置
時間記號線是跡線開始結束時間,首先計算定時觀測時次參考位置,在定時觀測時次左右15分鐘區(qū)間內(nèi)識別豎直短豎線位置即為時間記號點位置,對每個小矩形框豎向投影,找到最小的列,再求與跡線的交點為準時間記號點。時間起始終止位置如圖3所示。
但是根據(jù)時間記號線平行于網(wǎng)格線的基本特征,位于表格上下兩端的時間記號線豎向投影往往存在一定偏差。為進一步矯正時間記號線精度,軟件在準時間記號點左右兩分鐘范圍內(nèi),再次進行豎向投影,找出投影最小列即為時間記號點所在列,再次重新計算與跡線的交點即為時間記號點。
基于支持向量機和形態(tài)學的氣溫自記紙跡線自動識別方法流程如圖4所示。該方法第一步是去除圖像大部分背景像素;第二步是將氣溫自記紙圖像進行灰度化處理,形成灰度化像素值,然后采用對通道像素值進行伽馬變換對比度拉伸,增強圖像局部對比度用以擴大跡線點與表格線點和噪聲點之間的差別,形成自適應增強像素值;第三步是輸入圖像中每個點的原始RGB通道值、灰度值、自適應增強像素值和R-B通道值,由支持向量機模型分類器進行分類,并獲得初步跡線像素值集合;第四步是采用形態(tài)學方法對SVM分類器識別結果進行形態(tài)噪聲去除,確定最終跡線像素點。
圖4 氣溫自記紙跡線自動識別流程
(1)去除圖像背景像素。利用Otsu二值化方法[14-15]去除圖像大部分背景像素,這種方法一方面減少數(shù)據(jù)計算量,提升計算速度;另一方面能夠減少多余圖像部分對算法本身的干擾。
(2)氣溫自記紙圖像灰度化。由于最小均值法得到的灰度圖像跡線和噪聲像素間對比度較大,且跡線像素間的灰度方差較小,跡線像素點基本得以保留,因此,本軟件中采用最小均值法將氣溫自記紙彩色圖像轉換為灰度圖像,其計算公式如公式[16-17](1)所示。
(1)
式中,fi(x,y)分別表示R、G、B三個通道彩色分量圖像,fgray(x,y)表示變換后的灰度圖像。
(3)增強圖像局部對比度。由于局部對比度增強后,跡線像素點與噪聲像素點更容易區(qū)分,為了有效抑制背景像素點對圖像對比度的影響,本軟件定義氣溫自記紙圖像的局部對比度C(x,y)如公式[18-21](2)所示。
(2)
式中,fmax(x,y)和fmin(x,y)分別表示圖像在以(x,y)為中心的領域內(nèi)的灰度最大值和最小值。
(4)建立SVM分類器模型。分為以下兩步:第一步是構建樣本集;第二步是構建SVM分類器模型。(a)構建樣本集。分類樣本數(shù)據(jù)主要包括:表格點、跡線點、噪聲點等對應的鄰域像素RGB通道值、灰度值、自適應增強值和R-B通道值,構造N*5訓練集、測試集。首先,收集山東、江西、寧夏、黑龍江、貴州、重慶等多省(1960年-2003年)氣溫自記紙圖像進行步驟1~步驟3的預處理;其次,形成N*5點序列,取70%作為訓練集,10%作為驗證集,剩余20%作為測試集。(b)構建SVM分類器模型。選擇多項式核函數(shù),將數(shù)據(jù)集映射到高維特征空間,利用SVM機器學習算法在訓練集特征空間中找出跡線點和表格線點的最優(yōu)分類超平面,形成判斷跡線點和表格線點的分類函數(shù);將驗證集中的像素值集合輸入分類函數(shù)進行參數(shù)調(diào)優(yōu);將測試集中的像素值集合輸入調(diào)優(yōu)后的分類函數(shù),評價模型的準確性,并獲取初始的跡線數(shù)據(jù)集合。
(5)去除形態(tài)噪聲。通過形態(tài)學方法對表格線和跡線的識別結果進行連通域形態(tài)特征檢測,如每個連通域面積、線性度、周長面積比、與主連通域平均距離等,通過以上特征判斷連通域是否為噪聲點,進一步去除圖像中噪聲數(shù)據(jù),剩余像素點則為跡線點坐標。
對國家局紙質(zhì)資料數(shù)字化技術組下發(fā)的54749、56079、50136、53619、57883等5站約2 750張氣溫自記紙圖像進行氣溫自記跡線數(shù)字化,其中各站資料時間分別為1964年12月-2007年10月、1962年1月-2004年11月、1963年1月-2004年11月、1967年1月-2006年11月、1966年1月-2006年11月。將A文件記錄的氣溫值視為基準值,跡線提取計算值與A文件中記錄的小時氣溫、日最高氣溫和日最低氣溫值進行對比分析,計算其平均偏差,評估分析軟件的跡線自動識別效率以及計算值的準確性,針對差異較大的進行原因分析。
從表1可以看出,計算值與A文件數(shù)據(jù)對比呈偏大趨勢,平均偏差在0.07 ℃~0.64 ℃之間。總體而言,小時計算值與原值的差異小于日極值氣溫計算值與原值的差異。
表1 日最高/日最低/定時氣溫對比
分析差異較大的原因主要有以下幾類:(1)有部分跡線已經(jīng)設置為缺測了,統(tǒng)計與A文件記錄誤差的時候未排除這種情況,將其視為誤差進行統(tǒng)計,這部分原因占90%以上;(2)50136站1989年5月命名錯誤引起較大誤差;(3)A極值日界為20點,實際小時中沒有完整時間段,并不存在當日的日極值數(shù)據(jù)。
通過統(tǒng)計分析提取跡線節(jié)點人工修正情況,即以站、時間為單位統(tǒng)計修正率。修正率公式如式(3)所示,人工修正率計算結果如表2所示。
表2 軟件的跡線人工修正率統(tǒng)計
修正率=修正節(jié)點數(shù)量/節(jié)點總數(shù)量
(3)
由表2可以看出,自動識別人工修正率在2%以下,表明軟件的跡線自動識別效率高,減輕人工處理的工作量,在滿足技術要求的前提下,提升了氣溫自記紙數(shù)字化效率。
按照以站點為單位統(tǒng)計分析待數(shù)字化的氣溫自記紙圖像中傾斜、扭曲、被擠壓等異常圖像個數(shù)、自動矯正的圖像個數(shù)和人工手動矯正的圖像個數(shù),統(tǒng)計結果如表3所示。
表3 圖像矯正個數(shù)統(tǒng)計
由表3可以看出,一是通過軟件的圖像矯正功能可以實現(xiàn)異常圖像矯正率達到100%,其中,通過軟件自動矯正率為80%以上,通過軟件手動矯正率為20%以下(表2中的人工修正50%的工作量為軟件人工手動矯正工作);二是異常圖像占比為2%左右(站點資料保存較好、掃描圖像較好的情況下),以貴州省為例,總的氣溫自記紙圖像數(shù)約為147.9萬張,預估異常圖像個數(shù)為29 580張,如重新掃描需要耗費很多時間。通過以上表明該軟件對于異常圖像無需再重新人工掃描就可以實現(xiàn)圖像跡線正常提取,幫助業(yè)務人員減少了大量時間,提高了工作效率。
該文簡要介紹了氣溫自記紙數(shù)字化軟件系統(tǒng)設計目標和思路、設計結構和功能,以及基于SVM和形態(tài)學算法的跡線提取算法,通過對比A文件數(shù)據(jù)差異、分析差異原因以及軟件的跡線自動識別效率等,結果表明,一是SVM機器學習算法對小樣本下的分類回歸問題具有準確的識別率;二是與前期開發(fā)的降水自記紙、EL電接風自記紙數(shù)字化軟件相比,實現(xiàn)了自記紙輕微扭曲、歪斜等情況不需人工對自記紙圖像重新掃描,可以通過自記紙本身微調(diào)自動訂正和器差訂正,軟件能夠滿足氣溫自記紙跡線提取對數(shù)據(jù)質(zhì)量和精度的要求。但是對于紙張質(zhì)量差、墨跡污染褪色以及圖像污漬嚴重、字跡特別多的圖像數(shù)字化仍需進一步研究。