■ 鞠曉慧 王妍 李俊
在氣象觀測活動中形成的各種原始記錄、報表、天氣圖、整編成果等統(tǒng)稱為氣象檔案。根據(jù)中國氣象局發(fā)布的《珍貴氣象檔案分級鑒定辦法》,觀測時間序列長、觀測數(shù)據(jù)完整性好、觀測要素種類多的原始觀測記錄檔案稱為珍貴氣象檔案。目前中國氣象檔案館保存的紙質(zhì)氣象檔案主要為2012年之前各類氣象臺站的觀測記錄檔案,其中歷史最久的檔案可以追溯到19世紀。
早在20世紀70—80年代,中國氣象局就開展了氣象檔案保護和數(shù)字化工作。截至目前,已經(jīng)持續(xù)開展了地面、高空、輻射、農(nóng)氣等主要氣象觀測報表的圖像掃描和數(shù)據(jù)錄入,建立了豐富的數(shù)字化成果。中國氣象局還開展了部分19世紀中葉至20世紀中葉器測資料的數(shù)字化,建立了部分重點城市氣溫、降水、氣壓等基本要素長序列資料,為近百年氣候變化研究提供基礎(chǔ)數(shù)據(jù)。
中國氣象檔案館館藏的紙質(zhì)氣象檔案從時間上可以分為19世紀中葉至1950年和1951—2012年兩部分。19世紀中葉至1950年的紙質(zhì)檔案多為孤本,檔案非常珍貴,涉及600多個臺站。1951—2012年紙質(zhì)檔案涉及2400多個臺站,臺站年代比較完整,數(shù)量龐大,是檔案館的主體檔案。1951年前地面各類氣象檔案的詳情見表1。
表1 1951年以前各類地面氣象檔案
中國近代海關(guān)氣象檔案是1951年以前各類地面氣象檔案中比較重要的檔案之一。清朝海關(guān)總稅務(wù)司從1870年開始在中國沿海各口海關(guān)和主要燈塔所在地逐步設(shè)立了氣象觀測站(海關(guān)測候所),開展定時氣象觀測,先后建立的站點有70多個。中國氣象檔案館館藏的近代海關(guān)氣象檔案約有145卷(冊)、17萬頁,涉及66個站點,觀測記錄30年以上的有40多個,主要有原始紙質(zhì)海關(guān)月總簿(monthly meteorological return)和海關(guān)月報表(monthly report)兩類。除中國大陸?zhàn)^藏了絕大部分近代海關(guān)氣象檔案外,海外有少量館藏,主要是中國海岸氣象登記冊(China coast meteorological register)(圖1)。
圖1 中國館藏與美國館藏的1894年1月9日臺灣安平(Anping)海關(guān)氣象觀測記錄(左圖:中國氣象檔案館館藏的海關(guān)氣象月總簿;右圖:NOAA圖書館館藏的海岸氣象登記冊)
由于歷史久遠或保管條件所限,珍貴的紙質(zhì)檔案(如19世紀至1950年的各類氣象記錄檔案)出現(xiàn)了不同程度的發(fā)黃、破損、酸化等狀況,個別檔案破損較為嚴重,必須對檔案原件進行搶救和修復(fù)。
對紙質(zhì)檔案進行修復(fù)和保護的主要措施有:除塵去污、局部修復(fù)、字跡去污、修裱與加固、測酸去酸等。
縮微技術(shù)是在感光材料(通常指膠片)上記錄縮微影像的技術(shù)過程??s微技術(shù)不是數(shù)字化處理技術(shù),但它是以紙質(zhì)檔案為加工對象,是檔案異質(zhì)保存的重要手段。20世紀70—90年代,氣象部門利用縮微攝影技術(shù)對歷史天氣圖、氣象記錄報表和解放前部分歷史氣象記錄檔案進行了載體轉(zhuǎn)換,數(shù)量達10萬張(盤),保存在中國氣象檔案館延慶分館。
數(shù)據(jù)紙帶是早期計算機的輸入輸出手段。通過編制好的程序?qū)庀笥^測資料使用穿孔機穿成數(shù)據(jù)紙帶的過程稱為紙帶穿孔。紙帶穿孔是早期計算機應(yīng)用的數(shù)字化方式。最早使用紙帶穿孔技術(shù)進行數(shù)字化的氣象檔案主要是國家級臺站地面氣象記錄月報表,包括地面觀測的19類要素項目。
圖像掃描是使用黑白或彩色掃描儀對紙質(zhì)氣象檔案進行逐頁掃描,經(jīng)糾偏、去黑點、壓縮等系列操作,保存為TIFF或JPEG文件的處理過程。掃描技術(shù)參數(shù)的選擇決定著掃描質(zhì)量。因此,在掃描處理過程中要根據(jù)檔案原件的質(zhì)量和利用需求來設(shè)置掃描技術(shù)參數(shù)和存儲格式。掃描后的圖像文件也是數(shù)字檔案的重要檔案資源,用于物聯(lián)網(wǎng)時代的檔案資源共享。
與紙質(zhì)氣象報表人工鍵盤錄入不同,自記紙跡線提取基于較為成熟的計算機技術(shù),研制人機交互軟件,才可以實現(xiàn)批量規(guī)?;幚?。自記紙跡線提取軟件主要包括圖像文件預(yù)處理、自記跡線識別、數(shù)據(jù)提取、標準化數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)質(zhì)量控制等技術(shù)。在以上的技術(shù)處理中,跡線識別和數(shù)據(jù)提取是關(guān)鍵,決定了提取是否有效以及提取后的數(shù)據(jù)是否準確。
隨著人工智能技術(shù)的發(fā)展,基于深度學(xué)習(xí)的圖像跟蹤技術(shù)已應(yīng)用到達因風(fēng)自記紙跡線提取軟件中,減少了跟蹤誤差,從而減少了人工核查的工作量,大大提高了數(shù)據(jù)提取的效率。
自記紙跡線提取時由人工操作提取軟件,逐站逐張?zhí)崛〔⑦M行人工干預(yù)和修正,提取完一個站所有自記紙后進行數(shù)據(jù)格式轉(zhuǎn)換和數(shù)據(jù)保存。為了保證提取數(shù)據(jù)的質(zhì)量,需要對提取后的數(shù)據(jù)進行多次質(zhì)檢和評估。評估不合格的臺站需經(jīng)過整改和重新提取,直至數(shù)據(jù)合格。圖2為一張降水自記紙跡線提取后的回放效果圖,提取的逐小時降水數(shù)據(jù)已標識在圖像上。
圖2 降水自記紙跡線提取效果(上圖:原圖;下圖:跡線提取后效果圖)
從1979年1月開始,中國氣象局啟動了氣象檔案信息化處理工作。2000年之前,以紙帶穿孔技術(shù)和鍵盤錄入技術(shù)為主,目的是獲得時間序列較長的歷史觀測數(shù)據(jù),以地面觀測數(shù)據(jù)為主。2000年之后,隨著掃描儀的發(fā)展普及,同時認識到紙質(zhì)檔案進行雙備份的重要性,數(shù)字化的技術(shù)以圖像掃描和數(shù)據(jù)錄入為主,數(shù)字化處理從地面資料擴展到高空資料、輻射、農(nóng)業(yè)氣象等。近年來,隨著計算機圖像處理技術(shù)的發(fā)展,對自記紙圖像圖形進行自動識別和數(shù)據(jù)提取成為數(shù)字化工作的重點。另外,隨著全球氣候變化成為熱點問題,中國氣象局也加強了對館藏的19世紀中葉至20世紀中葉長達百年的珍貴氣象檔案的數(shù)字化工作。
中國近代以來至1951年各類氣象觀測檔案主要包括:天主教會觀測月報和年報,海關(guān)總署海關(guān)月總簿和月報表,日本在華觀測檔案,國民政府或一般月總簿、一般月報表、自記紙、出版物以及各類統(tǒng)計表(示例見圖3)。這些珍貴檔案涉及臺站約600個(分布在大約500個城市),觀測時間為1841—1950年,但是絕大多數(shù)臺站觀測不連續(xù)。由于這些檔案來自不同國家或機構(gòu)、使用不同的觀測儀器和單位、采用不同的時制,無論是紙質(zhì)檔案的物理狀況還是記錄的數(shù)據(jù)狀況都非常復(fù)雜,掃描和數(shù)據(jù)錄入的處理難度都比較大。
圖3 1951年前珍貴檔案數(shù)據(jù)示例(左圖:俄國氣象年報記錄的北京1872年3月的氣象數(shù)據(jù);右圖:海關(guān)月總簿記錄的漢口1880年5月的氣象數(shù)據(jù))
中國氣象局在全國范圍內(nèi)選取有代表性的116個城市,對19世紀至20世紀中葉的觀測記錄檔案中氣壓、降水、氣溫、風(fēng)向、風(fēng)速和濕度等要素數(shù)據(jù)進行了人工錄入,形成了重要的數(shù)字化成果。
百年長度的歷史長序列是研究長期氣候變化的基礎(chǔ)。相關(guān)學(xué)者基于已數(shù)字化的百年氣溫、降水等要素的日值、月值資料,研究得出了中國1841年以來的氣候變化趨勢和特征,相關(guān)研究成果已發(fā)表在國內(nèi)外科技期刊上。在中國近代以來珍貴檔案數(shù)字化成果基礎(chǔ)上,研究氣象站建站時間、觀測情況及觀測資料氣候代表性等,從而為中國百年氣象站認定工作提供重要依據(jù)。在國際合作方面,中國氣象局參與了中英合作項目“國際大氣環(huán)流重建計劃(ACRE)”中國子計劃,在中國區(qū)域18世紀以來早期器測氣象資料的挖掘、數(shù)字化和應(yīng)用方面取得了進展,項目成果已應(yīng)用在20世紀再分析資料(20CR)。
中國歷史氣象檔案拯救與數(shù)字化工作始于1979年,并在2006年以后快速發(fā)展。40多年的工作歷程取得了豐碩的成果,基本滿足了氣象業(yè)務(wù)、科研和社會各行業(yè)對基礎(chǔ)氣象數(shù)據(jù)的需求。但是,與中國氣象現(xiàn)代化和信息化發(fā)展需求相比,與國內(nèi)檔案行業(yè)發(fā)展水平相比,氣象檔案數(shù)字化還存在一定的差距,主要表現(xiàn)在以下兩個方面:一是氣象檔案信息化程度不夠。目前,國省氣象檔案館館藏檔案還有接近50%的館藏檔案沒有進行圖像掃描處理,地面自記紙僅完成了約15%的數(shù)據(jù)化處理,中國國家級地面站1951年以來的逐小時氣溫、氣壓和相對濕度數(shù)據(jù)序列還未建立。二是多種類、多形式、高質(zhì)量的歷史基礎(chǔ)數(shù)據(jù)集產(chǎn)品研發(fā)能力有待提高。需要通過對掃描圖像文件元數(shù)據(jù)整編,實現(xiàn)電子圖像文件100%在線訪問、檢索和應(yīng)用,從根本上實現(xiàn)對紙質(zhì)檔案的保護和充分利用。
針對以上不足,今后中國歷史氣象檔案拯救與數(shù)字化工作有三個重點:一是開展氣溫、氣壓和濕度自記紙跡線提取以及近代氣象觀測以來的重要站點資料的數(shù)字化,建立1951年以來國家級臺站分鐘和小時分辨率歷史數(shù)據(jù),以及百年氣象臺站歷史氣象數(shù)據(jù);二是基于數(shù)字化原始成果,研制形式多樣(例如格點資料、圖形產(chǎn)品以及定制產(chǎn)品等)的氣候基礎(chǔ)數(shù)據(jù)集產(chǎn)品,滿足多個行業(yè)部門的應(yīng)用需求;三是依托數(shù)字氣象檔案館建設(shè),提高歷史氣象檔案掃描圖像成果應(yīng)用能力,改變傳統(tǒng)的紙質(zhì)檔案服務(wù)方式,提高檔案的應(yīng)用效率。
深入閱讀
吳增祥, 2007. 中國近代氣象臺站. 北京: 氣象出版社.
范邵華, 余予, 鞠曉慧, 等, 2018. 氣象資料數(shù)字化進展及其應(yīng)用. 氣象科技進展, 8(1): 64-70.
蘭平, 2019. 氣象檔案事業(yè)70年回顧與展望. 氣象科技進展, 9(4): 67-69.
何溪澄, 馮穎竹, 2017. 《海關(guān)醫(yī)報》與1877—1894年廣州氣象觀測記錄. 氣象科技進展, 7(3): 71–73.
宋建萍, 何曉, 蘇秀梅, 等, 2016. 近代湖北海關(guān)氣象觀測檔案初探——以江漢關(guān)、宜昌關(guān)、沙市關(guān)為例. 氣象科技進展, 6(6): 71-74.陳永生, 李娜娜, 2017. 中國近代海關(guān)檔案的分布與現(xiàn)狀. 中國檔案,(8): 58-59.
鞠曉慧, 馬楠, 王妍, 等, 2022. 基于深度學(xué)習(xí)的氣象資料跡線識別.科學(xué)技術(shù)與工程, 22(21): 9215-9222.
王伯民, 呂勇平, 張強, 2004. 降水自記紙彩色掃描數(shù)字化處理系統(tǒng).應(yīng)用氣象學(xué)報, 15(6): 737-744.
Ju X H, Huang S P, Li C J, et al, 2019. Development of the Selfrecording Per-minute Precipitation Dataset for China. Journal of Meteorological Research, 33(6): 1157-1167.
Cao L J, Yan Z W, Zhao P, et al, 2017. Climatic warming in China during 1901—2015 based on an extended dataset of instrumental temperature records. Environmental Research Letters, 12:064005.
戰(zhàn)云健, 陳東輝, 廖捷, 等, 2022. 中國60城市站1901—2019年日降水數(shù)據(jù)集的構(gòu)建. 氣候變化研究進展, 18(6): 670-682.
Advances in Meteorological Science and Technology2023年3期