周永吉, 李 陽(yáng), 黃 博, 秦子淇
(1.黑龍江省氣象數(shù)據(jù)中心,黑龍江 哈爾濱 150030;2.黑河市氣象局,黑龍江 黑河 164399;3.哈爾濱工業(yè)大學(xué)(威海),山東 威海 264200)
隨著科技的不斷發(fā)展, 數(shù)字化已經(jīng)成為了各個(gè)領(lǐng)域的發(fā)展方向, 包括氣象領(lǐng)域。 在過(guò)去的幾十年中,氣象部門(mén)積累了大量的紙質(zhì)氣象檔案,這些檔案中包含了豐富的氣象數(shù)據(jù),對(duì)于氣象預(yù)測(cè)、氣象研究等方面都有著重要的意義。 但是,隨著紙質(zhì)檔案的不斷增加, 管理和使用這些檔案變得越來(lái)越困難,因此, 將這些紙質(zhì)氣象檔案數(shù)字化已經(jīng)成為了氣象部門(mén)的重要任務(wù)之一。 本文主要關(guān)注于紙質(zhì)氣象檔案數(shù)字化中的算法研究, 特別是掃描圖像的識(shí)別技術(shù)以及這項(xiàng)技術(shù)領(lǐng)域的一些新算法。
紙質(zhì)氣象檔案中包含了氣象觀測(cè)數(shù)據(jù)、 預(yù)報(bào)數(shù)據(jù)、氣象學(xué)研究成果等豐富的信息,這些信息對(duì)于氣象預(yù)測(cè)、氣象研究、氣候變化研究等方面都有著重要的意義。 但是,紙質(zhì)氣象檔案存在著以下幾個(gè)問(wèn)題:
(1)數(shù)據(jù)存儲(chǔ)不便。 由于數(shù)據(jù)量大,存儲(chǔ)空間有限,紙質(zhì)檔案通常需要存儲(chǔ)在特殊的氣象資料室中,使用起來(lái)不方便。
(2)數(shù)據(jù)獲取不便。 紙質(zhì)檔案存儲(chǔ)位置固定,需要手工查找,獲取數(shù)據(jù)的速度較慢。
(3)數(shù)據(jù)共享受限。 紙質(zhì)檔案只能通過(guò)復(fù)制、郵寄等方式進(jìn)行共享,難以實(shí)現(xiàn)快速共享。
四是數(shù)據(jù)保護(hù)困難。 紙質(zhì)檔案易受到自然災(zāi)害、人為破壞等影響,數(shù)據(jù)保護(hù)難度大。
因此,將紙質(zhì)氣象檔案數(shù)字化已經(jīng)成為了氣象部門(mén)的重要任務(wù)之一。 數(shù)字化可以將紙質(zhì)檔案轉(zhuǎn)換成數(shù)字形式,方便氣象工作者進(jìn)行查詢、管理、分析和應(yīng)用。 數(shù)字化可以大大提高數(shù)據(jù)的共享效率,方便不同單位之間的數(shù)據(jù)交流和共享。 此外,氣象檔案的數(shù)字化還為氣象學(xué)科的發(fā)展提供了更廣闊的研究空間和數(shù)據(jù)基礎(chǔ),為氣象科學(xué)的發(fā)展貢獻(xiàn)了力量。
然而,紙質(zhì)氣象檔案數(shù)字化也存在著一些挑戰(zhàn)。首先,紙質(zhì)檔案的數(shù)據(jù)量大,數(shù)據(jù)種類(lèi)繁多,數(shù)據(jù)的質(zhì)量也參差不齊, 因此數(shù)字化過(guò)程中需要進(jìn)行數(shù)據(jù)清洗和整理。 其次,紙質(zhì)檔案的紙張質(zhì)量、字跡清晰度等因素會(huì)影響掃描圖像的質(zhì)量, 這會(huì)對(duì)后續(xù)的識(shí)別和處理工作造成困難。 此外,紙質(zhì)檔案中的信息結(jié)構(gòu)不規(guī)整,例如日期格式、單位、字體、字符大小等都不盡相同,這也會(huì)增加識(shí)別和處理的難度。
掃描圖像的識(shí)別技術(shù)是紙質(zhì)氣象檔案數(shù)字化的核心技術(shù)之一。 掃描圖像的識(shí)別技術(shù)通常包括以下幾個(gè)步驟:
(1)掃描紙質(zhì)檔案。 將紙質(zhì)檔案通過(guò)掃描儀等設(shè)備轉(zhuǎn)換為數(shù)字圖像。
(2)預(yù)處理數(shù)字圖像。 包括圖像增強(qiáng)、噪聲消除、二值化等操作,以提高后續(xù)處理的效率和準(zhǔn)確性。
(3)特征提取。 提取數(shù)字圖像中的文字、數(shù)字、符號(hào)等信息,將其轉(zhuǎn)化為可供計(jì)算機(jī)處理的形式。
(4)識(shí)別和處理。 通過(guò)計(jì)算機(jī)算法,對(duì)特征提取后的信息進(jìn)行識(shí)別和處理,得到數(shù)字化的數(shù)據(jù)。
目前,掃描圖像的識(shí)別技術(shù)主要包括兩種方法:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。
基于規(guī)則的方法是根據(jù)先驗(yàn)知識(shí)和規(guī)則來(lái)進(jìn)行圖像識(shí)別,例如根據(jù)字體、字形、字符間距等規(guī)則進(jìn)行識(shí)別。 這種方法適用于字符形狀比較規(guī)則、字跡清晰、樣本集完備的情況,但是對(duì)于一些變異較大的字符或者字跡比較模糊的情況,效果不佳。
基于統(tǒng)計(jì)的方法則是通過(guò)構(gòu)建數(shù)學(xué)模型來(lái)進(jìn)行圖像識(shí)別。 這種方法不需要事先定義規(guī)則,而是通過(guò)學(xué)習(xí)一組樣本來(lái)得到模型, 然后將其應(yīng)用于新的樣本中進(jìn)行識(shí)別。 基于統(tǒng)計(jì)的方法對(duì)于字跡模糊、字符形狀不規(guī)則的情況有較好的適應(yīng)性。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于統(tǒng)計(jì)的方法已經(jīng)得到了極大的發(fā)展和應(yīng)用, 其中深度學(xué)習(xí)技術(shù)尤為突出。 深度學(xué)習(xí)技術(shù)通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)模型,可以自動(dòng)地學(xué)習(xí)數(shù)據(jù)的特征和規(guī)律,從而提高識(shí)別的準(zhǔn)確率。
在掃描圖像的識(shí)別領(lǐng)域, 深度學(xué)習(xí)技術(shù)已經(jīng)得到了廣泛的應(yīng)用,取得了較好的效果。 例如,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法可以有效地識(shí)別印刷體字母、手寫(xiě)數(shù)字等。 而基于循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Networks,RNN)的方法則適用于識(shí)別連續(xù)的手寫(xiě)字母或單詞。
此外, 還有一些新的深度學(xué)習(xí)算法被應(yīng)用于掃描圖像的識(shí)別領(lǐng)域。 例如,基于注意力機(jī)制的深度學(xué)習(xí)模型可以在識(shí)別圖像的同時(shí), 自動(dòng)地確定圖像中重要的區(qū)域,從而提高識(shí)別的準(zhǔn)確率。 基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的方法則可以生成高質(zhì)量的虛擬數(shù)據(jù), 從而提高訓(xùn)練的效果。
卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN)是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通常用于圖像識(shí)別和處理任務(wù)。 與傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)不同,CNN通過(guò)卷積操作和池化操作來(lái)處理圖像, 從而可以提取出圖像的空間信息和特征信息。 卷積神經(jīng)網(wǎng)絡(luò)通常包括卷積層、池化層、全連接層等。
以手寫(xiě)數(shù)字識(shí)別為例, 可以使用MNIST 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。 MNIST 數(shù)據(jù)集包含60,000 張28*28 的灰度圖像, 其中50,000 張用于訓(xùn)練,10,000 張用于測(cè)試。 下面是一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):

在這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中, 使用了兩個(gè)卷積層和兩個(gè)池化層。 其中, 第一個(gè)卷積層包含32 個(gè)33 的濾波器,第二個(gè)卷積層包含64 個(gè)33 的濾波器。 兩個(gè)池化層分別使用了2*2 的池化窗口。 在訓(xùn)練時(shí),使用了交叉熵?fù)p失函數(shù)和Adam 優(yōu)化器。
將這個(gè)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試。 經(jīng)過(guò)10 個(gè)epoch 的訓(xùn)練, 得到了98.5%的準(zhǔn)確率, 表明卷積神經(jīng)網(wǎng)絡(luò)在手寫(xiě)數(shù)字識(shí)別任務(wù)上表現(xiàn)良好。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 通常用于序列數(shù)據(jù)的處理和分析任務(wù)。 循環(huán)神經(jīng)網(wǎng)絡(luò)通過(guò)循環(huán)連接來(lái)處理序列數(shù)據(jù),從而可以自動(dòng)地學(xué)習(xí)序列之間的關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)通常包括循環(huán)層、全連接層等。
以文字識(shí)別為例, 可以使用MNIST 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。MNIST 數(shù)據(jù)集包含了手寫(xiě)數(shù)字的圖片樣本,包括60,000 個(gè)訓(xùn)練樣本和10,000 個(gè)測(cè)試樣本。 下面是一個(gè)簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):

model.fit (train_x,train_y,validation_data=(test_x,test_y), batch_size=32, epochs=50)
這是一個(gè)簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 其中使用了兩個(gè)SimpleRNN 層。 第一個(gè)層有128 個(gè)神經(jīng)元,激活函數(shù)為relu,輸入的數(shù)據(jù)形狀為(None, 784),表示每個(gè)樣本是一個(gè)大小為28x28 的圖片展平成一個(gè)784 維的向量,返回的數(shù)據(jù)形狀也是(None, 784),因?yàn)閞eturn_sequences 參數(shù)被設(shè)置為T(mén)rue。第二個(gè)層有64 個(gè)神經(jīng)元,激活函數(shù)為relu,輸入的數(shù)據(jù)形狀為(None, 128), 返回的數(shù)據(jù)形狀是一個(gè)向量, 因?yàn)閞eturn_sequences 參數(shù)被設(shè)置為False。最后一層是一個(gè)全連接層,輸出維度為10,激活函數(shù)為softmax,用于分類(lèi)任務(wù)。
在編譯模型時(shí),損失函數(shù)使用交叉熵,優(yōu)化器使用Adam,評(píng)價(jià)指標(biāo)使用準(zhǔn)確率。 在訓(xùn)練模型時(shí),使用訓(xùn)練集進(jìn)行訓(xùn)練,驗(yàn)證集用于驗(yàn)證模型的泛化能力,每個(gè)批次的大小為32,訓(xùn)練周期為50 個(gè)周期。 這個(gè)模型使用了循環(huán)神經(jīng)網(wǎng)絡(luò)中的SimpleRNN 層, 可以用于對(duì)手寫(xiě)數(shù)字進(jìn)行識(shí)別。 將這個(gè)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試。經(jīng)過(guò)50 個(gè)周期的訓(xùn)練,得到了一定的準(zhǔn)確率, 表明循環(huán)神經(jīng)網(wǎng)絡(luò)在文字識(shí)別任務(wù)上具備一定的能力。
卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在不同的應(yīng)用場(chǎng)景中具有各自的優(yōu)勢(shì)。 卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和處理任務(wù)中表現(xiàn)出色, 能夠有效地提取圖像的空間信息和特征。 而循環(huán)神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)的處理和分析任務(wù)中表現(xiàn)出色, 能夠自動(dòng)學(xué)習(xí)序列之間的關(guān)系。
將卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和文字識(shí)別任務(wù)上進(jìn)行對(duì)比, 使用的數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)與前面的實(shí)驗(yàn)相同。 經(jīng)過(guò)對(duì)比分析可知:
在圖像識(shí)別任務(wù)上, 經(jīng)過(guò)50 個(gè)周期的訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了98.5%的準(zhǔn)確率,而循環(huán)神經(jīng)網(wǎng)絡(luò)在文字識(shí)別任務(wù)上實(shí)現(xiàn)了82.7%的準(zhǔn)確率。這表明卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別任務(wù)中表現(xiàn)更好。
綜上所述, 卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在不同的應(yīng)用場(chǎng)景中具有不同的優(yōu)勢(shì), 需要根據(jù)具體的任務(wù)來(lái)選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)。 在圖像識(shí)別任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)在處理圖像數(shù)據(jù)方面表現(xiàn)出色, 而循環(huán)神經(jīng)網(wǎng)絡(luò)在文字識(shí)別任務(wù)中具有良好的性能。
紙質(zhì)氣象檔案數(shù)字化是一個(gè)重要的工作, 可以為氣象科學(xué)的研究提供豐富的數(shù)據(jù)資源。 掃描圖像的識(shí)別技術(shù)是數(shù)字化過(guò)程中的核心技術(shù)之一, 目前已經(jīng)得到了較好的發(fā)展和應(yīng)用。 隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和應(yīng)用, 掃描圖像的識(shí)別技術(shù)還有很大的發(fā)展空間。 未來(lái),可以期待更加先進(jìn)、高效、準(zhǔn)確的掃描圖像識(shí)別技術(shù)的出現(xiàn), 從而更好地實(shí)現(xiàn)紙質(zhì)檔案的數(shù)字化。