常超明
(海南國源土地礦產(chǎn)勘測規(guī)劃設(shè)計院,???570100)
《國土調(diào)查數(shù)據(jù)庫更新變更規(guī)則》要求,需對年初及年末調(diào)查區(qū)域內(nèi)的數(shù)據(jù)進(jìn)行非過程性變更,增量更新行政區(qū)、調(diào)查區(qū)界限,整個圖層更新有變化的地貌、數(shù)字模型、生態(tài)紅線等。土地變更調(diào)查數(shù)據(jù)庫主要包括土地基礎(chǔ)信息、邊界信息、質(zhì)量信息、利用信息、交易信息及法律信息,其中包含大量的土地變更調(diào)查信息及數(shù)據(jù)(如土地面積、所有權(quán)、用途、邊界、地形、地貌、土地質(zhì)量等)。該數(shù)據(jù)庫由政府部門、土地測繪公司、房地產(chǎn)開發(fā)公司、土地規(guī)劃設(shè)計公司等專業(yè)機(jī)構(gòu)建立并維護(hù)。使用土地變更調(diào)查數(shù)據(jù)庫可實(shí)現(xiàn)對土地資源更加精準(zhǔn)、有效的管理及利用,為建設(shè)生態(tài)、宜居、宜業(yè)城市提供重要支撐。
莫國明[1]利用多源元空間基礎(chǔ)數(shù)據(jù),以人機(jī)交互方式采集更新數(shù)據(jù),人工目視解譯正射影像,通過Linder Feature點(diǎn)云采集軟件及多窗口聯(lián)動,完成數(shù)據(jù)入庫。張婧[2]等采用增量更新技術(shù),對1∶5萬數(shù)據(jù)庫進(jìn)行更新及質(zhì)量控制,通過實(shí)際生產(chǎn)數(shù)據(jù)分析認(rèn)為,質(zhì)量控制可在人工基礎(chǔ)上增加人機(jī)交互二級檢查,在所有數(shù)據(jù)全覆蓋檢查后對業(yè)內(nèi)編輯數(shù)據(jù)及增量數(shù)據(jù)進(jìn)行全面二級檢查。葉程[3]提出了基于三維全系數(shù)據(jù)的更新方法,包括要素級與范圍級兩種更新模式,更新后進(jìn)行拓?fù)溴e誤檢查及數(shù)據(jù)質(zhì)檢。范維鋒[4]按照數(shù)據(jù)類型依據(jù)DOM影像數(shù)據(jù)進(jìn)行內(nèi)判更新,對多地理國情監(jiān)測數(shù)據(jù)進(jìn)行了套合更新,依據(jù)DOM影像與GROUND點(diǎn)云數(shù)據(jù)進(jìn)行拓?fù)溴e誤更新等,但該技術(shù)存在無法快速獲取點(diǎn)云數(shù)據(jù)的缺陷。楊艷靜[5]提出基于多節(jié)點(diǎn)距離測量的地理信息數(shù)據(jù)庫更新方法,從邊-端-云數(shù)據(jù)、三維時空動態(tài)數(shù)據(jù)、點(diǎn)云數(shù)據(jù)及遙感數(shù)據(jù)中采集更新數(shù)據(jù),構(gòu)建三維時空信息圖譜,利用移動測量、SLAM標(biāo)定、多參量節(jié)點(diǎn)融合等方法,分析生成測量參數(shù)分布擬合模型,建立統(tǒng)計概率、地理信息空間分布模型,實(shí)現(xiàn)了數(shù)據(jù)庫更新。曹佳敏[6]等構(gòu)建了基于GNSS數(shù)據(jù)的多元地質(zhì)空間數(shù)據(jù)庫更新模型,該模型在更新過程中保存了歷史數(shù)據(jù)并對數(shù)據(jù)層關(guān)系進(jìn)行維護(hù),更新速度快,但精度有待提升。
數(shù)據(jù)庫在成果公示前由自然資源部編制年度國土變更調(diào)查數(shù)據(jù)庫更新數(shù)據(jù)規(guī)范與變更規(guī)則及國土變更調(diào)查縣級數(shù)據(jù)庫質(zhì)量檢查規(guī)則、國土調(diào)查數(shù)據(jù)庫更新統(tǒng)計報表設(shè)計及說明等技術(shù)文件,并研發(fā)2022年度國土變更調(diào)查數(shù)據(jù)庫質(zhì)量檢查軟件。本研究依據(jù)以上文件進(jìn)行要素更新、數(shù)據(jù)代碼統(tǒng)一、統(tǒng)計報表設(shè)計,利用質(zhì)量檢查軟件v1.0.0.9進(jìn)行模塊檢查,并以全國1∶25萬公眾版基礎(chǔ)地理數(shù)據(jù)庫為例進(jìn)行案例分析。
為防止數(shù)據(jù)格式問題產(chǎn)生沖突,更新前需對內(nèi)容及要素分類編碼,對數(shù)據(jù)更新交換格式及元數(shù)據(jù)格式進(jìn)行設(shè)置,以滿足數(shù)據(jù)庫上傳要求,結(jié)合云平臺進(jìn)行數(shù)據(jù)傳輸及備份。
要素代碼與名稱基本不更新,若更新需符合數(shù)據(jù)庫標(biāo)準(zhǔn)中的規(guī)定。參考基礎(chǔ)地理信息要素分類與代碼及國土調(diào)查數(shù)據(jù)庫標(biāo)準(zhǔn),更新要素代碼與名稱如表1所示。
表1 要素代碼與名稱更新表(部分)
空間要素采用分層方法管理,如表2所示。
表2 層名稱與各層要素(部分)
其他更新要素統(tǒng)計表基本類似,需要注意的是,根據(jù)歷史數(shù)據(jù)庫的數(shù)據(jù)上傳格式要求,對源數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約及數(shù)據(jù)變換。
云平臺為保證安全性一般自建,并進(jìn)行數(shù)據(jù)備份。Oracle數(shù)據(jù)庫是一種自治實(shí)時數(shù)據(jù)庫架構(gòu),有先進(jìn)的多模型融合數(shù)據(jù)庫管理系統(tǒng),提供內(nèi)存數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫及MySQL數(shù)據(jù)庫等。將核心歷史數(shù)據(jù)備份在數(shù)據(jù)云一體機(jī)上,可形成縣鎮(zhèn)土地變更調(diào)查數(shù)據(jù)庫中心,與原有數(shù)據(jù)庫一起提供服務(wù),配套一個PaaS服務(wù)云計算模型,可對數(shù)據(jù)庫資源進(jìn)行管理及批次處理等。
更新模式為離線更新與在線更新。當(dāng)大量工作人員同時下載及安裝更新且上傳數(shù)據(jù)較大時,可能會造成服務(wù)器更新速度緩慢、安全性降低,故使用分布式服務(wù)器與CDN技術(shù)來加速更新過程,開發(fā)離線更新模式,消除網(wǎng)絡(luò)因素的影響,自行決定更新時間,安裝過程較快、較穩(wěn)定。
離線更新前,需下載歷史數(shù)據(jù)庫,在上傳更新數(shù)據(jù)前進(jìn)行相似度檢測,計算歷史文件與更新文件兩個集合的相似度。由于數(shù)據(jù)庫中文件的存儲均采用字符串形式,故假設(shè)原文件為W1,更新文件為W2,文件劃分定長字符串組H(w,s),s為則字符串個數(shù)。兩集合的相似度算法如式(1)所示:
(1)
其中,W1為歷史文件集合,W2為新增更新文件集合,H(w,s)為系統(tǒng)中集合存儲字符串。通過相似度檢驗后,對數(shù)據(jù)進(jìn)行預(yù)處理,檢查無重復(fù)則進(jìn)行數(shù)據(jù)沖突自檢。
縣級數(shù)據(jù)庫質(zhì)量檢查軟件v1.0.0.9可在更新完成后對數(shù)據(jù)庫進(jìn)行輔助檢查。常見的數(shù)據(jù)沖突類型包括INSERT導(dǎo)致的唯一性沖突、表結(jié)構(gòu)不同步、字段順序不一致導(dǎo)致的數(shù)據(jù)寫入失敗、UPDATE更新記錄不完全匹配等。由于離線更新已下載歷史數(shù)據(jù)庫,不需要網(wǎng)絡(luò),故沖突檢測步驟是進(jìn)行數(shù)據(jù)讀寫,提取更新元素編碼及數(shù)據(jù)定位,在歷史數(shù)據(jù)庫中提取該元素的操作日志,已上傳則進(jìn)行更新數(shù)據(jù)核查,根據(jù)日志代碼提取參數(shù),用系統(tǒng)沖突判斷函數(shù)進(jìn)行自檢。未上傳則進(jìn)行數(shù)據(jù)更新,更新后進(jìn)行檢查。
增量更新模式是一種軟件開發(fā)部署方法,只更改更新部分而不必更新整個軟件系統(tǒng),適用于需要頻繁更新的軟件系統(tǒng),可顯著縮短部署及更新時間,減少對系統(tǒng)的影響。在增量更新模式下的更新分為以下幾個步驟:針對需要更新部分進(jìn)行修改、測試及驗證。將這些更改部分的代碼打包,部署到生產(chǎn)系統(tǒng)中。參考已有的增量更新模型,利用變更數(shù)據(jù)和已有的靜態(tài)數(shù)據(jù)庫挖掘結(jié)果,更新動態(tài)數(shù)據(jù)庫上的頻繁項集,模型如圖1所示。
圖1 增量更新模型Fig.1 Incremental update model
圖中橙色元素表示數(shù)據(jù)庫更新后的新增元素,淺灰色元素表示被更新替換掉的已刪除元素。模型定義如下:
對數(shù)據(jù)進(jìn)行預(yù)處理:
(2)
(3)
添加增量:
(4)
其中,ARt表示新增元素集ATt的頻繁項集合,f()函數(shù)是一種頻繁項集的挖掘算法。
將增量導(dǎo)入數(shù)據(jù)庫中進(jìn)行合并:
Rt=F(Rt-1,ARt,DTt)
(5)
其中,Rt表示DBt的頻繁項集合。
綜合公式(2)~(5)可得:
(6)
根據(jù)公式可知,增量更新模型包括預(yù)處理、增量及合并等步驟。預(yù)處理中,數(shù)據(jù)庫會識別新增及刪除元素。利用公式(2)、(3),將數(shù)據(jù)庫DBt中的所有元素都計算一遍,找出與輸入數(shù)據(jù)具有高度相似性及編號的元素集進(jìn)行比較。將比對結(jié)果分為兩個集合:一個是更新后新增的元素集合,另一個是需要刪除的元素集合。預(yù)處理完成后,用f()函數(shù)挖掘新增元素集合中的頻繁項,并另建頻繁項集合。進(jìn)行合并時,根據(jù)公式(5)得出挖掘結(jié)果,即新增數(shù)據(jù)。
對案例1∶25 萬數(shù)據(jù)庫的更新流程進(jìn)行總結(jié),步驟如圖2所示。
圖2 1∶25 萬數(shù)據(jù)庫的更新流程Fig.2 Update process of 1∶250 000 database
需要注意的是,進(jìn)行沖突處理時,若系統(tǒng)自查不通過則返回最開始重新進(jìn)行流程,循環(huán)直到自檢通過,形成新的1∶25萬地形要素更新增量成果數(shù)據(jù)及1∶25萬圖庫一體化存儲更新數(shù)據(jù)。
數(shù)據(jù)獲取技術(shù):獲取地理信息的最基本方式是通過實(shí)地測量或遙感技術(shù)來獲取數(shù)據(jù)。對于基礎(chǔ)地理信息數(shù)據(jù)庫,數(shù)據(jù)獲取及整合是一個很重要的關(guān)鍵技術(shù)。
數(shù)據(jù)處理和整合技術(shù):從不同來源收集到的地理信息可能存在格式、坐標(biāo)系及精度差異,需使用適當(dāng)?shù)能浖退惴ㄟM(jìn)行數(shù)據(jù)處理及整合,以確保數(shù)據(jù)的一致性及準(zhǔn)確性(如5萬地形數(shù)據(jù)預(yù)處理)。
數(shù)據(jù)庫設(shè)計和管理技術(shù):基礎(chǔ)地理信息數(shù)據(jù)庫需要設(shè)計及管理數(shù)據(jù)庫結(jié)構(gòu),包括數(shù)據(jù)表、索引、視圖及數(shù)據(jù)關(guān)系等。需使用數(shù)據(jù)庫管理系統(tǒng)(DBMS)進(jìn)行管理并保證數(shù)據(jù)庫的穩(wěn)定性及安全性(如根據(jù)各類要素特點(diǎn)完成數(shù)據(jù)庫聯(lián)動更新、符號庫聯(lián)動更新,點(diǎn)、線、面及文本符號的制作更新)。
數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù):為了確保數(shù)據(jù)的一致性及可交換性,需使用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)(如數(shù)據(jù)庫中包含地名,需使用標(biāo)準(zhǔn)的地名拼寫法及地名分類)。
數(shù)據(jù)質(zhì)量控制技術(shù):基礎(chǔ)地理信息數(shù)據(jù)庫需經(jīng)常進(jìn)行數(shù)據(jù)質(zhì)量控制及更新。需建立數(shù)據(jù)質(zhì)量控制體系,對數(shù)據(jù)進(jìn)行定期維護(hù)及更新,以確保數(shù)據(jù)庫的準(zhǔn)確性及完整性。
土地變更調(diào)查數(shù)據(jù)庫的更新通常由政府或土地管理機(jī)構(gòu)負(fù)責(zé),在數(shù)據(jù)更新過程中涉及多種關(guān)鍵技術(shù),如數(shù)據(jù)采集方面的GPS定位、衛(wèi)星遙感、測繪技術(shù)等,數(shù)據(jù)處理方面的數(shù)據(jù)去重、格式化及標(biāo)準(zhǔn)化等,數(shù)據(jù)庫管理方面的數(shù)據(jù)存儲、數(shù)據(jù)備份等,數(shù)據(jù)分析方面的數(shù)據(jù)挖掘、數(shù)據(jù)可視化、數(shù)據(jù)統(tǒng)計等,以完成對土地變更調(diào)查數(shù)據(jù)庫的管理及維護(hù)。隨著計算機(jī)技術(shù)的發(fā)展,可利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)對土地信息進(jìn)行自動化處理及分析。需要注意的是,土地變更調(diào)查數(shù)據(jù)庫的更新需要一定的時間進(jìn)行元數(shù)據(jù)收集,故進(jìn)行數(shù)據(jù)庫聯(lián)合更新時可采用離線更新及歷史數(shù)據(jù)備份,以有效避免數(shù)據(jù)沖突造成的數(shù)據(jù)丟失,更新頻率由各單位自行安排。數(shù)據(jù)庫更新技術(shù)的優(yōu)化體現(xiàn)了數(shù)據(jù)共享原則,避免了重復(fù)測繪,節(jié)約了大量資源,提高了數(shù)據(jù)庫更新效率,為土地資源利用提供了參考。