任璀洛
(湖南省地方志編纂院 湖南省地方文獻(xiàn)研究所,湖南 長沙 410003)
中國共產(chǎn)黨第二十次全國代表大會上的報(bào)告提出,實(shí)施國家文化數(shù)字化戰(zhàn)略,健全現(xiàn)代公共文化服務(wù)體系,創(chuàng)新實(shí)施文化惠民工程。2023 年2 月,黨中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》(以下簡稱《規(guī)劃》),強(qiáng)調(diào)打造自信繁榮的數(shù)字文化,要求推進(jìn)文化數(shù)字化發(fā)展,深入實(shí)施國家文化數(shù)字化戰(zhàn)略,建設(shè)國家文化大數(shù)據(jù)體系,形成中華文化數(shù)據(jù)庫。地方志工作應(yīng)該適應(yīng)新時(shí)代的發(fā)展需要,主動融入宏大的“數(shù)字中國”圖景,推動數(shù)字技術(shù)在地方志領(lǐng)域全過程的融合應(yīng)用,堅(jiān)持守正與創(chuàng)新的辯證統(tǒng)一,進(jìn)一步轉(zhuǎn)型升級傳統(tǒng)地方志的傳承、編纂、傳播、利用方式,提升地方志數(shù)據(jù)的質(zhì)量、可靠性和安全性,有效地支撐政府決策和社會服務(wù)。
地方志文本內(nèi)容的數(shù)據(jù)處理已有較多研究,但針對地方志的數(shù)據(jù)模型研究仍比較少。魯?shù)?、李欣研究整合地方志?shù)據(jù)遇到的五個(gè)方面問題,討論了核心數(shù)據(jù)的映射關(guān)系表,但對地方志中的文本數(shù)據(jù)提取未做相關(guān)研究[1]魯?shù)?李欣.數(shù)字人文環(huán)境下異構(gòu)方志元數(shù)據(jù)整合策略[J].圖書館論壇,2019,(04).(P158-165)。溫永寧等基于GIS(地理信息系統(tǒng))的方法,研究了家譜信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),但僅支持人員、地點(diǎn)、時(shí)間等信息建模,與地方志文本內(nèi)容的數(shù)據(jù)處理復(fù)雜度有較大差別[2]溫永寧,閭國年,陳旻,等.華夏家譜GIS的數(shù)據(jù)組織與系統(tǒng)架構(gòu)[J].地球信息科學(xué)學(xué)報(bào),2010,(02).(P2235-2241)。趙思淵以“中國地方歷史文獻(xiàn)數(shù)據(jù)庫”為例,討論了引入文獻(xiàn)數(shù)據(jù)庫結(jié)構(gòu)和分析工具的目的、意義以及規(guī)范等[3]趙思淵.地方歷史文獻(xiàn)的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國地方歷史文獻(xiàn)數(shù)據(jù)庫》為例[J].清史研究,2016(4).(P26-35)。歐陽劍提出了古籍文本可視化思路,包括以時(shí)間軸為主線的微觀散點(diǎn)圖分析、以時(shí)間軸為主線的宏觀曲線分析、空間信息展示、詞頻分析、詞語首見年代考證等方式,未涉及具體的數(shù)據(jù)架構(gòu)[4]歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國圖書館學(xué)報(bào),2016,(02).DOI:10.13530/j.cnki.jlis.160011(P66-80)。王銳等基于GIS(地理信息系統(tǒng))的方法,將地方志信息劃分為空間信息、時(shí)間信息和多媒體信息三類,提出將地方志信息融入空間基礎(chǔ)地理信息,構(gòu)建了概括式的要素類,以及要素的空間、時(shí)間、主題、多媒體模型,將實(shí)體的坐標(biāo)數(shù)據(jù)、拓?fù)鋽?shù)據(jù)和屬性數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫[5]王銳,馬德濤,袁家勇,等.基于GIS的地方志信息與空間基礎(chǔ)地理信息融合方法的研究[C]//中國地理信息系統(tǒng)協(xié)會.2009'中國地理信息產(chǎn)業(yè)論壇暨第二屆教育論壇就業(yè)洽談會論文集.[出版者不詳],2009.(P280-285)。徐蒙蒙總結(jié)歸納出時(shí)空數(shù)據(jù)的語言描述特征,研究了地方志時(shí)空數(shù)據(jù)組織的方法和信息抽取方法,設(shè)計(jì)了地名對象數(shù)據(jù)庫表[6]徐蒙蒙. 地方志時(shí)空數(shù)據(jù)組織與應(yīng)用[D].南京師范大學(xué),2014.。徐晨飛以《方志物產(chǎn)》云南卷為例,分析了地方志物產(chǎn)領(lǐng)域的語義和組織,提出構(gòu)建地方志物產(chǎn)知識庫,并探討了知識庫的應(yīng)用[7]徐晨飛.數(shù)字人文視域下方志物產(chǎn)知識庫構(gòu)建研究[D].南京農(nóng)業(yè)大學(xué),2020.DOI:10.27244/d.cnki.gnjnu.2020.002530.。相關(guān)研究都是從其他學(xué)科的知識架構(gòu)出發(fā),從地方志中抽取數(shù)據(jù),滿足其學(xué)科研究范式,而全面系統(tǒng)分析地方志文本的數(shù)據(jù)特征,并相應(yīng)提出如何充分利用數(shù)據(jù)的研究成果仍較為罕見。
本研究運(yùn)用計(jì)算機(jī)科學(xué)的相關(guān)原理,分析地方志文本數(shù)據(jù)特征,設(shè)計(jì)地方志數(shù)據(jù)模型,提出模型的規(guī)范架構(gòu)、分類方式和應(yīng)用場景,主要采用了文獻(xiàn)分析方法、現(xiàn)狀分析和問題定義方法、軟件工程方法、數(shù)據(jù)治理方法、實(shí)證研究方法。
研究地方志模型的設(shè)計(jì)和構(gòu)建,可以探索挖掘和利用地方志資源寶庫的方式,達(dá)成地方志工作者的數(shù)據(jù)共識,完善地方志理論體系,反饋促進(jìn)編纂工作,指導(dǎo)地方志編纂過程的數(shù)據(jù)資源收集,拓展地方志信息化前進(jìn)之路,更便于調(diào)研、分析、界定社會公眾對地方志的數(shù)據(jù)需求,提供更加靈活和高效的數(shù)據(jù)訪問方式,豐富地方志文化內(nèi)涵,開拓地方志多元化應(yīng)用場景,提升地方志服務(wù)的能力和價(jià)值。
地方志文本數(shù)據(jù)特征不是指地方志的資料性、全面系統(tǒng)性、地域性等本體特征,強(qiáng)調(diào)的是在數(shù)據(jù)治理過程中的特點(diǎn)。從數(shù)據(jù)應(yīng)用角度分析,地方志數(shù)據(jù)具有明顯的數(shù)據(jù)源復(fù)雜且差異明顯、數(shù)據(jù)格式多樣化、數(shù)據(jù)以非結(jié)構(gòu)化文本為主、覆蓋面廣但顆粒度不足、數(shù)據(jù)產(chǎn)生速度較慢但仍具有一定價(jià)值等特點(diǎn)。
中國地方志工作辦公室公布的2021 年度數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,全國有省級地方志工作機(jī)構(gòu)33個(gè)[1]23個(gè)省、5個(gè)自治區(qū)、4個(gè)直轄市和新疆生產(chǎn)建設(shè)兵團(tuán),香港、澳門、臺灣未統(tǒng)計(jì)在內(nèi)。,地市級地方志工作機(jī)構(gòu)349 個(gè),縣區(qū)級地方志工作機(jī)構(gòu)2621 個(gè)。部分地區(qū)的省志和市志存在分志,某些地區(qū)還出版了鄉(xiāng)鎮(zhèn)志和村志。地方志數(shù)據(jù)源呈現(xiàn)層級多樣化、地域特色化的特點(diǎn)。3000 個(gè)地方志工作機(jī)構(gòu)組織編纂的地方志雖然在體例和風(fēng)格上基本相似,但是篇目框架和篇幅內(nèi)容有著巨大的差異。顯而易見,省、市、縣不同層級的地方志對地情要素的關(guān)注重點(diǎn)是迥然不同的,綜合志書、地方年鑒等不同類型的地方志篇幅內(nèi)容是差異較大的。
同層級、同類型但不同區(qū)域的地方志,框架篇目的結(jié)構(gòu)和順序也有一定差異,所包含的地情要素各有特點(diǎn)。例如《長沙縣志》(1995 年10 月版)分33 篇,《洪江市志》(1994 年6 月版)分23 篇,兩者同為湖南省的縣級行政區(qū)域、出版時(shí)間相近、出版社相同,僅有“建置”“自然環(huán)境”“人口”“工業(yè)”“商業(yè)”“交通 郵電”“人物”這七個(gè)篇目名稱一致,框架篇目的分類包含關(guān)系和排列順序則大相徑庭,篇目下記載的地情要素更加難以比較。編纂地方志時(shí)間跨度大,涉及行業(yè)廣,需要眾多人員的直接參加或間接參與直接寫稿、提出修改意見、反復(fù)審改加工等環(huán)節(jié)。不同區(qū)域和不同年代的資料搜集人員在資料的取舍上存在差異。在地方志編纂過程中,因各環(huán)節(jié)的參與人員學(xué)歷文化水平和地情認(rèn)知差異,需要記錄的地情要素沒有統(tǒng)一標(biāo)準(zhǔn)。因此,同層級、同類型但不同區(qū)域的地方志記載的數(shù)據(jù)多有出現(xiàn)“你有我無”“我有你無”的現(xiàn)象。
即使是同層級、同類型、同區(qū)域的地方志,框架篇目和記載的地情要素也存在大同小異和隨社會發(fā)展不斷調(diào)整的情況。各省的年鑒一年一卷,大多創(chuàng)刊在30 年以上,但較少有某一個(gè)要素?cái)?shù)據(jù)記錄30 年以上,很多數(shù)據(jù)都是記載了三五年之后,后續(xù)卷再也找不到相關(guān)記載。例如,從1985-1993 年《湖南年鑒》各卷中尋找對全省金融機(jī)構(gòu)數(shù)量的記載,得出結(jié)果如下表所示。這個(gè)金融機(jī)構(gòu)數(shù)量數(shù)據(jù)連續(xù)記載9 年,從1994 年以后,《湖南年鑒》中不再記載。這個(gè)隨意抽檢的一個(gè)數(shù)據(jù)要素可以證實(shí),層級、空間、時(shí)間和客體的變動,都會導(dǎo)致地方志數(shù)據(jù)的多源差異化。貴陽方志云的數(shù)據(jù)比對功能效果不佳,可能就是由多源差異化原因所造成。各種地方志記載的同一地情要素指標(biāo)的數(shù)據(jù)因書籍章節(jié)排列的差異,分布在書內(nèi)的不同位置,加上要素名稱的同義多名現(xiàn)象,給地方志數(shù)據(jù)分析整理增加了相當(dāng)大的難度。
1985-1993 年《湖南年鑒》各卷次記錄的金融機(jī)構(gòu)數(shù)量(個(gè))
目前,全國多個(gè)數(shù)字方志館或數(shù)據(jù)庫已經(jīng)建成投入使用,為地方志數(shù)據(jù)模型的設(shè)計(jì)和構(gòu)建提供了一定的資源基礎(chǔ),但各省地方志數(shù)據(jù)存儲采用的數(shù)據(jù)庫類型版本,以及文本表現(xiàn)形式是多樣化的。2019 年10 月,參照國家圖書館的數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)加工規(guī)范制定的《國家數(shù)字方志館資源元數(shù)據(jù)規(guī)范(征求意見稿)》《國家數(shù)字方志館資源數(shù)據(jù)加工規(guī)范(征求意見稿)》,兩個(gè)規(guī)范在征求意見時(shí),多個(gè)省級地方志工作機(jī)構(gòu)已按各自標(biāo)準(zhǔn)建設(shè)了本省的數(shù)字方志項(xiàng)目,這些項(xiàng)目存在規(guī)范標(biāo)準(zhǔn)不統(tǒng)一的現(xiàn)象。例如在志鑒文本數(shù)字化加工模式方面,雙層PDF 模式、純文本模式、圖片和文本對照模式均存在一定份額的擁躉(如右圖所示)。
已開展數(shù)字方志工作省份志鑒數(shù)字化方式比例(注:部分省份使用多種方式數(shù)字化)
根據(jù)各省地方志工作機(jī)構(gòu)網(wǎng)站2023 年4 月前的公開數(shù)據(jù)統(tǒng)計(jì),4 個(gè)省級地方志工作機(jī)構(gòu)選擇雙層PDF 格式,5 個(gè)省級地方志工作機(jī)構(gòu)選擇純文本格式,3 個(gè)省級地方志工作機(jī)構(gòu)選擇雙層PDF 格式和純文本格式混用,還有些省份采用單層PDF 格式或多種格式混用。即使是同一省份內(nèi)的地方志工作機(jī)構(gòu)之間,建設(shè)數(shù)字方志項(xiàng)目采用的格式和標(biāo)準(zhǔn)也不盡相同。不少省份已完成了較大數(shù)據(jù)量的加工,短期內(nèi)難以按照新規(guī)范標(biāo)準(zhǔn)重新加工數(shù)據(jù)。數(shù)據(jù)格式多樣化,在一定程度上增加了數(shù)據(jù)采集和集成的難度,影響數(shù)據(jù)模型的設(shè)計(jì)和構(gòu)建。
人類生產(chǎn)生活所產(chǎn)生的信息數(shù)據(jù)天然地具有非結(jié)構(gòu)化的特性,結(jié)構(gòu)化的數(shù)據(jù)是經(jīng)過人工干預(yù)形成的,地方志數(shù)據(jù)自然也以非結(jié)構(gòu)化為主。地方志內(nèi)容雖然有不少表格和枚舉文字,但在未進(jìn)行數(shù)據(jù)處理前,表格和枚舉式的文字同樣屬于非結(jié)構(gòu)化文本。非結(jié)構(gòu)化數(shù)據(jù)具有易擴(kuò)展、易運(yùn)維、易管理的特點(diǎn),但是在面臨深度數(shù)據(jù)分析時(shí)則力有不逮,需要對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。
此處所稱的非結(jié)構(gòu)化限定為地方志文本內(nèi)容,而不是地方志作品本體。全國范圍內(nèi)的數(shù)字方志項(xiàng)目,大部分對地方志作品本體進(jìn)行了結(jié)構(gòu)化存儲。其數(shù)據(jù)結(jié)構(gòu)是針對某一本地方志作品本體的元數(shù)據(jù)標(biāo)準(zhǔn),即元數(shù)據(jù)為該書的分類、書名、出版時(shí)間、書號、斷限等書籍信息,對于地方志中蘊(yùn)含的各類地情要素,沒有深度分析數(shù)據(jù)屬性,沒有定義數(shù)據(jù)規(guī)則,沒有進(jìn)行合理化的數(shù)據(jù)建模,不同地方志中的數(shù)據(jù)之間沒有建立關(guān)聯(lián),書中由多方搜集凝練的寶貴數(shù)據(jù)仍處于非結(jié)構(gòu)化狀態(tài),雜亂無章。《國家數(shù)字方志館資源元數(shù)據(jù)規(guī)范(征求意見稿)》定義的元數(shù)據(jù)規(guī)范也是基于地方志作品本體的數(shù)據(jù)結(jié)構(gòu),按照規(guī)范進(jìn)行加工形成的地方志數(shù)字化文本數(shù)據(jù)庫,只能滿足按章節(jié)或頁碼展示原書、書籍內(nèi)容全文檢索的數(shù)據(jù)需求。可見,對非結(jié)構(gòu)化文本類數(shù)字方志地情要素的數(shù)據(jù)模型研究,同時(shí)就是對數(shù)字方志發(fā)展方向的探索。
地方志雖全面系統(tǒng)地記述了行政區(qū)域內(nèi)的歷史與現(xiàn)狀,卻是一種高度精煉和概括的文獻(xiàn),決不能將其類比于前信息時(shí)代的“數(shù)據(jù)庫”。數(shù)據(jù)庫是實(shí)時(shí)記錄數(shù)據(jù)細(xì)節(jié),而地方志是各方面的經(jīng)過時(shí)間沉淀后的凝練數(shù)據(jù)。因篇幅限制,地方志不可能窮舉一地所有情況,即使是篇幅最大的省志,洋洋灑灑五千萬字,也無法面面俱到、事無巨細(xì)錄入全省所有數(shù)據(jù),只能對關(guān)鍵且重要內(nèi)容加以記載,摘錄關(guān)系重大的統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)過程中數(shù)據(jù)的細(xì)節(jié)是沒有辦法得以體現(xiàn),數(shù)據(jù)庫的優(yōu)勢即在數(shù)據(jù)細(xì)節(jié),而地方志的數(shù)據(jù)深度是不足的。地方志只是從各部門的成分不同的數(shù)據(jù)水桶中獲取一滴,按一定順序點(diǎn)在一個(gè)面板上。這一特征,注定了地方志數(shù)據(jù)可以為絕大部分領(lǐng)域的工作提供一定的參考,但因顆粒度不足,無法深度參與某一特定工作。地方志數(shù)據(jù)模型的價(jià)值大小即受限于這一因素,這在設(shè)計(jì)和構(gòu)建地方志數(shù)據(jù)模型時(shí)需要重點(diǎn)平衡斟酌。
地方志書每20 年左右編修一次,地方綜合年鑒一年編修一次。雖然地方志書中可能會包含多年的詳細(xì)數(shù)據(jù),但一般情況也是年度統(tǒng)計(jì)數(shù)據(jù)。因此可知地方志數(shù)據(jù)產(chǎn)生的時(shí)間間隔在一年以上。相比于某些互聯(lián)網(wǎng)應(yīng)用每秒鐘產(chǎn)生成千上萬條數(shù)據(jù),特別是阿里巴巴的數(shù)據(jù)應(yīng)用在“雙十一”期間每秒的消息處理甚至高達(dá)40 億條,地方志的數(shù)據(jù)產(chǎn)生的速度是極慢的。通常情況下,以這種速度產(chǎn)生的數(shù)據(jù)其挖掘的價(jià)值較小。地方志數(shù)據(jù)具有一定的特殊性,數(shù)據(jù)覆蓋面廣且官修屬性使得其數(shù)據(jù)的權(quán)威性較高、可靠性較強(qiáng),具有一定的參考價(jià)值和跨領(lǐng)域關(guān)聯(lián)價(jià)值。
從本世紀(jì)初開始,全國各省地方志工作機(jī)構(gòu)在數(shù)字方志建設(shè)方面進(jìn)行了有益探索。迄今為止,數(shù)字方志已經(jīng)成為了數(shù)字文化發(fā)展的重要組成部分,例如全國智慧圖書館體系建設(shè)項(xiàng)目,地方志就是其中數(shù)字化的一個(gè)重要方面。但這些探索主要限制在使用OCR(光學(xué)字符識別)對地方志文本加工處理后實(shí)現(xiàn)全文的檢索。分析地方志數(shù)據(jù)結(jié)構(gòu),設(shè)計(jì)數(shù)據(jù)模型的應(yīng)用仍比較少見。列舉分析以下幾個(gè)地方志數(shù)據(jù)模型的推廣和應(yīng)用案例。
全粵村情數(shù)據(jù)平臺采用了數(shù)字方志和地理信息系統(tǒng)(GIS)技術(shù)相結(jié)合的方式,圍繞鄉(xiāng)村振興戰(zhàn)略構(gòu)建村情專題指標(biāo)體系,以廣東省自然村落歷史人文普查為基礎(chǔ),整理、分析廣東省13 萬多個(gè)自然村落的歷史人文普查數(shù)據(jù);建立數(shù)據(jù)庫,對村情數(shù)據(jù)進(jìn)行深入挖掘、全面分析,形成村情專題分析報(bào)告;通過地圖、圖表等方式展示和分析數(shù)據(jù),直觀化展示廣東省內(nèi)鄉(xiāng)村的歷史、文化、風(fēng)土人情等方面信息,提高了地方志數(shù)據(jù)的可視化程度;提供自然村落普查數(shù)據(jù)展示、自然村情可視化統(tǒng)計(jì)分析、自然村情專題分析等服務(wù),通過“粵智助”平臺向公眾全方位展示村落鄉(xiāng)情,在古村活化、古驛道保護(hù)與修復(fù)利用、旅游開發(fā)、地理標(biāo)志產(chǎn)品申報(bào)、服務(wù)鄉(xiāng)村振興戰(zhàn)略等方面均起到一定積極作用。
貴陽方志云主要收錄了貴陽市各個(gè)地方的地情歷史文獻(xiàn),該項(xiàng)目的特色是數(shù)據(jù)對比功能。用戶可以選擇區(qū)域、時(shí)間、指標(biāo)進(jìn)行數(shù)據(jù)對比和分析,對比不同區(qū)域在不同歷史時(shí)期的文化和社會發(fā)展變化情況,生成報(bào)表、圖表、數(shù)據(jù)地圖。但實(shí)際的比對效果未能達(dá)到預(yù)期,其功能實(shí)現(xiàn)的底層邏輯原理沒有相關(guān)資料難以定論。
復(fù)旦大學(xué)和哈佛大學(xué)聯(lián)合研發(fā)的“中國歷史地理信息系統(tǒng)”(CHGIS)項(xiàng)目的“晚明松江地區(qū)歷史地理信息系統(tǒng)數(shù)據(jù)庫”,利用《嘉慶一統(tǒng)志》為核心資料,復(fù)原了1820 年行政區(qū)劃的基礎(chǔ)地理信息,建立寺廟、學(xué)校、商路、渡頭、人口、賦稅數(shù)據(jù)等多個(gè)圖層[1]張曉虹. GIS與中國歷史地理信息平臺建設(shè)[N].光明日報(bào),2023-09-25.。該系統(tǒng)以歷史地理學(xué)知識架構(gòu)為基礎(chǔ),對1949 年以前的傳統(tǒng)方志數(shù)據(jù)模型的構(gòu)建能提供一定的參考價(jià)值。
現(xiàn)階段全國范圍內(nèi)的數(shù)字方志成果,包括北京愛如生數(shù)字化技術(shù)研究中心的中國方志庫、北京籍古軒圖書數(shù)字技術(shù)有限公司的中國數(shù)字方志庫等商業(yè)性質(zhì)的數(shù)字方志文本,相比傳統(tǒng)紙質(zhì)地方志,大部分能夠?qū)崿F(xiàn)全文檢索,為研究人員和愛好者提供了相當(dāng)程度的便利,但對更深一層的信息化路徑?jīng)]有突破。非結(jié)構(gòu)化文本類的數(shù)字方志,在地方志的開發(fā)和利用方面只是一項(xiàng)基礎(chǔ)工作,數(shù)據(jù)模型的作用是在此基礎(chǔ)上設(shè)計(jì)一棟高樓。地方志數(shù)據(jù)模型可以將一個(gè)區(qū)域的物體和活動抽象概況成為實(shí)體,定義清晰的實(shí)體屬性,相比非結(jié)構(gòu)化文本類的數(shù)字方志,具有五個(gè)方面的優(yōu)勢。
通過數(shù)據(jù)模型在各區(qū)域之間的共享使用,可以促進(jìn)建立統(tǒng)一的區(qū)域元數(shù)據(jù)體系,促使各區(qū)域按照統(tǒng)一的地情要素編寫地方志,并能有效識別過往的地方志缺失數(shù)據(jù)。經(jīng)過一定時(shí)間的規(guī)范發(fā)展,統(tǒng)一的地方志數(shù)據(jù)將有利于簡化數(shù)據(jù)處理和共享程序,降低數(shù)據(jù)加工成本,提高數(shù)據(jù)支撐決策能力。
連續(xù)性是在規(guī)范性基礎(chǔ)上發(fā)展而來的特性,有了統(tǒng)一的區(qū)域元數(shù)據(jù)體系,使得地方志的內(nèi)容必須根據(jù)模型的所有實(shí)體屬性數(shù)據(jù)進(jìn)行完善,年鑒等連續(xù)出版物對區(qū)域信息的記載將保證數(shù)據(jù)在時(shí)間和空間上的連續(xù)和一致。經(jīng)過一定時(shí)間的規(guī)范發(fā)展,統(tǒng)一的地方志數(shù)據(jù)將有利于減少數(shù)據(jù)出現(xiàn)斷層和異常波動的情況,提高數(shù)據(jù)的質(zhì)量和可信度,反映區(qū)域的整體趨勢和規(guī)律,有助于更好地理解區(qū)域的特征和變化情況,在一定程度上有利于地方志編輯人員判斷數(shù)據(jù)的人為因素干擾和誤差,提高數(shù)據(jù)的準(zhǔn)確性和可靠性。
地方志數(shù)據(jù)模型可以借助信息技術(shù)和可視化手段,將信息轉(zhuǎn)化為可視化的圖表、地圖等,呈現(xiàn)更豐富、更生動的地情信息,能更加直觀地展示一個(gè)地區(qū)的狀況,有利于提升地方志傳播效益、增強(qiáng)地方志文化影響力。非結(jié)構(gòu)化文本類的數(shù)字方志在不進(jìn)行數(shù)據(jù)處理的情況下難以實(shí)現(xiàn)可視化。
對地方志數(shù)據(jù)模型進(jìn)行訓(xùn)練,模型的數(shù)據(jù)(即訓(xùn)練數(shù)據(jù))就可以用于對新的、類似的數(shù)據(jù)進(jìn)行分類或預(yù)測,可以在不同平臺、不同領(lǐng)域、不同項(xiàng)目之間實(shí)現(xiàn)高效的數(shù)據(jù)分析和研究,使地方志數(shù)據(jù)具有更廣泛的應(yīng)用價(jià)值。非結(jié)構(gòu)化文本類的數(shù)字方志則需要每次重新進(jìn)行檢索和信息整合。
地方志數(shù)據(jù)模型不僅可以作為一種數(shù)據(jù)模型使用,而且提供了一種模板式的簡志編纂方法和展現(xiàn)形式,對數(shù)字方志和信息方志的工具和邊界是有益的擴(kuò)充。非結(jié)構(gòu)化文本類的數(shù)字方志只是將地方志的存儲形式由紙質(zhì)變?yōu)殡娮?,在結(jié)構(gòu)內(nèi)容和編纂方法上沒有開創(chuàng)新面貌。
非結(jié)構(gòu)化文本類的數(shù)字方志在讀志用志方面發(fā)揮了一定的積極作用,但也面臨著多方面的局限和挑戰(zhàn)。為構(gòu)建地方志的核心競爭力,推動地方志文化的創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展,應(yīng)積極嘗試前沿?cái)?shù)據(jù)治理手段和地方志的結(jié)合,加強(qiáng)政策支持、規(guī)則制定、人才培養(yǎng)、資金支持、數(shù)據(jù)共享和交流等方面的工作,逐步消除各種限制,推廣和普及全國地方志數(shù)據(jù)模型,提升地方志數(shù)據(jù)賦能水平。設(shè)計(jì)和構(gòu)建數(shù)據(jù)模型的具體步驟如下。
全國數(shù)字方志項(xiàng)目建設(shè)存在頂層設(shè)計(jì)不足、標(biāo)準(zhǔn)多樣的問題,大部分處于加工數(shù)字文本的基礎(chǔ)階段,必須按照統(tǒng)一的內(nèi)容展示和存儲格式,推動數(shù)字方志建設(shè)和普及,持續(xù)對地方志作品尤其是歷代舊志進(jìn)行數(shù)字加工,擴(kuò)大數(shù)字方志規(guī)模,提高數(shù)字方志規(guī)范程度,筑牢地方志數(shù)據(jù)資源基礎(chǔ)。標(biāo)準(zhǔn)化建設(shè)需要在必要時(shí)采取一定的行政手段,加強(qiáng)數(shù)字方志建設(shè)的指導(dǎo)和支持,制定全流程的數(shù)字方志工作標(biāo)準(zhǔn),包括數(shù)字方志的編纂、存儲、標(biāo)引、加工、發(fā)布、導(dǎo)入導(dǎo)出、數(shù)據(jù)接口等各方面全周期工作標(biāo)準(zhǔn),優(yōu)先制定數(shù)字方志建設(shè)文本加工規(guī)范和標(biāo)準(zhǔn),向基層地方志工作機(jī)構(gòu)提供數(shù)字方志建設(shè)的技術(shù)咨詢和技術(shù)支持,鼓勵基層地方志工作機(jī)構(gòu)開展地方志數(shù)字加工,以利于非結(jié)構(gòu)化文本類的數(shù)字方志的高效數(shù)據(jù)提取。
一般的數(shù)據(jù)治理過程,會先提取數(shù)據(jù)和對數(shù)據(jù)預(yù)處理,然后進(jìn)行數(shù)據(jù)元模型的定義。地方志作品中紛繁復(fù)雜的數(shù)據(jù),難以按照常規(guī)的步驟進(jìn)行,須先定義元模型,才能被準(zhǔn)確和廣泛地提取數(shù)據(jù)。定義地方志數(shù)據(jù)規(guī)則和構(gòu)建元模型,確保地方志數(shù)據(jù)治理過程有章可循,促使各地方志作品的異構(gòu)數(shù)據(jù)同構(gòu)化、同構(gòu)數(shù)據(jù)關(guān)聯(lián)化,需要全國各級地方志工作機(jī)構(gòu)的共同努力。為了構(gòu)建一套長期可用的、準(zhǔn)確概括一個(gè)地域的各方面屬性的元模型,需要承擔(dān)地方志編纂的各工作部門協(xié)同參與。
地方志數(shù)據(jù)元模型分為兩種類型,即通用型的元模型和分級分類的元模型,它們各有優(yōu)劣之處。
1.通用型元模型
通用型元模型的優(yōu)點(diǎn)在于模型構(gòu)建速度較快,只需要選擇某特定行政區(qū)域的關(guān)鍵基礎(chǔ)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)即可,即選取該行政區(qū)域地方志文本數(shù)據(jù)的“最大公約數(shù)”,具有一定的通用性和可擴(kuò)展性,且基本不用進(jìn)行數(shù)據(jù)補(bǔ)充。它的缺點(diǎn)在于通用狀態(tài)下,必須拋棄大量有效數(shù)據(jù)。舉例來說,假設(shè)省志的字?jǐn)?shù)篇幅在5 千萬字左右,縣志的字?jǐn)?shù)篇幅在200 萬字左右,省志中記載了25 萬條有效數(shù)據(jù),縣志中記載了1 萬條有效數(shù)據(jù),而通用型元模型只選取一個(gè)地域最關(guān)鍵、核心、普適的數(shù)據(jù),元模型下可能只有1 千個(gè)數(shù)據(jù)屬性,那么省志中24 萬9 千條數(shù)據(jù)和縣志中9 千條數(shù)據(jù)在后期就得不到結(jié)構(gòu)化提取,勢必造成數(shù)據(jù)浪費(fèi)。通用型元模型雖然普適性較好,但也做不到無限通用,能在省市縣三級通用的元模型如果套用在鄉(xiāng)鎮(zhèn)、村、社區(qū)、小區(qū)時(shí),因?yàn)榈赜蚪Y(jié)構(gòu)或統(tǒng)計(jì)口徑等多方面差異,會造成大量的數(shù)據(jù)空值。
2.分級分類的元模型
分層級、分作品類型建立不同的元模型,其優(yōu)點(diǎn)在于元模型數(shù)據(jù)屬性可以較為廣泛、覆蓋面廣、顆粒度更加細(xì)膩,能更加充分利用地方志中的數(shù)據(jù),模型實(shí)用性更強(qiáng),但相對來說建模速度較慢,需要建立多個(gè)元模型,增加了工作難度和復(fù)雜度。同時(shí)在建立每個(gè)元模型后,在數(shù)據(jù)提取過程中,需要從多個(gè)同級別行政區(qū)劃的地方志文本求取“最大公倍數(shù)”,并對所有行政區(qū)劃的地方志中缺項(xiàng)漏項(xiàng)的數(shù)據(jù)進(jìn)行調(diào)查和補(bǔ)充。
地方志數(shù)據(jù)元模型建立要根據(jù)實(shí)際需求和人力、財(cái)力、物力的配置情況綜合考量,也可以采取混合模式,先建立通用型元模型,在通用型基礎(chǔ)上,再構(gòu)建分級分類元模型。同時(shí),元模型的屬性應(yīng)該注意結(jié)構(gòu)分明,以大類統(tǒng)小類,例如可以分基礎(chǔ)信息類、資源生態(tài)類、基礎(chǔ)設(shè)施類、社會經(jīng)濟(jì)類、文體藝術(shù)類、政治組織類等大類,基礎(chǔ)信息大類下又可統(tǒng)攝地名、地理位置、地形地勢、行政區(qū)劃面積等信息。元模型的建立,仍要采取“眾手成志”的模式,征求各相關(guān)行業(yè)專業(yè)人士意見。通用型元模型的數(shù)據(jù)屬性應(yīng)以簡約而不漏重要項(xiàng)為原則,分級分類元模型則應(yīng)盡可能做到數(shù)據(jù)屬性充分而不冗余。無論是哪一種元模型,都必須充分考慮屬性的可延續(xù)性。這些數(shù)據(jù)屬性需要在時(shí)代發(fā)展趨勢下保持大范圍的穩(wěn)定性,在未來較長時(shí)間之內(nèi),仍然是社會公眾所需要、愿意且能夠統(tǒng)計(jì)的數(shù)據(jù)。
根據(jù)地方志覆蓋面廣的數(shù)據(jù)特征,采取由下而上的方式開展數(shù)據(jù)處理較為合適。各地方志工作機(jī)構(gòu)應(yīng)根據(jù)定義的數(shù)據(jù)規(guī)則,分工對本區(qū)域的地方志進(jìn)行數(shù)據(jù)提取,逐層向上一級數(shù)據(jù)倉庫匯總。針對元模型的每項(xiàng)屬性,通過文本挖掘技術(shù),從地方志數(shù)據(jù)中提取關(guān)鍵詞和主題,查詢檢索到地方志中的對應(yīng)數(shù)據(jù),形成數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的形式可以是基于數(shù)據(jù)庫的平臺,也可以是按照一定格式排列的文檔。有條件的地方,應(yīng)開展元模型數(shù)據(jù)標(biāo)記和元模型數(shù)據(jù)索引。形成數(shù)據(jù)倉庫的過程,要根據(jù)地方志記載的數(shù)據(jù)情況,對元模型的準(zhǔn)確性和科學(xué)度進(jìn)行分析和評估,并將分析和評估情況向上一級地方志工作機(jī)構(gòu)反饋。
從地方志中提取的數(shù)據(jù),可能出現(xiàn)數(shù)據(jù)重復(fù)、數(shù)據(jù)單位不一致、數(shù)值有差異等諸多情況。一般情況下,數(shù)據(jù)清洗是數(shù)據(jù)加工不可省略的重要環(huán)節(jié),完整構(gòu)建地方志數(shù)據(jù)模型必須在提取地方志數(shù)據(jù)以后進(jìn)行數(shù)據(jù)清洗。通過邏輯判斷、縱橫比對等方式,判斷數(shù)據(jù)的準(zhǔn)確度,刪除重復(fù)數(shù)據(jù)、轉(zhuǎn)換不一致的數(shù)據(jù),舍棄不合理數(shù)據(jù)并補(bǔ)充缺失數(shù)據(jù),消除在應(yīng)用中造成使用者信息誤判的可能性。
地方志的數(shù)據(jù)預(yù)處理中最重要的環(huán)節(jié)就是缺失數(shù)據(jù)的補(bǔ)充。根據(jù)地方志數(shù)據(jù)源復(fù)雜且差異明顯的數(shù)據(jù)特征,可以判斷預(yù)處理階段必然存在不少數(shù)據(jù)缺失。這些數(shù)據(jù)缺失是地方志編纂過程的先天缺陷。過多的數(shù)據(jù)缺失將造成模型的不完整性,導(dǎo)致后續(xù)的數(shù)據(jù)挖掘失敗。必須邀請參與地方志編纂的各單位給予配合支持,將數(shù)據(jù)補(bǔ)充完善。一般來說,數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理工作使用計(jì)算機(jī)完成,但對于地方志的數(shù)據(jù)模型構(gòu)建來說,數(shù)據(jù)預(yù)處理階段可能需要大量人工干預(yù)。
通過元模型和數(shù)據(jù)的正式匹配,即可初步構(gòu)建地方志數(shù)據(jù)模型。模型建立之后,需進(jìn)行廣泛的宣傳和推廣,并使之能反作用于地方志編纂。即要求地方志作品在編纂中,建立數(shù)據(jù)模型索引,標(biāo)注清楚模型的屬性對應(yīng)到書籍的頁數(shù)和行數(shù)等位置信息,以利于成書之后的數(shù)據(jù)能在較短時(shí)間內(nèi)高效利用。同時(shí),也需要積極探索模型的相關(guān)應(yīng)用。
1.模型內(nèi)容的分類、聚類,強(qiáng)化供給價(jià)值
要充分利用龐雜的地方志數(shù)據(jù),必須先對數(shù)據(jù)進(jìn)行分類,這是前人探索的有效經(jīng)驗(yàn)。例如竺可楨摘取各類方志記載的植物分布及花開花落時(shí)間的變化加以匯總研究,在《中國近五千年來氣候變遷的初步研究》中提出“方志時(shí)期”(1400—1900 年)。北京天文臺從眾多舊志中摘錄了數(shù)百萬字的天文資料,匯編成《中國天文資料匯編》。還有《中國古銅礦錄》《中國地震歷史資料匯編》等書的匯錄。這些案例都是通過分類、聚類的方式對地方志文本數(shù)據(jù)進(jìn)行提取??梢愿鶕?jù)地理位置、時(shí)間、行業(yè)、領(lǐng)域、主題等因素制定分類方法,建立一整套分類框架,包括分類目錄、分類指南,同時(shí)鼓勵引導(dǎo)多學(xué)科參與其中,加強(qiáng)跨學(xué)科合作,整理和分類地方志數(shù)據(jù)模型中的內(nèi)容,以提高數(shù)據(jù)模型的應(yīng)用價(jià)值。
2.建立數(shù)據(jù)關(guān)聯(lián),打造多形態(tài)的地方志數(shù)據(jù)模型應(yīng)用
通過關(guān)聯(lián)規(guī)則挖掘技術(shù),尋找地方志數(shù)據(jù)中各個(gè)數(shù)據(jù)之間的聯(lián)系和規(guī)律。通過模型數(shù)據(jù),分析數(shù)據(jù)之間的因果關(guān)系、時(shí)序關(guān)系、頻繁模式關(guān)系、分類關(guān)系、依賴關(guān)系。將數(shù)據(jù)挖掘結(jié)果以圖形、圖像和動畫等形式呈現(xiàn),直觀展示數(shù)據(jù)特征和規(guī)律。運(yùn)用地理信息系統(tǒng)(GIS)技術(shù),將空間數(shù)據(jù)可視化,是目前已探索出成果的應(yīng)用方式。同時(shí),豐富地方志數(shù)據(jù)模型應(yīng)用還需要拓展地方志數(shù)據(jù)模型應(yīng)用傳播渠道,在線上綜合呈現(xiàn)多媒體可視化的數(shù)據(jù)分析結(jié)果,對接外部鏈接和數(shù)據(jù),滿足不同用戶的需求,提升數(shù)字方志的互動性和用戶參與度,深化模型的應(yīng)用價(jià)值,及時(shí)獲得公眾的反饋,便于進(jìn)一步調(diào)整優(yōu)化模型。
全國地方志非結(jié)構(gòu)化文本的數(shù)據(jù)模型設(shè)計(jì)與構(gòu)建的探索、研究處在萌芽狀態(tài),是地方志信息化發(fā)展中具有前瞻意義的研究課題,對于地方志事業(yè)高質(zhì)量發(fā)展具有重要作用和意義。在模型設(shè)計(jì)的探索過程中,發(fā)現(xiàn)了一些理論問題和難點(diǎn),需要結(jié)合地方志數(shù)據(jù)的特征,加以克服和解決,特別是要盡快解決地方志文本數(shù)據(jù)無規(guī)則、數(shù)據(jù)無結(jié)構(gòu)的問題,不斷改進(jìn)數(shù)據(jù)關(guān)聯(lián)能力,提高數(shù)據(jù)可視化。結(jié)構(gòu)化和智能化的地方志數(shù)據(jù)模型,將作為重要數(shù)據(jù)元素載體,極大豐富地方志資源開發(fā)利用的形式和內(nèi)容,融合數(shù)字文化等領(lǐng)域的發(fā)展,推動地方志事業(yè)的創(chuàng)新和轉(zhuǎn)型,為實(shí)施國家文化數(shù)字化戰(zhàn)略、加強(qiáng)精神文明建設(shè)貢獻(xiàn)“志”慧,為推進(jìn)文化自信自強(qiáng)、鑄就社會主義文化新輝煌貢獻(xiàn)“志”力。