關(guān)鍵詞:歷史報紙;數(shù)據(jù)資源;戰(zhàn)爭事件;知識圖譜;人民日報
2022年,黨的二十大報告強調(diào)全面建設(shè)社會主義現(xiàn)代化國家,必須堅持中國特色社會主義文化發(fā)展道路。同年,《關(guān)于推進實施國家文化數(shù)字化戰(zhàn)略的意見》提出,在2035年實現(xiàn)中華文化的數(shù)字化全景展現(xiàn),確保數(shù)字化的中華文化成果能夠廣泛共享??梢?,探究以人文之道,憑數(shù)字之術(shù),借科技之器,實現(xiàn)研究、傳播且弘揚中華文化之用,已是緊跟宏觀文化戰(zhàn)略之關(guān)鍵、應(yīng)對數(shù)字時代挑戰(zhàn)之要領(lǐng)、滿足社會多元需求之肯綮。
中文歷史報紙誕生于“近代”,故本文界定的“歷史報紙”指1840-1949年國內(nèi)出版的所有報紙,涵蓋政治、戰(zhàn)爭、科技、文化、體育等各種主題,上至國內(nèi)外重大時政新聞動態(tài),下至市井民眾生活百態(tài),報道內(nèi)容精細人微,可作為反映社會各方面情況的第一手資料,具有原始文獻的價值。1896年,梁啟超在《論報館有益于國事》中說:“報館者,國家之耳目也,喉舌也,人群之鏡也,文壇之主也,將來之燈也,現(xiàn)在之糧也。偉哉報館之勢力,重哉報館之責(zé)任”??梢娫催h流長、數(shù)量繁多、結(jié)構(gòu)各異、欄目豐富、內(nèi)容翔實的歷史報紙是無價獨特的中華文化珍品碩果,堪稱社會之鏡像、歷史之縮影、思想之具現(xiàn)、文化之載體。
鑒于此,本文基于歷史報紙數(shù)據(jù)和戰(zhàn)爭事件的特點,以“人民日報(1946-1949)”戰(zhàn)爭事件為數(shù)據(jù)源,構(gòu)建歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體,運用Protege進行建模,設(shè)計歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件要素識別流程并自動抽取知識實體,在此基礎(chǔ)上通過本體模型映射框架和抽取數(shù)據(jù)批量導(dǎo)人實現(xiàn)歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜存儲與繪制,以達成歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識的自動抽取、序化組織和關(guān)聯(lián)查詢,助力數(shù)字時代下歷史報紙數(shù)據(jù)資源的開發(fā)利用和中華文化的保護傳承。
1相關(guān)研究
學(xué)術(shù)界對歷史報紙的研究主要從歷史報紙資源價值探討、數(shù)字化、內(nèi)容研究和知識組織4個方面展開。
1)在歷史報紙資源價值探討方面,新聞傳播、檔案學(xué)、歷史學(xué)等領(lǐng)域的人文學(xué)者持續(xù)地開展研究。①在新聞學(xué)領(lǐng)域,歷史報紙的傳播歷程描繪了近代以來中華大地上新聞事業(yè)的發(fā)展軌跡,反映了社會文化結(jié)構(gòu)和發(fā)展方向的多元性與復(fù)雜性。②在檔案學(xué)領(lǐng)域,歷史報紙能使研究者產(chǎn)生“穿越時光”回到事件發(fā)生當(dāng)下的現(xiàn)場感:分析歷史報紙中某一詞匯的演變路徑可以引申出政治、文化與社會思想的歷史趨勢變化;總之,整理和利用歷史報紙是實現(xiàn)其文物價值和文獻價值的現(xiàn)實路徑。③在史學(xué)研究方面,歷史報紙已成為史學(xué)研究和政策參考的重要憑證,且對歷史教學(xué)亦有難以替代的重要意義。④在文化遺產(chǎn)領(lǐng)域,歷史報紙的保護與開發(fā)不僅為文化遺產(chǎn)的保護提供了實踐案例,同時在喚醒民族認同、促進社會進步和傳播學(xué)術(shù)文化方面始終扮演著重要角色。通過多維價值的探討凸顯出歷史報紙研究的必要。
2)在歷史報紙資源數(shù)字化方面:一是數(shù)字化項目和平臺建設(shè),報社、企事業(yè)單位、學(xué)術(shù)機構(gòu)、高校等紛紛開展歷史報紙資源數(shù)字化研究,搭建中國歷史文獻總庫·近代報紙數(shù)據(jù)庫、青蘋果、愛如生、瀚堂典藏等平臺對具有影響力的報紙進行了數(shù)字化處理,報社建設(shè)歷史報紙數(shù)據(jù)化平臺以向數(shù)字報紙轉(zhuǎn)型并分享相關(guān)經(jīng)驗,設(shè)計蒙古文歷史報紙文字識別系統(tǒng)等,形成相應(yīng)基礎(chǔ)設(shè)施以提高歷史報紙服務(wù)利用質(zhì)量:國外歷史報紙數(shù)字化研究工作也形成了一定數(shù)量的成果,如Pro-Quest Historical Newspapers提供紐約時報、華盛頓郵報、華爾街日報等歷史報紙。二是在歷史報紙的保護和搶救方面,目前已有機構(gòu)針對《解放日報》《新中華報》《新華日報》《西北文化日報》等內(nèi)容豐富的歷史報紙分別進行了治理研究,總結(jié)出了行之有效的搶救修復(fù)方法。歷史報紙資源數(shù)字化為后續(xù)展開深入研究奠定了基礎(chǔ)。
3)在歷史報紙資源內(nèi)容研究方面,學(xué)者們結(jié)合自身思考和專業(yè)背景,從不同視角挖掘研讀歷史報紙資源外在和內(nèi)在的呈現(xiàn)。①從外在呈現(xiàn)探討歷史報紙的源起、發(fā)展、板塊結(jié)構(gòu)的設(shè)計、出版信息等。如魏樞以建筑??癁槔?,分析上海歷史報紙文化??某霭姹尘?、發(fā)展演變歷史及其創(chuàng)辦對中國近代建筑發(fā)展的重要意義。吳川靈等對中國近代紡織報紙作了整理與研究,列出了主要紡織報紙的名稱、出版時間、出版周期、出版機構(gòu)、出版地和出版機構(gòu)種類并作了詳細介紹。②從內(nèi)在呈現(xiàn)總結(jié)特定類型報道的主要內(nèi)容和主要特點,解讀歷史報紙廣告的審美意象和傳統(tǒng)文化內(nèi)涵,分析歷史報紙中記載的特定歷史事件和內(nèi)蘊的思想觀念等。如趙寅州將“兒童相”的對象聚焦于《申報》廣告圖像中,嘗試從圖像學(xué)等角度,對消費文化中兒童的視覺形象進行梳理,并對“兒童相”背后的近代社會文化如兒童觀、國族觀、家庭觀進行解讀。通過對內(nèi)容層面的梳理剖析和歸納總結(jié)不斷繪制歷史報紙“人物圖像”。
4)在歷史報紙資源知識組織方面:一方面借助數(shù)據(jù)挖掘與文本分析技術(shù)進行知識組織。如Lorel-la V等使用話語驅(qū)動的主題建模,通過對歷史報紙的挖掘,可以對語言、社會和歷史數(shù)據(jù)進行分析,并對主題進行分類;另一方面,以本體模型和語義網(wǎng)技術(shù)為核心的知識組織方法同樣是研究熱點之一。鄧君團隊設(shè)計歷史報紙資源元數(shù)據(jù)詞表、構(gòu)建歷史報紙資源本體模型、繪制歷史報紙資源主題圖,為歷史報紙資源實現(xiàn)科學(xué)高效的組織管理、知識發(fā)現(xiàn)、知識服務(wù)提供參考。姚嘯華等提出,基于關(guān)聯(lián)數(shù)據(jù)和國際圖像互操作框架(IIIF)的數(shù)字文獻資源再組織模式和平臺架構(gòu),以上海圖書館歷史人文大數(shù)據(jù)平臺的歷史報紙資源為例加以論證。運用數(shù)字技術(shù)進行歷史報紙資源細粒度知識組織是未來重要的研究方向。
綜上所述,學(xué)者們深知歷史報紙研究價值及重要性,致力于歷史報紙資源數(shù)字化建設(shè),多方位多角度研析歷史報紙資源的內(nèi)容呈現(xiàn),對歷史報紙資源知識組織亦進行了有益嘗試,形成了一定的歷史報紙資源相關(guān)研究成果。但是,目前運用數(shù)字技術(shù)賦能歷史報紙資源深層開發(fā)的研究相對較少,其中立足特定類型事件等微觀視角的更是寥若晨星,這為本文構(gòu)建歷史報紙資源戰(zhàn)爭事件知識圖譜以細化領(lǐng)域知識組織顆粒度和優(yōu)化領(lǐng)域知識呈現(xiàn)清晰度提供了重要空間。
2研究設(shè)計
2.1研究數(shù)據(jù)
本文依托數(shù)字技術(shù)助力歷史報紙數(shù)據(jù)資源深度開發(fā),著眼于其中所載戰(zhàn)爭事件知識圖譜的構(gòu)建,選取《人民日報》為數(shù)據(jù)源進行實證研究?!度嗣袢請蟆肥侵腥A人民共和國政府官方三大傳媒機構(gòu)之一,為中國共產(chǎn)黨中央委員會的機關(guān)報,具有廣泛影響力,其內(nèi)容代表官方觀點。自1946年5月15日,中共晉冀魯豫中央局機關(guān)報首次使用“人民日報”開始,至1948年6月15日華北“人民日報”創(chuàng)刊,再到正式成為中共中央機關(guān)報,在此期間,“人民日報”4個字曾經(jīng)歸屬于不同級別的黨組織,出版發(fā)行于不同地區(qū),致力于宣傳不同地域的新聞。盡管存在于不同時期,但共同肩負著宣傳黨的路線、方針和政策的光榮使命。本文在此不對“人民日報”的發(fā)展歷史和稱謂變遷做過多贅述,并將“人民日報圖文數(shù)據(jù)庫”中可供檢索的1946-1949年的全部歷史報紙數(shù)據(jù)資源作為研究對象,統(tǒng)稱為“人民日報(1946-1949)”。
2.2研究思路
本文遵循的歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜構(gòu)建流程,如圖1所示,分為本體構(gòu)建、要素識別和圖譜繪制3個步驟,以歷史報紙數(shù)據(jù)資源的標題為紐帶,解析重組歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識要素。
1)在本體構(gòu)建部分,基于“人民日報(1946-1949)”戰(zhàn)爭事件具體報道特點和內(nèi)容,參考領(lǐng)域成熟本體模型、權(quán)威報紙數(shù)據(jù)庫和相關(guān)工具書籍,結(jié)合專家建議和斯坦福大學(xué)所提出的“七步法”,人工手動構(gòu)建歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體模型,運用Protege建模,系統(tǒng)表示領(lǐng)域知識結(jié)構(gòu),確定要素識別類型,如人物、地點等,并通過本體映射為生成知識圖譜提供關(guān)聯(lián)組織的邏輯框架。
2)在要素識別部分,第一步通過構(gòu)建觸發(fā)詞詞典和規(guī)則模板,結(jié)合人工判讀抽取戰(zhàn)爭事件標題并組合相應(yīng)正文,得到戰(zhàn)爭事件合集;第二步通過深度學(xué)習(xí)對戰(zhàn)爭事件合集進行命名實體識別,抽取人、時、地等實體,為知識圖譜填充和完善提供數(shù)據(jù)支撐。
3)在圖譜繪制部分,一方面將歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體模型中的“類、對象屬性、數(shù)據(jù)屬性、實例”依次對應(yīng)映射為知識圖譜中的“標簽、關(guān)系、屬性、節(jié)點”;另一方面將識別得到的戰(zhàn)爭事件要素數(shù)據(jù)批量導(dǎo)人Ne04j圖數(shù)據(jù)庫中,繪制知識圖譜,實現(xiàn)基于歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件外部特征和內(nèi)部特征的雙重語義查詢,驗證歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識單元基于語義的序化組織應(yīng)用效果。
3歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體構(gòu)建
層次分明、交錯互聯(lián)、動態(tài)更新本體模型可以在規(guī)范表征領(lǐng)域知識的同時,揭示知識間的復(fù)雜關(guān)系,為知識圖譜的構(gòu)建編制邏輯框架。
3.1確定本體專業(yè)領(lǐng)域范疇和復(fù)用本體
確定本體模型涉及的專業(yè)領(lǐng)域和應(yīng)用范疇是指導(dǎo)特定領(lǐng)域本體構(gòu)建的底層邏輯。本文通過對歷史報紙數(shù)據(jù)資源中蘊含的戰(zhàn)爭事件進行剖析和整理,建立歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體以服務(wù)該領(lǐng)域知識細粒重組。
本文綜合考慮現(xiàn)有本體模型和研究對象特點后,發(fā)現(xiàn)CIDOC-CRM概念參考模型良好的覆蓋度、通用性、擴展性及對事件的強調(diào)適配本文本體構(gòu)建要求,因此決定其為主要復(fù)用模型,并復(fù)用ORG本體(前綴為Org)的部分對象屬性以描述人物和組織的關(guān)系。
3.2確定術(shù)語詞表
查閱諸如《中國人民解放軍戰(zhàn)史》等戰(zhàn)爭史書以及《中國人民解放軍宣言》《十大軍事原則》等軍事政策文本,瀏覽檢索“中國歷史文獻總庫·近代報紙數(shù)據(jù)庫”“人民日報圖文數(shù)據(jù)庫”“全國報刊索引”等權(quán)威報紙數(shù)據(jù)庫,結(jié)合“人民日報(1946-1949)”對戰(zhàn)爭事件具體報道的特點與內(nèi)容、專家意見以及領(lǐng)域內(nèi)認可度較高的本體,確定歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體涉及的概念,構(gòu)建術(shù)語詞表如表1所示,主要包含外部特征信息以及內(nèi)容特征信息兩大方面,為類與屬性的確定提供參考依據(jù)。
3.3定義類和屬性
本體模型的類將領(lǐng)域內(nèi)具備同類特質(zhì)的概念高度提煉歸納且依循科學(xué)嚴謹?shù)亩鄬咏Y(jié)構(gòu)規(guī)范其表達和位置,對象屬性基于領(lǐng)域知識間的語義邏輯揭示類間關(guān)系,數(shù)據(jù)屬性通過值域數(shù)據(jù)寫入擴大定義域類對領(lǐng)域知識的描述面積。本文在復(fù)用CIDOC-CRM模型的基礎(chǔ)上,自定義前綴為Hnbe(Historical
News-paper Data Resources Battle Event)的類和屬性以全面組織歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件領(lǐng)域知識。
1)本文定義了7個一級類和3個二級類,如表2所示,其中,歷史報紙數(shù)據(jù)資源E31_Document是指具有形成日期的歷史報紙數(shù)據(jù)資源實體,報紙通常每日發(fā)行1份,本文選擇使用歷史報紙數(shù)據(jù)資源的報紙名稱和形成日期兩個屬性疊加表示唯一歷史報紙實體,例如1947年7月21日形成的“人民日報”歷史報紙實體可以表示為“人民日報1947-07-21”。
2)本文共定義28個屬性,具體包含11個對象屬性和17個數(shù)據(jù)屬性.如表3、表4所示,最終設(shè)計的歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體結(jié)構(gòu)如圖2所示,黃色方框代表類,實現(xiàn)連接父類子類,藍色虛線代表對象屬性,綠色圓框代表數(shù)據(jù)屬性。
3.4實例填充與可視化
本文選擇功能齊全且應(yīng)用廣泛的Protege作為填充實例與可視化展示的工具,實現(xiàn)歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體落地為人機可交互的立體模型,部分軟件截圖如圖3所示。
歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體可視化選取實例“人民日報圖文數(shù)據(jù)庫”中檢索得到的1947年6月23日第一版中標題為“晉察冀四天攻勢作戰(zhàn)殲滅蔣偽萬余”的戰(zhàn)爭事件,如圖4所示,將這一戰(zhàn)爭事件涉及的人物、組織、事件、地點以及歷史報紙的形成者、版號、形成時間等內(nèi)外部知識單元集成于統(tǒng)一框架下,實現(xiàn)歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識細粒度、結(jié)構(gòu)化、深層次的語義表征和組織,并通過互聯(lián)互通的圖譜形式直觀清晰地展示。
4歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件要素識別
結(jié)合所構(gòu)本體模型設(shè)計歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件要素識別流程如圖5所示,分為戰(zhàn)爭事件識別和戰(zhàn)爭事件要素識別兩大步驟。第一步,戰(zhàn)爭事件識別通過觸發(fā)動詞詞典、規(guī)則模板以及人工判讀實現(xiàn)標題和戰(zhàn)爭事件報道的對應(yīng),形成戰(zhàn)爭事件合集。第二步,戰(zhàn)爭事件要素識別將上步得到的戰(zhàn)爭事件合集進行數(shù)據(jù)預(yù)處理,采用深度學(xué)習(xí)模型完成所構(gòu)本體模型描述的人物、組織、時間等戰(zhàn)爭事件組成要素命名實體識別任務(wù)。
4.1戰(zhàn)爭事件識別
第一,通過“人民日報圖文數(shù)據(jù)庫”下載得到“人民日報(1946-1949)”的全部標題和文章,研讀“人民日報(1946-1949)”標題內(nèi)容,發(fā)現(xiàn)一個完整標題通常由對后續(xù)內(nèi)容進行概括凝練的4個以內(nèi)的小短句構(gòu)成,短句之間由“空格符”隔開,如1949年12月31日的第1版報紙完整標題包含“標志國民黨殘余匪首最后被趕出中國大陸”“胡宗南匪軍全部就殲”“四川省會成都解放”3個小短句,并由空格隔開。通過篩選與戰(zhàn)爭事件相關(guān)的標題,能迅速地定位“人民日報(1946-1949)”中與戰(zhàn)爭事件相關(guān)的歷史報紙數(shù)據(jù)資源,高效便捷地收集和挖掘有關(guān)戰(zhàn)爭事件參與者、發(fā)生時間、發(fā)生地點等實體信息。
第二,將全部標題聚集成一個標題文檔,調(diào)用Python中的Jieba分詞庫對該文檔進行分詞處理;對于分詞后的全部動詞,調(diào)用Scikit-Learn庫,使用TF-IDF算法進行處理,統(tǒng)計得到出現(xiàn)頻率前100的動詞及其權(quán)重,得到的戰(zhàn)爭事件相關(guān)動詞為后續(xù)觸發(fā)詞詞典構(gòu)建提供參考借鑒。
第三,結(jié)合TF-IDF算法的結(jié)果,閱讀了部分“人民日報(1946-1949)”有關(guān)戰(zhàn)事之述以及《中國人民解放軍戰(zhàn)史》等歷史報紙與工具書籍,后又查閱ACE2005會議、MUC會議等事件抽取任務(wù)的典型評測會議對于戰(zhàn)爭事件、軍事沖突、襲擊等事件的觸發(fā)詞選擇,在向領(lǐng)域?qū)<易稍兒螅罱K確定了包含52個動詞的觸發(fā)詞詞典如表5所示。憑借Python將含有詞典觸發(fā)詞的標題全部篩選出來,形成歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件標題候選合集。
第四,對歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件標題候選合集進行判讀,發(fā)現(xiàn)合集中混有與戰(zhàn)爭事件相關(guān)但實質(zhì)上并非戰(zhàn)爭事件的“類戰(zhàn)爭事件”標題。本文基于3種標準定位“類戰(zhàn)爭事件”標題,一是句式規(guī)則,如部分標題中包含“賀電”“慶祝”和“祝詞”等字眼,其內(nèi)容往往是針對戰(zhàn)爭事件相關(guān)人物或組織的賀詞,與實際戰(zhàn)爭事件無關(guān):二是句意規(guī)則,部分標題是表達意愿的,是尚未發(fā)生的事件;三是詞語搭配,指需要考慮戰(zhàn)爭事件觸發(fā)詞前后出現(xiàn)的搭配情況,如“解放日報社論”“解放區(qū)”等帶有“解放”一詞,而實際內(nèi)容與戰(zhàn)爭事件無關(guān)。使用Python的“import re”命令導(dǎo)人正則表達式模塊,構(gòu)建規(guī)則模版,剔除歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件候選標題合集中的“類戰(zhàn)爭事件”標題,輔以人工判讀,得到1783條戰(zhàn)爭事件標題,如圖6所示,形成歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件標題合集。
第五,為戰(zhàn)爭事件標題添加其原始報道形成初步的戰(zhàn)爭事件合集約100萬字,涉及的戰(zhàn)爭事件時間從1946年5月15日至1949年12月31日。再根據(jù)正文內(nèi)容與戰(zhàn)爭事件的關(guān)系以及正文內(nèi)容與標題之間的關(guān)系施加不同操作,如表6所示,最終將1783條戰(zhàn)爭事件標題拆分為3607件具體的戰(zhàn)爭事件,整理編訂得到最終的戰(zhàn)爭事件合集,如圖7所不。
4.2戰(zhàn)爭事件要素識別
本文使用深度學(xué)習(xí)的方法對歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件進行命名實體識別,抽取戰(zhàn)爭事件地點等。以4.1所構(gòu)戰(zhàn)爭事件合集語料庫為數(shù)據(jù)基礎(chǔ),分為數(shù)據(jù)預(yù)處理、實體標注、模型訓(xùn)練和模型評估4個步驟。
在數(shù)據(jù)預(yù)處理部分,由于本文識別的實體主要包括人物、組織、時間和地點4大類,因此剔除正文結(jié)尾繳獲槍支彈藥等無關(guān)內(nèi)容情況:將“廿”“卅”等寫法統(tǒng)一改寫成為現(xiàn)代漢語“二十”“三十”等。
在實體標注部分,本文的“訓(xùn)練集”選用北京大學(xué)計算語言學(xué)研究所公開發(fā)布的“人民日報標注語料庫”,其內(nèi)容是對《人民日報》經(jīng)過分詞和人工校對后能夠直接應(yīng)用于模型訓(xùn)練的“熟語料庫”?!皽y試集”標注工作通過Python隨機抽取300條戰(zhàn)爭事件并召集多名研究生“背靠背”完成。
在模型訓(xùn)練部分,使用訓(xùn)練集訓(xùn)練后的模型對“測試集”進行識別以檢驗?zāi)P蜏蚀_率。本文選擇BERT、BiLSTM和BiLSTM+CRF3個模型作為實驗對照組,評價3個模型測試準確度來確定后續(xù)預(yù)測數(shù)據(jù)所使用的模型。
在模型評估部分,運用準確率Precision、召回率Recall和調(diào)和平均數(shù)F1評估模型性能,結(jié)果如圖8所示??傮w來看,BERT模型面對四類實體時識別準確率都較高,因此選擇BERT模型作為預(yù)測剩余內(nèi)容的深度學(xué)習(xí)模型。
綜上,對歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件要素預(yù)測過程如圖9所示,得到預(yù)測的數(shù)據(jù)后還需要對數(shù)據(jù)進行人工校對消歧,如“鄭家屯”是“遼源”的別稱,統(tǒng)一修改為“遼源”。此外,本文時間處理較為獨特,“人民日報(1946-1949)”所記錄時間形式多為“十一日”“三日”等通過漢字的形式表述,需要將識別得到的時間與形成時間進行對比,推理得出準確時間點。例如,原文中描述戰(zhàn)爭事件發(fā)生時間為“十日”,形成時間為1947年1月3日,此戰(zhàn)爭事件發(fā)生時間可推斷為上月十日,即1946年12月10日。3607條戰(zhàn)爭事件最終得到時間實體1049個、人物實體1548個、組織實體3347個、地點實體5804個。
5歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜構(gòu)建
5.1歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜存儲與繪制
本文選用Ne04j圖數(shù)據(jù)庫繪制與展示歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜,將歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識單元規(guī)整于統(tǒng)一的結(jié)構(gòu)框架和關(guān)聯(lián)規(guī)則下,實現(xiàn)大批量領(lǐng)域知識單元基于語義的細粒度組織,并以縱橫交錯、靈活跳轉(zhuǎn)、直觀無遺的網(wǎng)狀圖譜形式呈現(xiàn),貼合用戶復(fù)雜多變的個性化要求。以圖10為例,綠色代表年份節(jié)點,棕色為戰(zhàn)爭事件時間節(jié)點,橙色為戰(zhàn)爭事件節(jié)點,可以通過圖譜直觀便捷地觀察到1946年包含的多個戰(zhàn)爭事件及其時間節(jié)點。
5.2歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜語義查詢
運用Cypher語句實現(xiàn)語義查詢,基于外部特征查詢策略聚焦于歷史報紙數(shù)據(jù)資源的形成者、版號等可觀察的物理特征,進一步揭示歷史報紙數(shù)據(jù)資源所蘊含特定戰(zhàn)爭事件的重要性和視覺呈現(xiàn)方式:基于內(nèi)部特征查詢策略重點挖掘歷史報紙內(nèi)容,包括戰(zhàn)爭事件名稱、參與者、地點等,有益于更深入地理解歷史報紙數(shù)據(jù)資源背后的具體事件和歷史脈絡(luò)。
5.2.1基于歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件外部特征語義查詢
1)基于外部特征版號的查詢。查詢版號與歷史報紙實體可視化結(jié)果如圖11所示,綠色節(jié)點為歷史報紙具體版號,黃色節(jié)點為歷史報紙數(shù)據(jù)資源實體。發(fā)現(xiàn)“人民日報(1946-1949)”對于戰(zhàn)爭事件的報道多出現(xiàn)在第1版,第2版至第4版也均有對戰(zhàn)爭事件記錄的資源實體存在。
查詢版號與實體涉及戰(zhàn)爭事件可視化結(jié)果如圖12所示,橙色節(jié)點為戰(zhàn)爭事件,綠色節(jié)點為歷史報紙具體版號,黃色節(jié)點為歷史報紙數(shù)據(jù)資源實體??梢钥闯?,某天形成的歷史報紙實體可能包含多個關(guān)于戰(zhàn)爭事件的報道,這些報道多出現(xiàn)在歷史報紙的第1版。這可能因為1946-1949年發(fā)行的“人民日報(1946-1949)”多為兩版的形式,經(jīng)過改革才開始出現(xiàn)以每日4版的形式出版,所以第1版出現(xiàn)戰(zhàn)爭事件的報道較為普遍。
2)基于外部特征形成者的查詢。查詢形成者與歷史報紙實體可視化結(jié)果如圖13所示,藍色為歷史報紙形成者節(jié)點,黃色為歷史報紙數(shù)據(jù)資源實體節(jié)點。關(guān)于戰(zhàn)爭事件的歷史報紙形成者主要由兩部分組成,一方是以新華社為代表的形成者,例如“新華社延安”“新華社豫皖蘇”“新華社晉冀魯”等,這些新華社各地分社是關(guān)于戰(zhàn)爭事件記錄最主要的形成者;另一方是“人民日報(1946-1949)”的地方通訊社,例如“本報太岳”“本報太行”等,主要對各地各分區(qū)地方武裝的戰(zhàn)爭事件進行記錄。
查詢形成者與實體涉及戰(zhàn)爭事件可視化結(jié)果如圖14所示,橙色為戰(zhàn)爭事件節(jié)點,藍色為歷史報紙形成者節(jié)點,黃色為歷史報紙數(shù)據(jù)資源實體節(jié)點??梢钥闯觯环輾v史報紙實體會包含多個戰(zhàn)爭事件,一個形成者可能在一份歷史報紙實體中對多起戰(zhàn)爭事件形成記錄。
5.2.2基于歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件內(nèi)部特征語義查詢
1)基于內(nèi)部特征參與者的查詢。“人民日報(1946-1949)”對于解放戰(zhàn)爭時期地方武裝為保護糧食與國民黨反動力量之間的戰(zhàn)爭事件進行了詳細報道,其中“張錫滿戰(zhàn)斗隊”是活躍于介休一帶的模范戰(zhàn)斗隊,其與閻偽軍之間斗智斗勇的光輝事跡被“人民日報(1946-1949)”多次報道,查詢其涉及戰(zhàn)爭事件及發(fā)生時間可視化結(jié)果如圖15所示,粉色節(jié)點代表戰(zhàn)爭事件參與者的組織,棕色節(jié)點為戰(zhàn)爭事件時間,橙色節(jié)點為戰(zhàn)爭事件。圖中心的位置代表戰(zhàn)爭事件參與者。張錫滿戰(zhàn)斗隊”,可以查詢得到與之相關(guān)的“太岳護糧結(jié)合政攻南北各地二十天來殲匪六百2”“介休十區(qū)到處埋雷保衛(wèi)糧食1”“介休民兵戰(zhàn)斗隊殲搶糧蔣軍百余”等11個戰(zhàn)爭事件,通過圖譜可以看到事件發(fā)生的日寸間主要集中在1947年10月和11月。
由于“人民日報(1946-1949)”關(guān)于戰(zhàn)爭事件參與者中人物的報道多為被俘虜?shù)氖Y軍士官,參與戰(zhàn)爭并被俘虜在多數(shù)情況下僅發(fā)生1次,所以本文以解放戰(zhàn)爭日寸期三大戰(zhàn)役之一的“淮海戰(zhàn)役”為例,對其涉及的人物進行查詢,最終查詢?nèi)宋锷婕皯?zhàn)爭事件及發(fā)生時間可視化結(jié)果如圖16所示,紅色節(jié)點代表戰(zhàn)爭事件參與者的人物,棕色節(jié)點為戰(zhàn)爭事件時間,橙色節(jié)點為戰(zhàn)爭事件。查詢得到了“在淮海戰(zhàn)役俘虜中
又查出敵高級軍官二十四名1”“淮海戰(zhàn)役第一階段我軍戰(zhàn)績輝煌
殲敵十七萬八千余繳各種炮千余門克城十八座”兩個戰(zhàn)爭事件,涉及的人物包含“杜聿明”“黃百韜”“陳章”“孫良誠”等51位,涉及多位高級軍官的人物實體,體現(xiàn)出淮海戰(zhàn)役的戰(zhàn)績和重要性。
2)基于內(nèi)部特征地點的查詢?!八钠浇帧辈粌H是一個地理標志,也是東北地區(qū)重要的戰(zhàn)略要地,查詢這一地點涉及戰(zhàn)爭事件及發(fā)生時間可視化結(jié)果如圖17所示,淺棕色節(jié)點代表戰(zhàn)爭事件發(fā)生地點,棕色節(jié)點為戰(zhàn)爭事件時間,橙色節(jié)點為戰(zhàn)爭事件。查詢出的全部戰(zhàn)爭事件均與“四平街”這一地點相連接,時間維度上從1946年跨越到1948年,涵蓋了“東克雙陽西下梨樹
民主聯(lián)軍乘勝打向四平街”“四平街前線連日激戰(zhàn)
國民黨軍枉死千余
以飛機坦克掩護沖鋒均未獲逞”和“四平前線收復(fù)西豐攻克昌圖時我殲敵四千”等15個戰(zhàn)爭事件。直觀清晰地揭示了這一時期內(nèi)“四平街”及其周邊地區(qū)的多個戰(zhàn)爭事件,大多與“四平街”的地理位置、軍事戰(zhàn)略價值緊密相關(guān),其中包括“四平保衛(wèi)戰(zhàn)”和“收復(fù)四平”等重要歷史事件。
綜上,歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜繪制和語義查詢既驗證了本文構(gòu)建本體模型描述的知識框架之可行性和合理性,又實現(xiàn)了領(lǐng)域知識大批量抽取存儲、可視呈現(xiàn)和關(guān)聯(lián)應(yīng)用的落地實踐。以更規(guī)范的結(jié)構(gòu)、更豐富的內(nèi)容、更緊密的連接、更鮮活的展示,使用戶更直觀便捷地查閱和定位目標知識,鏈接相關(guān)知識單元以滿足潛在需求,厘清事件始末和歷史脈絡(luò),輔助人文學(xué)者分析歷史報紙數(shù)據(jù)結(jié)構(gòu)內(nèi)涵,從中總結(jié)規(guī)律特征并挖掘新知識。
6結(jié)語
本文以“人民日報(1946-1949)”戰(zhàn)爭事件為例,構(gòu)建歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件本體,自動抽取戰(zhàn)爭事件及其人物、時間、地點等組成要素,以本體模型為“底圖”、抽取實體為“顏料”、圖數(shù)據(jù)庫為“畫布”,繪制出歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識圖譜并完成語義查詢,將歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識單元以成體系的多層結(jié)構(gòu)、網(wǎng)絡(luò)狀的復(fù)雜勾連、圖譜化的呈現(xiàn)渠道序化組織起來,推動歷史報紙數(shù)據(jù)資源戰(zhàn)爭事件知識單元規(guī)范化描述、語義化關(guān)聯(lián)和精細化服務(wù),且為不同歷史報紙中蘊含的戰(zhàn)爭事件及其他類型事件研究提供借鑒思想、參考模型和建設(shè)方向。未來的研究亦擬從擴展數(shù)據(jù)來源如《申報》《大公報》《解放日報》等報紙資源,以及延展研究對象如政治事件、經(jīng)濟事件、社會事件等方面推進。最終為報紙資源深度開發(fā)、歷史文脈悠久延續(xù)、中華文化歷代傳衍貢獻智慧。