覃 熙,李佳輝,蘇瑞竹
(廣西民族大學 a.圖書館;b.管理學院,廣西 南寧 530006)
數(shù)字人文從最早的“人文計算”產(chǎn)生以來發(fā)展至今,無數(shù)學者對其內涵外延作了研究和論證,業(yè)內統(tǒng)指人文學者運用計算思維,將研究對象通過計算機軟件以可關聯(lián)、可計算和可視化的方式進行知識重構,便于開展統(tǒng)計分析和信息挖掘。研究者通過這種思維方式,發(fā)現(xiàn)人文學科中蘊藏的特征和規(guī)律以及隱藏的新知識,為研究對象的發(fā)展趨勢作出判斷提供依據(jù)。
傳統(tǒng)的人文研究范式是對基礎性材料進行思辨、歸納、解釋的定性分析模式以及線性、深度、細讀的閱讀,“人文計算”將數(shù)理統(tǒng)計的研究方法引入人文領域,對海量的不同文本進行綜合定量分析。而“數(shù)字人文”,在“人文計算”的基礎上,增加包含了信息組織可視化,將信息轉變?yōu)閳D形從而生成二次知識。美國伊利諾伊州立大學教授John Unsworth認為,“數(shù)字人文”是高效計算和人文溝通的一種建模方式,將人文知識的發(fā)現(xiàn)、標注、比較、引用、取樣、詮釋以及呈現(xiàn)等過程都通過計算機技術改變了其模式。作為新興的研究手段,數(shù)字人文被大量運用于歷史、考古、文學等學科領域,將學科知識進行單元細粒度化、語義化,為人們提供了全新的研究視角和工具手段。劉煒等歸納了傳統(tǒng)人文各領域的數(shù)字化特征,將“六經(jīng)”,即《詩經(jīng)》《尚書》《禮》《易》《樂經(jīng)》《春秋》對應當代人文研究體系的“語言學”“政治學”“社會學”“哲學”“藝術”和“史學”,當數(shù)字技術進入這些領域時,學科研究的深度和廣度得到很大拓展。因此數(shù)字人文不僅是一種學科研究范式、一種人文計算的工具集合、一種研究意識共同體,從更簡單的表象上來看,它就是一種知識重構的技術集合。由于其知識的關聯(lián)度大大增加,知識的語義描述擴展為多個維度,從而呈現(xiàn)出更加豐富的表現(xiàn)結構。
數(shù)字人文技術把沒有形體的數(shù)據(jù)、文字、概念和故事變成畫面,通過人類最發(fā)達的視覺系統(tǒng),幫助缺乏數(shù)字直覺的學習者加深理解和體驗,開展數(shù)據(jù)背后意義的抽象思考。目前,學界通過數(shù)字技術進行知識重組的研究日漸豐富,研究者通過文本分析工具研究語言現(xiàn)象和規(guī)律、分析哲學的概念語義,結合多地圖疊加技術展現(xiàn)各種學科知識在時間上的演化過程以及空間分布,挖掘歷史人物的行蹤軌跡和人物關系。我們樂于發(fā)現(xiàn)數(shù)字技術為人文學科帶來的計算結果,如通過武則天稱謂的詞頻變化統(tǒng)計、朝代分布、文獻分布和地理空間聚合分布等多個觀察維度,能夠得出歷史上人們對武則天的客觀評價;通過法律語言學的分析方法鑒別《布谷鳥的呼喚》的真實作者與《哈利·波特》的作者J.K.羅琳是同一人;通過對《左傳》里的事件、人物信息進行結構特征的計量算法,用可視化結果分析《左傳》里的人物在同一事件中出現(xiàn)的概率、人物關系特點以及人物地位表述。多媒體映像技術可對藝術和歷史進行史料的解釋和重建再現(xiàn)。例如,用全息影像展示清明上河圖;利用應用數(shù)據(jù)庫《3D實景莫高窟》展示“數(shù)字敦煌”“虛擬洞窟”等;通過歷史地理信息系統(tǒng),實現(xiàn)古代道路和城市復原以及語言民族變遷調查地圖的形成。數(shù)字技術的魅力不僅可應用在學術上,還可以通過其可視化的知識表現(xiàn)形式應用于政治決策。19世紀,英國護士和統(tǒng)計學家Florence Nightingale,為一些不太能理解傳統(tǒng)統(tǒng)計報表的公務人員制作了一種色彩繽紛的圖表,即歷史上著名的“南丁格爾玫瑰圖”,用以揭示軍醫(yī)院季節(jié)性的死亡率,得到當時的國家政府高層包括軍方人士和維多利亞女王對醫(yī)事改良的支持。
2015年,我國發(fā)布《推動共建絲綢之路經(jīng)濟帶和21世紀海上絲綢之路的愿景與行動》,“一帶一路”正式進入全面實施階段。東南亞航線是“21世紀海上絲綢之路”的第一段,東南亞多國與中國海陸相連。自2003年起,中國與東盟各國建立了和平穩(wěn)定的戰(zhàn)略伙伴關系;2011年,中國—東盟中心正式成立,著力促進中國與東盟各領域合作。從政府到科研機構,從高校到企業(yè),對東盟貿易、投資、教育、文化、旅游、信息媒體等全方位的研究日益深入。各類信息服務機構為東盟的研究開展了大量信息保障工作,目前已有多個東盟信息資源收集整理數(shù)據(jù)平臺并各具特色。
東盟信息資源保障體系的構建,是新時代中國自主創(chuàng)新道路實施創(chuàng)新驅動以及“一帶一路”建設的重要支撐,經(jīng)過多年的探索和實踐,我國構建了多個東盟信息資源保障中心和平臺。例如,中國社會科學院亞太與全球戰(zhàn)略研究院建設的“東南亞研究網(wǎng)”,其中收錄了2008—2016年國內出版的部分東南亞研究學術著作以及各類期刊公開發(fā)表的東南亞研究文獻,同時鏈接了如文萊政策和戰(zhàn)略研究所、老撾國家經(jīng)濟研究中心、緬甸戰(zhàn)略和國際問題研究所、柬埔寨合作與和平研究所、越南中央經(jīng)濟管理研究所、泰國朱拉隆功大學社會研究所、菲律賓發(fā)展研究所、印尼經(jīng)濟研究中心等30多所東南亞研究機構的官網(wǎng)。社會科學文獻出版社構建的“一帶一路”數(shù)據(jù)庫,設置九大功能子庫,從研究、實踐、資訊等方面服務三大主流用戶。廣西社會科學院東南亞研究所、云南社會科學院東南亞研究所、社會科學文獻出版社以及臺灣東南亞學會、臺灣政策研究中心亞太研究小組等,這些學術機構均收藏了大量的東盟文獻信息資源。圍繞“中國—東盟信息港”的建設,多家具備數(shù)字產(chǎn)業(yè)優(yōu)勢的平臺開發(fā)了專門的公司,發(fā)揮大數(shù)據(jù)分析處理的平臺特色帶動了不少數(shù)字經(jīng)濟專項的開發(fā)。此外,還有圍繞大湄公河次區(qū)域經(jīng)濟合作開發(fā)的各類數(shù)據(jù)庫,如中尺度行政區(qū)劃地理信息系統(tǒng)數(shù)據(jù)庫(GMS_AdmBnd)等。國內多所院校以及香港、臺灣地區(qū)的不少大學均設立東南亞研究機構,在東盟文獻信息資源(特別是東盟語種文獻)建設方面也形成了區(qū)域地方特色。此外,我國關于東盟研究的成果豐富,在期刊、會議、報告、報紙、圖書、學位論文以及各類平臺開放。
發(fā)達的互聯(lián)網(wǎng)為我們提供了海量的東盟國家發(fā)展統(tǒng)計數(shù)據(jù)。聯(lián)合國商貿易統(tǒng)計數(shù)據(jù)庫是目前全球數(shù)據(jù)量最多、最權威的國際商品貿易信息資源庫,收集了 6 000 多種商品、近17億個數(shù)據(jù),數(shù)據(jù)最早可回溯至1962年;全球可持續(xù)發(fā)展指標數(shù)據(jù)庫結合全球可持續(xù)發(fā)展峰會確立的17項總目標和169項子目標以及相應的SDG指標數(shù)據(jù)庫,數(shù)據(jù)涵蓋社會、經(jīng)濟、環(huán)境三大領域;服務貿易數(shù)據(jù)庫涵蓋近十多年來200個經(jīng)濟體服務進出口的服務數(shù)量;世界發(fā)展指標數(shù)據(jù)庫包含200多個國家和18個地區(qū)的社會、經(jīng)濟、財政、自然資源和環(huán)境等各方面,共695種發(fā)展指數(shù)的統(tǒng)計數(shù)據(jù);環(huán)境、社會和公司治理數(shù)據(jù)庫將世界各國的溫室氣體排放量、人口變化和男女平等的進展程度等17種指標一元化;全球金融發(fā)展數(shù)據(jù)庫收錄136個國家的外債與金融流程數(shù)據(jù)資料,涵蓋217個參數(shù)的統(tǒng)計數(shù)據(jù);國家統(tǒng)計局也做了六大洲多個國家的統(tǒng)計網(wǎng)站的鏈接,亞洲部分涵蓋29個國家,其中東盟國家有7個,發(fā)布包含GDP、CPI、人口普查、糧食產(chǎn)量等多種統(tǒng)計指標國家數(shù)據(jù)。
探尋東盟國家的文化資源,有些國家電子書資源相對豐富,如泰國的移動電子書網(wǎng)站,印尼的Gramedia的電子書平臺、Wayang Force綜合類書籍與雜志等。一些東盟國家的機構知識庫以及高校的學位論文庫相對健全,如新加坡國立大學學位論文庫、泰國朱拉隆功大學學位論文數(shù)據(jù)庫等。東盟各國及地方政府網(wǎng)站或facebook的官方賬號,地方新聞媒體、綜合門戶網(wǎng)站、社會團體網(wǎng)站、論壇等是當?shù)卣?、?jīng)濟、社會、文化、科技以及政府信息發(fā)布的集中平臺,如越南河內市政府官網(wǎng),泰國馬哈沙拉坎府facebook賬戶,泰國的《民族報》《泰國日報(英文版)》《暹羅日報(泰文版)》、泰聯(lián)網(wǎng)等網(wǎng)站,緬甸的旅游信息網(wǎng)、果敢論壇,新加坡南安藝文社、菲律賓華裔青年聯(lián)合會Kaisa Para Kaunlaraan等。自中國—東盟自由貿易區(qū)成立以來,東南亞國家之間民間的“微”交流愈加頻繁,社交平臺上出現(xiàn)了難以計數(shù)的公眾號,如“泰語泰國”“大緬甸”“緬甸今日”“泰國中文網(wǎng)”“老撾快訊”“醉美緬甸”“泰國妞”等,都屬于實時信息來源。
“十三五”期間,東盟基礎資源的建設在資源深度加工和整合、數(shù)據(jù)庫的建設與組織、保障平臺的建設與維護等方面都加大了創(chuàng)新力度,東盟信息資源保障的能力和水平顯著提升。但隨著數(shù)字人文的興起,研究人員對數(shù)據(jù)有著更豐富和更深層的訴求,而當下,東盟信息資源建設仍然是以數(shù)據(jù)集散建設模式為主,這種傳統(tǒng)知識組織形式下的數(shù)據(jù)材料之間缺乏有意義的關聯(lián),如時序性、地理信息以及其他元素之間的數(shù)據(jù)支持,數(shù)據(jù)粒度大且分散,沒有形成多維度的關聯(lián)組織和精細化的計算分析,使用者只能通過零散的原始數(shù)據(jù)進行孤立分析,難以發(fā)現(xiàn)數(shù)據(jù)所包含的深層問題。目前,東盟信息資源建設取得的成就只是一種建設式的改變,而不是重構式的改革。面對復雜變幻的信息技術環(huán)境和日益增長的用戶信息需求,東盟信息資源供給不平衡、不充分,信息資源組織方式單一,個性化和集成化服務程度不高,信息資源開發(fā)利用不足與無序濫用的現(xiàn)象亟待改善。
隨著國際競爭局勢的加劇,國內對東盟國家發(fā)展的研究需求提高,數(shù)字人文技術的出現(xiàn)帶來了全新信息環(huán)境的形成以及科學研究范式的轉變,也為東盟信息資源保障體系帶來了改革契機,東盟信息資源的組織方式和保障機制都有待重新界定和設計。數(shù)字人文技術的出現(xiàn)促進了科技手段與傳統(tǒng)人文學科的融合,也引發(fā)了信息資源保障體系建設利用思路的轉變,“十四五”發(fā)展規(guī)劃對我國數(shù)字資源保障建設提出新的戰(zhàn)略要求,東盟信息資源重組的發(fā)展方向是知識關聯(lián)、定量分析和深度挖掘。我們有必要研究如何擴充信息的知識表達,把異形數(shù)據(jù)、大顆粒度的信息進行內容關聯(lián)和聚集,建立東盟數(shù)字資源服務堆棧,實現(xiàn)東盟信息資源的存儲、重構、挖掘和知識發(fā)現(xiàn),以滿足信息價值深度挖掘和再創(chuàng)造的用戶需求作為出發(fā)點和歸宿,支撐我國“一帶一路”信息資源保障任務順利推進。
利用數(shù)字分析技術對東盟信息資源進行組織和重構,需要搭建一個以用戶響應機制為出發(fā)點的集數(shù)據(jù)抓取處理、資源語義重構性描述、認知計算功能三位一體的數(shù)字資源堆棧,包含數(shù)據(jù)棧、語義棧、用戶棧,每一層面都運用下一層的能力,我們討論信息從堆棧底層向上直至用戶需求響應的實現(xiàn)理念,提出數(shù)字人文堆棧平臺的思路。平臺設計采用Python編程技術結合Hadoop架構作為基礎,對數(shù)據(jù)流進行控制和可視化展示,以實現(xiàn)數(shù)字人文堆棧模型(見圖1)和數(shù)字人文平臺架構體系(見圖2)。
圖1 數(shù)字人文堆棧模型
圖2 數(shù)字人文分析平臺架構體系
數(shù)據(jù)的處理是資源堆棧搭建的重要根基。以定量二維表格式為代表的結構化數(shù)據(jù),儲存于關系型數(shù)據(jù)庫當中,這類數(shù)據(jù)的存、取、用技術成熟。常規(guī)做法是利用DBMS驅動對結構數(shù)據(jù)源進行ETL操作(提取、轉換、載入)。這部分數(shù)據(jù)較為規(guī)范,可使用Sqoop工具,根據(jù)中介數(shù)據(jù)結構在數(shù)據(jù)源采集數(shù)據(jù)時確保數(shù)據(jù)類型得到準確處理,形成格式統(tǒng)一且能夠直接利用的元數(shù)據(jù),存儲在Hbase元數(shù)據(jù)庫當中。
而文本、影音、短視頻等無法使用數(shù)據(jù)二元結構邏輯表現(xiàn)對信息進行表示的這類數(shù)據(jù)可歸納為非結構化和半結構化形式數(shù)據(jù)。例如,東盟各國語種媒體資料這類非結構化數(shù)據(jù),則專門需要通過NLP(自然語言處理)技術,識別文本中的關鍵信息元。使用Avro工具對這部分信息元進行JSON字符串或二進制編碼進序列化處理,將提取的元數(shù)據(jù)保存在Hive數(shù)據(jù)庫當中。
非結構化的數(shù)據(jù),沒有嚴格的格式限定,對信息在堆棧當中的描述是有利的,信息可以在堆棧當中自由流入以及更新。利用自然手段對非結構化數(shù)據(jù)有針對性地挖掘,根據(jù)用戶自建模式來檢索信息。非結構化數(shù)據(jù)不再是信息資源的附加描述,當中也包含著豐富的可關聯(lián)、可統(tǒng)計、可視化資源,能夠對數(shù)據(jù)進行多維度描述。
信息在數(shù)字系統(tǒng)中是數(shù)據(jù)結構和控制結構的組合,堆棧建設信息元的存儲和利用需要深度清洗、轉換、重排、載入等操作,以滿足信息的準確重組和推理。用戶可提取Hbase中的數(shù)據(jù)進行深度清洗,再將元數(shù)據(jù)載入Hive數(shù)據(jù)庫當中,用于信息統(tǒng)計業(yè)務。數(shù)據(jù)集的錯誤需要在被采集時進行了糾正和重塑,Hbase中的元數(shù)據(jù)主要是滿足信息實時業(yè)務的利用。
信息推理是語義棧的重要職能,海量數(shù)據(jù)集在這里進行算法學習,得到目標數(shù)據(jù)在特定領域里的訓練模型,實現(xiàn)信息推理。TensorFlow作為深度學習的框架,除了能夠提供各類預測算法,還提供了強化學習的算法。強化學習算法能夠讓具有決策能力的智能實體,通過感應外界環(huán)境的變化而激發(fā)自身作出決策。當前,自然語言處理技術也得到深度學習助力,解決了語義匹配當中語義相似度的問題。
選擇和利用好適當?shù)墓ぞ呖梢蕴岣邤?shù)據(jù)載入的工作效率,節(jié)約數(shù)據(jù)準備時間,有利于數(shù)據(jù)有效進入用戶響應環(huán)節(jié)。
用戶棧的建設前提是要做好用戶對東盟信息資源重構的需求預判。東盟信息不僅是資源集散地,更是為國家戰(zhàn)略提供智力支持的重要材料。信息的重構并不是將原有的數(shù)據(jù)消除或是新建,而是當源數(shù)據(jù)集的表現(xiàn)方式不能滿足用戶需求時,用戶棧需要將數(shù)據(jù)分析形成二次信息元數(shù)據(jù)自行重組利用,實現(xiàn)系統(tǒng)人機交互。數(shù)據(jù)集內的數(shù)據(jù)意義在堆棧當中是可以進行重復利用的,并且可以隨用戶使用不斷完善和擴充,形成優(yōu)質的數(shù)據(jù)集。
信息重構的重點,不僅有數(shù)據(jù)處理技術,還有用戶響應機制。用戶是知識的開發(fā)者,他們通過文本和時空數(shù)據(jù)集成,用專業(yè)的研究方式進行知識發(fā)現(xiàn),形成新的知識組織形式。便于用戶易懂易用的圖形化展示工具可呈現(xiàn)數(shù)據(jù)之間的關聯(lián)和規(guī)律,讓抽象的信息具體化,有助于研究者發(fā)現(xiàn)信息包含的知識,展示高質量的數(shù)據(jù)內容可提升信息交互的高率性、可靠性、專業(yè)性。在Python編程框架對數(shù)據(jù)的可視化提供豐富的工具支持,使用Matplotlib繪圖庫,能夠輕松繪制多種類型的二維圖表,也可利用mpl_toolkits.mplot3d工具庫實現(xiàn)三維圖表繪制。在Superset平臺可以使用SQL語句連接數(shù)據(jù)庫對大型數(shù)據(jù)實時展示提供快速切片,構建合理的儀表盤。
東盟數(shù)字資源堆棧搭建成型后,用戶進入資源平臺,面對的既是已經(jīng)組織成型的數(shù)據(jù)結構,也是一個多維度人機交互使用的信息系統(tǒng)。在這里,用戶不僅是數(shù)據(jù)獲取方,更是二次知識的開發(fā)者,數(shù)據(jù)以各類知識元形式排列,由用戶進行重組重構,發(fā)現(xiàn)新的知識和規(guī)律,并上傳平臺進行二次知識共享。
用戶根據(jù)需求,自行圍繞東盟十國信息資源形成主題建制,數(shù)據(jù)棧已經(jīng)圍繞年份、國家、領域等時間、空間、發(fā)展維度描述進行變量編碼,并提供開放式結構便于用戶進行數(shù)據(jù)統(tǒng)計以及相關性分析。例如,關聯(lián)性分析、數(shù)據(jù)過濾、矩陣散點、用戶畫像、三維聚類、特征篩選、回歸分析、帕累托圖等分析可視化,協(xié)助用戶全面觀察研究領域的歷史數(shù)據(jù)。數(shù)據(jù)棧提供的算法可以計算東盟各國之間的差距與關系,深層次挖掘東盟各國的發(fā)展與變遷,同時對信息的來源、行業(yè)領域、數(shù)據(jù)特征等多種維度進行關聯(lián),利用趨勢推理技術發(fā)現(xiàn)不同維度數(shù)據(jù)之間包含的關系。例如,東盟十國的GDP以及相關商貿、航運等行業(yè)的發(fā)展指數(shù),與人口總數(shù)、就業(yè)失業(yè)人數(shù)共18個字段的數(shù)據(jù)資源進行交叉融合,以三維聚類散點圖方式進行組織重構,得到東盟十國經(jīng)貿人口發(fā)展概況的對比散點圖,能夠實現(xiàn)1個界面18個維度的東盟各國綜合指數(shù)分析(見圖3)。
圖3 東盟十國經(jīng)貿人口數(shù)據(jù)交叉重組和三維聚類分析
東盟數(shù)字資源堆棧能夠滿足用戶對文本的粒度化知識分析,提供文本資源全文閱覽和統(tǒng)計分析的功能。堆棧具備的提煉關鍵詞、過濾降噪、分詞、詞性分析、專有名詞識別、知識圖譜、情感分析、自動摘要、主題識別、生成故事流等知識重組技術,可提供知識圖譜服務。以“越南自衛(wèi)反擊戰(zhàn)”詞云圖為例,不同的字體大小和位置展示了其關鍵詞和高頻詞(見圖4)。又如,用戶在某國皇室人物及關系地位進行文本研究時被冗長的人名和復雜的地位關系所困擾,專有名詞識別技術可以將文本導出形成人物關系知識圖譜,以此節(jié)約用戶的理解耗時。
圖4 “越南自衛(wèi)反擊戰(zhàn)”詞云圖
具備地理空間觀察視角的用戶可以通過研究數(shù)據(jù)在地圖上進行分布、組合與變遷動態(tài)的重構,能夠通過從空間上反映出的東盟各國經(jīng)濟、文化、社會發(fā)展和變遷,推斷其在歷史上的文化流變與經(jīng)濟發(fā)展的關系。東盟數(shù)字資源堆棧儲存了東盟各國主要城市的人口、經(jīng)濟發(fā)展指標、文化建設、疫情概況等數(shù)據(jù)資源,用戶可以利用地區(qū)分布圖、地圖散點圖、連接地圖和三維地區(qū)柱狀圖等知識組織工具自行進行觀測。例如,用戶想了解東盟十國和周邊重要國家人口增長率可利用地球儀進行呈現(xiàn),因為其視覺效果具有較好的對比性和直觀性(見圖5)。
圖5 國家人口增長率地理時空數(shù)據(jù)圖
東盟數(shù)字資源堆棧預判用戶應用需求,將數(shù)據(jù)的時間屬性進行存儲組合設計。用戶可以利用時序散點圖、極坐標圖、熱力圖、動態(tài)圖、周期圖、多系列三維柱狀圖、不同顏色形狀結合觀測的主題河流圖、自變量與因變量的回歸分析、基于數(shù)據(jù)算法的預測分析、跨庫數(shù)據(jù)的關聯(lián)融合等工具進行時序觀察,觀測數(shù)據(jù)對象包含的規(guī)律、趨勢等信息,如東盟國家二氧化碳排放量對比即是如此(見圖6)。
圖6 東盟國家二氧化碳排放量前五名對比圖
東盟數(shù)字資源堆棧具備的異構數(shù)據(jù)和多源數(shù)據(jù)的融合、計算、推理和可視化功能,可滿足用戶以下兩種需求:一是用戶對不同維度的聯(lián)合觀測需求。這需要更大的數(shù)據(jù)量以及不同屬性的碎片化數(shù)據(jù)重新進行有效組合,形成多維關聯(lián)的綜合知識圖譜或者實時數(shù)據(jù)觀測系統(tǒng)。例如,用戶在追蹤特定事件進展時,往往要對網(wǎng)頁、微信、社交平臺、手機應用、論壇、報刊、視頻、問答、評論、廣播電視等媒體進行碎片數(shù)據(jù)結構轉換以及多源融合,并實現(xiàn)時間范圍、媒體類型、情感屬性、媒體類別、發(fā)布地區(qū)、精準度、信源等信息類別的自定義動態(tài)追蹤,形成個性定制的可視化觀測界面以及多維度動態(tài)信息語義分析。例如,“東南亞貿易”的多平臺信息發(fā)布實時統(tǒng)計及資源統(tǒng)一入口(見圖7),用戶可以點擊地圖中高亮城市呈現(xiàn)對應地區(qū)、數(shù)據(jù)源的資源全文,在界面上對系統(tǒng)數(shù)據(jù)進行糾錯降噪處理。
圖7 “東南亞貿易”的多平臺信息發(fā)布實時
二是影響因子分析。用戶對研究對象進行多種維度跨庫綜合分析,以發(fā)現(xiàn)外在因素對研究事物發(fā)展的內在影響。例如,新冠肺炎疫情與經(jīng)濟研究數(shù)據(jù)的多源融合(見圖8),研究對象是新冠肺炎疫情對經(jīng)濟的影響,用戶可自行組織疫情基本信息、人口流動信息、經(jīng)濟影響信息3套基礎數(shù)據(jù),重構新冠肺炎疫情與經(jīng)濟研究數(shù)據(jù)庫:1)疫情基本信息從每日疫情動態(tài)、疫情防控財政專項撥款情況、確診病例分布、確診病例活動軌跡、醫(yī)療救治數(shù)量統(tǒng)計等數(shù)據(jù)反映;2)人口流動信息包括各省份及城市的遷入遷出人口數(shù)據(jù);3)經(jīng)濟影響信息由單月主要經(jīng)濟數(shù)據(jù)環(huán)比表、單月國內GDP、單月宏觀經(jīng)濟數(shù)據(jù)等數(shù)據(jù)組成。在這個研究數(shù)據(jù)的提供過程中,用戶需具備跨庫數(shù)據(jù)多維關聯(lián)的組織思路,同樣的數(shù)據(jù)重組原理還可以運用于研究特定事件趨勢及傳播路徑等領域。
圖8 新冠肺炎疫情與經(jīng)濟研究數(shù)據(jù)的多源融合組織思路
基于在東盟信息資源重構工作中面臨的實際問題和挑戰(zhàn),建設完善的東盟信息資源服務保障體系,可從以下幾個方面展開。
研究單位和高校等信息服務機構提供的東盟文獻信息資源需強調特色,避免重復建設,不僅為實現(xiàn)自身的獨特服務優(yōu)勢,還有助于為后期的建設方向制訂發(fā)展方針。東盟信息資源的組織與利用目前處于供需不平衡的階段,資源組織單位之間要協(xié)同創(chuàng)新,建立穩(wěn)定共贏的合作關系。組建跨學科、跨領域的研究團隊,提升東盟信息資源的整合能力,建設以科研單位、高校圖書館為依托的東盟信息服務保障平臺,形成統(tǒng)一發(fā)布數(shù)據(jù)組織成果的機制,為東盟研究和國家重大戰(zhàn)略提供理性思考和精準服務。
提升資源組織單位以及研究者的數(shù)據(jù)思維和數(shù)據(jù)分析處理能力。習近平總書記在主持國家大數(shù)據(jù)戰(zhàn)略第二次集體學習中強調,“善于獲取數(shù)據(jù)、分析數(shù)據(jù)、運用數(shù)據(jù),是領導干部做好工作的基本功”。信息資源的組織提供者以及研究用戶,對數(shù)據(jù)分析運用的思維能力決定了數(shù)字人文技術在其研究領域的發(fā)揮能力,因此,數(shù)據(jù)思維和數(shù)字人文研究范式的推廣應加入信息素養(yǎng)培訓體系課程中。同時,資源組織單位各行其政的現(xiàn)狀亟須改善,提高數(shù)字融合意識,積極搭建交流平臺,擴寬溝通渠道,從資源內容和數(shù)據(jù)結構上加強統(tǒng)一融合,為后期數(shù)據(jù)清洗提供良好的數(shù)據(jù)環(huán)境和基礎。
信息資源最終是服務社會。2021年4月,《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》在“十三五”規(guī)劃的基礎上再次強調“加強公共數(shù)據(jù)開放共享”;而在“提高數(shù)字化政務服務效能”方面則提到要“加快構建數(shù)字技術輔助政府決策機制”,這是大數(shù)據(jù)在推進政府治理能力提升方面的重要作用。因此,東盟信息資源建設平臺應貫徹應用導向機制,預判與完善用戶的多元需求,增強人機交互與用戶二次開發(fā)效能,形成更為專業(yè)的知識組織形式,為東盟信息資源組織平臺的發(fā)展和完善提供決策參考。
本文將數(shù)字人文技術運用于東盟信息資源組織應用中。主要闡述:1)提供東盟信息資源數(shù)字人文堆棧搭建的思路,提出數(shù)據(jù)提供、語義聚合以及用戶服務三個層級;2)介紹部分東盟信息資源數(shù)據(jù)的獲取渠道以及數(shù)據(jù)處理經(jīng)驗;3)提出用戶如何利用數(shù)據(jù)統(tǒng)計、文本分析、地理空間信息揭示、時序分析等可視化技術對信息資源進行重構的方法;4)為東盟信息資源服務保障體系提出建設性建議。
然而,數(shù)字人文技術在東盟信息服務中的應用并非簡單的技術問題,它與東盟信息保障機構的組織架構、研發(fā)團隊的技術水平息息相關,這其中,哪些領域的信息資源更適合利用數(shù)字人文技術進行深度開發(fā),也是我們今后進行進一步研究的方向。