陸志瓊
(廣西民族大學管理學院,廣西 南寧 530006)
隨著中國“一帶一路”倡議的提出,沿線東盟國家間的合作持續(xù)擴大,各國間的優(yōu)勢互補,為彼此在“互聯(lián)網(wǎng)+”的時代發(fā)展中創(chuàng)造了新的機遇,帶來了切實的紅利。東盟從古至今一直是中國天然且重要的合作伙伴,位于“海上絲綢之路”的關(guān)鍵地帶,與中國有親近的血緣、關(guān)聯(lián)的商緣、互通的人文和融合的利益。近幾年,國家陸續(xù)出臺了一系列中國與東盟的合作機制與方案,如“打造中國—東盟自由貿(mào)易區(qū)升級版”“瀾湄合作機制”等,在平等的文化認同框架下談合作,吸引外資共建互利多元的跨境貿(mào)易,共創(chuàng)包容創(chuàng)新的人文科技新局面,極大地促進了中國與東盟十國多邊關(guān)系的全面發(fā)展。隨著國家“一帶一路”倡議的繼續(xù)推進,對東盟信息的需求也越來越高,只有更及時、全面、優(yōu)質(zhì)的東盟信息才能更好地服務于國家“一帶一路”倡議的需要。
“一帶一路”是綜合性的國家級頂層合作倡議,持續(xù)時間長,隨著國家層面經(jīng)貿(mào)對話的深入和國際市場環(huán)境的變化,東盟各國間的交流必將會遇到諸多不可預見且不確定的因素,使各國對東盟經(jīng)濟、國防、外交、貿(mào)易、科技、產(chǎn)業(yè)發(fā)展等信息需求持續(xù)急劇增長,為東盟區(qū)域信息資源的深入研究提供了新的動力。開發(fā)利用信息資源,是我國信息化發(fā)展的戰(zhàn)略重點之一。建設系統(tǒng)化、網(wǎng)絡化、數(shù)字化的東盟信息資源保障體系是落實我國“科教興國”和“可持續(xù)發(fā)展”兩大國家戰(zhàn)略的需要。同時,東盟信息資源是中國與東盟國家開展文化交流的物質(zhì)基礎,在維護民族文化多樣性、保護世界文化遺產(chǎn)等方面也有重大意義。
在“一帶一路”與中國—東盟自由貿(mào)易區(qū)建設的新時期,東盟貿(mào)易的發(fā)展、經(jīng)濟的繁榮、文化的交流,需要大量全面且優(yōu)質(zhì)的東盟信息作支撐,需要構(gòu)建符合新時期要求的信息流,這些勢必對我國圖書館東盟信息資源的開發(fā)與利用提出了更高的要求。隨著信息資源不斷增多,用戶如何在海量的東盟資源中快速準確地獲取優(yōu)質(zhì)信息,如何在相對分散的東盟信息獲取渠道里集中進行有效查詢,能否對用戶查詢的結(jié)果直接提供數(shù)據(jù)分析并呈現(xiàn)可視化結(jié)論,這些問題的解決應在大數(shù)據(jù)技術(shù)日益成熟的背景下,深度開發(fā)、利用網(wǎng)絡信息資源,使網(wǎng)絡信息資源服務于網(wǎng)絡協(xié)同創(chuàng)新,從而促進知識創(chuàng)新和技術(shù)創(chuàng)新。作為國家重要的信息服務組成部分,圖書館要與時俱進,在與東盟各國的開放合作中,積極調(diào)整館藏結(jié)構(gòu),科學地建設東盟信息的系統(tǒng)數(shù)據(jù)平臺,提升圖書館東盟信息資源的利用率,為用戶提供易獲取的高價值信息資源及東盟相關(guān)的知識服務和戰(zhàn)略決策咨詢,服務好中國與東盟的經(jīng)濟文化建設。
目前,我國一些科研機構(gòu)已經(jīng)建立相關(guān)的研究中心,如廣西社科院東南亞研究所、廣西民族大學東盟學院、廣西大學“一帶一路”(中國—東盟)大數(shù)據(jù)研究院、暨南大學東南亞研究中心、廈門大學東南亞研究中心等。這些科研機構(gòu)從政治、經(jīng)濟、文化等方面提供東盟數(shù)據(jù)資料和輿情追蹤,為政府決策、企業(yè)投資提供決策參考。此外,許多毗鄰東盟的公共圖書館,如廣西壯族自治區(qū)圖書館、云南省圖書館,也充分發(fā)揮區(qū)位優(yōu)勢,開辟專門的東盟文獻書庫。高校圖書館通過共建共享,擴充自身的東盟信息資源,為本校師生的學習和研究提供強有力的支持。例如,廣西民族大學圖書館的東盟文獻信息中心,收藏了包括來自越南、老撾、柬埔寨等多個東盟國家的原版圖書 20 000 余冊,其詩琳通公主泰文資料中心、越南語文獻信息中心等多個東盟文獻信息中心構(gòu)建了完整的東盟文獻體系,在全國范圍內(nèi)具有較高的影響力。雖然東盟信息資源建設已初具規(guī)模,但建設的過程中也存在不少問題。
現(xiàn)有東盟信息資源的開發(fā)程度相對不高,相關(guān)書目、摘要、全文、專題數(shù)據(jù)庫等信息產(chǎn)品不足。已有的東盟信息資源持續(xù)更新需要資金投入,且編目信息錄入由專業(yè)人員著錄,需要一定的周期,這在很大程度上拖慢了東盟信息更新的速度。近幾年,各類大數(shù)據(jù)平臺提供了非常豐富的東盟信息資源,海量的網(wǎng)絡信息以極快的速度進行更新,雖然這些網(wǎng)絡資源多數(shù)是免費的,但信息種類繁雜、內(nèi)容凌亂、連貫性較差,給圖書館的東盟資源建設帶來了不小困難,影響了東盟資源建設的質(zhì)量與效果。
現(xiàn)有的東盟信息資源以紙質(zhì)文獻居多,電子文獻少,且對資源宣傳推廣不夠,很多資源處于“養(yǎng)在深閨人未識”的狀態(tài),未能體現(xiàn)資源應有的價值。數(shù)量龐大的網(wǎng)絡信息資源雖然已有部分納入東盟資源框架,但數(shù)據(jù)采集、篩選、有序化加工不足,網(wǎng)絡信息資源檢索結(jié)果重復、低質(zhì),特別是國外免費開放存取的網(wǎng)絡資源,其檢索、整合、開發(fā)和利用水平較低,資源建設忽略了資源挖掘和分析,知識關(guān)聯(lián)無法揭示,資源粒度粗、質(zhì)量不高,不利于用戶對東盟信息資源檢索和利用。
目前,東盟信息資源的種類有限,大多為書籍或連續(xù)出版物構(gòu)成,時效性及信息種類難以滿足需求。而網(wǎng)絡信息資源是可變動、可增長、可持續(xù)發(fā)展的資源,對于海量劇增、實時變更的東盟網(wǎng)絡信息資源,缺乏更智能的網(wǎng)絡信息采集、數(shù)據(jù)挖掘系統(tǒng)與提供數(shù)據(jù)支撐和平臺保障,將分散的網(wǎng)絡數(shù)據(jù)資源進行重組、提取、重構(gòu)、整合,科學地建設東盟信息資源,為讀者用戶提供便捷高效的“一站式”資源檢索、發(fā)現(xiàn)和分析服務,從而有效提升東盟信息資源的利用價值,使東盟信息資源建設走上可持續(xù)發(fā)展道路。
一方面,對東盟信息資源的開發(fā)長期以來多是依靠人工進行辨識、提取,資源利用率較低,更新緩慢,資源間缺少使用關(guān)聯(lián),用戶難以實現(xiàn)便捷高效的查詢,且國內(nèi)與東盟國家有關(guān)的原版信息資源缺乏,在文本挖掘、材料利用上缺少有效手段;另一方面,在研究對東盟國家的輿情監(jiān)控方面缺乏有效工具,無法對與我國相關(guān)以及各國動態(tài)進行聚焦和及時獲取。在東盟前沿研究等方面一直沒能取得突破,沒有形成有效信息挖掘與情報分析的支撐能力,從而無法推動東盟信息研究工作的發(fā)展與進步。因此,在新時期“一帶一路”倡議的需求下,建立東盟信息資源開發(fā)與利用平臺是解決這些問題的關(guān)鍵。
東盟信息資源開發(fā)與利用平臺,是一個集東盟文獻信息存儲、資源采集、查詢利用、輿情研究服務于一體的東盟信息與數(shù)據(jù)綜合管理平臺,它由4個子平臺系統(tǒng)組成(見圖1)。
圖1 東盟信息資源開發(fā)與利用平臺的整體構(gòu)架
整個平臺以智能搜索引擎系統(tǒng)為基件,把用戶的查詢請求先分解成對應不同數(shù)據(jù)子系統(tǒng)的獨立訪問請求,再通過數(shù)據(jù)訪問接口實時訪問平臺數(shù)據(jù),最后將整合后得到的結(jié)果返回給用戶。針對館內(nèi)資源數(shù)據(jù)或指定的網(wǎng)站,從平臺發(fā)布統(tǒng)一的檢索要求,將檢索采集的要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達式,發(fā)到局域網(wǎng)和廣域網(wǎng)上,通過去重和排序等操作對得到的檢索結(jié)果進行整合之后,再即時返回呈現(xiàn)給用戶,同時,將檢索結(jié)果歸入關(guān)鍵詞組所屬分類,為用戶提供東盟信息一站式查詢與發(fā)現(xiàn)服務。
第一部分的主要資源為原有的東盟數(shù)字化館藏。印刷型的東盟文獻引進時都通過了嚴格審查,將原有印刷型東盟文獻信息進行內(nèi)容采集,采用OCR識別,修改文本、合并圖像、著錄字段、標引分類等方式,把原有印刷型的東盟館藏文獻轉(zhuǎn)化成數(shù)字文獻,通過東盟文獻管理平臺,提供給用戶檢索使用,提升原有資源的利用率。
第二部分的信息資源來自購買的東盟外文數(shù)據(jù)庫。引進購買的在線東盟數(shù)據(jù)庫的文獻,雖然信息量比較大、更新速度也快,但費用相對較高。可將選擇性購買的東盟數(shù)據(jù)庫作為平臺資源的補充。
第三部分為圖書館內(nèi)自建的東盟特色文獻數(shù)據(jù)庫。選派圖書館內(nèi)的專業(yè)工作人員對東盟文獻進行整理、歸納、總結(jié),提供二次、三次文獻,將圖書館已有的東盟資源充分利用,發(fā)揮其更大的效益。
在如今的大數(shù)據(jù)時代,許多書刊、報紙都發(fā)布了電子版,會議材料、各種政策法規(guī)和規(guī)章制度都能在互聯(lián)網(wǎng)上方便地查找獲取,政府、企業(yè)、公司、科研院所的許多數(shù)據(jù)提供了免費的網(wǎng)絡共享,門戶網(wǎng)站上的東盟信息實時更新且質(zhì)量高,但信息缺乏連貫性和系統(tǒng)性。開發(fā)東盟網(wǎng)絡信息資源與數(shù)據(jù)挖掘系統(tǒng),可以進行智能化網(wǎng)絡信息采集,通過專業(yè)工作人員對采集到的東盟資源進行評價、過濾、著錄、標引、入庫、發(fā)布,最后添加到圖書館內(nèi)自建的東盟數(shù)據(jù)庫中,使整個東盟信息資源建設呈現(xiàn)可持續(xù)的及時更新與不斷充實的狀態(tài)。
不知道過了多久,步凡暈暈乎乎睜開了眼,此時周圍一片漆黑。他好不容易扶著墻撐起身體,費力地站了起來,然后用力晃了晃腦袋,想將那種眩暈的感覺甩出去。還好,又過了幾秒鐘,他終于清醒了,從衣兜里掏出手機,想撥打求助電話。然而,屋漏偏逢連夜雨,手機液晶屏幕的光芒只亮起了短短一瞬,就又徹底陷入了黑暗之中。該死的,手機沒有電,自動關(guān)機了!
下面重點介紹東盟網(wǎng)絡信息資源與數(shù)據(jù)挖掘系統(tǒng)的設計過程。
4.3.1 系統(tǒng)的框架結(jié)構(gòu)圖(見圖2)。
圖2 東盟網(wǎng)絡信息資源與數(shù)據(jù)挖掘系統(tǒng)框架
4.3.2 前臺系統(tǒng)的主要功能與模塊設計。
(1)東盟網(wǎng)絡資源庫模塊
此模塊主要對具有國際影響力的東盟網(wǎng)站進行信息采集,如東盟國家權(quán)威報紙及主流論壇,以關(guān)鍵詞為導向,定向搜集網(wǎng)絡中熱點或即時的新聞媒體、社會聚焦、生活資訊等信息??紤]到系統(tǒng)運行的可行與實用性,事先指定采集網(wǎng)站數(shù)量在一百以內(nèi)。由于各網(wǎng)站有其相應的規(guī)則及保護措施,隨著時間發(fā)展其對新技術(shù)的使用或者保護規(guī)則的變化,為保證采集的有效性,該模塊需要隨時進行技術(shù)上的更新。通過持續(xù)抓取特定網(wǎng)站中關(guān)于東盟的信息,不斷更新建設東盟主題的專題庫。
(2)東盟主題信息庫模塊
此模塊以主題詞為導向,把針對某一主題的相關(guān)類別信息集成到一起。通過設置不同的URL過濾策略,使其能夠檢索盡量少的網(wǎng)絡空間,在相對較短的時間內(nèi)采集到更多與主題相關(guān)的網(wǎng)頁。側(cè)重于追蹤與分析東盟權(quán)威報紙全文庫的國內(nèi)主流媒體熱門話題,對其國內(nèi)互聯(lián)網(wǎng)上公眾的言論和觀點進行判斷和預測,資源庫和主題信息庫都設置有輿情聚焦的欄目。選取最新、最熱的輿情專題在前臺顯示,每個輿情專題的顯示頁,會默認顯示出該專題下被聚類的所有輿情,用戶可選擇時間段進行查詢,采用Google翻譯內(nèi)嵌的方式將原文標題翻譯成中文,并生成相應的輿情分析圖。分析圖有3種類型:該專題信息總量時間流量圖、信息總量媒體分布圖(見圖3)和該專題言論屬性分布圖(見圖4)。言論屬性的輿情判斷默認為中性。其正負面的判斷是由人工提前所設定的正面詞、負面詞的情況來判定。
圖3 信息總量媒體分布
圖4 專題言論屬性分布圖
(3)語料庫模塊圖
(4)檢索模塊
整合并共享已有的紙質(zhì)文獻、東盟數(shù)字資源及網(wǎng)絡采集的東盟信息資源,實現(xiàn)數(shù)字化東盟信息資源的一站式檢索。有一般檢索和高級檢索兩種信息檢索方式,對檢索結(jié)果還可以進行條件排序和二次檢索。檢索結(jié)果從語種、國別、分類及時間等角度實現(xiàn)分面展示。對結(jié)果為采集的網(wǎng)絡資源實現(xiàn)全文瀏覽,對已建紙質(zhì)文獻、東盟數(shù)字資源則實現(xiàn)全文定位跳轉(zhuǎn)。
4.3.3 后臺系統(tǒng)主要功能與模塊設計。
(1)采集管理模塊
設置了兩種采集方式,一是定向關(guān)鍵詞采集:先進行分類設置,再設定檢索策略。在分類設置中設定關(guān)鍵詞組作為采集導向,對定向網(wǎng)站按照關(guān)鍵詞中標采集。二是全站掃描采集:由用戶設定所針對的定向網(wǎng)站各欄目的分類,或?qū)谀恐赶虻接脩粢言O定好的專題分類中。對設置的網(wǎng)站列表文章全部收錄,不跟關(guān)鍵詞進行匹配。
具有采集分類管理功能,向指定采集的網(wǎng)站或者電子報紙媒體或者用戶自定義命名的專題分類進行管理。對采集命中的文本數(shù)據(jù),按照分類保存到數(shù)據(jù)庫中,而包含過濾詞的內(nèi)容都不會被采集入庫。
(2)內(nèi)容管理模塊
對采集回來的內(nèi)容進行入庫管理。以列表形式進行展現(xiàn),可按照標題、正文、分類、時間進行組合檢索??蓪⒛硞€時間段的入庫信息編目導出。非平臺用戶,可在前臺留言索取需要的信息資源,管理員在此模塊可看到索取信息的正文,并進行資源索取回復、提供、管理等操作。
(3)輿情聚焦管理模塊
首先,對系統(tǒng)中所有采集的內(nèi)容計算出熱詞,作為新聞熱點分析和預測的依據(jù)。熱詞不同于關(guān)鍵詞,可能是名詞也可能是不規(guī)則用詞,因此,在熱詞的發(fā)現(xiàn)過程中可能會出現(xiàn)常用詞的誤中,這就需要人工添加來屏蔽掉,從而在長期使用中不斷提高預測的準確率。其次,按設定的時間范圍進行熱點話題的分析,主要分析東盟媒體及網(wǎng)民對本國及對中國的政治、經(jīng)濟、社會關(guān)注的話題。對采集的東盟權(quán)威報紙全文及論壇信息進行時間設定范圍內(nèi)的熱點話題分析,并可按政治、經(jīng)濟、社會等分類分析,形成話題聚類及主題河,列出相關(guān)度高的新聞或帖子標題及全文鏈接,根據(jù)輿情信息情況轉(zhuǎn)成可視化的分析圖表。
存儲與科研院所等單位合作共建的全方位的東盟基礎數(shù)據(jù),如政治與外交局勢,兩國、多國沖突,合作情況數(shù)據(jù);全球經(jīng)濟的GDP數(shù)據(jù),貿(mào)易,投資等;各國軍事支出,武器裝備等;東盟中文量化數(shù)據(jù);東盟各國的文化異常,諾貝爾獎獲得情況,教育情況,失學率等。組織人員,對標準原文進行翻譯,形成能為讀者直接利用的二次文獻,為中國—東盟雙邊貿(mào)易往來及科技發(fā)展提供智力參考。
有管理員設置、用戶注冊及完整全文瀏覽授權(quán)等管理功能。為東盟信息資源開發(fā)與利用平臺中的子平臺提供統(tǒng)一的底層結(jié)構(gòu)連接與各項功能的維護與升級。
4.6.1 數(shù)據(jù)遠程傳送與調(diào)用。JavaServer Pages(JSP)是一種動態(tài)網(wǎng)頁開發(fā)技術(shù),主要用于實現(xiàn)Java web應用程序的用戶界面部分,是建立跨平臺動態(tài)網(wǎng)站的首選方案。XML是可擴展標記語言,用在服務器與系統(tǒng)之間傳遞數(shù)據(jù)并進行數(shù)據(jù)描述。結(jié)合XML元素以及嵌入JSP操作和命令來編寫JSP,可較好地實現(xiàn)異構(gòu)數(shù)據(jù)源的共享。WebService是跨編程語言、跨操作系統(tǒng)平臺的遠程調(diào)用技術(shù),使用XML來封裝數(shù)據(jù),依據(jù)Web Service規(guī)范實施的各種應用,可以在不借助附加的、專門的第三方軟件或硬件的情況下,在不同機器上相互交換數(shù)據(jù)或集成。
4.6.2 大數(shù)據(jù)采集。目前,大數(shù)據(jù)的數(shù)據(jù)采集主要有3個渠道,分別是物聯(lián)網(wǎng)系統(tǒng)、互聯(lián)網(wǎng)應用(Web和App)和傳統(tǒng)信息處理系統(tǒng)。針對互聯(lián)網(wǎng)應用的數(shù)據(jù)采集,通常使用網(wǎng)絡爬蟲來實現(xiàn),爬蟲可用Python或者Java語言來編寫。本文的系統(tǒng)平臺主要采用主題爬蟲進行數(shù)據(jù)資源的采集,通過一定的策略篩選、過濾與采集任務主題無關(guān)的網(wǎng)頁信息,僅留下切合主題的數(shù)據(jù),從而大幅度減少過多無關(guān)數(shù)據(jù)導致的數(shù)據(jù)稀疏問題,提高爬獲數(shù)據(jù)的質(zhì)量。對采集到的東盟相關(guān)數(shù)據(jù)進行清洗、預處理等二次加工,實現(xiàn)東盟網(wǎng)絡數(shù)據(jù)利用價值的更大提高。
4.6.3 輿情分析?!盎ヂ?lián)網(wǎng)+”時代,各國網(wǎng)民在網(wǎng)絡平臺上發(fā)表觀點、表達情緒、交流思想、參與評價,網(wǎng)絡民意的匯聚形成了網(wǎng)絡輿論。政府和企事業(yè)愈發(fā)關(guān)注網(wǎng)絡的輿情動態(tài),通過輿情分析,可以真實感知社情民意,了解民眾對社會事項的態(tài)度及情緒,得出供決策時參考的合理預測與建議,進而改進工作成效,提高服務效能。語義網(wǎng)絡分析是通過篩選統(tǒng)計得到高頻詞,將高頻詞兩兩之間的共現(xiàn)關(guān)系作為基礎,數(shù)值化處理詞與詞之間的遠近關(guān)系,再以圖形化的方式揭示其結(jié)構(gòu)關(guān)系。本文的系統(tǒng)平臺,通過分詞加工、詞頻分析,提取濃縮民眾關(guān)注點、情緒和認知的輿情關(guān)鍵詞,再通過聚類分析,將關(guān)鍵詞共現(xiàn)矩陣轉(zhuǎn)化為語義關(guān)系網(wǎng),展現(xiàn)各節(jié)點間的親疏、遠近及層級關(guān)系,揭示輿情問題間的潛在關(guān)聯(lián)。最后對詞匯進行情感分析,詞匯的情感極性一般分為正性、負性和中性,著重分析含有情感成分的詞匯,判斷其極性及情感強烈度。計算每個語句情感詞匯的總值,給出情感類別的判定。輿情研究傾向于將輿情主題的演變與網(wǎng)民情緒的變化聯(lián)系起來綜合分析。
4.6.4 數(shù)據(jù)可視化。大數(shù)據(jù)時代,人們工作與生活的每個角落都充斥著海量且種類繁雜的數(shù)據(jù)信息,時間呈現(xiàn)出碎片化,相對于文字或數(shù)據(jù),人們更喜歡看圖片或圖表。利用圖形化手段,將枯燥的數(shù)據(jù)可視化,能將信息更清晰生動的表達,實現(xiàn)更有效的溝通。本平臺使用數(shù)據(jù)可視化工具,通過標準化或結(jié)構(gòu)化的處理方式,挖掘原始數(shù)據(jù)的規(guī)律制作成數(shù)據(jù)表,建立適合的模型,可視化表述出這些數(shù)值,再選取合適的圖形展示、修飾后傳遞給用戶,使數(shù)據(jù)變得直觀,方便用戶進一步發(fā)現(xiàn)數(shù)據(jù)背后潛藏的問題和規(guī)律,實現(xiàn)“面向數(shù)據(jù)”轉(zhuǎn)化到“面向問題”的情報分析。
在全球信息化及“一帶一路”背景下,信息資源建設已被東盟各國納入國家信息化發(fā)展戰(zhàn)略予以高度重視。為推動中國與東盟國家雙邊經(jīng)貿(mào)、科技合作與文化交流在深度和廣度上更進一步的發(fā)展,本文以東盟信息資源開發(fā)與利用平臺,特別是東盟網(wǎng)絡信息資源與數(shù)據(jù)挖掘系統(tǒng)為重點研究對象,對其設計、構(gòu)建、研發(fā)及相關(guān)技術(shù)等問題進行分析,期望對圖書館的東盟信息資源開發(fā)與利用實踐提供有益參考。在大數(shù)據(jù)時代,結(jié)合各種網(wǎng)絡技術(shù)手段,構(gòu)建研發(fā)網(wǎng)絡信息采集、數(shù)據(jù)挖掘及分析的系統(tǒng)平臺,開展網(wǎng)絡資源信息采集、數(shù)據(jù)挖掘、輿情分析,探索新的服務模式,為讀者提供東盟知識服務和戰(zhàn)略決策咨詢,使東盟信息資源開發(fā)緊跟時代與社會發(fā)展步伐,促使資源自身的開發(fā)與利用得到持續(xù)的良性循環(huán)發(fā)展。