文/徐一男
以信息抽取技術(shù)為核心的微檔案館服務(wù)研究
文/徐一男
當(dāng)前,檔案數(shù)字化中存在的整合廣度及聚合深度不足的問題亟待解決。對此,檔案工作者可利用微媒體平臺,提供微檔案館服務(wù),并以信息抽取核心技術(shù)實(shí)現(xiàn)基于主線關(guān)鍵語義的檔案信息片段的聚合,提供用戶實(shí)時(shí)、快速、準(zhǔn)確的個(gè)性化檔案服務(wù)。
微媒體;微檔案館服務(wù);信息抽取
近年,為了進(jìn)一步適應(yīng)檔案數(shù)字化的發(fā)展,許多檔案館開發(fā)或引入了基于多角度的數(shù)字檔案整合平臺。但它們多基于檔案自身組織形式和外在特征來實(shí)現(xiàn),即以單一檔案為最小化單元的集合,很難滿足用戶對檔案日益迫切的準(zhǔn)確性、實(shí)時(shí)性以及個(gè)性化特定需求,同時(shí),它們也很難適應(yīng)微媒體下碎片化檔案資源的用戶需求。為此,筆者認(rèn)為可以嘗試?yán)枚喾N具有廣泛影響力的微媒體平臺,提供微檔案館服務(wù),并以信息抽取技術(shù)為核心,探索檔案中關(guān)鍵語義片段聚合的用戶服務(wù)。
(一)數(shù)字檔案面臨復(fù)雜的數(shù)據(jù)環(huán)境
傳統(tǒng)的檔案管理理念側(cè)重于收集、整理和保存,而數(shù)字化檔案出現(xiàn)后,其數(shù)據(jù)的管理更優(yōu)化,在文獻(xiàn)保障、信息參考方面的支撐功能也更加凸顯。然而,隨著海量結(jié)構(gòu)、類型復(fù)雜的數(shù)據(jù)滲透到檔案的業(yè)務(wù)工作的每個(gè)環(huán)節(jié)中,并逐漸成為了影響檔案工作質(zhì)量的重要因素之一[1],它標(biāo)志著檔案業(yè)界的大數(shù)據(jù)時(shí)代來臨。顯然,海量異構(gòu)數(shù)據(jù)之間關(guān)聯(lián)性的深度解析將成為數(shù)字檔案服務(wù)的重要發(fā)展方向。同時(shí),數(shù)據(jù)庫技術(shù)、文本挖掘技術(shù)的成熟,給這一發(fā)展趨勢帶來新的契機(jī)。通過它們,檔案工作者可以更加深入解析檔案資源的構(gòu)成及使用情況,從而制定有針對性的管理方案,進(jìn)一步突破檔案半封閉管理的工作瓶頸,充分發(fā)揮它作為決策和研究必備的文獻(xiàn)支援和信息參考的重要職能。
(二)數(shù)字檔案的整合現(xiàn)狀
面對新形勢,很多檔案工作者不斷探索基于數(shù)字化檔案的整合思路,其中中間件跨庫整合、數(shù)據(jù)實(shí)體倉以及元數(shù)據(jù)統(tǒng)一標(biāo)引等方式[2]被使用最多,但它們在整合的深度、廣度、準(zhǔn)確度以及使用快捷性都存在諸多問題。其整合多是在自身基礎(chǔ)上,對檔案元數(shù)據(jù)進(jìn)行聚類和利用,用戶檢索結(jié)果集都是返回基于元數(shù)據(jù)單元集合,缺乏對元數(shù)據(jù)內(nèi)的具象信息關(guān)注以及它們之間關(guān)聯(lián)性的深度挖掘,而許多用戶經(jīng)常提出了解檔案內(nèi)語義間關(guān)聯(lián)性的需求。
(一)數(shù)字檔案的碎片化需求
檔案習(xí)慣被定位為根據(jù)需求,提供全文的模式,因此,基本現(xiàn)有的檔案整合都圍繞著文獻(xiàn)進(jìn)行。但及時(shí)、可靠的檔案信息支撐往往比完整掌握其來龍去脈具有更重要的意義,基于一條主線的關(guān)聯(lián)語義片段集合經(jīng)常更有助于研究工作的進(jìn)行。通常,在同類型檔案中基于關(guān)鍵語義點(diǎn)的關(guān)聯(lián)內(nèi)容比對,更容易凸顯事物間的細(xì)節(jié)差異,尋找到其發(fā)展趨勢,從而做出正確的形勢預(yù)判,這顯然是使用中所迫切需求的檔案服務(wù)模式。
另一方面,社會生活節(jié)奏的快速,使各種碎片化的文化快餐迅速填補(bǔ)了職業(yè)人群零碎時(shí)段,該方式日趨成為了青年群體新的學(xué)習(xí)和生活方式。檔案館作為重要的資料支撐機(jī)構(gòu),為適應(yīng)用戶的碎片化數(shù)據(jù)需求,有必要積極改進(jìn)自身的服務(wù)模式。然而,當(dāng)前數(shù)字檔案無論從組織結(jié)構(gòu)還是服務(wù)模式上都很難適應(yīng)碎片化模式。在組織結(jié)構(gòu)上,數(shù)字檔案的多數(shù)整合結(jié)果均是以文獻(xiàn)為最小集合單位,其更適合長時(shí)間、大篇幅的閱讀、研究,與碎片化閱讀存在天然的不融合。從服務(wù)形式上,當(dāng)前的數(shù)字檔案服務(wù)以PC為目標(biāo)對象,因而整合、顯示都是以WEB方式進(jìn)行的,與智能手持終端顯示的匹配度較低。
(二)深度揭示數(shù)字檔案間的信息關(guān)聯(lián)
面對用戶碎片化檔案需求,檔案工作者應(yīng)該積極探索一個(gè)理想的服務(wù)途徑來適應(yīng)這些變化。因而,信息抽取技術(shù)以其針對性強(qiáng)、深度挖掘能力突出等特點(diǎn)出現(xiàn)在視野中。信息抽取其實(shí)是文本挖掘中最先進(jìn)的技術(shù)手段,檔案的信息抽取不是單純將索引點(diǎn)相關(guān)的檔案子集提供給用戶,而是根據(jù)用戶需求,在數(shù)字檔案中提取關(guān)聯(lián)的碎片化檔案聚合,并且建立提取的檔案信息與原檔案之間的聯(lián)系,以便用戶能夠適時(shí)獲取原檔案的全文信息。同時(shí),這一聚合形式,便于向用戶揭示同類型檔案中的內(nèi)容信息之間的深度關(guān)聯(lián)。
(一)微信息發(fā)布平臺的涌現(xiàn)
無線互聯(lián)網(wǎng)及3G技術(shù)的發(fā)展,使微信息化深入到生活工作的多個(gè)領(lǐng)域。移動智能終端服務(wù)下使用的微信息發(fā)布、交流平臺,如微博、微信等,具有比傳統(tǒng)網(wǎng)絡(luò)服務(wù)更優(yōu)化的功能,如即時(shí)視頻和語音等,使信息傳播更具視覺性和立體化。伴隨著“微”力的急劇增加,許多公司及政府機(jī)構(gòu)也相繼建立了各類微媒體的賬號,利用它的傳播、交流特點(diǎn)以及面向的服務(wù)群體,提供更新的交流和溝通渠道。
(二)微檔案館服務(wù)的信息抽取功能
當(dāng)前,微媒體已經(jīng)成為人們學(xué)習(xí)和生活不可或缺的組成成分,其中微博、微信已經(jīng)在青年群體社交、信息分享、資源獲取等方面占據(jù)重要地位。顯然,微檔案館服務(wù)是依賴微博、微信為平臺,實(shí)現(xiàn)用戶信息交互的延伸,即通過這些新的微媒體形式實(shí)現(xiàn)與用戶的信息交互、情報(bào)互通,甚至一些數(shù)字檔案可以通過微媒體的渠道來獲得。然而,微檔案服務(wù)的核心不僅是建立與用戶的交互渠道,更需要的是為用戶提供個(gè)性化的檔案服務(wù),即提供用戶所迫切需求的檔案文獻(xiàn)資源。例如:檔案用戶需要某段文字檔案、某幅圖像檔案或者某節(jié)音頻、視頻檔案,傳統(tǒng)的檔案服務(wù)方式就是提供給用戶檔案全文,用戶獲得后還需要從中搜尋需要的信息。[3]用戶可以通過關(guān)注微媒體上的檔案館賬號,向管理員提出相關(guān)需求,檔案管理員則根據(jù)需求搜集到的分散的、瑣碎的、細(xì)微的關(guān)聯(lián)檔案信息以聚合方式提供給用戶。這些微細(xì)的信息資源集合解決了用戶迫切的困難,真正實(shí)現(xiàn)了人性化服務(wù)。
該模式的初衷是希望給用戶提供更好的個(gè)性化服務(wù),但在實(shí)際使用中存在耗費(fèi)人力、效率低下、響應(yīng)時(shí)間長等問題,不適于大規(guī)模展開。而在此基礎(chǔ)上,我們利用信息抽取為核心技術(shù)來實(shí)現(xiàn)微媒體用戶需求的數(shù)字檔案信息聚類和顯示。其過程是:用戶在微媒體上關(guān)注檔案館,繼而通過入口鏈接訪問數(shù)字檔案資源的界面,根據(jù)關(guān)鍵主線的語義和檢索,直接獲取到需要的檔案信息片段。同時(shí),信息抽取可以提取用戶熱詞,作為用戶標(biāo)簽。通過這些標(biāo)簽,用戶可以更直接獲取檔案片段的聚合。
其中,信息抽取技術(shù)包含了自然語言處理、語料資源以及語義技術(shù)等手段,其基本過程分為:預(yù)處理、命名實(shí)體探測和事件探測。[4]在實(shí)施數(shù)字檔案的抽取之前,可以按照檔案的主題詞、形成時(shí)間、責(zé)任者、類型等要素,建立語料詞庫,輸出規(guī)范的信息點(diǎn),并按照這些信息點(diǎn)與大量檔案文獻(xiàn)的關(guān)聯(lián)信息進(jìn)行匹配,完成、輸出抽取的檔案片段。
微檔案館服務(wù)以數(shù)字檔案資源為背景,提供了更開放的檔案服務(wù),它固然在一定程度上改變了檔案服務(wù)的形態(tài),但由于微媒體中交互信息的缺乏監(jiān)管性,所以在實(shí)施中,數(shù)字檔案的安全性需要特別關(guān)注。而信息抽取技術(shù)在一定程度上保障了數(shù)據(jù)的安全性,即用戶通過關(guān)鍵詞獲取的只是檔案信息片段的集合,如用戶需要進(jìn)一步獲取某一片段的完整檔案或級別較高的重要數(shù)字檔案也可以通過身份確認(rèn),如身份證、工作證等證卡的認(rèn)證方式來實(shí)現(xiàn)。
(一)信息抽取技術(shù)與微媒體的兼容性
網(wǎng)絡(luò)中除了用戶自主創(chuàng)作信息外,還存在大量的隨處可見的綜合信息,微媒體信息服務(wù)的基本功能就是通過spider等技術(shù)手段對各類網(wǎng)絡(luò)綜合資源進(jìn)行的信息抽取,從而實(shí)現(xiàn)信息聚合。而微檔案服務(wù)中的信息抽取與之相似,所不同的是所抽取的對象不是網(wǎng)絡(luò)資源,而是檔案館數(shù)據(jù)庫的檔案信息。因而,它與微檔案館服務(wù)具有極高的兼容性。
(二)抽取信息的聚合模式與微信息服務(wù)語境的融合
在通過微媒體給用戶提供檔案資源時(shí),根據(jù)其需求的關(guān)鍵語義,抽取的關(guān)聯(lián)語塊是以主題為核心的語義塊集合,其外在呈現(xiàn)形式是片段組合,具有篇幅短小、信息集中、指向明確以及適合微媒體傳播語境等特點(diǎn),很適合被編輯成為微信、微博等發(fā)布的信息。關(guān)注用戶可以通過多種形式方便的獲取檔案信息。因而,微檔案館服務(wù)的數(shù)據(jù)核心,即語義片段與微媒體服務(wù)環(huán)境可以無縫融合。
(一)微媒體用戶身份認(rèn)證
除用戶可通過該聚合獲取公開檔案信息,針對保密級別較高的檔案,則需要通過用戶身份確認(rèn)來獲取。在實(shí)施中,身份確認(rèn)存在難度,它需要通過與用戶信息數(shù)據(jù)庫進(jìn)行比對,創(chuàng)建之初在,由于條件限制只適合在檔案館所屬的學(xué)?;蛏鐓^(qū)等小范圍內(nèi)實(shí)行,大范圍的推廣條件尚不成熟。
(二)信息抽取的準(zhǔn)確性
信息抽取在具體實(shí)施中,對關(guān)鍵語義解析的合理性、信息點(diǎn)輸出的規(guī)范性都決定抽取結(jié)果集的準(zhǔn)確。目前,其算法多樣,有些還不成熟,很難保障用戶檢索的準(zhǔn)確,因而,在算法優(yōu)化上有很大的上升空間。
(三)微檔案館的信息管理
微媒體因?qū)崟r(shí)性、開放性、自由性的被廣大青年群體所接受,但其信息發(fā)布長久以來缺乏有效的篩選和監(jiān)管。同樣,在微檔案館的使用中如何對各類信息進(jìn)行管理,從而屏蔽無關(guān)、垃圾信息,推送相關(guān)的檔案信息也是需要摸索的過程。
數(shù)字檔案整合是為了解決檔案的信息孤島現(xiàn)象,然而基于單一檔案文件的聚合很多時(shí)候無法適應(yīng),實(shí)時(shí)的、碎片化的用戶需求。有效檔案信息經(jīng)常被湮滅在大量的無用信息之中,用戶不得不花費(fèi)精力和時(shí)間提取。針對這點(diǎn),檔案工作者應(yīng)該采用更積極、有效手段,提供更快速、可靠的服務(wù)。因而,以信息抽取為核心的微檔案館服務(wù)方式,通過微媒體平臺,提供基于關(guān)鍵語義主線的檔案信息片段的聚合模式,可以在一定程度上改善這一現(xiàn)狀。
(本文系四川省教育廳資助人文社科一般項(xiàng)目“基于語義解析的藝術(shù)信息資源深度聚合研究”的階段性研究成果,項(xiàng)目編號:15SB0213)
(責(zé)任編輯:聞 道)
[1] 韓翠峰.大數(shù)據(jù)時(shí)代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013,(1).
[2] 王斌,吳建華.檔案網(wǎng)站信息資源整合方法與方案—“檔案網(wǎng)站信息資源普查與整合研究”系列論文之二[J].檔案學(xué)通訊,2010,(1).
[3] 鮑凌云.微時(shí)代下的微圖書館服務(wù)研究[J].農(nóng)業(yè)圖書情報(bào)刊,2014,(4).
[4] 李中言,李普躍.信息抽取技術(shù)在數(shù)字圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2007,(10).
Information Extraction Technology as the Core of the Microarchives Service
Xu Yi-nan
G275.1
A
1005-9652(2016)02-0058-03
徐一男(1982—),女,遼寧本溪人,四川音樂學(xué)院檔案館館員,碩士研究生。