劉禹辰 程奕心 許志偉 宋姿穎
(山東科技大學(xué) 山東省青島市 266590)
伴隨著計算機、互聯(lián)網(wǎng)等科學(xué)技術(shù)的發(fā)展,各領(lǐng)域信息資源數(shù)量不斷增加,促使網(wǎng)上數(shù)字檔案資源日漸豐富。而在信息資源利用方面,檔案資源具有特殊性,屬于高價值信息產(chǎn)品,包含地方文化、經(jīng)濟、社會等各方面發(fā)展記錄的同時,也能使社會活動現(xiàn)狀得到有效反映,為各領(lǐng)域工作開展提供有價值的參考信息。而在大數(shù)據(jù)時代,網(wǎng)上數(shù)字檔案資源體量增速較快,給檔案資料管理帶來了一定困難?,F(xiàn)階段,網(wǎng)上數(shù)字檔案涉及政治、科學(xué)、體育等多個領(lǐng)域,存在一定信息差異,促使檔案數(shù)據(jù)結(jié)構(gòu)復(fù)雜,帶有大數(shù)據(jù)的多元化特征[1]。面對這一局面,想要實現(xiàn)檔案資源充分利用,促使檔案價值得到有效體現(xiàn),還要結(jié)合檔案使用者需求完成檔案信息深層次挖掘,確保有價值的內(nèi)容得到整合,從而使檔案數(shù)據(jù)效用得到增強。
網(wǎng)上數(shù)字檔案對個人、機構(gòu)和社會組織在社會活動中的各種信息進行了記錄,帶有一定知識屬性。而不同于其他形式的記錄,檔案屬于歷史記錄,內(nèi)容具有真實性。在知識經(jīng)濟時代,則具有一定知識價值,對各種社會實踐活動的經(jīng)驗教訓(xùn)進行了積累。通過對檔案資源價值進行挖掘,能夠為個人、社會和國家開展社會活動提供知識服務(wù)。在挖掘檔案知識的過程中,想要體現(xiàn)資源價值,還要從無序、分散的原始符號記錄中挖掘能夠規(guī)范排列的信息,構(gòu)成相應(yīng)知識體系,為知識運用創(chuàng)造便利條件。對于不同用戶來講,在資源挖掘需求方面存在一定差異。想要為用戶提供有價值的信息,還要通過數(shù)據(jù)挖掘確定用戶需求,然后根據(jù)需求實現(xiàn)知識挖掘,完成信息專題的設(shè)置。將抽取的專題知識存入到用戶信息資源庫中,才能做到準(zhǔn)確為用戶提供需要的檔案資源。因此運用知識挖掘技術(shù),需要做到高效完成有價值的資源挖掘,通過加強與用戶的信息交互提高資源搜索效率,進而使用戶個性化需求得到滿足。
人類開展知識活動,目的是通過運用知識實現(xiàn)知識創(chuàng)新,以推動社會的發(fā)展與進步。網(wǎng)上數(shù)字資源中融合了各種文獻資源,由顯性信息和隱性信息構(gòu)成,帶有不同的知識價值。相較于顯性信息,隱性信息不僅僅為社會活動中形成的神秘經(jīng)驗,更是人類追究的知識根源,能夠為知識創(chuàng)新提供依據(jù)。在現(xiàn)代社會管理網(wǎng)上數(shù)字資源,顯然更側(cè)重挖掘其中隱性知識,如工作經(jīng)驗、學(xué)習(xí)技巧等,能夠體現(xiàn)人類在知識挖掘方面的主動性。因此運用知識挖掘技術(shù),還要側(cè)重利用聚類分析、關(guān)聯(lián)分析等各種智能分析算法完成網(wǎng)上數(shù)字檔案中的隱性知識挖掘,通過尋求檔案數(shù)據(jù)間的聯(lián)系確定潛在的知識信息。在實現(xiàn)舊知識邏輯化處理的過程中,能夠借助檔案資源完成更大知識體系構(gòu)建。實現(xiàn)資源挖掘的不斷深入,能夠完成隱形信息匯聚,發(fā)掘其中的潛藏價值。通過實現(xiàn)資源結(jié)構(gòu)更新完成檔案資源深入挖掘,可以發(fā)掘新的知識領(lǐng)域,推動知識創(chuàng)新活動的開展,繼而使檔案知識挖掘過程成為知識創(chuàng)新過程。
圖1:網(wǎng)上數(shù)字檔案知識挖掘體系架構(gòu)
在網(wǎng)絡(luò)數(shù)字檔案數(shù)據(jù)海量增長的過程中,想要從中挖掘知識和完成大數(shù)據(jù)分析,還要采用必要的技術(shù)手段,利用計算機代替人工完成檔案信息挖掘操作,確保知識能夠得到快速提取,繼而使知識服務(wù)得到順利供給。結(jié)合這一需求,采用大數(shù)據(jù)分析方法實現(xiàn)檔案知識挖掘,還要建立相應(yīng)的體系架構(gòu)提供知識檢索服務(wù),滿足不同檔案使用者的知識獲取需求。如圖1 所示,架構(gòu)由基礎(chǔ)數(shù)據(jù)資源庫、數(shù)據(jù)資源挖掘平臺、檔案知識庫和檔案知識可視化平臺構(gòu)成,能夠提供檔案主題查詢和綜合查詢服務(wù)。在基礎(chǔ)資源庫中,需要利用分布式數(shù)據(jù)庫完成不同領(lǐng)域網(wǎng)上數(shù)字檔案數(shù)據(jù)存儲,同時也可以通過互聯(lián)網(wǎng)等途徑獲取其他來源數(shù)據(jù)。數(shù)據(jù)資源挖掘平臺能夠從資源庫中獲取檔案數(shù)據(jù)信息,通過知識抽取完成數(shù)據(jù)知識化分析。根據(jù)各類實體語義、關(guān)聯(lián)等信息,利用大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)融合,滿足檔案知識庫的知識獲取需求。知識庫通過對數(shù)據(jù)的多維關(guān)系展開計算,能夠為主題聚合搜索、多維搜索、智能綜合搜索等平臺功能實現(xiàn)提供支撐,促使檔案知識得到可視化顯示,繼而使用戶的知識獲取需求得到滿足。
在知識挖掘體系架構(gòu)運行期間,資源庫和知識庫能夠協(xié)同開展作業(yè),共同作為知識挖掘數(shù)據(jù)資源平臺,在提供檔案數(shù)據(jù)的同時,為檔案數(shù)據(jù)關(guān)聯(lián)挖掘提供支持。實現(xiàn)檔案知識化,則是實現(xiàn)檔案知識提煉,能夠根據(jù)知識概念和邏輯關(guān)系組建結(jié)構(gòu)完整的知識鏈網(wǎng),使檔案得到準(zhǔn)確定位的同時,根據(jù)知識特點和結(jié)構(gòu)實現(xiàn)檔案合理存儲,繼而為用戶搜索知識提供便利[2]。采取該種設(shè)計,能夠加強檔案數(shù)據(jù)資源中各種實體及其屬性的關(guān)聯(lián),為信息抽取和融合提供支持。在知識表達上,能夠利用語義完成知識本體結(jié)構(gòu)挖掘,構(gòu)建知識模型,利用知識組織規(guī)則實現(xiàn)各類實體解析,繼而使各類隱性因子得到挖掘。在知識關(guān)系得到可視化顯示的同時,能夠?qū)崿F(xiàn)知識聚合,使檔案知識結(jié)構(gòu)得到清楚展示。而采用計算機視覺技術(shù)將知識語義概念、模型等以圖形、圖像等形式展現(xiàn)出來,能夠確保知識得到精確和高效傳遞,為人員通過手機、計算機等終端查看提供便利。
從大數(shù)據(jù)分析角度來看,網(wǎng)上數(shù)字檔案知識挖掘其實就是數(shù)據(jù)清洗、集成、處理和分析的過程。盡管擁有廣泛的數(shù)據(jù)來源,使得檔案數(shù)據(jù)類型較多,同時應(yīng)用需求也存在差異,但是卻擁有相同的數(shù)據(jù)處理流程。
首先,針對異構(gòu)的原始數(shù)據(jù),需要完成清洗、抽取和集成,促使數(shù)據(jù)按照統(tǒng)一標(biāo)準(zhǔn)存儲,為后續(xù)數(shù)據(jù)處理與分析奠定基礎(chǔ)。針對格式、性質(zhì)存在差異的數(shù)據(jù),需要從物理或邏輯上實現(xiàn)數(shù)據(jù)集成,對存在一定關(guān)聯(lián)的實體進行提取,聚合得到統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)。在數(shù)據(jù)清洗方面,還應(yīng)加強質(zhì)與量的權(quán)衡,避免粒度過細(xì)造成有價值信息被濾除,同時避免粒度過粗造成冗余信息過多。在檔案數(shù)據(jù)組織方面,可以采用EAD 元數(shù)據(jù)實現(xiàn)數(shù)據(jù)聚合分析,完成知識合理組織。
其次,需要對數(shù)據(jù)屬性特征進行提取,然后通過轉(zhuǎn)換處理得到易于分析的形式,并在分布式處理模型和數(shù)據(jù)倉庫中存儲。在數(shù)據(jù)分析方面,可以通過數(shù)據(jù)訓(xùn)練完成分類器的構(gòu)建,并通過實現(xiàn)多個分類器聚集取得較好數(shù)據(jù)分類效果。在數(shù)據(jù)訓(xùn)練中,保證每次選擇相同概率權(quán)重,可以使誤分類數(shù)據(jù)的選取概率權(quán)重得到增加。對訓(xùn)練數(shù)據(jù)進行重新抽取,并完成迭代分析,能夠得到多個分類器。將分類器加權(quán)投票當(dāng)成是輸出結(jié)果,能夠完成數(shù)據(jù)分類轉(zhuǎn)換。在數(shù)據(jù)存儲方面,需要采用分布式方式,建立開源計算平臺,利用分布式文件系統(tǒng)完成非結(jié)構(gòu)化數(shù)據(jù)存儲。通過對檔案數(shù)據(jù)進行分割,能夠得到多個數(shù)據(jù)塊,再由數(shù)據(jù)節(jié)點構(gòu)成的分布式集群中存儲。
最后,需要通過數(shù)據(jù)挖掘完成有益知識提取,然后實現(xiàn)結(jié)果可視化,為用戶提供需要的知識服務(wù)。數(shù)據(jù)挖掘?qū)嶋H就是數(shù)據(jù)深層分析過程,需要采用人工智能等技術(shù)完成語義處理。從百度、搜狗等網(wǎng)站中,可以獲得海量語義知識。根據(jù)其中蘊含的語義信息和規(guī)則,能夠?qū)崿F(xiàn)檔案數(shù)據(jù)中各種語義關(guān)聯(lián)的抽取,得到檔案主題分類表、詞表等各種表格,為語義處理提供支持[3]。而挖掘得到的知識關(guān)聯(lián)較為復(fù)雜,為滿足用戶知識獲取需求,還要完成數(shù)據(jù)交互式分析,采用趨勢圖等各種圖形、圖像實現(xiàn)分析結(jié)果的可視化展示,確保用戶能夠理解挖掘結(jié)果。根據(jù)用戶需求對檔案知識單元進行提取后,通過在數(shù)據(jù)描述框架下完成信息背景封裝,然后加強相關(guān)知識鏈接,能夠構(gòu)成由多個知識單元構(gòu)成的網(wǎng)絡(luò),確保用戶知識獲取需求能夠得到滿足。
在對網(wǎng)上數(shù)字檔案中的知識進行挖掘時,還要加強文件排序、元數(shù)據(jù)著錄等關(guān)鍵技術(shù)的運用,以便使知識得到充分挖掘的同時,能夠得到高效利用。
首先,針對各種電子檔案文件進行處理,已經(jīng)無法實現(xiàn)物理排列,因此還要通過挖掘歷史關(guān)聯(lián)實現(xiàn)虛擬排列。作為檔案資源開發(fā)者,需要根據(jù)網(wǎng)上數(shù)字檔案文件內(nèi)容完成文件夾建立,篩選相關(guān)文件,根據(jù)背景信息確定文件關(guān)聯(lián)。在全宗建立時,需要從時間、事由和來源三個角度構(gòu)建年代、主體和客體全宗,以虛擬形態(tài)保證文件之間擁有完整關(guān)聯(lián)。對檔案文件各種關(guān)系進行挖掘,能夠利用多關(guān)系數(shù)據(jù)結(jié)構(gòu)建立聚分類模型,實現(xiàn)各種關(guān)系中關(guān)聯(lián)知識提取,使分散在不同檔案資料中的信息與知識關(guān)聯(lián)得到解釋,從而滿足知識遷移需求。
其次,在文件描述方面需要加強元數(shù)據(jù)著錄技術(shù)運用,利用結(jié)構(gòu)型、知識描述型等不同類型元數(shù)據(jù)對文件結(jié)果、內(nèi)容等進行轉(zhuǎn)化,在保證檔案數(shù)據(jù)完整性和真實性的同時,為資源利用奠定基礎(chǔ)。從元數(shù)據(jù)類型上來看,包含主題、時間、來源、格式、語言等,簽發(fā)人、份數(shù)等則作為屬性信息保留。利用元數(shù)據(jù)完成各種檔案要素描述,能夠為隱性知識挖掘提供便利。實際采用EAD 標(biāo)記語言,能夠創(chuàng)建通用的檔案數(shù)據(jù)標(biāo)準(zhǔn)。在常用的檔案檢索工具中,基本都采用該種語言,可以確保檔案數(shù)據(jù)調(diào)用突破平臺限制,能夠?qū)崿F(xiàn)數(shù)據(jù)兼容,繼而為檔案知識得到靈活挖掘和利用。
最后,在檔案知識檢索中,需要采用“全宗-案卷-文件”的信息組織方式,加強文件主題、形成時間等特征利用[4]。根據(jù)特征完成知識組織后,可以根據(jù)來源機構(gòu)關(guān)聯(lián)形成引文鏈,確保知識得到順利鏈接。采用聚類分析等技術(shù),能夠完成檔案知識連續(xù)挖掘,為知識重組提供支持。實際檢索知識,需要采用概念檢索技術(shù)完成關(guān)鍵詞匯轉(zhuǎn)換,實現(xiàn)詞義拓展,做到高效和精準(zhǔn)查詢。知識挖掘和檢索需要滿足用戶需求,因此還要加強用戶訪問習(xí)慣挖掘,確定其與資源內(nèi)在關(guān)聯(lián)。結(jié)合組織特性加強檔案內(nèi)容比較,能夠在全宗范圍內(nèi)對相關(guān)文件資源和知識進行挖掘,并根據(jù)主題關(guān)聯(lián)進行知識關(guān)系的可視化展示,引導(dǎo)用戶通過點擊鏈接快速完成知識檢索。
綜上所述,在大數(shù)據(jù)技術(shù)的支撐下,可以實現(xiàn)網(wǎng)上數(shù)字檔案資源的充分利用,在促使數(shù)字資源價值得到凸顯的同時,為知識創(chuàng)新提供動力。實際想要實現(xiàn)檔案知識挖掘,還要完成相應(yīng)資源庫、知識庫和挖掘平臺的構(gòu)建,以便形成能夠為檔案利用提供服務(wù)的知識挖掘體系架構(gòu)。通過完成檔案資源大數(shù)據(jù)分析和處理,實現(xiàn)知識充分挖掘,能夠使用戶需要的知識得到可視化顯示,最終滿足檔案數(shù)據(jù)價值管理需求。