徐曉霞
【摘要】隨著近年來我國經(jīng)濟(jì)快速發(fā)展,檔案資源種類數(shù)量逐步增多,有必要使用文本挖掘技術(shù)對檔案資源的內(nèi)容深入挖掘,使檔案資源利用效率提升。本文基于文本挖掘技術(shù),就如何高效率挖掘檔案資源的潛在價(jià)值展開分析,并提出研究思路,供廣大讀者參考。
【關(guān)鍵詞】文本挖掘技術(shù);檔案資源利用;問題研究
檔案文獻(xiàn)資源是地方文獻(xiàn)資源體系的重要組成部分,在信息資源利用上具有唯一性,因此在檔案資源服務(wù)中具有重要地位。伴隨著當(dāng)前科學(xué)技術(shù)快速發(fā)展,各領(lǐng)域產(chǎn)生的信息資源數(shù)量快速增多,越來越多的專家學(xué)者借助檔案資源從事歷史考察及數(shù)據(jù)研究工作,特別是檔案館與政府文化機(jī)構(gòu)從事編纂現(xiàn)代史以來,各領(lǐng)域?qū)n案資源的需求與日俱增,并對學(xué)者研究地方經(jīng)濟(jì)發(fā)展情況有著重要作用?;谖谋緮?shù)據(jù)挖掘技術(shù)加快檔案資源的開發(fā)利用,使檔案資源更好地服務(wù)地方經(jīng)濟(jì)、文化、社會(huì)發(fā)展,成為當(dāng)前檔案工作者應(yīng)著力解決的問題。
一、文本數(shù)據(jù)挖掘技術(shù)的內(nèi)涵
(一)文本數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展。隨著計(jì)算機(jī)技術(shù)快速發(fā)展,依托計(jì)算機(jī)設(shè)備形成的數(shù)據(jù)網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,并產(chǎn)生了大量信息數(shù)據(jù),為了給信息獲取者提供全局信息視角,許多科技企業(yè)、互聯(lián)網(wǎng)公司在多個(gè)領(lǐng)域建立了大量數(shù)據(jù)倉儲(chǔ),但大量的文本數(shù)據(jù)使人無法從中快速找到有價(jià)值以供決策需要的信息資源,而依托傳統(tǒng)信息網(wǎng)絡(luò)形成的數(shù)據(jù)查詢、報(bào)表分析工具無法滿足海量文本數(shù)據(jù)提取的需求,更難以從中抽取有價(jià)值的信息資源。因此,迫切需要一種新的數(shù)據(jù)分析技術(shù)針對數(shù)據(jù)倉庫海量的文本數(shù)據(jù)挖掘進(jìn)行分析,并從中提取有價(jià)值的信息。文本數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并伴隨數(shù)據(jù)倉儲(chǔ)技術(shù)逐步完善起來。文本數(shù)據(jù)挖掘是指從大量文本數(shù)據(jù)信息中自動(dòng)抽取隱藏在文本夾內(nèi)有價(jià)值信息數(shù)據(jù)的過程。這些文本數(shù)據(jù)表現(xiàn)形式可能為規(guī)律、概念、模式及各種準(zhǔn)則。文本數(shù)據(jù)挖掘技術(shù)可幫助信息獲取者分析數(shù)據(jù)倉儲(chǔ)中的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)各類型信息數(shù)據(jù)潛在的規(guī)則與聯(lián)系,進(jìn)而實(shí)現(xiàn)未來預(yù)測。文本數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)的一種,是一門涉及多個(gè)領(lǐng)域的交叉學(xué)科,涉及到數(shù)據(jù)庫、大數(shù)據(jù)、可視化表達(dá)、交叉計(jì)算、人工智能等多個(gè)領(lǐng)域。文本數(shù)據(jù)挖掘的主要特點(diǎn)是針對數(shù)據(jù)倉庫中大量的文本數(shù)據(jù)進(jìn)行挖掘、提取、轉(zhuǎn)換、分析和其他可視化模型處理,并從中找到滿足決策者需求的信息數(shù)據(jù)。傳統(tǒng)的報(bào)表查詢處理技術(shù)只能直觀顯示事件的發(fā)生結(jié)果,并沒有深入分析事件產(chǎn)生的背景、原因,而文本數(shù)據(jù)挖掘技術(shù)側(cè)重了解事件發(fā)生的背景、原因以及其他誘發(fā)因素,并以一定的置信度模型對未來事件發(fā)生進(jìn)行可能性預(yù)測,為決策者的信息咨詢提供參考。
(二)文本數(shù)據(jù)挖掘技術(shù)的內(nèi)涵。文本信息的數(shù)據(jù)挖掘,通常被學(xué)者稱為文本數(shù)據(jù)挖掘。當(dāng)數(shù)據(jù)挖掘?qū)ο笕渴俏谋拘畔r(shí),使用多種信息挖掘算法與信息檢索算法對數(shù)據(jù)倉庫中海量數(shù)據(jù)進(jìn)行智能化識(shí)別與自動(dòng)化處理的過程被稱為文本數(shù)據(jù)挖掘。文本數(shù)據(jù)挖掘通常包括信息特征提取、文本標(biāo)題識(shí)別、文本摘要提取、文本信息分類、文本概念界定、文本信息提取以及文本信息數(shù)據(jù)分析等流程。文本數(shù)據(jù)挖掘技術(shù)包括用于文檔詞匯頻率分析的向量表示法、用于文本概念解析的數(shù)據(jù)分析法、用于文本詞匯解讀的字符串技術(shù)、用于文本分類的貝葉斯分類算法、基于文本概念的聚合優(yōu)化方法等。作為用于文本數(shù)據(jù)挖掘分析的技術(shù),文本數(shù)據(jù)挖掘技術(shù)可針對多種數(shù)據(jù)文本進(jìn)行分析,如語音文本分析、可視化視頻文本分析及文本文檔分類等,將其應(yīng)用檔案資源開發(fā)利用中對檔案資源檢索分析有著重要價(jià)值。
二、檔案資源應(yīng)用文本數(shù)據(jù)挖掘技術(shù)的優(yōu)勢
檔案資源是一種重要的信息資源及高價(jià)值的信息產(chǎn)品,不僅記錄地方的經(jīng)濟(jì)發(fā)展情況,也對開放的檔案信息數(shù)據(jù)有效集成,不僅反映特定文化區(qū)域內(nèi)社會(huì)活動(dòng)現(xiàn)狀,也是社會(huì)發(fā)展的重要信息資源記錄,對推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展,企業(yè)管理進(jìn)步,事業(yè)單位優(yōu)化建設(shè)有著重要意義?;谖谋就诰蚣夹g(shù)對檔案資源全面挖掘可反映出檔案資源的潛藏價(jià)值,提高檔案資源的信息獲取速度,提高文獻(xiàn)資源檢索效率。
(一)挖掘文獻(xiàn)資源的潛藏價(jià)值。文本數(shù)據(jù)挖掘技術(shù)針對海量的檔案資源高效挖掘、快速聚合,而地方檔案資源大多以紙質(zhì)書籍、特色檔案、電子文獻(xiàn)的形式存在館藏資源數(shù)據(jù)庫中,發(fā)揮地方檔案資源的社會(huì)價(jià)值就要挖掘檔案資源的隱含信息,找到其歷史價(jià)值和文化價(jià)值。文本數(shù)據(jù)挖掘技術(shù)可針對地方檔案管理機(jī)構(gòu)海量的檔案資源深入挖掘,并進(jìn)行科學(xué)分析,使用算法工具、數(shù)理統(tǒng)計(jì)工具及信息聚合技術(shù),挖掘檔案資源的潛藏價(jià)值,并實(shí)現(xiàn)其潛在信息的高效聚合,以此挖掘檔案資源的潛藏價(jià)值。
(二)提高檔案資源信息獲取速度。為保障用戶盡可能短時(shí)間內(nèi)通過線上信息檢索系統(tǒng)獲取檔案資源,可針對不同用戶的檔案資源獲取需求單獨(dú)設(shè)置出信息獲取專題,并將用戶的專題需求設(shè)置為事務(wù),記錄每一次檔案資源資源獲取過程并組建專題事務(wù)庫,使用關(guān)聯(lián)規(guī)則采掘算法找到訪問頻率較高的專題項(xiàng)目集,通過分類算法工具將用戶對不同檔案資源的瀏覽日志記錄與項(xiàng)目集合進(jìn)行相似匹配,將具有相同信息獲取習(xí)慣的用戶組織到同一數(shù)據(jù)鏈中,通過減少服務(wù)區(qū)信息傳輸數(shù)量,針對用戶的信息專題需求進(jìn)行關(guān)聯(lián)檢測,找到事務(wù)庫中頻繁訪問的專題集,利用語義關(guān)聯(lián)技術(shù)分析不同專題間的語義聯(lián)系,找到各個(gè)主體間的語義關(guān)聯(lián)規(guī)則,并存儲(chǔ)到相關(guān)數(shù)據(jù)庫中,當(dāng)用戶通過檔案數(shù)據(jù)訪問界面快速訪問地方特色文獻(xiàn)資源時(shí)可通過網(wǎng)絡(luò)代理根據(jù)預(yù)先設(shè)置規(guī)則快速響應(yīng),提高信息獲取速度,保障用戶能快速得到與個(gè)人需求匹配的檔案資源。
(三)提升檔案資源檢索效率。檔案資源采用的信息檢索系統(tǒng)在信息交互、用戶信息認(rèn)知方面還存在著不足,用戶使用信息檢索系統(tǒng)得到的信息查詢結(jié)果往往呈線性分布,致使用戶不知如何高效檢索咨詢需求的檔案資源數(shù)據(jù)。基于文本數(shù)據(jù)挖掘技術(shù)針對檔案資源開發(fā)利用設(shè)置的檢索系統(tǒng)不僅支持概念檢索、模糊檢索及多語言輸入檢索,而且能快速利用文本數(shù)據(jù)挖掘算法將檢索結(jié)果精確分類,使之條理化呈現(xiàn),并借助UI可視化界面進(jìn)一步幫助用戶智能篩選,同時(shí)還能針對用戶的個(gè)性化需求,對檔案資源檢索結(jié)果精準(zhǔn)定位,在滿足用戶信息認(rèn)知的基礎(chǔ)上,實(shí)現(xiàn)高效的信息交互,提高檔案資源檢索效率。
三、基于文本數(shù)據(jù)挖掘技術(shù)的檔案資源開發(fā)應(yīng)用方法
(一)建立檔案資源數(shù)據(jù)庫?;谖谋緮?shù)據(jù)挖掘技術(shù)對檔案資源開發(fā)利用,應(yīng)針對特色檔案信息進(jìn)行數(shù)字化處理,借助轉(zhuǎn)換算法工具將檔案數(shù)字資源轉(zhuǎn)變?yōu)槲谋緮?shù)據(jù),并使用文本數(shù)據(jù)挖掘技術(shù)對檔案數(shù)字資源深入挖掘,在挖掘其潛在價(jià)值和潛藏信息的基礎(chǔ)上,應(yīng)用SQL數(shù)據(jù)庫技術(shù)將檔案資源存儲(chǔ)到特定的數(shù)據(jù)倉儲(chǔ)中,并針對不同種類、不同結(jié)構(gòu)的檔案資源分類存儲(chǔ),設(shè)置不同的專題集集中利用,并以此為依托面向用戶推出不同種類的地方檔案資源產(chǎn)品與服務(wù),滿足用戶個(gè)性化使用需求。
(二)構(gòu)建檔案資源檢索系統(tǒng)。基于文本數(shù)據(jù)挖掘技術(shù)對檔案資源的開發(fā)與應(yīng)用還要依托數(shù)據(jù)分析技術(shù)、數(shù)據(jù)解析工具、信息檢索工具設(shè)計(jì)開發(fā)檢索系統(tǒng),實(shí)現(xiàn)用戶需求與檔案資源的有效對接,使檔案資源利用效率提升。檔案信息檢索系統(tǒng)的設(shè)計(jì)不能局限于操作功能上,除了考慮到檔案資源結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,還要根據(jù)數(shù)據(jù)庫的構(gòu)造、檔案資源的類型設(shè)計(jì)不同的算法工具,針對數(shù)據(jù)中各類檔案資源有效分析、及時(shí)調(diào)取,圍繞用戶需求提供便捷的檔案資源檢索服務(wù),提高檔案資源利用效率。
(三)建立檔案資源智能服務(wù)模式。使用文本數(shù)據(jù)挖掘技術(shù)對檔案資源的開發(fā)利用還要考慮到用戶的服務(wù)需求,即根據(jù)不同的讀者類型、檔案資源結(jié)構(gòu),依托檔案數(shù)字系統(tǒng)推出檔案資源智能化服務(wù)模式。這就要求在使用文本數(shù)據(jù)挖掘技術(shù)分析檔案資源結(jié)構(gòu)、用戶需求的基礎(chǔ)上,根據(jù)用戶的資源獲取習(xí)慣,依托大數(shù)據(jù)分析技術(shù)面向用戶建立專門的習(xí)慣集,通過精準(zhǔn)分析用戶需求,采用智能技術(shù)為用戶量身打造個(gè)性化服務(wù)方案,并及時(shí)調(diào)取與用戶需求匹配的檔案資源提供給用戶,并提供相關(guān)解析、數(shù)據(jù)分析、參考決策等服務(wù),使檔案資源的使用價(jià)值達(dá)到最佳。
四、結(jié)語
針對檔案資源的高效利用應(yīng)使用文本挖掘技術(shù)構(gòu)建集成化的檔案資源使用體系提高檔案資源利用效率,在確定檔案資源結(jié)構(gòu)、類型、特點(diǎn)的基礎(chǔ)上,使用數(shù)據(jù)庫技術(shù)、大數(shù)據(jù)挖掘技術(shù)挖掘檔案資源的潛藏價(jià)值,并建立良好的資源利用體系,以此提高檔案資源的使用效率。
【參考文獻(xiàn)】
[1]魏巍.基于大數(shù)據(jù)的檔案數(shù)據(jù)深度挖掘的探索[J].黑龍江檔案,2017(06):66.
[2]穆向陽,朱學(xué)芳.圖書、博物、檔案數(shù)字化服務(wù)融合模式研究[J].情報(bào)科學(xué),2016,34(03):14-19.
[3]孫艷波.檔案數(shù)字化的系統(tǒng)性及相關(guān)性分析[J].蘭臺(tái)內(nèi)外,2016(01):36.
[4]趙紅穎.圖書檔案資源數(shù)字化融合服務(wù)實(shí)現(xiàn)研究[D].吉林大學(xué),2015.