謝 暉
(菏澤醫(yī)學(xué)??茖W(xué)校,菏澤 274000)
在文化的傳承和社會(huì)發(fā)展中,檔案記錄與保存有著重要意義。隨著時(shí)代的變遷,檔案記錄與保存也在不斷變化與發(fā)展,逐漸形成了現(xiàn)今這種分類體系明確的不同等級(jí)檔案館[1-3]。檔案不僅包括個(gè)人的學(xué)籍資料和人事資料等,還包含企業(yè)公司信息文件。檔案文件種類繁多,紙質(zhì)檔案的保存形式已經(jīng)不能滿足現(xiàn)今檔案記錄產(chǎn)生的速度,因此,各級(jí)檔案館均已開展數(shù)字化工作,建立了相應(yīng)的電子檔案庫(kù)以及檔案網(wǎng)站供公眾使用,但是能做到全文檢索的少之又少[4-5]。對(duì)于這種情況,國(guó)內(nèi)外研究學(xué)者研究數(shù)字檔案智能挖掘方法,利用高新技術(shù)在海量數(shù)字檔案中挖掘出有價(jià)值的檔案,如遺傳算法和支持向量機(jī)的應(yīng)用,但是這兩種技術(shù)的應(yīng)用局限于簡(jiǎn)單的電子化,在理解關(guān)鍵詞中只能理解詞語(yǔ)的概念,難以發(fā)現(xiàn)詞語(yǔ)之間的潛在邏輯,導(dǎo)致挖掘的數(shù)據(jù)之間關(guān)聯(lián)性不強(qiáng)[6-8]。因此,可以應(yīng)用語(yǔ)義網(wǎng)技術(shù),設(shè)計(jì)基于語(yǔ)義網(wǎng)技術(shù)的海量數(shù)字檔案智能挖掘方法。語(yǔ)義網(wǎng)是一種智能網(wǎng)絡(luò),利用該技術(shù)更深層地理解關(guān)鍵詞之間的邏輯關(guān)系,可以使挖掘的數(shù)據(jù)關(guān)聯(lián)性更強(qiáng),使交流變得更有效率和價(jià)值。
數(shù)字檔案資源種類繁多,各類資源之間存在較強(qiáng)的語(yǔ)義關(guān)系。通過(guò)語(yǔ)義網(wǎng)技術(shù)挖掘出各種不同類別檔案的內(nèi)在聯(lián)系,并將存在關(guān)系的檔案通過(guò)語(yǔ)義網(wǎng)技術(shù)連接在一起,實(shí)現(xiàn)資源聚合[9]。數(shù)字檔案涉及的種類比較多,以學(xué)科電子檔案為例,檔案資源有科研團(tuán)隊(duì)、條件設(shè)施和規(guī)章制度等。這些資源之間具體聯(lián)系,如圖1所示。
圖1 學(xué)科電子檔案各類資源關(guān)系
從圖1中可以看出,電子檔案各類資源之間存在較強(qiáng)的關(guān)聯(lián),這些關(guān)聯(lián)關(guān)系的存在,使得電子檔案資源的語(yǔ)義關(guān)聯(lián)和聚合成為可能。在對(duì)數(shù)字檔案資源的語(yǔ)義關(guān)系和聚合與服務(wù)的支撐技術(shù)分析的基礎(chǔ)上,利用關(guān)聯(lián)數(shù)據(jù)框架實(shí)現(xiàn)數(shù)字檔案資源的聚合,如圖2所示。
圖2中顯示的框架能夠引導(dǎo)數(shù)字檔案數(shù)據(jù)的創(chuàng)建與發(fā)布,在聚合框架中,借助檔案語(yǔ)義描述的本體或詞表,實(shí)現(xiàn)資源的語(yǔ)義關(guān)聯(lián),再利用檔案資源關(guān)聯(lián)數(shù)據(jù)創(chuàng)建、聚合數(shù)字檔案資源[10]。采用圖2顯示的聚合框架流程,按照從底層到頂層的順序,基于關(guān)聯(lián)數(shù)據(jù)逐層實(shí)現(xiàn)數(shù)據(jù)資源的聚合,從而完成整個(gè)數(shù)字檔案資源的聚合。在聚合完成后,基于語(yǔ)義網(wǎng)技術(shù)構(gòu)建檔案知識(shí)庫(kù)。
圖2 數(shù)字檔案資源聚合框架
構(gòu)建檔案知識(shí)庫(kù)的主要目標(biāo)是借助本體技術(shù)將數(shù)據(jù)庫(kù)內(nèi)知識(shí)概念化,通過(guò)語(yǔ)義網(wǎng)挖掘出檔案記錄中各個(gè)項(xiàng)目的內(nèi)在聯(lián)系,如事件和任務(wù)。在已知各類檔案記錄內(nèi)在聯(lián)系的基礎(chǔ)上,即可根據(jù)關(guān)聯(lián)程度形成具有知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)的知識(shí)庫(kù)。通過(guò)檔案知識(shí)庫(kù),能夠更好地幫助用戶獲取和利用檔案知識(shí),也能享受到資源共享的知識(shí)庫(kù)服務(wù)[11]。
構(gòu)建的檔案知識(shí)庫(kù)采用分層架構(gòu)體系結(jié)構(gòu),主要分為資源層、知識(shí)組織層和應(yīng)用層,分層的主要依據(jù)是檔案知識(shí)庫(kù)中數(shù)據(jù)的流向和數(shù)據(jù)的處理。檔案館館藏資源原始數(shù)據(jù)再經(jīng)過(guò)知識(shí)抽取本體組織得到互聯(lián)的知識(shí)網(wǎng),再利用語(yǔ)義網(wǎng)技術(shù)將用戶檢索需求與知識(shí)庫(kù)內(nèi)容相匹配,通過(guò)可視化技術(shù)將數(shù)據(jù)呈現(xiàn)給用戶[12]。
館藏資源層中包含很多含有語(yǔ)義解釋的檔案數(shù)據(jù)和資源,這些檔案數(shù)據(jù)和資源有不同的種類,是通過(guò)拍照或掃描等方式處理后獲得的,通過(guò)數(shù)字化技術(shù)轉(zhuǎn)化為數(shù)字資源存儲(chǔ)在數(shù)據(jù)庫(kù)中。數(shù)據(jù)中包含檔案源文件數(shù)據(jù)庫(kù)以及音視頻數(shù)據(jù)庫(kù)[13]。依據(jù)知識(shí)庫(kù)的分層體系結(jié)構(gòu),可知館藏資源層是整個(gè)體系結(jié)構(gòu)中的數(shù)據(jù)來(lái)源,通過(guò)結(jié)構(gòu)中的知識(shí)組織層處理檔案數(shù)據(jù),如語(yǔ)義分析、關(guān)系抽取等,處理完成后將資源傳遞給功能應(yīng)用層。應(yīng)用層中包含檔案資源的屬性特征,主要表現(xiàn)為網(wǎng)狀知識(shí)結(jié)構(gòu),檔案資源本體在對(duì)檔案數(shù)字資源進(jìn)行映射后,形成符合知識(shí)本體框架結(jié)構(gòu)的實(shí)例庫(kù)。根據(jù)用戶的實(shí)際需求和數(shù)字檔案管理的實(shí)際需求,在應(yīng)用層中開發(fā)出相應(yīng)的功能塊和應(yīng)用接口,實(shí)現(xiàn)對(duì)檔案數(shù)字資源的調(diào)用與管理[14]。
在檔案資源數(shù)據(jù)檢索中,主要利用知識(shí)本體和推理規(guī)則實(shí)現(xiàn)。其中,知識(shí)本體明確了檔案記錄的種類、屬性和內(nèi)在關(guān)系,通過(guò)計(jì)算檢索詞與知識(shí)概念間的相似度,即可實(shí)現(xiàn)數(shù)據(jù)檢索,將符合檢索條件的內(nèi)容呈現(xiàn)給用戶。但是這時(shí)返回給用戶的結(jié)果中可能存在部分無(wú)用數(shù)據(jù),因此通過(guò)挖掘后將關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù)再傳遞給用戶。
根據(jù)現(xiàn)有檔案知識(shí)庫(kù),使用決策樹算法實(shí)現(xiàn)數(shù)字檔案挖掘,依據(jù)離散屬性—值對(duì),將檔案知識(shí)庫(kù)中的數(shù)據(jù)分割成若干個(gè)小型樣本數(shù)據(jù)集。將決策樹結(jié)點(diǎn)改造成能夠滿足樣本數(shù)據(jù)集需求的結(jié)構(gòu),將改造完成后的決策樹結(jié)點(diǎn)分為貝葉斯結(jié)點(diǎn)和普通葉結(jié)點(diǎn)[15]。
在挖掘數(shù)字檔案資源過(guò)程中,根據(jù)檔案資源數(shù)據(jù)生成葉結(jié)點(diǎn),為避免出現(xiàn)匹配過(guò)度的情況,設(shè)置一個(gè)閾值,計(jì)算劃分前的結(jié)點(diǎn)差異值的度量,將計(jì)算結(jié)果與閾值相比較,若大于閾值,則進(jìn)行進(jìn)一步挖掘;反之,計(jì)算結(jié)果小于閾值,則生成葉結(jié)點(diǎn)。重復(fù)上述過(guò)程,如果有i個(gè)實(shí)例數(shù)據(jù)要規(guī)劃到當(dāng)前結(jié)點(diǎn),并且其中有i1個(gè)實(shí)例屬于分類k,它們最可能的分類是G,則可以得到G與i1的關(guān)系:
此時(shí)生成初始決策樹,將獲得的實(shí)例集合G作為輸入,分別計(jì)算結(jié)點(diǎn)的差異度,并與閾值相比,選擇集合中分布期望做小的屬性—值對(duì)B,返回一個(gè)與其對(duì)應(yīng)的樣本數(shù)據(jù)集合并輸出,該集合即為挖掘的數(shù)據(jù)集合。
在上述過(guò)程中,算法會(huì)不斷將新的檔案實(shí)例與決策樹中劃分的屬性相匹配,判斷該實(shí)例是否正確劃分,若已經(jīng)被準(zhǔn)確劃分,則進(jìn)行下一例,重復(fù)上述過(guò)程。直到所有實(shí)例均已劃分完成,實(shí)現(xiàn)數(shù)字檔案挖掘。若實(shí)例劃分錯(cuò)誤,則結(jié)合該實(shí)例對(duì)該節(jié)點(diǎn)的貝葉斯參數(shù)進(jìn)行更新修正,如此不斷地更新修正,直到實(shí)例劃分正確,完成挖掘。至此,設(shè)計(jì)的基于語(yǔ)義網(wǎng)技術(shù)的海量數(shù)字檔案智能挖掘方法完成。
在海量數(shù)字檔案智能挖掘方法實(shí)驗(yàn)研究中,選取某省檔案館館藏某勞動(dòng)廳全宗作為研究對(duì)象,主要包含各個(gè)不同時(shí)期的檔案資料,共計(jì)400多個(gè)卷宗。檔案館對(duì)這些檔案的分類方式以年度—問(wèn)題方式為主,主要包括綜合性檔案、勞動(dòng)保護(hù)、勞動(dòng)工資等內(nèi)容。
基于原有的檔案,構(gòu)建出檔案本體,因本體范圍較大、類目層級(jí)過(guò)多無(wú)法構(gòu)建全部檔案,考慮實(shí)驗(yàn)的實(shí)際需求,從多個(gè)類別選擇部分檔案構(gòu)建本體。主要從主題、責(zé)任者、時(shí)期、地域、日期和檔案資源格式這六個(gè)方面構(gòu)建,將構(gòu)建完成的數(shù)字檔案作為實(shí)驗(yàn)對(duì)象。使用不同的數(shù)字檔案智能挖掘方法挖掘檔案中的數(shù)據(jù)的關(guān)聯(lián)性。計(jì)算檔案數(shù)據(jù)之間的支持度和置信度,并利用第三方軟件輸出某關(guān)鍵數(shù)據(jù)的并發(fā)性。通過(guò)以上結(jié)果分析不同的數(shù)字檔案智能挖掘方法的實(shí)際性能。支持度和置信度計(jì)算公式如下:
公式中sup(x)表示數(shù)據(jù)x的支持度,con(x→y)表示數(shù)據(jù)x與y的置信度,fnum表示數(shù)據(jù)x在挖掘出的檔案數(shù)據(jù)中出現(xiàn)的次數(shù),Hnum表示挖掘出的數(shù)據(jù)總量。通過(guò)上述公式計(jì)算出不同挖掘方法數(shù)據(jù)的支持度和置信度,結(jié)合數(shù)據(jù)的并發(fā)性分析挖掘方法關(guān)聯(lián)水平的高低。
隨機(jī)選取檔案中關(guān)鍵詞,使用不同的挖掘方法挖掘出相關(guān)數(shù)據(jù),計(jì)算該關(guān)鍵詞的支持度與置信度,結(jié)果如表1所示。
表1 支持度與置信度計(jì)算結(jié)果
觀察表1中數(shù)據(jù),支持度表示挖掘方法中挖掘數(shù)據(jù)在整體數(shù)據(jù)集中的比率,置信度表示挖掘的數(shù)據(jù)與選擇的關(guān)鍵詞之間的關(guān)聯(lián)程度。從表1數(shù)據(jù)可以看出,在不同的關(guān)鍵詞中支持度和置信度較高的都是基于語(yǔ)義網(wǎng)技術(shù)的挖掘方法,兩個(gè)指標(biāo)均高于另外兩種方法,這是因?yàn)檎Z(yǔ)義網(wǎng)技術(shù)的應(yīng)用解決了以往使用的挖掘方法中的問(wèn)題,在數(shù)據(jù)之間建立較強(qiáng)的聯(lián)系,挖掘出的數(shù)據(jù)關(guān)聯(lián)性極強(qiáng)。
在上述實(shí)驗(yàn)的基礎(chǔ)上,隨機(jī)選擇某一關(guān)鍵詞,利用第三方軟件將不同挖掘方法的該關(guān)鍵詞的關(guān)聯(lián)關(guān)系展示出來(lái)。
圖3中顯示的點(diǎn)表示與關(guān)鍵詞相關(guān)的數(shù)據(jù),線段的長(zhǎng)短表示并發(fā)性。從圖3中的結(jié)果可以看出,基于語(yǔ)義網(wǎng)技術(shù)的數(shù)據(jù)挖掘方法關(guān)聯(lián)的數(shù)據(jù)點(diǎn)更多,并發(fā)性更強(qiáng)。結(jié)合支持度與置信度數(shù)據(jù)可知,設(shè)計(jì)的基于語(yǔ)義網(wǎng)技術(shù)的海量數(shù)字檔案智能挖掘方法關(guān)聯(lián)性更強(qiáng),挖掘出的數(shù)據(jù)更能滿足實(shí)際應(yīng)用的需求。
圖3 不同挖掘方法的數(shù)據(jù)并發(fā)性實(shí)驗(yàn)結(jié)果
隨著互聯(lián)網(wǎng)絡(luò)的飛速發(fā)展,檔案數(shù)字化逐漸完善,海量數(shù)字檔案的智能挖掘成為當(dāng)前研究的重點(diǎn)。在本文研究中,利用語(yǔ)義網(wǎng)技術(shù)發(fā)現(xiàn)數(shù)據(jù)中潛在的邏輯關(guān)系,構(gòu)建檔案知識(shí)庫(kù),在檔案數(shù)據(jù)間建立更加牢固的關(guān)聯(lián),保證挖掘結(jié)果的可靠性和適用性。但是研究中依然存在不足之處,如語(yǔ)義研究中很大一部分是基于本體,受到的限制比較多,在后續(xù)的研究中仍然需要投入更多的精力研究這一問(wèn)題。
北京印刷學(xué)院學(xué)報(bào)2021年9期