蔣紅健
目前,高校數(shù)字檔案資源的傳統(tǒng)檢索方式是通過詞條切分技術(shù)形成關(guān)鍵詞對元數(shù)據(jù)進行檢索,這種檢索方式快速高效并且精準,但是沒有對數(shù)字檔案資源的知識管理體系進行檢索,缺乏對元數(shù)據(jù)的分析理解,存在著無法查找或者查全率不夠的情況,需要人工多次篩選[1]69。智能語義檢索通過語義層面判斷用戶檢索意圖,可以通過閾值的選定保證查全率,并可兼容圖書、情報、出版等其他領(lǐng)域語義本體系統(tǒng),甚至可以和網(wǎng)絡(luò)資源進行鏈接,因此,智能語義檢索技術(shù)對檔案管理來說是一個全新的檢索手段。
高校數(shù)字檔案資源的主要來源是長期實體檔案數(shù)字化的積累和不斷新增的電子文件歸檔,特別是電子文件數(shù)量十分龐大,因此電子文件歸檔將成為高校數(shù)字檔案資源體系未來主要來源渠道。存量檔案數(shù)字化和增量檔案電子化的實行,使得高校檔案利用的針對對象主要為數(shù)字形式的檔案資源,從而要求檔案部門對檔案檢索的方式作出新的判斷和改變。
服務(wù)網(wǎng)絡(luò)化是高校數(shù)字檔案資源利用的主要方向,而網(wǎng)絡(luò)化利用服務(wù)與傳統(tǒng)利用服務(wù)模式的最大區(qū)別是用戶的泛在化、多樣化和個性化。數(shù)字檔案資源建設(shè)是網(wǎng)絡(luò)化服務(wù)的前提和保障,網(wǎng)絡(luò)化服務(wù)是數(shù)字檔案資源管理的目標、趨勢和導(dǎo)向。高校數(shù)字檔案資源管理正步入從資源管理為中心轉(zhuǎn)向以用戶服務(wù)為中心的軌道上來,而用戶服務(wù)網(wǎng)絡(luò)化的特點要求檔案檢索技術(shù)走向智能化,語義本體技術(shù)在這樣的形勢下應(yīng)運而生,并博得廣大檔案學(xué)科研究者的關(guān)注和重視。語義本體技術(shù)的本質(zhì)就是建立領(lǐng)域知識框架,對數(shù)字檔案資源的信息進行提煉,形成語義概念和語義邏輯,進而實現(xiàn)基于知識的智能語義檢索。可以說,服務(wù)網(wǎng)絡(luò)化是高校數(shù)字檔案資源智能語義檢索技術(shù)的內(nèi)在推動力,智能語義檢索技術(shù)是檔案領(lǐng)域現(xiàn)代信息技術(shù)發(fā)展的新亮點,是實現(xiàn)數(shù)字檔案資源信息檢索的知識化、關(guān)聯(lián)化和便捷化的重要技術(shù)保障,將變革傳統(tǒng)檔案利用服務(wù)的慣有模式,在檔案利用服務(wù)這一檔案管理的終極目標上具有極大的應(yīng)用前景,也必將對信息技術(shù)背景下的檔案管理產(chǎn)生深遠的影響。
本體論屬于哲學(xué)范疇,是希臘哲學(xué)家根據(jù)自然關(guān)系性質(zhì)界定而提出的物質(zhì)存在本原思想,是關(guān)于抽象對象概念化的領(lǐng)域、集合關(guān)系的描述。簡言之,本體是關(guān)于知識的分類和概念屬性有層次性的描述,是共享概念模型明確的形式化的規(guī)范說明。本體通過對概念的描述、解釋和說明來揭示概念的內(nèi)在屬性,可用于知識的檢索和共享復(fù)用,因此智能語義檢索技術(shù)與直接搜索元數(shù)據(jù)的形式完全不同,是根據(jù)詞匯、關(guān)系、規(guī)則等要素進行語義匹配檢索的方式。
語義本體是本體概念在自然語言處理、異構(gòu)信息集成等信息技術(shù)領(lǐng)域的具體應(yīng)用,對概念進行抽象化描述實現(xiàn)對概念的定義,構(gòu)建概念間的關(guān)系,使智能語義檢索技術(shù)擁有語義關(guān)聯(lián)和知識共享的基礎(chǔ)。語義本體技術(shù)能夠很好地解決知識表達、知識存儲、知識檢索等基礎(chǔ)性問題,解決知識的結(jié)構(gòu)性描述及識別、定位知識地址問題,不僅能夠明確詳盡地描述概念,構(gòu)建概念間的關(guān)聯(lián)關(guān)系,而且使檔案智能檢索技術(shù)得以合理推理。因此,語義本體技術(shù)使檔案管理從信息存儲層面上升到知識管理層面,使數(shù)字檔案信息數(shù)據(jù)庫上升到數(shù)字檔案信息知識庫。語義本體包括概念的類、屬性、實例、關(guān)系類型以及函數(shù)、公理、規(guī)則等基本要素,其層次劃分可分為頂層本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體。借助語義本體技術(shù),檔案知識管理成為可能,實現(xiàn)對檔案信息的組織、加工、提煉工作,形成基于語義本體的檔案知識體系。
基于語義本體的智能語義檢索技術(shù)其核心就是知識管理,根據(jù)本體之間的有機聯(lián)系,推斷數(shù)字檔案資源之間、數(shù)字檔案資源與其他領(lǐng)域信息資源之間的關(guān)聯(lián)關(guān)系,實現(xiàn)檔案信息的整理、分類和聚合,達成檔案檢索的智能化、標準化,從技術(shù)上消除信息孤島。智能語義檢索技術(shù)不僅能夠挖掘出概念體系中的顯性知識,同時也能夠根據(jù)推理規(guī)則挖掘出隱性知識,使隱性知識顯性化,更大程度上實現(xiàn)知識的關(guān)聯(lián)和共享。本體構(gòu)建是實現(xiàn)檔案語義轉(zhuǎn)換的重要形式和關(guān)鍵所在,本體構(gòu)建的完善與否決定了高校數(shù)字檔案資源的語義聚合程度,決定了能否與異地、異構(gòu)、異質(zhì)的其他信息資源實現(xiàn)概念理解和復(fù)用。
高校數(shù)字檔案資源已建立一系列表述豐富的元數(shù)據(jù)集,這些元數(shù)據(jù)對檔案資源進行充分描述,容易借其進行資源整合。本體構(gòu)建原則是尊重原有著錄標準和數(shù)據(jù)存儲方式,充分利用原有數(shù)字化建設(shè)的成果,建立知識概念和合理的檢索推理路徑,同時充分注意到高校數(shù)字檔案資源中知識概念、屬性信息動態(tài)變化特征,進行本體分類動態(tài)更新。考慮到檔案的信息保密要求,還必須設(shè)置瀏覽權(quán)限、只讀權(quán)限等檔案信息保護措施。
高校之間獨立建立元數(shù)據(jù)庫,導(dǎo)致元數(shù)據(jù)規(guī)范可能不一致,語義本體技術(shù)利用本體描述語言將元數(shù)據(jù)本體化、結(jié)構(gòu)化、形式化,構(gòu)建元數(shù)據(jù)間語義表達的有機聯(lián)系,能夠挖掘主題、人物、部門及事件的關(guān)聯(lián)關(guān)系。通過對元數(shù)據(jù)本體屬性進行描述、關(guān)聯(lián)和映射,可以構(gòu)建縱向深遠、橫向錯綜的信息關(guān)聯(lián)網(wǎng)絡(luò),實現(xiàn)數(shù)字檔案資源內(nèi)及與其他高校、不同領(lǐng)域資源間的智能檢索。因此,元數(shù)據(jù)庫的語義本體化能夠規(guī)范資源描述,又能相互映射,經(jīng)過推理實現(xiàn)隱性知識顯性化,同時能夠與不同類型數(shù)字信息資源互操作,達到共享知識信息的目的。高校數(shù)字檔案資源內(nèi)部可以對人、事、物、機構(gòu)、時間等類目建立關(guān)聯(lián)關(guān)系,對檔案本體概念進行語義分析,提煉各類目間的知識結(jié)構(gòu),從語義角度理解、判斷用戶需求,推送用戶感興趣的目標檔案。
本體構(gòu)建方法目前主要為手工構(gòu)建,時間和勞動力成本較高,并且干擾因素大,計算機輔助半自動構(gòu)建或自動構(gòu)建技術(shù)需要時間的沉淀和發(fā)展,需要進一步解決半自動或自動構(gòu)建本體的質(zhì)量。目前,常用的本體構(gòu)建方法有IDEFS 法、骨架法和七步法等,需要根據(jù)實際情況進行選用。高校數(shù)字檔案資源本體構(gòu)建采用RDF 資源描述框架格式,在XML 語法規(guī)范基礎(chǔ)上,通過對象、屬性、值三元組描述檔案概念之間的抽象關(guān)系,表示概念等級關(guān)系,定義概念屬性并創(chuàng)建實例,具有可擴展和可交換的特色。OWL 采用較多的本體網(wǎng)語言,用于定義各個類的相關(guān)屬性,通過屬性定義實現(xiàn)語義推理。本體構(gòu)建工具非常多,Protege 是一種獨立于本體構(gòu)建語言并可導(dǎo)入或?qū)С龆喾N本體構(gòu)建語言的最常見的本體構(gòu)建工具,可以添加pellet、fact、racer、Jess、Jena 等推理插件實現(xiàn)推理,不需要編寫具體本體語言代碼,通過添加對象屬性、數(shù)據(jù)屬性和實例,展示概念間的部分與整體、衍生、實例和概念、從屬等多種關(guān)系,通過關(guān)系的構(gòu)建聚合各領(lǐng)域本體概念。Protege 作為開源本體構(gòu)建工具,不僅支持中文,而且其插件graphviz 能夠用可視化的方式顯示本體,使查詢結(jié)果更為直觀。高校數(shù)字檔案資源可以通過自上而下法提取領(lǐng)域核心類,建立起本體框架結(jié)構(gòu)及本體間的相互關(guān)系,實現(xiàn)本體編碼,并可利用基于邏輯或基于規(guī)則的推理工具或者SPARQL 語言實現(xiàn)隱性知識的本體推理。
傳統(tǒng)的檢索技術(shù)主要以題名、作者、機構(gòu)等表層信息進行數(shù)據(jù)檢索,也就是根據(jù)主題詞、關(guān)鍵詞對數(shù)字檔案資源進行檢索,檢索方式比較單一,不能檢索出概念間的聯(lián)系,需要根據(jù)檢索結(jié)果人工推理進行篩選,檢索的效率較低。而智能語義檢索技術(shù)對包含概念、屬性及實例的網(wǎng)狀結(jié)構(gòu)進行檢索,通過設(shè)計推理規(guī)則,搜索以本體形式相互連接的知識點,形成知識聚類和分析,對數(shù)字檔案資源庫進行條目識別映射,推送本體框架結(jié)構(gòu)的實例目標對象,從而提供全面、準確的知識檢索結(jié)果。因此,高校數(shù)字檔案資源語義檢索技術(shù)是基于知識管理角度的檢索技術(shù),對語義進行描述和分析,檢索本體知識庫中概念間的關(guān)聯(lián),從而解決自然語言的語義多義、同義、相似問題,理解自然語言信息,實現(xiàn)語義推理,結(jié)合其他領(lǐng)域本體知識,擴大檢索覆蓋面,可以檢索出更大范圍的本體庫中的類和實例。
數(shù)字檔案資源本體可以導(dǎo)入元數(shù)據(jù)中的條目信息,如題名、來源單位、責任人、發(fā)文時間等,需要在元數(shù)據(jù)信息基礎(chǔ)上進行語義化和知識關(guān)聯(lián),與其他語義本體對應(yīng)形成語義信息網(wǎng)絡(luò)。元數(shù)據(jù)在語義本體檢索技術(shù)中起關(guān)鍵作用,是描述數(shù)據(jù)并使各種類型數(shù)據(jù)具有本體結(jié)構(gòu)的相關(guān)數(shù)據(jù),對于數(shù)字檔案資源中二維表單形式的結(jié)構(gòu)化數(shù)據(jù),不完全結(jié)構(gòu)化的半結(jié)構(gòu)化數(shù)據(jù)和各種載體、格式和內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù)均可進行屬性描述。元數(shù)據(jù)需要借助RDF、OWL 等本體描述語言以三元組方式本體化,確定本體所屬領(lǐng)域,查詢可用來復(fù)用的本體,獲取本體元數(shù)據(jù)標準及詞表,定義類目關(guān)系和類目屬性,并創(chuàng)建本體實例,實現(xiàn)元數(shù)據(jù)本體關(guān)聯(lián)層次化。智能檢索時用戶輸入的關(guān)鍵詞將與本體庫中的本體類、屬性與本體實例等關(guān)鍵信息進行匹配,提取本體實例獲得智能查詢結(jié)果。智能檢索技術(shù)通過設(shè)置閾值擴展語義檢索范圍,如果保證查準率,則閾值為1,如果保證查全率,則閾值大于3,閾值的擴大可以增大關(guān)聯(lián)語義范圍,從而獲得新的關(guān)鍵詞集合,以此,關(guān)鍵詞集合再次匹配、檢索本題庫,可獲得基于知識點集合更大范圍的關(guān)聯(lián)檢索結(jié)果[2]42。
高校數(shù)字檔案資源本體既可與其他資源本體關(guān)聯(lián),又可與網(wǎng)絡(luò)上的開放資源進行連接,形成范圍廣泛的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。RDF 框架中的三元組方式是構(gòu)建關(guān)聯(lián)數(shù)據(jù)集的基礎(chǔ),通過添加語義邏輯關(guān)系、歸納推理、數(shù)據(jù)挖掘與網(wǎng)絡(luò)互通互連,聚合相關(guān)概念,獲取語義邏輯的隱性知識,產(chǎn)生領(lǐng)域外的本體知識,發(fā)現(xiàn)潛在資源的網(wǎng)絡(luò)地址。因此,智能檢索技術(shù)可以最大范圍和程度上搜索到所有相關(guān)數(shù)據(jù),打通高校數(shù)字檔案資源與網(wǎng)絡(luò)公開資源之間連接的通道。
智能檢索技術(shù)如果對本體庫進行全文讀取,則反應(yīng)時間過長、效率較低,因此,也可以根據(jù)本體規(guī)模情況采用關(guān)系型數(shù)據(jù)庫儲存本體數(shù)據(jù),將本體類目、對象屬性、數(shù)據(jù)屬性、類間關(guān)系、實例、實例間關(guān)系以數(shù)據(jù)庫形式儲存,實現(xiàn)高效查詢本體信息。用戶通過檢索入口提交檢索詞,則檢索詞將與本體概念匹配,根據(jù)語義相似度將相關(guān)閾值的概念加入到檢索式,形成相似度權(quán)重的檢索詞集合,找到符合條件的實例。其中,語義相似度的計算方法主要基于語義距離、語義重合度,語義距離為0 時,語義相似度為1,語義距離越小,語義相似度越大;語義距離越大,語義相似度越??;語義距離為無窮大,語義相似度為1,語義相似度決定了智能語義檢索技術(shù)的檢索能力和檢索質(zhì)量。
高校數(shù)字檔案資源本體庫構(gòu)建需要確立分類樹,導(dǎo)入元數(shù)據(jù)進行標注,形成本體概念,建立語義索引庫。高校內(nèi)尚未建立現(xiàn)成的概念完善的復(fù)用本體,因此可以引用國家頒布的相關(guān)規(guī)定所含詞表作為敘詞,如《中國檔案分類法》《中國檔案主題詞表》《公文主題詞表》《綜合電子政務(wù)主題詞表》等[3]45-46。其中,《中國檔案分類法》采用上下總分結(jié)構(gòu),非常類似語義本體結(jié)構(gòu),可以作為高校數(shù)字檔案資源的本體框架結(jié)構(gòu)?!吨袊鴻n案主題詞表》《公文主題詞表》《綜合電子政務(wù)主題詞表》等收錄檔案管理的規(guī)范術(shù)語,并且收錄非正式主題詞即擴充詞表作為參照項,非正式主題詞在概念上等同正式主題詞,可用于本體類目詞匯對應(yīng)和擴充。這些國家頒布的相關(guān)規(guī)定是高校數(shù)字檔案資源可以復(fù)用的符合本體構(gòu)建的規(guī)范本體,可以借其確定概念互不相交的核心類,確定由上而下逐步細化繼承父類的子類,子類共用父類的通用屬性,父類涵蓋子類所屬的屬性。我們可以使用Protege 軟件的Entities 菜單欄,選取核心概念構(gòu)建高校檔案資源本體,對各種概念進行分類,并標注包含關(guān)系、等同關(guān)系等體現(xiàn)類屬結(jié)構(gòu)關(guān)系的層級。在建立新概念后,根據(jù)上述規(guī)定創(chuàng)建本體分類樹和本體概念關(guān)系,不同本體框架的分類類目可以融合,本體分類樹狀結(jié)構(gòu)可以形成網(wǎng)狀結(jié)構(gòu),產(chǎn)生高校數(shù)字檔案資源語義信息,并將標注信息存儲在本體知識庫,或嵌入式標注數(shù)字檔案資源。
高校數(shù)字檔案資源通過Protege 構(gòu)建的頂級類目可包括檔號、題名、主題詞、人物、責任機構(gòu)、資源格式、日期等關(guān)鍵信息,其中,用戶如果查詢檔號、題名,因檔號、題名具有唯一性,則為精準查詢,如果查詢主題詞或者其他類目,則可實現(xiàn)語義智能查詢,提供語義推理基礎(chǔ),定位檔案記錄所在位置。資源格式主要指文本、圖片、音頻、視頻等,以此顯示本體實例的格式。本體類的屬性具體分為對象屬性和數(shù)值屬性,對象屬性描述主題詞、創(chuàng)建者、關(guān)系類型、格式、文種等,數(shù)據(jù)屬性包括字符型、整型、時間型等數(shù)值格式,推理規(guī)則包括繼承、對稱、整體與部分、函數(shù)關(guān)系等通用規(guī)則或者自定義規(guī)則。因此,選擇具體的類并添加本體特征對象屬性、參數(shù)特性數(shù)據(jù)屬性及特定實例,則類屬性和實例形成對應(yīng)關(guān)系,對象屬性之間也有關(guān)聯(lián)。通過Protege 軟件的插件graphviz 選擇列表中的本體圖,通過ontograph 顯示顯性關(guān)系的本體關(guān)聯(lián),用不同顏色的連接線表明本體之間不同的關(guān)聯(lián)關(guān)系,另外,通過Jess、Jena等各種推理引擎實現(xiàn)隱性關(guān)系推理,或者通過嵌入的SPARQL 菜單智能訪問RDF 框架。
智能檢索技術(shù)可以通過可視化服務(wù)平臺與用戶交互,用戶既可查詢和瀏覽相關(guān)檔案,又可通過智能問答形式擴展語義滿足檢索需求。智能檢索技術(shù)可以通過檔案本體的主題分類和語義標注,針對性地對語義字段進行分類,約束檢索范圍,提供精確檢索結(jié)果,也可以選取上下層級或者語義相似度高的概念一并推送給用戶。智能檢索技術(shù)不僅可以讓用戶了解知識脈絡(luò)和邏輯路徑,并在條件成熟后,逐步設(shè)計主題、任務(wù)或者機構(gòu)等專題。用戶智能問答交互模式可以利用本體框架結(jié)構(gòu),通過雙向反饋更好地理解自然語言,了解用戶檢索的潛在目的。智能檢索技術(shù)還可以通過分析用戶瀏覽日志,歸納用戶檢索的興趣點,提供個性化利用服務(wù)。
高校數(shù)字檔案資源語義檢索技術(shù)是一項融合現(xiàn)代信息技術(shù)和檔案管理科學(xué)的系統(tǒng)性技術(shù),它的實現(xiàn)、推廣和使用需要多部門、多專業(yè)的密切配合,需要建立起技術(shù)開發(fā)和利用的組織保障和綜合協(xié)調(diào)機制,需要結(jié)合檔案部門的人力和財力情況漸進式加以推進[4]63。基于語義本體的智能檢索技術(shù)不僅適用于高校數(shù)字檔案資源領(lǐng)域,還適用于圖書、情報、出版、電子政務(wù)、網(wǎng)絡(luò)信息管理等多個領(lǐng)域,因此智能檢索技術(shù)完全可以與其他領(lǐng)域本體從詞形到詞義實現(xiàn)互操作,本體概念所具有的規(guī)范性、系統(tǒng)性、靈活性和可擴展性將實現(xiàn)更大范圍的跨平臺知識共享。