趙晨陽 王德勝 張峻 黃肖俊
摘要:以出版融合發(fā)展重點實驗室在專業(yè)領(lǐng)域知識服務(wù)方向開發(fā)成果為例,深入分析了針對多種類型的異構(gòu)出版物資源,如何構(gòu)建有內(nèi)在關(guān)聯(lián)的、高度組織化知識服務(wù)產(chǎn)品。通過知識體系構(gòu)建、知識組織梳理和知識化加工,以知識元為單元將多種類型的異構(gòu)數(shù)字資源進行知識關(guān)聯(lián)組織,以知識地圖、知識束等圖形化方式展現(xiàn)知識元與知識元之間、知識元與各種異構(gòu)資源之間、各種異構(gòu)資源之間的關(guān)聯(lián)關(guān)系,為讀者提供多種類型的結(jié)構(gòu)各異的資源內(nèi)容,形成了有特色的專業(yè)內(nèi)容知識服務(wù)產(chǎn)品。
關(guān)鍵詞:異構(gòu)資源組織;關(guān)聯(lián)發(fā)現(xiàn);知識服務(wù)
中圖分類號:TP393文獻標(biāo)志碼:A文章編號:1008-1739(2019)11-69-4
0引言
數(shù)字出版資源內(nèi)容在類型、形態(tài)、結(jié)構(gòu)、組織方式都有著根本性的不同,如何為讀者提供多種類型的結(jié)構(gòu)各異的資源內(nèi)容,構(gòu)建有內(nèi)在關(guān)聯(lián)的、高度組織化的資源服務(wù)和知識服務(wù)體系,是一個值得研究和探討的課題和方向。
異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)技術(shù)[1-7]在國內(nèi)外有著廣泛而深入的研究。如國外早期研究的跨庫檢索的技術(shù)和互操作標(biāo)準(zhǔn)(OAI-PMH和OpenURL/SFX等),多家機構(gòu)還研制了能將多種類型資源通過元數(shù)據(jù)整合并統(tǒng)一進行檢索的發(fā)現(xiàn)系統(tǒng),包括ProQuest旗下的Summon,EBSCO公司的EDS等。
隨著互聯(lián)網(wǎng)和數(shù)字資源服務(wù)的快速發(fā)展,數(shù)字資源的類型和結(jié)構(gòu)也在快速增加,異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)的技術(shù)也在快速演進。
1異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)技術(shù)
異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)主要有如下3類技術(shù):通過協(xié)議進行系統(tǒng)間的互操作技術(shù)、發(fā)現(xiàn)系統(tǒng)和基于自然語言處理的知識圖譜構(gòu)建技術(shù)。
1.1系統(tǒng)間互操作技術(shù)
系統(tǒng)間互操作技術(shù)主要采用通訊協(xié)議/標(biāo)準(zhǔn)[8]的方式進行,其中,最為廣泛的協(xié)議是OAI-PMH和OpenURL。
(1)OAI-PMH
OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)是基于開放文檔先導(dǎo)(Open Archives Initiative,OAI)的元數(shù)據(jù)獲取協(xié)議。協(xié)議通過定義一個標(biāo)準(zhǔn)化的接口,使網(wǎng)絡(luò)服務(wù)器能夠?qū)⒋鎯Φ谌綉?yīng)用程序的元數(shù)據(jù),協(xié)議可以解決不同資源的元數(shù)據(jù)互操作問題,有效挖掘、發(fā)布和利用互聯(lián)網(wǎng)上數(shù)字信息資源,是在分布式網(wǎng)絡(luò)化環(huán)境中獲取元數(shù)據(jù)信息的標(biāo)準(zhǔn)化協(xié)議,可以廣泛應(yīng)用于資源整合、跨庫檢索等各個領(lǐng)域。
(2)OpenURL
OpenURL是開放的統(tǒng)一資源定位器(Open Uniform Resource Locators)的縮寫,目的是把不同來源和不同通信協(xié)議的信息源及相關(guān)服務(wù)融合在一起,實現(xiàn)不同類型、不同格式和異地分布信息資源的無縫鏈接。它克服了傳統(tǒng)鏈接框架的局限,可為用戶提供上下文相關(guān)鏈接傳遞服務(wù)。
1.2發(fā)現(xiàn)系統(tǒng)
發(fā)現(xiàn)系統(tǒng)[9-10]是信息資源整合系統(tǒng)發(fā)展到一定階段的產(chǎn)物,發(fā)現(xiàn)系統(tǒng)將大規(guī)模的異構(gòu)資源的元數(shù)據(jù)收集起來,建立統(tǒng)一的索引來完成集成的資源搜索和發(fā)現(xiàn)任務(wù),并通過在檢索結(jié)果中按照分類、作者、出版時間及所屬學(xué)科等進行分門別類的展示,可以快速進行多維度的發(fā)現(xiàn);同時,通過對原始資源的鏈接達到獲取原文的目的。
1.3基于自然語言處理的知識圖譜構(gòu)建技術(shù)
知識圖譜[11](Knowledge Graph,KG)旨在描述客觀世界的概念、實體、事件及其之間的關(guān)系。建立KG使用的技術(shù),涉及認(rèn)知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義網(wǎng)、數(shù)據(jù)挖掘與機器學(xué)習(xí)等交叉研究。KG構(gòu)建是根據(jù)特定知識表示模型,從異構(gòu)的海量資源中采用機器學(xué)習(xí)和信息抽取等技術(shù),建立大規(guī)模KG的過程。
異構(gòu)知識資源的語義鏈接和集成與KG的構(gòu)建技術(shù)有著非常密切的關(guān)聯(lián)。通過基于自然語言處理的KG構(gòu)建技術(shù)可以構(gòu)建出專業(yè)領(lǐng)域的KG,并通過KG的集成,形成更為廣泛和統(tǒng)一的KG。在此基礎(chǔ)上,將各種類型的異構(gòu)資源與KG中的實體進行掛接和關(guān)聯(lián),從而可以利用KG為讀者提供更為強大的數(shù)字資源關(guān)聯(lián)服務(wù)和知識服務(wù)。
2專業(yè)領(lǐng)域的應(yīng)用與探索
出版融合發(fā)展(工信集團)重點實驗室依托中國工信出版?zhèn)髅郊瘓F公司(工信出版集團)建設(shè),在專業(yè)領(lǐng)域異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)技術(shù)應(yīng)用等方面都開展了多方位的研究和探索。本文以電子工業(yè)出版社開發(fā)的面向電子技術(shù)領(lǐng)域的異構(gòu)資源融合的知識服務(wù)產(chǎn)品———“E知元”為例,分析相關(guān)技術(shù)在行業(yè)中的應(yīng)用情況。
2.1面向電子技術(shù)領(lǐng)域
電子工業(yè)出版社在電子信息科技領(lǐng)域有著非常深厚的出版資源積累,利用這些豐厚的資源內(nèi)容構(gòu)建了移動端知識服務(wù)產(chǎn)品—“E知元”,以積累的多種類型異構(gòu)數(shù)字資源為基礎(chǔ),通過知識體系的建設(shè)和關(guān)聯(lián)發(fā)現(xiàn)技術(shù)將其有機地組織在一起,為讀者提供專業(yè)的知識服務(wù)。
和普通的內(nèi)容產(chǎn)品有所不同,“E知元”向讀者提供關(guān)聯(lián)、智能的深度知識服務(wù)的專業(yè)閱讀模式。傳統(tǒng)的資源組織方式已無法滿足知識服務(wù)產(chǎn)品對于關(guān)聯(lián)的需求,該社依托其積累的電子書、論文、標(biāo)準(zhǔn)、設(shè)計電路包等多種類型的異構(gòu)內(nèi)容資源,通過知識體系構(gòu)建、知識組織梳理和知識化加工,對建設(shè)完畢的知識或資源進行分類和整理工作,最終以知識元為單元將多種類型的異構(gòu)數(shù)字資源進行知識關(guān)聯(lián)組織,以知識地圖、知識束等圖形化方式展現(xiàn)知識元與知識元之間、知識元與各種異構(gòu)資源之間、各種異構(gòu)資源之間的關(guān)聯(lián)關(guān)系,同時以文中熱詞關(guān)聯(lián)的方式展示資源相關(guān)知識元。通過以上方式,研發(fā)形成了完整的知識服務(wù)產(chǎn)品。
該知識服務(wù)產(chǎn)品主要特色如下:
(1)知識導(dǎo)航分類建設(shè)
知識導(dǎo)航分類工作的主要作用是提供客戶知識導(dǎo)航功能。“E知元”將知識體系的知識元按照理論和實踐2個維度設(shè)計為“知識學(xué)習(xí)”和“技能培養(yǎng)”2個分類體系,幫助用戶通過分類發(fā)現(xiàn)知識元和輔助構(gòu)建個人知識結(jié)構(gòu)。在知識體系建設(shè)完成后,參考核心資源的知識組織結(jié)構(gòu),通過主題分類的方法,將知識元進行3級分類。最終共整理出7個分類,其中知識分類7個,技能分類6個,涵蓋“E知元”所有知識元。
(2)知識束建設(shè)
知識束是將知識體系中具有次序的知識元構(gòu)建順序關(guān)聯(lián),如發(fā)展階段、工藝流程,提供按照順序?qū)W習(xí)知識功能;是學(xué)習(xí)某個知識或技能主要的知識元及其次序。通過梳理,共建設(shè)知識束約40條。
(3)專題知識建設(shè)
專題知識的建設(shè)首先需要進行專題分類,即對項目現(xiàn)有知識化資源按照內(nèi)容進行分類構(gòu)建1級分類和2級分類,每個2級分類稱為專題,提供系統(tǒng)的閱讀;分類的主要依據(jù)電子工業(yè)出版社原有資源分類體系,并在此基礎(chǔ)上根據(jù)資源的情況適當(dāng)修改。本項目共形成37個專題,對于每個專題組織編輯了介紹信息,為用戶了解和使用專題提供參考依據(jù)。
(4)異構(gòu)數(shù)字資源的關(guān)聯(lián)構(gòu)建與服務(wù)
通過算法輔助人工的方式將電子圖書、論文、標(biāo)準(zhǔn)規(guī)范和設(shè)計電路包等將其與知識元、知識體系及知識分類等進行關(guān)聯(lián),形成完整的知識資源數(shù)據(jù)庫,并在此基礎(chǔ)上提供知識圖譜方式的知識服務(wù)。
“E知元”產(chǎn)品共標(biāo)引知識標(biāo)簽166 601處,其顯示效果見圖2黃色標(biāo)簽,形成了相應(yīng)的知識化資源,按照標(biāo)簽與內(nèi)容的關(guān)聯(lián)程度分為1~ 3個級別,1級表示最相關(guān)。用戶在使用過程中,點擊知識標(biāo)簽就可以在多窗口模式下查看知識標(biāo)簽代表知識元的解釋、知識地圖或者深度閱讀相關(guān)資源。
2.2應(yīng)用與探索效果
出版融合發(fā)展重點實驗室在異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)技術(shù)積極進行應(yīng)用與探索,取得了很好的效果,獲得了行業(yè)的高度認(rèn)可;電子工業(yè)出版社推出的數(shù)字產(chǎn)品“E知元”,獲得了行業(yè)和主管部門的一致贊譽和認(rèn)可,榮獲第三屆中國創(chuàng)意工業(yè)創(chuàng)新獎“新技術(shù)獎”金獎。
3結(jié)束語
在異構(gòu)資源組織與關(guān)聯(lián)發(fā)現(xiàn)技術(shù)應(yīng)用領(lǐng)域,國內(nèi)外已經(jīng)有了非常多的研究,從最早的異構(gòu)資源組織相關(guān)的跨庫檢索技術(shù)和聯(lián)邦檢索技術(shù),發(fā)展到通過發(fā)現(xiàn)系統(tǒng)進行一站式檢索,再進一步發(fā)展到通過知識圖譜、知識導(dǎo)航、知識庫的方式進行知識服務(wù),并掛接不同類型的異構(gòu)資源,同時,對異構(gòu)資源通過算法、或算法輔助人工的方式挖掘、發(fā)現(xiàn)知識點與知識點、知識點與資源、以及資源與資源之間的深度的關(guān)聯(lián)關(guān)系,并通過系統(tǒng)進行統(tǒng)一的服務(wù)。
上述知識服務(wù)產(chǎn)品的研發(fā),綜合運用了以上技術(shù),探索了KG技術(shù),通過本文的研究我們可以得出如下結(jié)論:通過知識體系構(gòu)建、知識組織梳理和知識化加工,并與多種類型的異構(gòu)數(shù)字資源進行知識關(guān)聯(lián),以此方式構(gòu)建有內(nèi)在關(guān)聯(lián)的、高度組織化的知識服務(wù)產(chǎn)品,可為讀者提供多種類型的結(jié)構(gòu)各異的資源內(nèi)容,形成專業(yè)特色的知識服務(wù)產(chǎn)品。
從以上的研究和分析來看,通過知識服務(wù)來進行異構(gòu)資源的組織和關(guān)聯(lián)發(fā)現(xiàn)是一個不可阻擋的發(fā)展趨勢,但由于知識庫的構(gòu)建與組織管理過程費時、費力,目前正在做的,也是針對特定的專業(yè)領(lǐng)域進行的構(gòu)建與嘗試,需要研究的專業(yè)領(lǐng)域還非常之多,研究者可以在更多的專業(yè)領(lǐng)域進行研究;不同專業(yè)領(lǐng)域的知識庫的融合并在此基礎(chǔ)上提供服務(wù),是非常重要也是非常具有挑戰(zhàn)性的工作,將是未來的一個重要研究方向。
參考文獻
[1]裴國慶.基于語義的異構(gòu)數(shù)據(jù)庫集成研究[D].南寧:廣西師范學(xué)院,2010:5-6,10.
[2]汪志莉,李欣,張毅.圖書館異構(gòu)特藏資源現(xiàn)狀及其整合設(shè)計[J].數(shù)字技術(shù),2017,(17):95-100,107.
[3]劉瑜.當(dāng)代圖書館信息資源整合的若干模式[J].圖書館雜志,2010,29(3) : 38-41.
[4]張曉雁,徐波.對異構(gòu)資源統(tǒng)一檢索熱的冷思考[J].圖書情報工作,2011,55(1):134-136.
[5]吳一平.異構(gòu)數(shù)字資源整合方案的研究與實現(xiàn)[J].圖書情報工作,2011,55(3):111-115.
[6]陳良.基于語義關(guān)聯(lián)的數(shù)字圖書館館藏資源知識發(fā)現(xiàn)服務(wù)研究[J].農(nóng)業(yè)圖書情報學(xué)刊,2018,30(3):38-41.
[7]劉學(xué)平.館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑[J].圖書館建設(shè),2015,252(6):37-42.
[8]黃肖俊,呂肖慶,湯幟,等.數(shù)字出版與數(shù)字圖書館[M].北京:機械工業(yè)出版社,2013.
[9]孫奇,任慧玲.圖書館資源發(fā)現(xiàn)系統(tǒng)的特點及其存在問題分析[J].圖書館學(xué)研究.2014,(3):51-55.
[10]朱前東.資源發(fā)現(xiàn)系統(tǒng)評價體系構(gòu)建研究[J].圖書館建設(shè),2014(4):41-45.