閆 瑩
(鐵嶺師范高等??茖W校,遼寧 鐵嶺 112001)
移動互聯(lián)網技術的進步,微信、微博等新媒體的廣泛應用,改變了傳統(tǒng)的科學研究范式,掀起了科研數字化浪潮。面向特定學科的智能檢索、數據挖掘、自動超鏈接技術,為科研人員獲取、傳遞、共享信息提供了便利,打破了科研交流的國界、區(qū)域限制,也促進了科研數據的“爆炸式”增長。隨著跨學科研究的不斷深入,科研人員提升了數據利用要求。數字出版通過導入文字、表格、圖片的知識表達方式,雖然可以提供大量信息,但增加了閱讀、分析、存儲等環(huán)節(jié)的難度,影響了用戶信息組織的效率。面對復雜的科研數據整合任務,如何借助智能化技術,分析不同出版內容之間的內在聯(lián)系,幫助科研人員發(fā)現異構資源之間的規(guī)律,成為科研數字化背景下的重要挑戰(zhàn)。為方便用戶了解、分析復雜的數據體系,通過數據之間的關聯(lián)度,提高數據整合與知識發(fā)現的效率,圖書館、學術出版機構與科研人員,紛紛將目光投向語義網領域。基于語義網技術的信息發(fā)布、集成框架設計,以及不同信息標準和語義網的結合,形成了語義出版模式。它通過對出版內容進行語義識別,使其能夠被機器理解,增加了內容的互操作性,方便用戶學習復雜的知識體系。作為數字出版的高級形式,語義出版逐漸成為學術出版的主流方式,將對科研活動產生深遠的影響。
2000年,B.Lee提出語義網的概念,指出語義網通過嵌入機器可以識別、代表數據知識內在關聯(lián)的語義標注,使得機器可以自動分析處理數字化資源,提高科研數據智能化處理水平。語義網技術與數據挖掘等信息技術的結合,以語義標注的方式,可以顯著增強出版內容的可操作性,揭示不同信息的內在關聯(lián),優(yōu)化出版流程。D.Shotton等從語義技術角度,對傳統(tǒng)出版方式進行改進,于2009年提出語義出版的概念[1]。這是一種依托語義網、語言處理、可視化等多種技術,對數字出版物進行語義化操作,進而形成語義出版物的過程。作為語義網技術的實踐應用,語義出版具有方便閱讀、精準查詢、交互操作等諸多優(yōu)勢,也得到眾多領域的廣泛關注。
語義出版在形成之初,其研究對象主要為學術論文資源。它借助語義技術對學術論文進行語義標識,從中抽取易于分析處理的數據,實現相關文章的自動化鏈接,使得論文出版方式更為智能化??蒲袛底只尘跋?,科研數據類型更加多元,包括事實型、關聯(lián)性、術語型等,語義出版的研究對象也在不斷拓展,多媒體資源、文獻型學術資源等成為主要研究對象。它通過揭示不同文獻中知識單元之間的語義關系,實現研究對象與其他文獻資源之間的連接,促進信息的動態(tài)鏈接。語義出版也支持對網絡文獻進行自動化分析,通過分析在線文獻的內在邏輯,將不同的事件、資料等聯(lián)系起來,為基于語義的非線性閱讀提供支持。
國內外學者早期對語義出版的研究,主要集中在數字出版與語義網的關系方面[2]。一些學者指出,語義網技術以建立本體的漸進方式,提高了出版內容的組織傳播效率,是對數字出版的優(yōu)化。隨著研究的深入與應用范圍的擴大,對于語義出版的研究更加注重可操作性。我國人民出版社在2010年召開的數字出版年會上,對外演示了各類自動語義識別工具,為人們整合利用知識資源提供了新途徑。2012年,歐洲國家召開以“語義網和數字出版”為主題的學術會議[3]。2015年,W3C發(fā)布基于WAIARIA模塊的語義出版標準規(guī)范,結合已發(fā)布的數字出版注釋用例,明確定義屬性、本體等概念,提供多種語義表達方式,使得數據語義處理更為便利。語義出版對資源的深度開發(fā)與揭示,遠超過圖書館現有利用現狀。目前國內圖書館界對語義出版的研究相對滯后,只有國家圖書館等少數機構開展了語義出版實踐,尚未提升到對面向知識發(fā)現的出版模式的探索。2011年,國家圖書館啟動“中國記憶”項目,借助語義出版技術對非遺文化資源進行再現和共享,開創(chuàng)了我國非遺保護先河。2014年,上海圖書館年設立科研項目,研究納米語義技術在圖書館中的應用。2016年,浙江大學圖書館提出“基于內容與服務的文獻保障體系建設”規(guī)劃,指出在語義出版宏觀環(huán)境下,確立文獻建設的語義出版模式發(fā)展方向。
語義出版注重內容管理與語義標識,圍繞數字出版內容進行組織策劃,增強了不同環(huán)節(jié)的聯(lián)系,使數字資源得到深入加工處理,基本流程如圖1。作為更高級的出版形態(tài),語義出版提供了智能檢索、可視化等多種服務方式,推動了學術文獻出版模式革新,對科研交流活動也產生了深遠的影響。
圖1 語義出版基本流程
科研過程中搜集整理相關文獻資料,并深入閱讀分析,占據了科研人員的大量時間。根據美國NSF的統(tǒng)計報告,一個科研人員在文獻資源查找、整理與消化方面,所占用的時間超過科研總時間的50%。若每個科研人員都單獨開展這項工作,不僅導致重復勞動,也無法保障文獻處理的準確率[4]。在科研數字化背景下,語義出版的引入,將大量需要科研人員完成的文獻梳理工作,交由出版系統(tǒng)完成,通過出版商與科研人員的協(xié)同合作,有望提高科研工作效率。學術出版機構具有豐富的文獻處理經驗,他們與作者聯(lián)系密切,也擁有專業(yè)的編輯隊伍。依托語義網等技術,出版機構可以從源頭上對文獻資源進行語義標注,體現不同資源之間的關聯(lián),以可視化的方式呈現文獻分析、聚合結果,幫助科研人員獲取更多信息,真正將科研人員從繁重的文獻組織整理任務中解脫出來。
在跨學科研究背景下,科研人員面對復雜的研究課題,往往需要對大量文獻進行篩選、標引、注釋與評估,從中發(fā)現特定學科領域的發(fā)展規(guī)律。這種閱讀方式不僅在于解決微觀問題,也需要對領域知識有宏觀把握。為支持科研人員對學科知識的宏觀閱讀需求,出版機構可引入本體捕捉、聚合分類等技術,在語義出版過程中通過自動化知識抽取、對比與分析,建立不同形式的知識地圖,幫助科研人員提高宏觀閱讀效率,并更好地應用于科研活動中。語義出版以語義網技術為基礎,可以結合自然語言處理、數據挖掘等多種技術,對用戶行為數據進行分析,揭示其興趣愛好,為提供個性化服務提供依據[5]。對信息服務機構而言,通過收集科研人員的檢索、瀏覽與評價行為,對用戶行為特征進行分析,可以找到與他們興趣相似的群體。然后利用語義出版細化知識單元,規(guī)劃海量資源的組織、聚合和發(fā)布方式,形成針對特定場景的系統(tǒng)化服務模式,為科研生命周期不同階段的用戶主動推送資源,滿足他們的個性化需求。
科研工作者將自己的科研成果,在科研過程中的發(fā)現、經驗教訓等,組織整理為學術文章發(fā)表,可以為其他研究者提供借鑒。由于傳統(tǒng)的學術文獻出版方式,缺乏對文獻內容內在邏輯的深度梳理,無法提取其中豐富的信息。而對于期刊文獻的影響力評價,多根據引用率、下載量等指標開展,評價方式相對單一,參考價值有限[6]。語義出版在改變學術出版方式的基礎上,對文獻評價方式進行了細化,不僅關注引用率,也關注與文獻相關的瀏覽量、出版機構、基金等因素,能夠從多個角度反映文獻的學術影響力。如根據用戶對文獻資源的檢索情況,通過語義標識與分析,可以獲得各種檢索關鍵詞,如題名、作者、學科主題等,然后統(tǒng)計分析與評價?;蛘卟捎靡姆治龇绞剑瑥年P聯(lián)作者、團體、機構、時間序列等角度,對數據進行跟蹤、統(tǒng)計與分析,揭示文獻的研究重點與用戶認可情況。
由于圖書館在科研交流和日常的信息交流中扮演著重要角色,因而會對服務流程產生很大的影響。首先是信息粒度變小,信息與信息之間產生了多元的聯(lián)系。信息粒度的變小將直接導致科研人員從原先論文、報告的需求變?yōu)閷υR的需求。信息傳遞的時效性加強,且科研人員對于信息準確性的要求提高。其次,由于語義化出版會將同類內容進行組織聚合,因而圖書館在向用戶提供服務時,需要提供新的瀏覽終端(軟硬件)來對這些信息進行展示。最后,圖書館需要深化知識服務。圖書館需要對目前已有的電子出版物進行回溯處理,為出版物之間建立多元的聯(lián)系,實現用戶需求同結果的語義匹配;還需要基于用戶的行為數據,對其興趣愛好進行標注,進而開展個性化服務,節(jié)省用戶時間,提高服務效率。
語義出版涉及多個復雜的環(huán)節(jié),為保障不同環(huán)節(jié)的有效銜接,需要依托數據挖掘、自然語言處理等技術,通過建立語義鏈接展示不同資源形成的邏輯結構。要想實現語義出版目標,可以從語義框架模型、語義標準規(guī)范、語義關系揭示3個層面實現。
從宏觀層面建立框架模型,如DBIU層次模型、數字資源聚合框架等,是實現語義出版常用的方式。其中DBIU層次模型分為數據、業(yè)務與用戶3個層級,用戶提出功能需求后,由業(yè)務層根據用戶需求聚合數字資源,在語義描述與標注基礎上,深入分析文獻之間的關聯(lián),形成具有語義關系的知識網絡。數字資源聚合框架涉及本體、關聯(lián)數據、資源聚合與結果評價等步驟,可以通過語義化描述,將異構資源轉化為統(tǒng)一格式,借助本體實現數字資源聚合,滿足語義出版對數字資源的要求。隨著語義網技術的進步,作為描述概念間關系的模型,本體具有很強的語義表達能力,能夠發(fā)現不同概念之間隱含的關系,能夠很好地解決數字資源的語義聚合問題[7]。
語義出版涉及一系列與文獻資源相關的標準規(guī)范,如RDF、GBIF、Data Cite等。通過分析不同標準規(guī)范的特點與應用范圍,在語義出版不同階段選擇對應的標準,可以促進文獻資源的語義化關聯(lián),揭示其中隱含的規(guī)律。從語義標準研究視角看,部分學者傾向于從語義識別,或者語義關聯(lián)分析角度,對文本資源內在屬性進行定義和分類,然后選擇合適的語義標準,挖掘特定類別文獻的語義相似度。部分學者傾向于從語義映射和知識發(fā)現角度,抽取文獻資源中隱含的概念,并進行語義標注,利用UMLS搭建不同資源之間的語義關系,如依據《中國圖書館分類法》中相應的標準規(guī)范,為文獻概念提供統(tǒng)一的分類體系。而語義出版中涉及的分類號、主題詞等概念,可以借助SKOS這套預設的語義詞集成,明確描述不同概念之間的關系,方便機器理解與分析。
不同文獻資源之間存在相互交錯的、泛在的聯(lián)系,表現在作者與作者、作者與出版機構、期刊與作者等之間的復雜關系。而不同概念之間,也存在不同形式的關聯(lián),如反義關系、包含關系等。對文獻資源進行語義化描述,界定語義元素的類型與特點,在對各類知識進行組合基礎上,依托機器推理、詞典驅動等方法,實現對語義元素關系的深入分析,就可以揭示文獻資源之間的語義關系。借助語義網技術,以有效的數據挖掘方式,對文獻資源包含的語義要素進行抽取,從文獻之間的關聯(lián),深入到不同概念之間的聯(lián)系,在語義標引基礎上形成語義鏈接,就可以構建對應的語義知識網絡。這樣不僅方便科研人員查找、分析相關文獻,了解該文獻在整個知識體系中所處的位置,保障語義出版與用戶需求的匹配,也可以提高文獻查準率。
隨著語義出版研究的不斷深入,語義網技術與其它技術的結合方式增多,逐漸形成了以關聯(lián)數據和本體為主的技術路線。大量與之相關的研究成果,深入揭示了語義出版的內涵,為語義出版應用范圍的擴展奠定了基礎。
本體在信息科學領域應用廣泛,是描述特定學科領域概念之間關系,體現文獻價值的有效工具。本體技術的引用,解決了語義出版中數據資源的特征描述問題,可以全面定義文獻資源的特點。語義出版中通過建立本體,實現對知識對象的語義描述,可以詳細、明確地展現概念體系。根據應用目的不同,語義出版中可以分為領域本體與文獻本體兩類。其中領域本體應用于專業(yè)學科領域,如醫(yī)學、化學等,可以通過抽取領域知識,形成專業(yè)數據集,易于機器理解分析。它側重對文獻資源的內在結構、內容、屬性等,進行綜合分析與描述,展現文獻的內外部特征[8]。依據文獻出版模型,對文獻外部特征的描述,可以采用抽取異構化題錄項信息的方式。而文獻內部特征的描述,就需要做好文獻內部語義元素識別工作,依托不同的語義技術對文獻內容文本進行處理,并標注元素類別。例如,美國國家癌癥中心屬于資源系統(tǒng),通過批量分析與基因疾病相關的文獻,建立文獻本體進行語義描述,發(fā)布了近100萬個描述規(guī)范的人類基因科學陳述。
語義出版中關聯(lián)數據的應用,為出版對象與外部數據資源的連接提供了技術框架,能夠進一步豐富出版內容。語義出版中要求建立統(tǒng)一的資源描述框架,發(fā)現知識之間的關系,關聯(lián)數據技術滿足了這一需求。在語義出版過程中,雖然用戶的外部資源獲取,基于外部訪問的關聯(lián)數據應用等,可以豐富出版內容,但只有做好文獻組織與語義處理工作,才能真正保障語義出版質量。關聯(lián)數據是知識發(fā)現的基礎,使得語義出版的知識關聯(lián)、共享得以實現,提高了知識內容的聚合效應,提高了知識發(fā)現的準確性,因此成為語義出版的重要手段。在科研數字化背景下,基于關聯(lián)數據的語義出版,改變了由關鍵詞、作者、引文等形成的顯性知識關聯(lián),轉而關注與知識判定相關的觀點相似度、引文頻率等隱性因素(如圖2),促進了文獻內外部特征的語義聯(lián)系,有助于構建更全面、立體的知識體系。
圖2 知識關聯(lián)顯隱性因素
語義出版的實現,離不開本體、語義網等技術的支持。因此,在醫(yī)藥、生化等語義網技術應用相對成熟的領域,語義出版獲得了發(fā)展的土壤,并且隨著應用需求的增多而不斷改進。總體而言,可以將語義出版的發(fā)展分為初級、中級與高級3個階段,其中初級階段主要關注文獻資源的外在特征;中級階段關注對文獻資源特征的語義描述,獲得其中的隱性或半隱性知識;高級階段則是對文獻特征的全方位描述與語義標引。目前語義出版研究尚處于中級階段,依然需要解決一些嚴峻的問題,如自動化程度低、語義出版發(fā)布機制不健全、標準規(guī)范較少等。而隨著本體、自然語言處理等技術的進步,文獻資源的更多隱性特征將會被挖掘,這也有助于規(guī)范化的語義描述,進而促進語義出版向更高層級的深度標引發(fā)展。
David Shotton等認為,語義出版具有多方面的應用價值,其為出版機構的知識關聯(lián)與深度挖掘提供了條件,在幫助用戶發(fā)現知識過程中,也可以獲得合理的利益回報,進而成為全新的服務方向??蒲袛底只绷飨?,語義出版為科研人員提供了便利,基于語義標注的非線性閱讀模式,減少了閱讀障礙,提升了用戶閱讀體驗。在學術出版領域,語義出版技術的應用,使得學術資源更易被理解和利用,能夠實現與全新商業(yè)模式的結合,為用戶提供全新的服務內容。如在作者信息描述方面,可借助DBLP關聯(lián)數據集,構建與作者相關的概念框架,全面展示與作者相關的信息;將語義技術與Wiki結合,方便科研人員間的信息交流;借助信息推送技術,主動為科研人員提供經過語義標注的文獻資源。在教育出版、圖書館等領域,語義出版的應用,有助于用戶更好地整合各類資源,通過靈活標注提高資源利用率。如BBC在體育賽事報道方面,借助語義出版技術加快播報速度。由此可見,語義出版為出版內容與用戶需求的匹配,為個性化服務內容的實現奠定了基礎,應用前景十分廣闊。
語義出版是數字出版領域的新形態(tài),受到國內外學者的高度重視。經過多年的研究探索,語義出版的研究對象不斷拓展,出版內容更加豐富,提高了出版物的交互與操作性,使得用戶獲取知識的體驗進一步優(yōu)化。然而應該看到的是,目前語義出版研究尚處于摸索階段,還需要解決多方面的問題。在標準規(guī)范制定、自動化抽取等方面,語義出版還有很大的發(fā)展空間,這也是未來需要努力的方向。
[1] 張偉偉,等.語義出版下學術期刊的應對與發(fā)展[J].科技與出版,2017(5):117-121.
[2] 李楠,孫濟慶,馬卓.面向學術文獻的語義出版技術研究[J].出版科學,2015(06):85-92.
[3] 郝嘉樹.語義出版對圖書館文獻資源建設的影響及對策[J].圖書館建設,2016(4):34-38.
[4] 王丹丹.數據論文:數據集獨立出版與共享模式研究[J].情報資料工作,2015(5):95-98.
[5] 許鑫,江燕青,翟姍姍.面向語義出版的學術期刊數字資源聚合研究[J].圖書情報工作,2016(17):122-129.
[6] 李航.淺析語義技術對傳統(tǒng)出版的影響及發(fā)展策略[J].出版發(fā)行研究,2017(1):35-38.
[7] 黃崑,王珊珊,耿騫.國外圖像特征研究進展與啟示[J].圖書情報工作,2015(08):138-146.
[8] 宋丹輝.語義出版及其對圖書館資源建設影響探析[J].蘭臺世界,2017(6):61-64.