郝嘉樹 (國家圖書館 北京 100081)
?
語義出版對圖書館文獻資源建設的影響及對策
郝嘉樹(國家圖書館 北京 100081)
[摘 要]語義出版是對人類知識表達智能化改造基礎上的出版方式,作為未來數字資源的主流形態(tài)將成為圖書館資源收藏的重要對象。語義出版作為一項突破性技術會對圖書館文獻資源建設全流程產生較大影響,圖書館應該在資源采訪、資源組織、資源利用、人員培養(yǎng)等方面制定相應對策,以在新的學術社區(qū)環(huán)境中重新定位,建立自己的核心競爭力。
[關鍵詞]語義出版 語義出版形式 規(guī)劃和采訪
文字、段落、圖表和引文等傳統(tǒng)的知識表達方式和PDF、Word等格式的文獻形式已無法滿足不同類型讀者在信息爆炸環(huán)境下智能化閱讀和科研的需要。而語義出版基于語義技術及其他信息技術,通過對出版物的語義標記,豐富其表現形式及顯性內容,提高出版物中信息和知識的可操作性和交互性,增強出版物之間的關聯度[1],最終能使機器理解出版物的含義,并自動提煉主題及內容結構,實現用戶個性化需求服務和基于元知識的發(fā)現以及收割功能。語義出版物中同一數據從不同的角度與其他數據相關聯就能形成不同的專題內容,可以改善圖書館目前資源建設格局,提高學術型出版物的采購效率。隨著深入開發(fā)和技術的成熟,語義出版作為數字出版的高級形式,有望成為未來數字出版的主流形態(tài)[2],并成為圖書館復合館藏的重要對象。
語義出版作為一項突破性技術,將對圖書館資源建設產生較大影響。圖書館是主要的出版物收藏和服務機構,而出版與傳播模式的任何改變都可能使圖書館的地位變得岌岌可危[3]。語義出版在國外著名的出版機構和學術組織領域已經取得一定的進展和成績,如Reuters(路透社)推出的Open Calais服務[4],Royal Society of Chemistry(英國皇家化學學會)提出的Prospect項目[5],Elsevier (愛思唯爾)的Article of the Future項目[6]、OpenMath和Content MathML項目[7],歐盟第六框架計劃資助的SALT項目[8]等。語義出版作為未來數字資源的主流形態(tài)將對圖書館文獻資源建設全流程產生較大影響,本文就規(guī)劃、選擇、采集、組織和開發(fā)全流程論述語義出版對圖書館資源建設的影響,并提出應對策略。
2.1語義出版形式
語義出版是對出版物進行語義化表示,用機器可理解、可處理的W3C標準RDF(Resource Description Framework,資源描述框架)模型和URI(Uniform Resource Identifier,統(tǒng)一資源標識符)通過“主體-謂詞-客體”三元組(Triple)形式揭示出版物的概念、實體、內容結構和篇章結構,并描述出版物和知識之間的關系,從而提高出版物的語義,使機器理解其含義,并能從海量信息中快速獲取、過濾、理解需要的知識,從而實現和促進出版領域內容的揭示、組織、傳播、深度開發(fā)和利用。
語義出版三元組表示中,使用已有的規(guī)范詞表和本體表示主語和謂語,即用公認概念的URI揭示相關概念和實體,并用現有的RDF詞表描述謂詞。對于沒有可引用的本體及RDF詞表,三元組表示需要使用RDF Schema自行定義,并在命名空間(Namespace)中申明。另外,在語義出版的過程中,出版單位按照設計的模型從出版物中提取相關內容,形成結構化的信息,而結構的含義用RD F Schema進行定義和申明即可。圖1即出版物Nanpublication(納米出版物)對結構化內容的表示。
圖1 Nanpublication語義化表示[9]
2.2出版物的語義化
語義出版較之傳統(tǒng)和普通數字資源出版過程更加復雜,其實質是從多方面對出版物進行語義增強,主要包括以下方面:
(1)概念識別
概念識別(Identify)和URI表示,可以在揭示、增強出版物概念語義的同時對其名稱形式進行規(guī)范,為機器理解出版物和與外部資源的關聯(Linked)提供可能性。目前概念識別主要借助命名實體識別(Named E n tity Recognition)、規(guī)范詞表和文本統(tǒng)計等自動識別文本中有意義的概念、實體和術語,并對有多個名稱或重名的情況進行消歧與命名規(guī)范化。
(2)內容結構解析
增強型文本可以輔助讀者快速把握出版物主題和內容結構,提高閱讀效率,如對出版物關鍵信息使用不同顏色進行高亮化處理,形成文本條目;在出版物開始處抽取主題和內容結構形成知識樹,并根據高亮詞條在文章中出現的頻率和位置來決定知識樹的顯示順序[10]。語義出版通過領域本體(Domain Ontology)的語義標注為出版物自動添加內容結構的語義信息,關鍵信息的提取則使用逆文檔頻率、互信息、相關系數、期望交叉熵和信息增益等技術實現。
(3)出版物外部特征解析
出版物的外部特征也是資源發(fā)現的重要途徑,通過對出版物題名、著者、機構、基金項目和參考文獻等的語義化實體識別,可以鑒別、關聯和組織更多離散的信息和資源。出版物外部特征的語義化表示模型可參考BIBFRAME、MODS和DC等元數據框架,其中,URI盡量使用已發(fā)布的權威數據,如著者、機構可參考VIAF、NACO和ISNI中的URI;如果構建新的URI,可使用相關的數字標識符來唯一標識該實體(如題名和參考文獻使用DOI、ISBN和ISSN等),基金項目使用其編號即可。
(4)與外部的關聯與知識發(fā)現
海量和多樣的學術信息使得由出版商主導的信息整合不可能滿足所有用戶的需求,最有效的解決途徑是給讀者提供一般的、可定制的信息聚合方法。語義出版可以利用語義網機制實現機器自動聚合同一或相關內容,依靠各種元數據和本體揭示實體、概念間的關聯關系;技術上通過語義標簽與URI的開放鏈接機制實現不同來源資源的關聯和知識發(fā)現,如通過文獻的URI準確抓取Scopus、Web of Science、Delicious等網站上該文章的引用量、收藏量和訂閱量等信息,并通過RDF標簽實現相同內容的自動聚合。
(5)語義出版生成方式
RDF數據生成方式有3種,即發(fā)布靜態(tài)RDF文件、通過關系數據庫轉化和通過其他類型信息(如C S V、BibTeX)轉化。語義出版的獲取接口目前主要有OAIPMH、OpenSearch、OpenURL和SRU/SRW等,有利于不同數據源之間的開放和融合(Mushup)。
語義出版物較之普通出版物呈現出全新的特性(見表1),這些新特性會對文獻資源建設的規(guī)劃、選擇、采集、組織和開發(fā)全流程產生重要影響。本文基于這些新特性論述語義出版對圖書館資源建設全流程的影響。
表1 語義出版物與傳統(tǒng)出版物的特性比較[11]
3.1規(guī)劃和選擇
語義出版物符合館藏發(fā)展原則中的實用性、效益性、針對性和共建共享等原則,但是圖書館要依據相關標準進行文獻采訪,而語義出版物由于其智能化的特性,不能完全依照普通數字資源的標準進行采訪,因此圖書館需要針對語義出版物的特點制定新的采選規(guī)則和標準。圖書館在制定新的標準時,要考量語義出版的內容包括以下幾方面:在用戶需求標準方面,由于語義出版具有智能性,因此對該項標準的要求需要相應的提高,考慮其能否真正滿足用戶提高閱讀效率、元知識發(fā)現、提供科研線索的需求;內容質量標準要衡量語義出版對概念、實體和內容結構揭示的準確度,以及與其他資源的關聯豐富程度;在技術標準方面,由于語義出版技術具有復雜性,要特別考察提供商對軟硬件安裝、調試、維護及培訓方面的支持程度及能力,同時要了解并根據語義資源的接口類型提供相應的獲取方式;在法律標準方面,要注意對語義出版資源和鏈接訪問權限的限制,圖書館在訪問時要遵循CC、CC BY、CC BY-NC等開放獲取使用許可等。
3.2采 集
語義出版涉及的技術體系復雜,與一般數字資源相比,采集語義出版資源會對圖書館的技術層面帶來一定的挑戰(zhàn),具體影響有以下幾方面:在存儲系統(tǒng)方面,語義出版資源的存儲與傳統(tǒng)的數據庫系統(tǒng)SqlServer、Oracle等完全不同,具有代表性的存儲系統(tǒng)有RDFPeers、YARS2、SHARD、HadoopRDF等,它們需要圖書館重新安裝并提供相應的安裝環(huán)境,操作起來比較復雜,另外在對這些系統(tǒng)進行查詢、處理時要使用SPARQL(RDF開放的查詢和數據獲取協議) ;在采集接口方面,圖書館要根據語義出版資源的接口進行解析和抽取,目前有SPARQL端口查詢、Web Service API、批量下載等5種類型的語義資源獲取接口[12];在閱讀終端方面,語義出版物無法通過普通數字資源使用的瀏覽器和計算機終端展示語義表現力和功能,而是需要圖書館安裝第三方語義工具(如語義處理工具reflect,語義瀏覽器或插件Tabulator Browser、Marbles 和Semantic Radar等),另外還需安裝專用閱讀終端(如Zite、Getutopia和Flipboard等)進行智能化閱讀。
3.3信息組織
語義化出版使得圖書館信息組織前移,在出版前就進行了概念、內外部特征和相關關系的揭示和組織。語義表示技術本身是一種天然的規(guī)范過程,它提供了概念獨立于其表示形式的表達模型,用URI標識概念屬性表示各語種或符號。URI標識就是將出版物中不同形式、語種的名稱進行規(guī)范、組織的過程[13]。語義出版還依靠URI和謂詞實現不同來源資源的關聯和知識發(fā)現,通過URI游歷到其他出版物或資源,自動發(fā)現和整合與該URI(實體、概念)有關的資源,再通過謂詞揭示與這些資源的各種語義關系,并可將同類內容組織聚合,最終實關聯和知識發(fā)現。另外,語義出版通過揭示外部特征可以按照語種、類別、格式、機構、著者等條件分類展示信息內容。
從信息組織的角度來看,以上過程實現了出版物內容特征、相關關系及外部特征深入的揭示,可以滿足用戶對資源族性檢索與特性檢索的需求。隨著語義出版的全面普及,圖書館似乎無需再對收藏的資源進行編目、標引和檢索結果分類等信息組織工作。信息組織作為圖書館的重要功能和核心業(yè)務,語義出版的前端組織似乎將讓圖書館被迫失去一項優(yōu)勢和核心競爭力。
3.4資源利用
語義出版的新特性使得圖書館需要改變傳統(tǒng)的為用戶提供服務的方式和形態(tài)等,使其以盡可能少的閱讀量快速瀏覽、評估文章信息。除此之外,語義出版借助各種語義技術從出版物中抽取結構組件構成各種知識單元,為用戶提供的資源由出版物深化到知識,并且使出版對象從論文擴展到原始數據,適應了“數據密集型科學研究”的需要。一些科技出版商開始借助XML語言在數字出版平臺上向用戶提供具有可操作性的原始數據,對各種報告、圖書和期刊中的數據表格提供原始表單數據、XML 版式文檔和關聯數據集等,用戶可以在閱讀某篇論文的同時查看原始數據和相關文獻。而圖書館目前提供的資源利用與服務還是以本、冊、篇為單位的文獻提供,可提供的服務類型也十分有限。語義出版對資源的深度開發(fā)和利用遠遠超出了圖書館現有的狀況,已在知識服務發(fā)展的道路上向前邁進一大步,也使得圖書館的資源利用與服務顯得單一而又粗糙,圖書館另一項核心業(yè)務的地位得到撼動。
4.1選擇和采集方面
語義出版的復雜性使語義資源增添了較之普通資源特有的功能和技術要求,因此除依照普通數字資源衡量標準外,圖書館還要制定專門針對語義資源的采訪標準,保證該類資源符合館藏建設的原則,具體內容見3.1中的論述。
由于語義出版技術體系復雜,圖書館在采集時一定要進行資源試用。一方面,通過用戶試用考察語義出版物的功能、易用程度和性能等各方面情況,為了得到客觀的試用結果要保證足夠的試用時間并對用戶進行培訓。普通數字資源一般要達到3個月以上才能獲得客觀、準確的試用信息,因此語義資源應該采用比其更長的試用期。另一方面,除了要分析供應商提供的統(tǒng)計數據,還要對本館試用數據進行統(tǒng)計分析,在此基礎上形成試用分析報告,為資源采訪提供重要依據[14]。
圖書館資源建設部門應對語義資源予以評估。語義出版資源除了按照傳統(tǒng)數字資源的評估項目(如內容、價格、技術和服務等)進行評估外,還要對語義資源的兼容性、訪問控制、讀者信息保密性、鏈接有效性、語義準確豐富性、檢索功能、檢索技術和檢索結果輸出等方面進行評價。
語義出版資源通過試用和評估后便可進入采集流程,圖書館對其采購除從價格、使用許可、長期保存、后續(xù)服務等方面與供應商談判協商外,要更多就軟件和硬件的安裝、調試、維護及培訓方面盡力爭取供應商的配合和支持,并監(jiān)督其履約情況 ,同時還要注意語義出版資源鏈接訪問版權是否合法等。
4.2資源組織方面
語義出版使得圖書館核心業(yè)務信息組織前移,在出版物出版之前就完成了深度揭示、標引和組織,但并不意味著圖書館不再需要開展信息組織工作。語義出版中的URI標識依托于公認的主題詞表、名稱規(guī)范檔和各種實體詞匯表,只有這些組織工具構建的概念和實體數量多,別稱、同義詞、近義詞和不同語種形式的入口詞多樣化,才能實現和提高語義出版中URI識別的準確性和數量;另外,資源語義關系的標注、不同來源資源的關聯和知識發(fā)現需要依靠本體及其豐富的語義關系來實現。
語義出版雖然給圖書館資源組織工作帶來挑戰(zhàn)和威脅,但是更能讓圖書館認清自己的核心競爭力究竟是什么,以及該如何定位發(fā)展方向。針對未來語義出版的發(fā)展趨勢,筆者認為圖書館要從以下3個方面開展信息組織工作:
(1)圖書館需要學習和借鑒計算語言學、機器學習領域的命名實體識別、關鍵詞提取、語義標注等先進技術,實現概念、實體及關系的自動識別和標注,從而實現海量館藏資源的快速組織和深度揭示,從根本上改變原來主要由編目人員完成,效率低下且提示和組織程度粗淺的狀況。
(2)面對未來文獻資源的智能化升級和使用,知識組織工具要符合主流發(fā)展趨勢,除傳統(tǒng)分類法、主題詞表和名稱規(guī)范的維護外,圖書館信息組織工作要結合領域專家和計算機技術大力構建各領域本體,進行人類知識的智能化揭示和改造,提高用戶對知識的理解和閱讀效率,提供真正的知識服務。
(3)另外,面對日益復雜的科學問題、交叉融匯研究和戰(zhàn)略性創(chuàng)新,圖書館要有知識架構能力,可以把跨領域的研究人員、信息內容和分析過程有機融匯起來,形成新的知識基礎設施,并根據用戶的需求即時有效地組織和整理知識結構。
4.3資源利用方面
為駕馭“顛覆性趨勢”,圖書館需要思考當前和未來該如何利用資源。出版業(yè)對讀者問題的劃分是粗略的,無法細化到圖書館服務的對象,因此圖書館要以用戶的需求為導向,充分挖掘和利用各方面的資源和能力來滿足用戶的需求。圖書館再也不能僅僅靠館藏量去說明自己的智力內涵和能力水準,必須要利用服務來證明自己的與眾不同,使自己脫穎而出[10]。
借鑒語義出版技術,圖書館要在信息資源的知識化組織與集成化關聯上進行突破,為讀者提供以下相關的知識服務:
(1)實現知識檢索。借助本體、分類體系、知識概念網絡和引用鏈接等多種方法,提取實體、概念和相關要素,建立出版物之間的豐富聯系,實現與用戶需求的語義匹配,借助知識推理按照知識單元進行語義查詢,由此提高查準率,增強知識檢索功能。
(2)實現用戶分析和推薦服務。借助 Web 挖掘、推薦算法及自然語言處理技術,對用戶查詢常用的關鍵詞、瀏覽的專欄、頁面、主題以及添加的標簽、標引行為和用戶評論等進行分析,揭示其興趣領域并分析其行為特征,據此開展個性化推薦服務。
(3)發(fā)揮圖書館資源整合能力,開展基于大數據的熱點提煉,組合相同語義的概念,根據報道次數提煉主題熱點,分析同一主題關鍵詞的變化和跟蹤熱點的發(fā)展趨勢[10]。
(4)實現學科計量和影響力評價。針對科學對象和實體進行知識相關性計算和統(tǒng)計計量分析,實現對實體的有效評價,如可以發(fā)現作者和機構之間的合著和引用關系,科研人員在領域內不同主題方向上的貢獻、研究方向的轉移、學術成果的增減和學術影響力的變化[2]。
4.4人才培養(yǎng)方面
圖書館要想適應未來基于語義出版的新型資源建設的環(huán)境,需要構建專業(yè)的人才隊伍。面對新型資源建設,相關人員需要的能力和專業(yè)包括:了解語義網技術,熟悉自然語言處理、統(tǒng)計學和計算語言學方面的知識,以適應語義資源的軟、硬件操作能力;具備一定的知識結構素養(yǎng)和知識組織技能,能夠即時有效地組織、更改和清理知識結構;掌握大數據環(huán)境下數據挖掘、數據組織等技能,并能運用技術手段分析和評價數據;有圖書情報專業(yè)素養(yǎng),擅長檢索和挖掘用戶潛在需求,提供個性化的知識服務方案。
面對基于語義出版這一新型的資源建設工作,圖書館構建人才隊伍需要從兩方面入手:①現有人才培訓。圖書館聘請各領域專家對圖書館人員進行培訓和指導,通過參與項目帶動人才快速成長,增強實戰(zhàn)能力,從而完成館員的培養(yǎng);②人才引進。面對語義出版環(huán)境下資源建設的需要,圖書館引進的人才需有計算語言學、數據挖掘、信息組織與構建以及知識檢索與服務提供等專業(yè)背景,以應對革新和變化。
出版界與圖書館聯系緊密,出版業(yè)的任何變化都會給圖書館帶來巨大的影響。當前,出版界正悄然發(fā)生著變化,大數據出版、大眾出版和語義出版等眾多出版形式和方式,以及知識表達方式及服務理念的深刻變化,將給圖書館帶來顛覆性的影響,如果圖書館仍然只關注原有資源建設的內容及方式,而忽視了知識呈現、傳播和服務方式以及環(huán)境和讀者需求的變化,終將背離圖書館資源建設的初衷,與讀者的隔閡越來越大。
抗拒突破性技術只會帶來更大的顛覆效力。圖書館應該用積極心態(tài)迎合突破性技術,建立持續(xù)創(chuàng)新的發(fā)展管理機制,在新的知識創(chuàng)造與傳播模式和新的學術社區(qū)環(huán)境中重新定位[3];利用出版業(yè)發(fā)生或者將要發(fā)生的趨勢進行戰(zhàn)略性創(chuàng)新,從而發(fā)展新的服務,創(chuàng)造新的價值,從自我循環(huán)發(fā)展到開放創(chuàng)新、轉型發(fā)展,從而駕馭未來,建立圖書館自己的核心競爭力。
參考文獻 :
[1]王曉光, 陳孝禹.語義出版:數字時代科學交流系統(tǒng)新模型[J].出版科學, 2012(4): 81-86.
[2]周 杰, 曾建勛.數字環(huán)境下的語義出版研究[J].情報理論與實踐, 2013(8):32-35.
[3]張曉林.顛覆數字圖書館的大趨勢[J].中國圖書館學報,2011(5): 4-12.
[4]Open Calais[EB/OL].[2015-09-27].http://www.opencalais.com/.
[5]RSC Semantic Publishin [EB/OL] .[2015-09-27].http://www.rsc.org/Publishing/Journals/ProjectProspect/in-dex.asp.
[6]Schemm Y.Experience the Article of the Future[EB/OL].[2015-10-27].http: //www.elsevier.com/reviewers/re-viewers-update /archive /issue-4 /experience-the-article-of-the-future.
[7]OpenMath and MathML [EB/OL].[2015-09-27].http://www.Openmath.org/projects/esprit/final/node6.htm.
[8]SALT Semantically Annotated LaTex[EB/OL].[2015-09-27].http: //salt.semanticauthoring.org/.
[9]Nanopublication Guidelines [EB/OL].[2015-09-27].http://nanopub.org/guidelines/working_draft/.
[10]王曉光, 陳孝禹.語義出版的概念與形式[J].出版發(fā)行研,2011 (11):54-58.
[11]吳思竹, 李 峰, 張智雄.知識資源的語義表示和出版模式研究: 以 Nanopublication 為例[J].大學圖書館學報, 2013(4):102-109.
[12]王思麗, 馬建玲, 李慧佳,等.關聯數據集中開放資源的自動獲取研究[J].圖書館學研究, 2015(18):49-54.
[13]劉 煒, 張春景, 夏翠娟.萬維網時代的規(guī)范控制[J].中國圖書館學報, 2015(3):22-33.
[14]汪東波.公共圖書館概論[M].北京:國家圖書館出版社, 2012:87-88.
Effects and Countermeasures of Semantic Publishing on Library Literature Resources Construction
[Abstract]Semantic publishing is the way of publishing based on intelligent transformation on human knowledge representation.As the main form of future digital resources, semantic publishing will become an important object of library resources collection.Semantic publishing, which is a breakthrough technology, will affect the whole process of library literature resources construction.In order to relocate in the new academic community environment and build library's core competitiveness, the library should propose the corresponding countermeasures from the aspects of the acquisition, organization, utilization of the literature resources and personnel education.
[Key words]Semantic publishing; Semantic publishing form; Planning and acquisition
[中圖分類號]G253
[文獻標識碼]A
[作者簡介]
郝嘉樹 女,1983年生,現工作于國家圖書館,館員。
[收稿日期:2015-10-29]