徐 雷 葉均玲
(武漢大學(xué)語(yǔ)義出版與知識(shí)服務(wù)實(shí)驗(yàn)室,湖北 武漢 430072)
蘇聯(lián)著名情報(bào)學(xué)家米哈依諾夫在其科學(xué)交流系統(tǒng)理論中,將基于科技文獻(xiàn)載體的信息交流稱為正式科學(xué)交流,把學(xué)者之間的直接交流稱為非正式交流[1]?;ヂ?lián)網(wǎng)流行之前的科學(xué)交流過程,受到時(shí)空的嚴(yán)重制約,科學(xué)創(chuàng)作、發(fā)表、評(píng)議、傳播等環(huán)節(jié)相對(duì)獨(dú)立且周期較長(zhǎng),科學(xué)交流的效率不高。進(jìn)入網(wǎng)絡(luò)時(shí)代,科學(xué)交流的載體和方式都發(fā)生了巨大變化,不再受時(shí)空限制,科學(xué)交流環(huán)節(jié)不斷出現(xiàn)新的交流媒介。科學(xué)知識(shí)發(fā)布與傳播的過程表現(xiàn)出較強(qiáng)的即時(shí)性和動(dòng)態(tài)性,正式交流和非正式交流過程在新型技術(shù)平臺(tái)支持下逐漸融合,科學(xué)交流的效率得到空前提高。除傳統(tǒng)書報(bào)刊等物理載體及交流渠道外,當(dāng)前的科學(xué)交流環(huán)境主要以各類學(xué)術(shù)數(shù)據(jù)庫(kù)、學(xué)術(shù)社交平臺(tái)、開放科學(xué)數(shù)據(jù)等為主要技術(shù)特征,以網(wǎng)絡(luò)評(píng)審、多渠道分發(fā)、多方式溝通等為主要交流手段,并出現(xiàn)了諸如預(yù)印本、網(wǎng)絡(luò)首發(fā)、開放獲取、開放評(píng)審等科學(xué)交流實(shí)踐與理念,形成新的科學(xué)交流生態(tài)系統(tǒng)??茖W(xué)成果發(fā)表周期縮短,以數(shù)字出版物為主要載體的科學(xué)知識(shí)呈井噴式增長(zhǎng),在看似高效的科學(xué)交流系統(tǒng)中,科研人員正面臨著被海量科技文獻(xiàn)淹沒的困境。為了跳脫這一困境,實(shí)現(xiàn)高效的科學(xué)交流,滿足科研人員的各類需求,顯然需要新的理論和方法來(lái)適應(yīng)變化中的科學(xué)交流活動(dòng)??茖W(xué)交流活動(dòng)圍繞著科學(xué)知識(shí)的生產(chǎn)、消費(fèi)過程展開,可通過革新科學(xué)知識(shí)的組織和呈現(xiàn)方式來(lái)提升科學(xué)交流的效率。語(yǔ)義出版技術(shù)[2]通過對(duì)數(shù)字資源進(jìn)行細(xì)粒度的結(jié)構(gòu)化組織進(jìn)而為智能化知識(shí)服務(wù)場(chǎng)景提供支撐,是知識(shí)組織與知識(shí)服務(wù)的有效手段,對(duì)于提升科學(xué)交流效率具有重要應(yīng)用價(jià)值。實(shí)踐中,語(yǔ)義出版技術(shù)通常表現(xiàn)為使用各類語(yǔ)義模型來(lái)對(duì)科學(xué)交流環(huán)節(jié)中涉及的各類科學(xué)交流實(shí)體進(jìn)行不同粒度的語(yǔ)義關(guān)聯(lián)組織,以出版物為中心來(lái)組織各類科技資源的語(yǔ)義出版實(shí)踐最為常見,從科學(xué)交流的動(dòng)態(tài)性及全局性視角來(lái)組織各類科學(xué)交流實(shí)體,進(jìn)而構(gòu)建科學(xué)交流語(yǔ)義模型的實(shí)踐較少。本文基于科學(xué)交流相關(guān)理論及語(yǔ)義出版實(shí)踐,將科學(xué)交流全過程語(yǔ)義化,提取科學(xué)交流典型場(chǎng)景和核心要素,并從事件視角構(gòu)建科學(xué)交流語(yǔ)義框架模型,并將該模型應(yīng)用于科學(xué)交流知識(shí)服務(wù)場(chǎng)景。
建立科學(xué)交流語(yǔ)義框架模型,目的在于對(duì)科學(xué)交流的特征、演變和核心流程進(jìn)行語(yǔ)義組織,進(jìn)而為科學(xué)交流場(chǎng)景提供智能支撐。當(dāng)前的研究實(shí)踐主要從3個(gè)方面開展:宏觀科學(xué)交流模型設(shè)計(jì)、具體科學(xué)交流環(huán)節(jié)語(yǔ)義模型構(gòu)建以及科學(xué)交流事件視角下的語(yǔ)義模型設(shè)計(jì)。
宏觀科學(xué)交流模型通?;谛畔⑸芷诶碚?,通過對(duì)科學(xué)交流過程進(jìn)行調(diào)研和歸納,提取典型場(chǎng)景、核心要素并以流程圖的形式來(lái)表達(dá)其中的科學(xué)信息流動(dòng)情況。具有代表性的模型主要有Garvey-Griffith[3]、Roosendaal[4]、Hurd的科學(xué)交流預(yù)測(cè)模型[5]以及SCLC模型[6]等。其中,Garvey-Griffith模型從時(shí)間角度,梳理出了開始研究、完成研究、投稿、出版、年度評(píng)審和引用六大科學(xué)交流典型事件;Roosendaal模型從功能視角總結(jié)了4個(gè)科學(xué)交流環(huán)節(jié),即注冊(cè)(Registration)、認(rèn)證(Certification)、告知(Awareness)和存檔(Archiving);Hurd的預(yù)測(cè)模型提出了在2020年將會(huì)出現(xiàn)的科學(xué)交流要素:電子機(jī)構(gòu)庫(kù)、數(shù)字圖書館、自存檔、聚合服務(wù)器站點(diǎn)等數(shù)字化要素,在當(dāng)今已得到了驗(yàn)證。SCLC模型將科學(xué)交流視為動(dòng)態(tài)循環(huán)過程,采用IDEFO建模方法詳細(xì)梳理了從資助研發(fā)、開展研究、成果交流到知識(shí)應(yīng)用4個(gè)階段的近200個(gè)科學(xué)交流活動(dòng)。除上述科學(xué)交流模型之外,從生命周期視角來(lái)對(duì)科學(xué)交流環(huán)節(jié)進(jìn)行建模的實(shí)踐還很多,如墨爾本大學(xué)圖書館的5階段科學(xué)交流模型[7]、中佛羅里達(dá)大學(xué)圖書館的5階段科學(xué)交流模型[8]、西悉尼大學(xué)圖書館的6階段科學(xué)交流模型[9],這些模型基本上都包括了提出研究問題、開展研究、成果發(fā)布、傳播、存檔等環(huán)節(jié)。
除從宏觀角度對(duì)科學(xué)交流體系進(jìn)行建模外,還可以從微觀視角深入科學(xué)交流的具體環(huán)節(jié),對(duì)不同環(huán)節(jié)進(jìn)行語(yǔ)義建模。在具體科學(xué)交流環(huán)節(jié)語(yǔ)義模型構(gòu)建方面,SPAR[10]是該領(lǐng)域目前最具代表性的本體模型,其包括CiTO/C4O(文本引用類型及統(tǒng)計(jì)本體)、BiRO(書目參考本體)、DoCO(文檔區(qū)塊本體)、PSO(出版狀態(tài)本體)、PWO(出版工作流本體)、PRO(出版角色本體)和SCoRO(學(xué)術(shù)貢獻(xiàn)和角色本體)等15個(gè)本體,分別用于組織科學(xué)交流不同環(huán)節(jié)中的文獻(xiàn)元數(shù)據(jù)、文獻(xiàn)引用、篇章結(jié)構(gòu)等資源信息以及出版流程、利益相關(guān)者、出版狀態(tài)等相關(guān)實(shí)體,對(duì)于構(gòu)建科學(xué)交流語(yǔ)義模型具有很強(qiáng)的參考價(jià)值。此外,還有SWRC(Semantic Web for Research Communities)[11]本體、EXPO(Ontology of Scientific Experiments)[12]本體、SWC(Semantic Web Conference)[13]本體、RO(Research Object Ontology)[14]本體分別用于描述研究社群、科學(xué)實(shí)驗(yàn)、學(xué)術(shù)會(huì)議和研究對(duì)象等科學(xué)活動(dòng)構(gòu)成要素。
此外,因科學(xué)交流活動(dòng)具有很強(qiáng)的動(dòng)態(tài)性,可從事件視角看待和組織整個(gè)科學(xué)交流體系。事件視角下的科學(xué)交流語(yǔ)義模型以科學(xué)事件為基礎(chǔ)來(lái)組織科學(xué)交流活動(dòng),事件語(yǔ)義模型[15]一般包括Event(事件)、Agent(代理)、Time(時(shí)間)、Place(地點(diǎn))等事件要素。典型的科學(xué)交流事件本體有SEDE(Scholarly Event Description Ontology)學(xué)術(shù)活動(dòng)描述本體[16]、SEO(Scientific Event Ontology)科學(xué)事件本體[17]。其中,SEDE從事件的施動(dòng)者和受動(dòng)者的角度切入,將學(xué)術(shù)事件解構(gòu)到原子級(jí)別;SEO則注重描述科學(xué)事件與其他實(shí)體之間的屬性關(guān)聯(lián)。
上述實(shí)踐分別從宏觀和微觀層面設(shè)計(jì)了科學(xué)交流的實(shí)踐框架,宏觀科學(xué)交流模型偏向于科學(xué)交流環(huán)節(jié)的劃分,具體環(huán)節(jié)語(yǔ)義模型偏向于特定的科學(xué)交流組成要素,事件視角下的科學(xué)交流語(yǔ)義模型側(cè)重于典型科學(xué)交流事件的組織。不同框架中涉及的科學(xué)交流要素和環(huán)節(jié)通常具有很強(qiáng)的同質(zhì)性,但是目前這些框架缺乏統(tǒng)一的組織體系和廣泛的關(guān)聯(lián)。因此,亟需一個(gè)統(tǒng)一的科學(xué)交流語(yǔ)義框架模型,一方面對(duì)科學(xué)交流的全流程進(jìn)行系統(tǒng)建模;另一方面對(duì)現(xiàn)有的相關(guān)實(shí)踐進(jìn)行關(guān)聯(lián)。
通過調(diào)查現(xiàn)有研究與實(shí)踐,綜合考慮科學(xué)交流的生命周期和功能特性,本文歸納出科學(xué)交流的六大典型場(chǎng)景:準(zhǔn)備研究(Prepare Research)、開展研究(Conduct Research)、發(fā)表成果(Publish Results)、傳播(Dissemination)、評(píng)價(jià)(Evaluation)和存檔(Archiving)。一般而言,準(zhǔn)備研究階段是科研人員發(fā)現(xiàn)科學(xué)問題,針對(duì)待解決的問題收集與處理文獻(xiàn)資源、尋找合作伙伴、獲取資助,并制定相應(yīng)研究方案的過程;開展研究階段是作者根據(jù)已制定的研究方案,選取合適的研究方法開展科學(xué)實(shí)驗(yàn)、進(jìn)行文獻(xiàn)研究等科研活動(dòng),進(jìn)而將研究結(jié)果形成論文、專利或?qū)嶒?yàn)報(bào)告等多種形式文獻(xiàn)資源的過程;在發(fā)表成果階段,作者進(jìn)行期刊投稿或?qū)@蛯?,通過領(lǐng)域?qū)<液蛯W(xué)者的同行評(píng)議,再經(jīng)過作者修改、編輯排版等環(huán)節(jié)后由出版商以紙質(zhì)或數(shù)字化形式發(fā)布在多種平臺(tái)上;傳播階段主要是在以科學(xué)出版物為代表的文獻(xiàn)資源發(fā)表以后,科學(xué)社區(qū)中的研究人員通過正式或非正式渠道獲取、閱讀和分享文獻(xiàn)資源,并基于文獻(xiàn)資源中研究結(jié)果開展具體學(xué)術(shù)交流活動(dòng)的過程;評(píng)價(jià)階段主要是相關(guān)評(píng)價(jià)組織通過制定評(píng)價(jià)方案對(duì)研究人員、研究機(jī)構(gòu)、出版物等進(jìn)行評(píng)價(jià)得到評(píng)價(jià)結(jié)果并應(yīng)用的過程;存檔階段是指將紙質(zhì)或數(shù)字版本的文獻(xiàn)資源保存在機(jī)構(gòu)庫(kù)、數(shù)據(jù)庫(kù)或者檔案館中,以便于長(zhǎng)期訪問和廣泛傳播的過程。
需要注意的是,這6個(gè)場(chǎng)景不具有嚴(yán)格意義上的時(shí)序關(guān)系,實(shí)踐中科學(xué)交流的場(chǎng)景通常存在重疊和交叉。從整個(gè)科學(xué)交流過程看,前3個(gè)場(chǎng)景是科學(xué)知識(shí)的生產(chǎn)階段,后3個(gè)場(chǎng)景是科學(xué)知識(shí)的消費(fèi)階段。提出研究問題可視為科學(xué)交流的起點(diǎn),推動(dòng)新一輪科學(xué)研究的萌芽、發(fā)展和產(chǎn)出。評(píng)價(jià)和存檔階段產(chǎn)生的評(píng)價(jià)結(jié)果以及保存的文獻(xiàn)資源可以作為準(zhǔn)備研究階段查找、篩選和閱讀文獻(xiàn)的依據(jù),此階段的科學(xué)交流信息會(huì)流入下一輪的科學(xué)知識(shí)生產(chǎn)中??茖W(xué)交流活動(dòng)的6個(gè)典型場(chǎng)景就產(chǎn)生了有機(jī)聯(lián)系,科學(xué)知識(shí)的生產(chǎn)與消費(fèi)形成了循環(huán)往復(fù)的過程,并在不斷的反思和革新中推動(dòng)著學(xué)科的進(jìn)步。在歸納出6個(gè)典型的科學(xué)交流場(chǎng)景之后,進(jìn)一步細(xì)化出18個(gè)子場(chǎng)景,如表1所示。因科學(xué)交流活動(dòng)深受技術(shù)和媒介形態(tài)變革的影響,科學(xué)交流體系的場(chǎng)景和環(huán)節(jié)在未來(lái)極有可能會(huì)發(fā)生變化,對(duì)科學(xué)交流體系的認(rèn)識(shí)應(yīng)該是一個(gè)動(dòng)態(tài)更新、不斷修正的過程。
表1 科學(xué)交流典型場(chǎng)景
在梳理科學(xué)交流典型場(chǎng)景之后,通過進(jìn)一步識(shí)別科學(xué)交流的核心要素、設(shè)計(jì)頂層框架,以結(jié)構(gòu)化、語(yǔ)義化科學(xué)交流體系?;趯?duì)具體科學(xué)交流活動(dòng)的觀察和科學(xué)研究的一般經(jīng)驗(yàn),本文從事件的視角歸納出科學(xué)交流過程的核心要素,即科學(xué)事件(Scientific Event)、利益相關(guān)者(Agent)、角色(Scientific Role)、時(shí)間(Time)、地點(diǎn)(Place)、科技資源(Scientific Resource)??茖W(xué)事件(Scientific Event)泛指各類具有完整時(shí)空信息的科學(xué)交流活動(dòng),比如典型的同行評(píng)議、學(xué)術(shù)會(huì)議等活動(dòng),以及文獻(xiàn)收集、數(shù)據(jù)共享、學(xué)術(shù)匯報(bào)等不同粒度的具有研究人員個(gè)人特色的科學(xué)活動(dòng)??茖W(xué)事件一般發(fā)生在特定的時(shí)間(Time)和地點(diǎn)(Place)情境中。利益相關(guān)者(Scientific Agent)即參與科學(xué)交流活動(dòng)的對(duì)象,比如研究人員、研究機(jī)構(gòu)、出版商、資助機(jī)構(gòu)等,利益相關(guān)者一般以特定的角色(Scientific Role)參與具體的科學(xué)交流環(huán)節(jié),比如同一個(gè)科研人員可分別作為作者、審稿人等參與到論文撰寫、同行評(píng)議等科學(xué)交流環(huán)節(jié)中。科技資源(Scientific Resource)是具體科學(xué)事件開展過程中涉及各類資源的統(tǒng)稱,比如準(zhǔn)備研究階段使用的各類學(xué)術(shù)數(shù)據(jù)庫(kù)平臺(tái)、參考的各類論文資源,開展研究階段使用的科學(xué)數(shù)據(jù)、算法、實(shí)驗(yàn)設(shè)備等軟硬件資源,發(fā)布成果階段產(chǎn)生的評(píng)審信息、不同修訂版本的論文等資源。其中,出版物(Publication)是科學(xué)交流活動(dòng)中核心的科技資源,當(dāng)前的科學(xué)交流活動(dòng)主要圍繞出版物的生產(chǎn)與消費(fèi)展開。
在科學(xué)交流典型場(chǎng)景和核心要素的基礎(chǔ)上,梳理各要素之間的語(yǔ)義關(guān)系,搭建起科學(xué)交流語(yǔ)義模型的頂層框架,如圖1所示。該頂層框架以科學(xué)事件為核心,由相應(yīng)的組織(Organization)或個(gè)人(Person)等利益相關(guān)者參與(hasActor),該過程需要各類科技資源的投入(hasInput),并生成各類科技資源產(chǎn)出(hasOutput)??茖W(xué)事件包括準(zhǔn)備研究、開展研究、發(fā)表成果、傳播、評(píng)價(jià)和存檔6個(gè)子類,并通過hasSubEvent、hasNextEvent等語(yǔ)義關(guān)系反映子科學(xué)事件之間的包含和時(shí)序關(guān)系,通過holdsRoleInEvent表征相應(yīng)的利益相關(guān)者在該科學(xué)事件中承擔(dān)的角色。
圖1 科學(xué)交流語(yǔ)義模型頂層框架
在確定科學(xué)交流的核心要素和語(yǔ)義模型的頂層框架后,本文采用自頂向下的方式,來(lái)進(jìn)一步劃分科學(xué)交流語(yǔ)義模型中的核心要素及其語(yǔ)義關(guān)系。由于不同的科研人員開展具體的科研活動(dòng)深受個(gè)人學(xué)術(shù)經(jīng)驗(yàn)的影響,具體科學(xué)交流環(huán)節(jié)的劃分、命名、操作過程具有較大的差異。為了保證所設(shè)計(jì)的科學(xué)交流語(yǔ)義模型具有較強(qiáng)的通用性,語(yǔ)義模型中的概念要保證一定的抽象粒度,諸如科學(xué)事件概念,因科研人員的個(gè)人特色以及科學(xué)交流媒介的多樣性,使得細(xì)粒度的科學(xué)事件無(wú)法窮盡。因此,本文將科學(xué)事件概念劃分為6個(gè)典型場(chǎng)景和18個(gè)抽象的子環(huán)節(jié),為未來(lái)細(xì)粒度科學(xué)事件的擴(kuò)展提供可能。此外,本體作為特定領(lǐng)域的共享概念體系,其構(gòu)建過程通常需要遵循復(fù)用性原則,因此本文構(gòu)建的科學(xué)交流語(yǔ)義框架模型復(fù)用了FOAF、SPAR、RO等大量的本體詞匯,比如時(shí)間概念復(fù)用了Time本體,可根據(jù)具體的時(shí)間信息來(lái)選擇使用時(shí)間點(diǎn)(Time Instant)還是時(shí)間段(Time Interval)來(lái)描述,遵循復(fù)用性原則為語(yǔ)義框架模型的互操作奠定了基礎(chǔ)。
對(duì)于科學(xué)交流語(yǔ)義框架模型的構(gòu)建過程而言,本文選用本體構(gòu)建七步法[18],具體構(gòu)建流程如圖2所示。首先基于科學(xué)交流的一般經(jīng)驗(yàn),梳理科學(xué)交流的典型場(chǎng)景和核心要素,建立語(yǔ)義模型的頂層框架;然后通過收集科學(xué)交流相關(guān)本體、科學(xué)交流理論模型等資源,復(fù)用相關(guān)本體詞匯及分類方法;之后使用OWL本體描述語(yǔ)言對(duì)科學(xué)交流語(yǔ)義模型中的核心要素及關(guān)系進(jìn)行形式化表達(dá),初步形成語(yǔ)義模型的類屬結(jié)構(gòu);再通過隨機(jī)抽樣的方法選取20個(gè)不同學(xué)科領(lǐng)域的學(xué)術(shù)會(huì)議官網(wǎng),判斷該模型是否蘊(yùn)含會(huì)議網(wǎng)站中提及的科學(xué)事件和實(shí)體,以驗(yàn)證該模型的合理性;最后,通過具體的科學(xué)交流場(chǎng)景對(duì)該模型進(jìn)行實(shí)例化,以驗(yàn)證該模型在應(yīng)用中的有效性。
圖2 科學(xué)交流語(yǔ)義本體構(gòu)建原則與流程
在科學(xué)交流語(yǔ)義模型頂層框架的基礎(chǔ)上,對(duì)本體的核心類及屬性進(jìn)行細(xì)化和分類,進(jìn)一步規(guī)范和完善科學(xué)交流語(yǔ)義框架模型的類屬結(jié)構(gòu),并將該本體命名為科學(xué)交流本體(Scientific Communication Ontology,簡(jiǎn)稱SCO)。本體的核心類如表2所示,主要屬性如表3所示。
表2 科學(xué)交流本體中的核心類
表3 科學(xué)交流本體中的主要屬性
學(xué)術(shù)會(huì)議是典型的科學(xué)交流活動(dòng),為了驗(yàn)證該本體模型類屬結(jié)構(gòu)的合理性和全面性,本文隨機(jī)選擇20個(gè)不同領(lǐng)域的學(xué)術(shù)會(huì)議網(wǎng)站,通過解讀這些網(wǎng)頁(yè)中的征文、會(huì)議議程、會(huì)議主題等不同板塊的內(nèi)容信息,抽取其中的科學(xué)交流相關(guān)實(shí)體、具體科學(xué)領(lǐng)域?qū)嶓w、行為動(dòng)詞等詞匯,通過抽象出這些詞匯的概念類型來(lái)檢驗(yàn)這類具體科學(xué)交流信息與本文設(shè)計(jì)的框架模型的映射匹配程度。通過匹配映射操作,驗(yàn)證本文設(shè)計(jì)的框架模型能夠很好地覆蓋該類特定類型的科學(xué)交流場(chǎng)景。
本體構(gòu)建中必不可少的環(huán)節(jié)就是本體復(fù)用,在明確SCO類屬結(jié)構(gòu)的過程中共復(fù)用了20個(gè)相關(guān)本體,并通過relatedModel關(guān)系提供了關(guān)聯(lián)更多相關(guān)語(yǔ)義模型的能力。具體涉及SPAR系列本體、SEM事件本體、Time時(shí)間本體、DBO地點(diǎn)本體、PAV來(lái)源及版本控制本體、RO研究對(duì)象本體等。圖3呈現(xiàn)了在SCO基礎(chǔ)上,通過relatedModel屬性來(lái)關(guān)聯(lián)科學(xué)交流語(yǔ)義本體詞匯與被復(fù)用的本體的情況,可以看到本文構(gòu)建的科學(xué)交流語(yǔ)義框架模型的核心類屬結(jié)構(gòu)都有相對(duì)應(yīng)的本體被復(fù)用,該本體可以作為導(dǎo)航、集成和鏈接其他科學(xué)交流相關(guān)語(yǔ)義模型的門戶,增強(qiáng)科學(xué)交流相關(guān)實(shí)踐的體系性和規(guī)范性。對(duì)被復(fù)用本體和復(fù)用具體情況的描述如表4所示,在復(fù)用方式上,可分為直接復(fù)用和間接復(fù)用兩大類型。其中,直接復(fù)用即指通過類、屬性的重用或者父/子類、屬性的繼承進(jìn)行直接關(guān)聯(lián),如出版物(Publication)類直接復(fù)用FaBiO本體中的對(duì)應(yīng)類(fabio:Publication)、科學(xué)事件類(Scientific Event)則繼承了SEM本體中的sem:Event類;間接復(fù)用指通過屬性的定義域、值域或者屬性之間的互逆等關(guān)系進(jìn)行間接關(guān)聯(lián)[19],比如對(duì)出版物(Publication)類引用計(jì)數(shù)情況的描述使用了C4O本體中的c4o:GlobalCitationCount類作為其值域(range)。統(tǒng)觀表4中被復(fù)用的本體,大多數(shù)從學(xué)術(shù)資源等科學(xué)交流實(shí)體的視角來(lái)進(jìn)行建模,實(shí)踐中科學(xué)社區(qū)對(duì)同一類型的資源描述存在大量的重復(fù)建?,F(xiàn)象,而從動(dòng)態(tài)流程視角構(gòu)建本體的實(shí)踐較少。本文從事件動(dòng)態(tài)的維度來(lái)組織科學(xué)交流過程中的各類要素進(jìn)而構(gòu)建科學(xué)交流語(yǔ)義框架模型,克服了以資源為中心的組織模式不能有效反映科學(xué)交流動(dòng)態(tài)性的不足,同時(shí)從科學(xué)交流全生命周期視角進(jìn)行建模可以將現(xiàn)有的語(yǔ)義模型以及未來(lái)的相關(guān)實(shí)踐都納入到一個(gè)宏觀的科學(xué)交流體系,加強(qiáng)科學(xué)交流領(lǐng)域中語(yǔ)義模型的自動(dòng)發(fā)現(xiàn)、復(fù)用、補(bǔ)充、完善等實(shí)踐環(huán)節(jié)。
圖3 本體復(fù)用關(guān)聯(lián)關(guān)系
表4 科學(xué)交流本體復(fù)用情況
基于科學(xué)交流語(yǔ)義框架模型,對(duì)6個(gè)典型場(chǎng)景進(jìn)行實(shí)例化操作,準(zhǔn)備研究、開展研究、發(fā)表成果和傳播階段以上海交通大學(xué)金耀輝教授團(tuán)隊(duì)2021年在國(guó)際頂尖人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,以下簡(jiǎn)稱為IJCAI)上發(fā)表的會(huì)議論文《A Generative-Symbolic Model for Logical Reasoning in NLU》為實(shí)例,展示相對(duì)完整的科學(xué)研究過程。評(píng)價(jià)和存檔階段則分別選取評(píng)價(jià)科研人員和存檔圖書兩種科學(xué)場(chǎng)景,以顯示科學(xué)交流語(yǔ)義模型的適用性。
準(zhǔn)備研究階段包括提出研究問題、準(zhǔn)備與處理相關(guān)資源、尋找科研合作伙伴、獲取科研資助和制定研究方案等子環(huán)節(jié)。一般而言,科學(xué)研究的開展主要依靠科研人員自主進(jìn)行研究規(guī)劃設(shè)計(jì),準(zhǔn)備研究階段的實(shí)例化可由科研人員借助各類科研輔助工具進(jìn)行,諸如文獻(xiàn)管理工具、科研筆記工具、研究數(shù)據(jù)管理工具等都可用于對(duì)準(zhǔn)備研究階段的行為數(shù)據(jù)進(jìn)行收集管理,語(yǔ)義框架模型可嵌入到這類工具中進(jìn)行實(shí)例化。由于該階段信息的獲取程度有限,為了驗(yàn)證該階段模型實(shí)例化的可行性,本文通過事后驗(yàn)證的方式獲取這類信息進(jìn)行實(shí)例化。具體而言,合作伙伴和科研資助對(duì)應(yīng)于科研成果的作者、科研基金信息,這些信息可以直接獲取并被實(shí)例化。而研究問題、研究方案的內(nèi)容往往隱藏在正文中,一般不能直接獲取,需要通過人工或自動(dòng)化程序?qū)茖W(xué)論文進(jìn)行解讀與抽取。本文通過人工閱讀理解的方式獲取這類信息,并通過復(fù)用SWAN、FaBiO等本體中的詞匯進(jìn)行實(shí)例化,如圖4所示。
圖4 準(zhǔn)備研究階段實(shí)例化示例
開展研究階段包括執(zhí)行研究方案和表達(dá)研究結(jié)果等子環(huán)節(jié)。類似于準(zhǔn)備研究階段,本文也通過從已發(fā)表的論文等相關(guān)資源中獲取開展研究階段包含的科學(xué)事件,如開展科學(xué)實(shí)驗(yàn)、數(shù)據(jù)分析等,實(shí)例化結(jié)果如圖5所示。
圖5 開展研究階段實(shí)例化示例
發(fā)表成果階段包括投稿、同行評(píng)議、通知修改和準(zhǔn)備出版等子環(huán)節(jié)。發(fā)表成果階段在出版商等外部中介的參與下,此階段的科學(xué)信息相對(duì)研究階段更加開放,但部分科學(xué)信息如責(zé)任編輯信息、同行評(píng)議結(jié)果、手稿不同修改版本等都保存在平臺(tái)內(nèi)部,其可見性由平臺(tái)的開放程度決定。因此,發(fā)表成果階段一方面可借助投審稿系統(tǒng)、期刊網(wǎng)站、開放同行評(píng)審平臺(tái)等的公開信息;另一方面也可從已發(fā)表文獻(xiàn)資源中提取有關(guān)科學(xué)信息進(jìn)而對(duì)投稿、同行評(píng)議等科學(xué)事件進(jìn)行實(shí)例化,實(shí)例化結(jié)果如圖6所示。
圖6 發(fā)表成果階段實(shí)例化示例
在實(shí)例化的基礎(chǔ)上,可以進(jìn)行語(yǔ)義查詢以支撐科學(xué)信息的共享和利用。此處以科學(xué)出版物在同行評(píng)議環(huán)節(jié)的評(píng)審信息的查詢?yōu)槔?,查詢結(jié)果不僅能夠增強(qiáng)對(duì)評(píng)審過程和質(zhì)量的信任[21],還能為作者提供期刊會(huì)議投稿注意事項(xiàng)、審稿風(fēng)格等信息。此處查找以“NLU”作為研究問題的論文的評(píng)審信息,如圖7所示。
圖7 科學(xué)評(píng)審結(jié)果SPARQL查詢
傳播階段包括數(shù)據(jù)庫(kù)訂閱、網(wǎng)絡(luò)學(xué)術(shù)社區(qū)互動(dòng)和參加學(xué)術(shù)活動(dòng)等子環(huán)節(jié)。傳播階段實(shí)例化可借助科學(xué)交流工具如學(xué)術(shù)會(huì)議官網(wǎng)、網(wǎng)絡(luò)學(xué)術(shù)社區(qū)、學(xué)術(shù)數(shù)據(jù)庫(kù)等發(fā)布的信息來(lái)完成,相關(guān)實(shí)例信息的開放程度較高但較為分散,可從多種渠道檢索與獲取,實(shí)例化結(jié)果如圖8所示。
圖8 傳播階段實(shí)例化示例
評(píng)價(jià)階段是對(duì)文獻(xiàn)資源、研究人員或研究機(jī)構(gòu)等進(jìn)行科學(xué)評(píng)價(jià)并形成評(píng)價(jià)結(jié)果的過程。本文以愛思唯爾2021年發(fā)布的中國(guó)高被引學(xué)者年度榜單為例,該評(píng)價(jià)活動(dòng)向社會(huì)面公開透明,能夠借助機(jī)構(gòu)發(fā)布的評(píng)價(jià)相關(guān)信息完成實(shí)例化過程,實(shí)例化結(jié)果如圖9所示。
圖9 評(píng)價(jià)階段實(shí)例化示例
存檔階段是將科學(xué)交流過程中產(chǎn)生的文獻(xiàn)資源等進(jìn)行存檔的過程。本文以書籍《科學(xué)交流與情報(bào)學(xué)》在武漢大學(xué)圖書館存檔為例,圖書在圖書館員的操作下入庫(kù)后會(huì)生成相應(yīng)的存檔版本,實(shí)例化結(jié)果如圖10所示。
圖10 存檔階段實(shí)例化示例
從上面的實(shí)例化過程可以看出,科學(xué)交流的不同環(huán)節(jié)具有不同的開放程度,這就意味著科學(xué)交流語(yǔ)義框架模型的應(yīng)用需要不同的主體協(xié)同參與,才能更好地實(shí)現(xiàn)科學(xué)交流全流程的語(yǔ)義化。具體來(lái)說,可從研究人員視角切入,在其準(zhǔn)備、開展研究階段,就結(jié)構(gòu)化、語(yǔ)義化其研究過程中的數(shù)據(jù),為未來(lái)科學(xué)研究的可共享性和可再現(xiàn)性提供支撐,實(shí)現(xiàn)真正的語(yǔ)義出版[22];還可以從出版商視角入手,結(jié)構(gòu)化并開放同行評(píng)議流程、評(píng)審意見、評(píng)審結(jié)果等信息,提升科學(xué)交流過程的透明性、可信任性。其他參與主體諸如期刊編輯、會(huì)議贊助商和技術(shù)服務(wù)商等都可以在科學(xué)交流全流程語(yǔ)義化中發(fā)揮作用。
本文提出了一種面向科學(xué)交流全流程的語(yǔ)義框架模型,構(gòu)建了一個(gè)可用于描述不同粒度科學(xué)交流事件的頂層框架,致力于科學(xué)交流全生命周期過程的語(yǔ)義化。本文首先基于科學(xué)交流理論與實(shí)踐,歸納出科學(xué)交流的典型場(chǎng)景,再?gòu)钠渲凶R(shí)別科學(xué)交流核心要素構(gòu)建科學(xué)交流語(yǔ)義模型頂層框架?;诒倔w構(gòu)建原則和方法,完善科學(xué)交流語(yǔ)義本體的類屬結(jié)構(gòu),同時(shí)進(jìn)行本體復(fù)用情況分析,最后以科學(xué)研究實(shí)際開展過程作為實(shí)例來(lái)驗(yàn)證本體結(jié)構(gòu)的科學(xué)性。
科學(xué)交流語(yǔ)義模型的設(shè)計(jì)為科學(xué)交流的全流程提供了統(tǒng)一的語(yǔ)義框架,其類屬結(jié)構(gòu)在設(shè)計(jì)時(shí)保持一定的抽象性來(lái)容納具體科學(xué)交流環(huán)節(jié)的差異性,并通過復(fù)用大量語(yǔ)義出版本體模型來(lái)增強(qiáng)該框架模型的可重用性。語(yǔ)義框架模型的設(shè)計(jì)為科學(xué)交流各個(gè)階段的語(yǔ)義化實(shí)踐提供了關(guān)聯(lián)接口和可復(fù)用的候選本體集合,也為開拓新的科學(xué)交流語(yǔ)義化場(chǎng)景提供了宏觀視角。同時(shí),在語(yǔ)義框架模型的具體實(shí)例化等實(shí)踐過程中也看到,不同科研主體介入科學(xué)交流的不同環(huán)節(jié)會(huì)產(chǎn)生不同權(quán)屬與開放程度的科學(xué)數(shù)據(jù),這就需要多方科研主體參與到科學(xué)交流不同環(huán)節(jié)的語(yǔ)義實(shí)踐中,進(jìn)一步開放各個(gè)階段的科學(xué)數(shù)據(jù),集成多種科學(xué)交流工具和平臺(tái),革新科學(xué)交流生態(tài)體系,實(shí)現(xiàn)開放科學(xué)實(shí)踐的全流程覆蓋與互通,才能更好地發(fā)揮語(yǔ)義框架模型在科學(xué)交流全流程中的作用,為實(shí)現(xiàn)科學(xué)交流全生命周期的智能化知識(shí)服務(wù)場(chǎng)景提供支撐,從而進(jìn)一步提升當(dāng)前科學(xué)交流的效率。