徐雷,張亞菲,葉均玲
(1. 武漢大學(xué)語(yǔ)義出版與知識(shí)服務(wù)實(shí)驗(yàn)室,武漢 430072;2. 武漢大學(xué)文化遺產(chǎn)智能計(jì)算實(shí)驗(yàn)室,武漢 430072)
科技文獻(xiàn)是當(dāng)前科學(xué)知識(shí)的主要載體以及科學(xué)交流的主要對(duì)象,其中蘊(yùn)含的科學(xué)創(chuàng)新內(nèi)容既是科學(xué)研究成果的集中體現(xiàn),也是科學(xué)交流的具體對(duì)象,科研人員通過(guò)科學(xué)論證手段對(duì)科學(xué)創(chuàng)新內(nèi)容進(jìn)行敘事表達(dá),形成科學(xué)論文,促進(jìn)了科學(xué)知識(shí)的傳播及新的科學(xué)創(chuàng)新進(jìn)程。然而,隨著科技文獻(xiàn)的大量涌現(xiàn),科研人員對(duì)科學(xué)創(chuàng)新內(nèi)容的跟蹤、理解、運(yùn)用面臨越來(lái)越大的壓力,科學(xué)交流活動(dòng)面臨“知識(shí)過(guò)載”的危機(jī),科學(xué)創(chuàng)新內(nèi)容急需新的敘事手段,以有效地推動(dòng)科學(xué)論證、科學(xué)評(píng)價(jià)等科學(xué)交流活動(dòng)??萍嘉墨I(xiàn)是當(dāng)前創(chuàng)新內(nèi)容的主要載體,其通過(guò)不同的修辭論證結(jié)構(gòu)對(duì)創(chuàng)新內(nèi)容進(jìn)行敘事表達(dá),因此,當(dāng)前主流實(shí)踐主要采用從科技文獻(xiàn)中識(shí)別抽取創(chuàng)新內(nèi)容的方式來(lái)呈現(xiàn)創(chuàng)新內(nèi)容本身。然而,這類實(shí)踐以驗(yàn)證科學(xué)創(chuàng)新內(nèi)容識(shí)別方法的性能為主,缺乏從宏觀層面探索新的創(chuàng)新內(nèi)容敘事方式以及基于這種敘事方式的科學(xué)交流機(jī)制的相關(guān)研究。
本文一方面梳理了科學(xué)創(chuàng)新相關(guān)概念的內(nèi)涵,歸納總結(jié)了創(chuàng)新內(nèi)容識(shí)別抽取的主流實(shí)踐及主要問(wèn)題;另一方面重點(diǎn)分析了當(dāng)前創(chuàng)新內(nèi)容結(jié)構(gòu)化組織的主要數(shù)據(jù)模型及基于創(chuàng)新內(nèi)容的應(yīng)用場(chǎng)景,并從宏觀層面上構(gòu)建了基于創(chuàng)新內(nèi)容這一核心要素的科學(xué)交流框架,探討了實(shí)現(xiàn)該框架所面臨的挑戰(zhàn)。
科學(xué)創(chuàng)新可以簡(jiǎn)單地理解為創(chuàng)新的一種類型,既可以是指在科學(xué)領(lǐng)域從事的創(chuàng)造性活動(dòng),其具有動(dòng)態(tài)性,強(qiáng)調(diào)科學(xué)發(fā)現(xiàn)的過(guò)程;也可以是指創(chuàng)新活動(dòng)的成果,具有靜態(tài)性,用于表達(dá)科學(xué)發(fā)現(xiàn)的結(jié)果。本文主要是指后一種類型。作為科學(xué)社會(huì)學(xué)代表人物之一,哥倫比亞大學(xué)社會(huì)學(xué)教授巴伯將科學(xué)創(chuàng)新定義為“人類對(duì)社會(huì)生活中已經(jīng)存在的科學(xué)要素所作的富于想象力的結(jié)合”[1];Science雜志認(rèn)為,科學(xué)創(chuàng)新是指對(duì)自然或理論提出新見(jiàn)解[2];國(guó)際權(quán)威創(chuàng)新調(diào)查指南《奧斯陸手冊(cè):創(chuàng)新數(shù)據(jù)的采集和解釋指南》認(rèn)為,科學(xué)創(chuàng)新是對(duì)已有的思想、技能、資源等的新組合[3]。從創(chuàng)新的過(guò)程來(lái)看,科學(xué)創(chuàng)新是指創(chuàng)新主體借助一定的方法產(chǎn)生創(chuàng)新成果,并創(chuàng)造出科學(xué)價(jià)值的過(guò)程。其中,創(chuàng)新主體是指創(chuàng)新實(shí)踐的參與者,如科研人員、研究機(jī)構(gòu)等;創(chuàng)新成果是指創(chuàng)新實(shí)踐的產(chǎn)出,如發(fā)現(xiàn)新規(guī)律、產(chǎn)生新見(jiàn)解、發(fā)明新藥物等創(chuàng)新內(nèi)容;創(chuàng)新的科學(xué)價(jià)值是指創(chuàng)新成果所帶來(lái)的潛在影響,主要體現(xiàn)在對(duì)科學(xué)發(fā)展本身的推進(jìn)以及在生產(chǎn)生活中的應(yīng)用。
作為科學(xué)交流活動(dòng)的主要對(duì)象,科學(xué)創(chuàng)新本身具有一定的特征,如新穎性(novelty)[4]、獨(dú)創(chuàng)性(originality)[5]、價(jià)值性[6]、簡(jiǎn)明性[7]等。其中,新穎性是科學(xué)創(chuàng)新最本質(zhì)的特征,能夠顯示與其他科學(xué)創(chuàng)新的差異,這種差異既可以是“局部改進(jìn)”式的漸進(jìn)式創(chuàng)新,也可以是“全新”的突破式創(chuàng)新;獨(dú)創(chuàng)性是指科學(xué)創(chuàng)新是由研究者獨(dú)立創(chuàng)作而產(chǎn)生的,而不是對(duì)已有研究完全的或?qū)嵸|(zhì)性的模仿;價(jià)值性反映科學(xué)創(chuàng)新成果可對(duì)相關(guān)領(lǐng)域產(chǎn)生的潛在積極影響;簡(jiǎn)明性是指在表達(dá)方式上,科學(xué)創(chuàng)新內(nèi)容應(yīng)當(dāng)有易讀性、“宣傳”性等特點(diǎn)。
科學(xué)創(chuàng)新具有不同的類型,根據(jù)創(chuàng)新的程度,可以分為庫(kù)恩科學(xué)范式下的漸進(jìn)式創(chuàng)新和突破式創(chuàng)新[8];根據(jù)創(chuàng)新的價(jià)值屬性不同,可以分為科學(xué)發(fā)現(xiàn)和技術(shù)發(fā)明[9]。其中,科學(xué)發(fā)現(xiàn)在于確定性科學(xué)知識(shí)的發(fā)掘,反映科學(xué)的求真過(guò)程,如探索各領(lǐng)域現(xiàn)象背后的規(guī)律,把尚不為人知的事物首次揭示出來(lái)等;技術(shù)發(fā)明強(qiáng)調(diào)科學(xué)創(chuàng)新的應(yīng)用價(jià)值,依據(jù)科學(xué)知識(shí)創(chuàng)造出過(guò)去從來(lái)沒(méi)有存在過(guò)的新事物,來(lái)促進(jìn)相關(guān)領(lǐng)域的發(fā)展與進(jìn)步。根據(jù)科學(xué)創(chuàng)新內(nèi)容所在的科技文獻(xiàn)篇章結(jié)構(gòu)和內(nèi)容特征,可以將其劃分為研究問(wèn)題創(chuàng)新、理論研究創(chuàng)新、研究方法創(chuàng)新、成果與應(yīng)用創(chuàng)新[5,10]等類型。就當(dāng)前的科學(xué)交流環(huán)境而言,無(wú)論何種類型的科學(xué)創(chuàng)新,都需要借助一定的載體進(jìn)行表達(dá)傳播和創(chuàng)新擴(kuò)散??萍嘉墨I(xiàn)是當(dāng)前創(chuàng)新內(nèi)容的主要表達(dá)載體,具體的創(chuàng)新內(nèi)容一般表現(xiàn)為論文結(jié)構(gòu)化摘要中的結(jié)論句、作者提煉的創(chuàng)新點(diǎn)等內(nèi)容,這些核心內(nèi)容表達(dá)了科學(xué)創(chuàng)新的本質(zhì)。
在科學(xué)研究及相關(guān)實(shí)踐中,除了“originality”“novelty”“creativity”“innovation”這些內(nèi)涵寬泛的表述外,特指科技文獻(xiàn)中的科學(xué)創(chuàng)新內(nèi)容的詞匯還有“創(chuàng)新點(diǎn)(innovation points)”“學(xué)術(shù)貢獻(xiàn)(contribution)”“研究亮點(diǎn)(highlights)”“科學(xué)主張(claim)”“科學(xué)斷言(assertion)”等表達(dá),這些詞匯都可用于指代科學(xué)創(chuàng)新的具體內(nèi)容,在實(shí)際應(yīng)用中會(huì)根據(jù)科學(xué)創(chuàng)新成果的使用環(huán)境來(lái)選擇,本文統(tǒng)一使用“科學(xué)創(chuàng)新內(nèi)容”來(lái)指稱。其中,“創(chuàng)新點(diǎn)”是科學(xué)創(chuàng)新的最常見(jiàn)表達(dá);“學(xué)術(shù)貢獻(xiàn)”通常包含兩層含義:科學(xué)創(chuàng)新的具體內(nèi)容以及創(chuàng)新的意義與價(jià)值[11];“亮點(diǎn)”最早由愛(ài)思唯爾于2010年在其學(xué)術(shù)數(shù)據(jù)庫(kù)中設(shè)計(jì)出來(lái)[7],從內(nèi)容上講,亮點(diǎn)是作者撰寫(xiě)的一組論文的核心發(fā)現(xiàn),是一篇科技文獻(xiàn)與其他論文相比較的新成果、新結(jié)論等內(nèi)容的體現(xiàn),通常表現(xiàn)為一組規(guī)范的、語(yǔ)義明確的3~5個(gè)短句[12];“主張”[13]和“斷言”[14]的內(nèi)涵相似,既可以是研究者對(duì)基本科學(xué)事實(shí)的論斷,也可以是對(duì)科學(xué)創(chuàng)新內(nèi)容的判定,其內(nèi)容具體體現(xiàn)為科學(xué)事實(shí)、科學(xué)發(fā)現(xiàn)等知識(shí)單元。當(dāng)前,科學(xué)創(chuàng)新內(nèi)容主要以文本形式進(jìn)行表達(dá),即顯性的文本知識(shí),并通過(guò)科技文獻(xiàn)這一載體進(jìn)行科學(xué)論證。創(chuàng)新點(diǎn)、學(xué)術(shù)貢獻(xiàn)、亮點(diǎn)等具體科學(xué)創(chuàng)新內(nèi)容集中體現(xiàn)在科技文獻(xiàn)的摘要、結(jié)論等部分[5,7,15-16],具有不同的文本粒度,可以是一個(gè)段落、若干句子或短語(yǔ)等。
科技文獻(xiàn)作為當(dāng)前科學(xué)創(chuàng)新的主要表達(dá)載體,在當(dāng)前科學(xué)交流環(huán)境中發(fā)揮了巨大作用。然而,隨著科學(xué)創(chuàng)新內(nèi)容越來(lái)越多地隱藏于海量科技文獻(xiàn)中,這一表達(dá)形態(tài)已逐漸不能滿足科研人員高效獲取創(chuàng)新知識(shí)的需求,于是出現(xiàn)了關(guān)于創(chuàng)新內(nèi)容等知識(shí)元的識(shí)別抽取、長(zhǎng)論文智能摘要、視頻論文等實(shí)踐及科學(xué)知識(shí)表現(xiàn)形態(tài)。本文重點(diǎn)圍繞科學(xué)創(chuàng)新內(nèi)容這一核心對(duì)象展開(kāi)研究,從當(dāng)前科學(xué)創(chuàng)新內(nèi)容識(shí)別與抽取、結(jié)構(gòu)化組織及基于結(jié)構(gòu)化科學(xué)創(chuàng)新內(nèi)容的應(yīng)用場(chǎng)景3個(gè)維度進(jìn)行系統(tǒng)歸納,基于此設(shè)計(jì)了在新的科學(xué)知識(shí)表達(dá)機(jī)制下的科學(xué)交流潛在場(chǎng)景及其實(shí)現(xiàn)框架。
作為一種知識(shí)元類型,創(chuàng)新內(nèi)容的識(shí)別與抽取是科學(xué)信息抽取(science information extraction,sci‐ence IE)任務(wù)之一。當(dāng)前,科學(xué)創(chuàng)新內(nèi)容的識(shí)別與抽取主要包括3類方法,分別為基于規(guī)則的創(chuàng)新內(nèi)容識(shí)別與抽取、基于機(jī)器學(xué)習(xí)的創(chuàng)新內(nèi)容識(shí)別與抽取以及基于深度學(xué)習(xí)的創(chuàng)新內(nèi)容識(shí)別與抽取。
基于規(guī)則的科學(xué)創(chuàng)新內(nèi)容識(shí)別與抽取方法,是通過(guò)對(duì)創(chuàng)新內(nèi)容的語(yǔ)言特征進(jìn)行分析,制定相應(yīng)的抽取規(guī)則進(jìn)行抽取。主要可以分為基于詞匯和基于句法結(jié)構(gòu)的識(shí)別抽取方法。
2.1.1 基于詞匯的方法
基于詞匯的科技文獻(xiàn)創(chuàng)新內(nèi)容抽取可以分為兩類:一類基于觸發(fā)詞,另一類依賴于領(lǐng)域詞匯。其中,觸發(fā)詞是能夠充分表征科學(xué)創(chuàng)新的詞匯,中文觸發(fā)詞有“突破”“解決”等,英文觸發(fā)詞有“novel”“present the first…”等;領(lǐng)域詞匯作為一個(gè)學(xué)科領(lǐng)域的核心詞匯,對(duì)創(chuàng)新內(nèi)容的研究主題具有揭示作用。
已有研究表明,論文創(chuàng)新內(nèi)容中由觸發(fā)詞引導(dǎo)的占比高達(dá)98.4%[17],為基于觸發(fā)詞的創(chuàng)新內(nèi)容抽取的可行性提供了統(tǒng)計(jì)依據(jù)?;谟|發(fā)詞的抽取方法往往用于創(chuàng)新內(nèi)容的初次篩選,在流程上可分兩個(gè)步驟:觸發(fā)詞的選取和創(chuàng)新內(nèi)容的抽取。
目前,觸發(fā)詞的選取主要依靠手工進(jìn)行,涵蓋名詞、形容詞、動(dòng)詞等多種詞性。在觸發(fā)詞的基礎(chǔ)上構(gòu)建創(chuàng)新內(nèi)容抽取規(guī)則,利用規(guī)則對(duì)科技文獻(xiàn)句子集進(jìn)行匹配,形成創(chuàng)新句候選集[5,7]。由于非創(chuàng)新內(nèi)容的句子中也可能包含觸發(fā)詞,基于觸發(fā)詞對(duì)創(chuàng)新內(nèi)容進(jìn)行抽取的查全率高,但其查準(zhǔn)率較低。因此,該方法往往用于創(chuàng)新內(nèi)容的初次篩選,形成創(chuàng)新內(nèi)容候選集,以便后續(xù)使用機(jī)器學(xué)習(xí)方法或更詳細(xì)的抽取規(guī)則對(duì)創(chuàng)新內(nèi)容做進(jìn)一步的識(shí)別。
依賴領(lǐng)域詞匯的創(chuàng)新內(nèi)容識(shí)別方法,是借助領(lǐng)域詞匯的近義詞、同義詞,以及領(lǐng)域本體的概念層級(jí)關(guān)系,最大限度地揭示句子研究的主題,確保抽取出的創(chuàng)新句子集與研究主題密切相關(guān),提高抽取結(jié)果的準(zhǔn)確度。因此,為了迅速、準(zhǔn)確地識(shí)別科技文獻(xiàn)中的創(chuàng)新內(nèi)容,需要借助學(xué)科領(lǐng)域的詞表或知識(shí)庫(kù)輔助信息抽取工作?;陬I(lǐng)域詞表的創(chuàng)新內(nèi)容抽取可分為3個(gè)步驟:領(lǐng)域詞表或本體的構(gòu)建、基于領(lǐng)域詞表的文本自動(dòng)語(yǔ)義標(biāo)注和基于語(yǔ)義標(biāo)注的創(chuàng)新內(nèi)容抽取。在實(shí)踐中,往往先自行構(gòu)建領(lǐng)域詞表或知識(shí)庫(kù),或以已有的領(lǐng)域詞表或本體為基礎(chǔ),使用詞表或知識(shí)庫(kù)對(duì)科技文獻(xiàn)進(jìn)行全文內(nèi)容的語(yǔ)義標(biāo)引,最后結(jié)合創(chuàng)新內(nèi)容的寫(xiě)作一般規(guī)律和此領(lǐng)域的主要研究?jī)?nèi)容,制定創(chuàng)新內(nèi)容抽取規(guī)則,抽取出創(chuàng)新句子集[18-19]。
2.1.2 基于句法結(jié)構(gòu)的方法
科技文獻(xiàn)創(chuàng)新內(nèi)容往往遵循特定的表達(dá)范式[20-21],因此,可以根據(jù)句法結(jié)構(gòu)對(duì)創(chuàng)新內(nèi)容進(jìn)行識(shí)別。該抽取方法主要包括3個(gè)部分:預(yù)處理過(guò)程、規(guī)則的構(gòu)建和基于規(guī)則的抽取[15,19]。預(yù)處理過(guò)程主要包括分句、分詞和語(yǔ)義標(biāo)注;規(guī)則的構(gòu)建需要充分考慮創(chuàng)新句的語(yǔ)言特征和句法結(jié)構(gòu),需要領(lǐng)域?qū)<业膮⑴c,可以采用正則表達(dá)式等進(jìn)行表征;最后,基于規(guī)則抽取創(chuàng)新句,通過(guò)實(shí)驗(yàn)證明抽取效果。有些創(chuàng)新句子并不遵循創(chuàng)新內(nèi)容的常用表達(dá)方式,針對(duì)此類創(chuàng)新內(nèi)容,研究者往往為其制定專用的句子模板[22],通過(guò)模式識(shí)別進(jìn)行抽取?;诔S帽磉_(dá)方式構(gòu)建的規(guī)則可視為基礎(chǔ)規(guī)則,基于特殊表達(dá)方式構(gòu)建的規(guī)則可視為擴(kuò)展規(guī)則,二者可以相互補(bǔ)充,形成組合規(guī)則,優(yōu)化抽取效果,豐富創(chuàng)新內(nèi)容抽取的規(guī)則庫(kù)。利用句法結(jié)構(gòu)可以從科技文獻(xiàn)中識(shí)別出揭示創(chuàng)新內(nèi)容的句子,但還沒(méi)有揭示創(chuàng)新句內(nèi)部主題概念的關(guān)系。對(duì)創(chuàng)新句進(jìn)行依存句法分析[23],可以實(shí)現(xiàn)創(chuàng)新內(nèi)容的細(xì)粒度識(shí)別與分析,如識(shí)別創(chuàng)新內(nèi)容的核心主題詞、實(shí)體對(duì)及其語(yǔ)義關(guān)系、屬性實(shí)例等。
通過(guò)主流實(shí)踐的觀察發(fā)現(xiàn),在對(duì)創(chuàng)新內(nèi)容進(jìn)行抽取時(shí),基于觸發(fā)詞的方法、基于領(lǐng)域詞表的方法以及基于句法結(jié)構(gòu)的方法,往往并不是單獨(dú)使用某一種方法,而是采取多種方法的結(jié)合,相輔相成,其常見(jiàn)的結(jié)合方式如圖1所示??萍嘉墨I(xiàn)中的文本信息可以表達(dá)科學(xué)創(chuàng)新。此外,科技文獻(xiàn)中的圖片、表格等可視化元素往往也能夠反映創(chuàng)新成果,因此,有些研究基于規(guī)則和啟發(fā)式的方法,對(duì)文獻(xiàn)中的圖表等可視化表示元素進(jìn)行創(chuàng)新內(nèi)容的識(shí)別[24]。
圖1 基于規(guī)則的創(chuàng)新內(nèi)容抽取方法一般流程
基于規(guī)則的方法,其優(yōu)勢(shì)在于可解釋性及領(lǐng)域針對(duì)性強(qiáng),不足之處在于查全率低、規(guī)則設(shè)計(jì)困難且移植性差。查全率低是由于僅憑人工經(jīng)驗(yàn)制定的抽取規(guī)則具有局限性,選取的特征和制定的規(guī)則無(wú)法完全覆蓋創(chuàng)新內(nèi)容的所有語(yǔ)言學(xué)現(xiàn)象。規(guī)則設(shè)計(jì)困難是因?yàn)橐蕾囉陬I(lǐng)域?qū)<业膮⑴c,為保證查全率而設(shè)計(jì)足夠多的規(guī)則時(shí),難以保證各規(guī)則間不沖突、不冗余,學(xué)科領(lǐng)域間的差異使得不同領(lǐng)域之間的抽取規(guī)則難以直接移植復(fù)用。
此類方法通常將創(chuàng)新內(nèi)容抽取問(wèn)題轉(zhuǎn)化為句子分類問(wèn)題,如二分類問(wèn)題[25]和多分類問(wèn)題[23,26-28],主要是將表達(dá)科技創(chuàng)新內(nèi)容的句子劃分為事實(shí)、假設(shè)、問(wèn)題、方法、結(jié)果、意義、目標(biāo)等多個(gè)語(yǔ)義類型,再利用機(jī)器學(xué)習(xí)模型對(duì)全文進(jìn)行句子語(yǔ)義類型的自動(dòng)分類。Cagliero等[29]率先提出了一種基于回歸技術(shù)的有監(jiān)督方法,該方法可用于確定科技文獻(xiàn)中與亮點(diǎn)相似性最高的K個(gè)句子,并以此對(duì)句子進(jìn)行標(biāo)注,形成訓(xùn)練集,將訓(xùn)練好的回歸模型用于預(yù)測(cè)文獻(xiàn)中句子與亮點(diǎn)之間的相似度,相似度越高的句子越有可能作為科技文獻(xiàn)的亮點(diǎn)。
從機(jī)器學(xué)習(xí)的流程來(lái)看,主要包括以下幾個(gè)步驟:獲取數(shù)據(jù)、文本預(yù)處理、特征選取、模型訓(xùn)練與調(diào)優(yōu),以及評(píng)估。具體來(lái)看,數(shù)據(jù)集可以是科技文獻(xiàn)的全文或摘要,主要來(lái)自生物醫(yī)學(xué)[30-31]、材料化學(xué)[32-33]、信息科學(xué)[19,34]等寫(xiě)作風(fēng)格較為統(tǒng)一、關(guān)鍵創(chuàng)新內(nèi)容較為明確的理工科領(lǐng)域。文本預(yù)處理過(guò)程主要包括分詞、分句或子句切分、標(biāo)題劃歸和人工類型標(biāo)注等[23]。其中,子句是文本中語(yǔ)義完整、不中斷的區(qū)間[35],是一種介于句子和從句之間的粒度,子句切分可以用于更細(xì)粒度的創(chuàng)新內(nèi)容識(shí)別與抽取。句子所在的章節(jié)與句子是否為創(chuàng)新內(nèi)容具有相關(guān)性,創(chuàng)新內(nèi)容更可能出現(xiàn)在摘要、研究結(jié)果和結(jié)論等章節(jié)[7],因此,需要進(jìn)行標(biāo)題劃歸,將所有標(biāo)題都轉(zhuǎn)換為“摘要”“引言”“相關(guān)研究工作”“研究方法”“研究結(jié)果”“結(jié)論”等標(biāo)準(zhǔn)章節(jié)標(biāo)題中的一個(gè),以便將宏觀的結(jié)構(gòu)信息結(jié)合到機(jī)器學(xué)習(xí)模型中。完成預(yù)處理后,主要選取以下特征:①詞性;②詞表;③時(shí)態(tài),現(xiàn)在時(shí)的句子更可能是既有事實(shí),過(guò)去時(shí)的句子更可能被預(yù)測(cè)為研究結(jié)果[36];④章節(jié)名稱,創(chuàng)新內(nèi)容更可能出現(xiàn)在摘要、研究結(jié)果和結(jié)論等章節(jié)[7];⑤引用,引用了其他文獻(xiàn)的句子更可能是既有事實(shí),而指向公式或圖表的句子則更有可能是研究結(jié)果[37]。接下來(lái),利用標(biāo)注語(yǔ)料訓(xùn)練支持向量機(jī)、條件隨機(jī)場(chǎng)、隨機(jī)森林、梯度提升等多個(gè)機(jī)器學(xué)習(xí)分類器,并選擇其中效果較好的一個(gè)分類器,或?qū)⒍鄠€(gè)效果較好的分類器進(jìn)行集成,作為最終的模型對(duì)科技文獻(xiàn)全文進(jìn)行句子類別的識(shí)別,將創(chuàng)新內(nèi)容抽取出來(lái)形成創(chuàng)新句子集。
相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)更能夠自動(dòng)找出對(duì)分類很重要的特征。深度學(xué)習(xí)方法既可以從學(xué)術(shù)文本中抽取創(chuàng)新內(nèi)容,也可以對(duì)創(chuàng)新內(nèi)容做進(jìn)一步的細(xì)粒度抽取。運(yùn)用深度學(xué)習(xí)方法抽取創(chuàng)新內(nèi)容時(shí),由于當(dāng)前創(chuàng)新內(nèi)容數(shù)據(jù)集的缺乏,往往需要以科技文獻(xiàn)全文本作為數(shù)據(jù)來(lái)源,自行構(gòu)建創(chuàng)新內(nèi)容數(shù)據(jù)集,在數(shù)據(jù)集上訓(xùn)練BERT(bidirectional encoder representations from transformers)、Trans‐former、RNN(recurrent neural network)等深度學(xué)習(xí)模型,并將訓(xùn)練好的模型用于識(shí)別表述學(xué)術(shù)論文創(chuàng)新內(nèi)容的句子[38-41]。
具體來(lái)看,在科技文獻(xiàn)創(chuàng)新內(nèi)容抽取方面有更多實(shí)踐將深度學(xué)習(xí)模型與基于規(guī)則的抽取方法、傳統(tǒng)機(jī)器學(xué)習(xí)模型結(jié)合使用。深度學(xué)習(xí)和基于規(guī)則的方法相結(jié)合,既可以先利用集中體現(xiàn)文章核心創(chuàng)新內(nèi)容的主題詞和體現(xiàn)創(chuàng)新內(nèi)容語(yǔ)言特征的觸發(fā)詞等制定抽取規(guī)則,對(duì)全文進(jìn)行篩選,初步形成候選創(chuàng)新句子集,再利用深度學(xué)習(xí)模型從候選句子中識(shí)別出創(chuàng)新句[10];也可以先利用深度學(xué)習(xí)模型,判斷是否包含科學(xué)創(chuàng)新相關(guān)表述,再制定規(guī)則對(duì)創(chuàng)新句進(jìn)行細(xì)粒度的抽取[11,42],如進(jìn)一步從創(chuàng)新內(nèi)容中抽取出研究方法、研究成果、研究?jī)r(jià)值等要素。將機(jī)器特征和人工特征融合,可以有效提升抽取效果[43],因此,有學(xué)者利用“深度學(xué)習(xí)模型+傳統(tǒng)機(jī)器學(xué)習(xí)模型”的方法,將來(lái)自篇章、句子、字詞3個(gè)層面的26個(gè)人工特征指標(biāo)與word2vec和one-hot等機(jī)器特征基于LSTM(long short-term memory)、CNN(convolutional neural networks)、BERT模型從橫向、縱向進(jìn)行特征融合,完成科技文獻(xiàn)中實(shí)驗(yàn)設(shè)計(jì)因素[44]、論斷句(claim sentence)[45]等創(chuàng)新要素的抽取。也有學(xué)者將在其數(shù)據(jù)集上表現(xiàn)最好的傳統(tǒng)機(jī)器學(xué)習(xí)模型(深度森林模型)和深度學(xué)習(xí)模型(BERT模型)進(jìn)行融合,融合后的模型表現(xiàn)優(yōu)于先前獨(dú)立的兩個(gè)模型[27]。
上述方法均可用于從學(xué)術(shù)文本中抽取出創(chuàng)新內(nèi)容,若需要對(duì)創(chuàng)新內(nèi)容做進(jìn)一步的細(xì)粒度挖掘,如挖掘出創(chuàng)新內(nèi)容中的方法、結(jié)果、價(jià)值、論據(jù)等實(shí)體及其之間的因果、從屬、比較、補(bǔ)充等關(guān)系,則需要對(duì)創(chuàng)新內(nèi)容構(gòu)建結(jié)構(gòu)化語(yǔ)義模型,如Vogt等[46]提出的研究貢獻(xiàn)模型(research contribu‐tion model,RCM)和Magnusson等[47]提出的科學(xué)主張圖模式(graph schema),按照構(gòu)建好的語(yǔ)義模型中定義的概念和概念間的關(guān)系對(duì)訓(xùn)練文檔進(jìn)行標(biāo)注,通過(guò)標(biāo)注好的大量文檔對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,利用深度學(xué)習(xí)模型實(shí)現(xiàn)對(duì)創(chuàng)新內(nèi)容的細(xì)粒度挖掘,自動(dòng)填充知識(shí)庫(kù),從而構(gòu)建出細(xì)粒度的創(chuàng)新內(nèi)容知識(shí)圖譜,如開(kāi)放研究知識(shí)圖譜(open research knowledge graph,ORKG)[48]和科學(xué)主張數(shù)據(jù)集(SciClaim)[47]。
面向科學(xué)領(lǐng)域的信息抽取是圖書(shū)情報(bào)領(lǐng)域的主流研究方向,當(dāng)前圍繞科學(xué)創(chuàng)新內(nèi)容的識(shí)別與抽取的研究重點(diǎn)在于開(kāi)發(fā)相關(guān)機(jī)器學(xué)習(xí)算法。這些研究通常以科技文獻(xiàn)全文或摘要作為數(shù)據(jù)來(lái)源,在模型的選取上,主要采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型相結(jié)合的方法,已在若干領(lǐng)域取得了較好的效果。同時(shí),該方法存在顯著的學(xué)科差異,其應(yīng)用集中在生物醫(yī)學(xué)、材料化學(xué)及信息科學(xué)領(lǐng)域,部分研究將其應(yīng)用于社會(huì)科學(xué)領(lǐng)域[47],但目前尚未有研究將其應(yīng)用于藝術(shù)人文等學(xué)科,模型的泛化能力、算法的可移植性仍有待探索考證。
如果將抽取的創(chuàng)新內(nèi)容以新的形式結(jié)構(gòu)化組織起來(lái),將促進(jìn)科研人員或計(jì)算機(jī)對(duì)創(chuàng)新內(nèi)容的理解與處理。將創(chuàng)新內(nèi)容進(jìn)行結(jié)構(gòu)化組織,實(shí)現(xiàn)創(chuàng)新內(nèi)容之間的關(guān)聯(lián),將有利于針對(duì)創(chuàng)新內(nèi)容的細(xì)粒度檢索、基于關(guān)聯(lián)創(chuàng)新內(nèi)容的知識(shí)發(fā)現(xiàn),促進(jìn)知識(shí)傳播和科學(xué)交流。由于創(chuàng)新內(nèi)容一般表現(xiàn)為若干句子的集合,目前已有的科技文獻(xiàn)相關(guān)的結(jié)構(gòu)化數(shù)據(jù)模型都具有不同程度的組織創(chuàng)新內(nèi)容的能力,主要分為兩類:通用數(shù)據(jù)模型和專有數(shù)據(jù)模型。通用數(shù)據(jù)模型本身并非專門(mén)針對(duì)創(chuàng)新內(nèi)容而構(gòu)建,但可以用于創(chuàng)新內(nèi)容的結(jié)構(gòu)化組織,如篇章結(jié)構(gòu)模型[49]和納米出版物模型[50]等;專有數(shù)據(jù)模型是專門(mén)針對(duì)創(chuàng)新內(nèi)容而構(gòu)建的,可以對(duì)創(chuàng)新內(nèi)容中的細(xì)粒度科學(xué)概念、實(shí)體、關(guān)系等進(jìn)行細(xì)粒度的組織。
目前,通用數(shù)據(jù)模型主要有兩類:論證結(jié)構(gòu)模型和篇章結(jié)構(gòu)模型。如表1所示,論證結(jié)構(gòu)模型用于對(duì)科學(xué)論文的論證要素進(jìn)行結(jié)構(gòu)組織,主要包括圖爾敏模型(the Toulmin model)[51]、論證模型本體(argument model ontology,AMO)[52]、SWAN(semantic web application sineuro medicine)本體[53]和微型出版物(micropublication)[54]等;篇章結(jié)構(gòu)模型專門(mén)用于對(duì)論文中的研究目標(biāo)、假設(shè)、論據(jù)、方法、實(shí)驗(yàn)及結(jié)論等體現(xiàn)科學(xué)創(chuàng)新內(nèi)容的功能元素進(jìn)行組織[55],經(jīng)典的篇章結(jié)構(gòu)模型主要有CISP(core information about scientific papers)本體模型[56]、核心科學(xué)概念框架(core scientific concepts)模型[57]和SPAR(semantic publishing and referencing)系列本體[58]等。
表1 創(chuàng)新內(nèi)容結(jié)構(gòu)化組織的通用數(shù)據(jù)模型
相較于通用數(shù)據(jù)模型,專門(mén)針對(duì)創(chuàng)新內(nèi)容構(gòu)建的結(jié)構(gòu)化表征模型數(shù)量更多,如表2所示。有些模型將創(chuàng)新句拆分為若干個(gè)相互關(guān)聯(lián)的核心概念,如研究貢獻(xiàn)模型(RCM)[46]、文摘?jiǎng)?chuàng)新內(nèi)容語(yǔ)義模型[6]等。篇章結(jié)構(gòu)中的結(jié)論要素是創(chuàng)新性研究成果的總結(jié),能夠表示科技文獻(xiàn)中的關(guān)鍵創(chuàng)新內(nèi)容。有研究提出了基于納米出版物的結(jié)論型知識(shí)元語(yǔ)義描述模型[60]和涉及科技文獻(xiàn)結(jié)論的知識(shí)元本體[2],并對(duì)結(jié)論部分進(jìn)行結(jié)構(gòu)化組織??萍嘉墨I(xiàn)創(chuàng)新內(nèi)容的形式語(yǔ)義較為復(fù)雜,有學(xué)者在三元組的基礎(chǔ)上,提出了用于表示不確定性知識(shí)(即帶有假設(shè)性、推測(cè)性或互相矛盾的科學(xué)創(chuàng)新內(nèi)容)的四元組[61]、用于表示科學(xué)主張的super pattern五元組[62]??茖W(xué)數(shù)據(jù)集構(gòu)建的過(guò)程中會(huì)使用相應(yīng)的數(shù)據(jù)模型,比如,在構(gòu)建科學(xué)主張數(shù)據(jù)集(SciClaim)的過(guò)程中,提出了用于指導(dǎo)標(biāo)引工作的圖模式,該模式可用于創(chuàng)新內(nèi)容的結(jié)構(gòu)化組織[47]。此外,有些創(chuàng)新內(nèi)容分類模型,如自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域研究貢獻(xiàn)模型[63]和研究貢獻(xiàn)分類模型[64]等,將科技文獻(xiàn)劃分為研究問(wèn)題、方法、結(jié)果等具有學(xué)科特色的篇章類型,而創(chuàng)新內(nèi)容則在形式化后被賦予上述特定類別。
表2 創(chuàng)新內(nèi)容結(jié)構(gòu)化表征的專有模型
通過(guò)綜合對(duì)比分析發(fā)現(xiàn),首先,目前對(duì)創(chuàng)新內(nèi)容進(jìn)行結(jié)構(gòu)化表征的模型通常以語(yǔ)義技術(shù)為基礎(chǔ),從數(shù)據(jù)來(lái)源上看,仍以理工科文獻(xiàn)為主。其次,絕大多數(shù)已有模型都是對(duì)單篇科技文獻(xiàn)的單個(gè)創(chuàng)新內(nèi)容進(jìn)行結(jié)構(gòu)化組織,而科學(xué)創(chuàng)新通常是相對(duì)于以往的科學(xué)實(shí)踐而言,對(duì)科學(xué)創(chuàng)新的表征應(yīng)具備和相關(guān)的科學(xué)實(shí)踐發(fā)生關(guān)聯(lián)的能力,以支持不同科學(xué)創(chuàng)新之間的語(yǔ)義互操作,這種關(guān)聯(lián)機(jī)制還有待深入探索。最后,已有模型通常致力于創(chuàng)新內(nèi)容本身的結(jié)構(gòu)化,如果能夠?qū)⒀芯咳藛T、貢獻(xiàn)的大小、研究的價(jià)值等科學(xué)創(chuàng)新要素及特性關(guān)聯(lián)起來(lái),那么可以在科學(xué)交流系統(tǒng)中發(fā)揮更大的作用。此外,目前眾多模型對(duì)創(chuàng)新內(nèi)容的認(rèn)知及表征的粒度都有較大差異,有些模型適用于創(chuàng)新內(nèi)容的細(xì)粒度論證,有些適用于創(chuàng)新內(nèi)容的篇章類型組織,有些模型可對(duì)創(chuàng)新內(nèi)容進(jìn)一步細(xì)粒度化到概念、詞匯級(jí)別,有些模型則只表征到句子級(jí)別。
數(shù)據(jù)模型是對(duì)創(chuàng)新內(nèi)容特征及其關(guān)系的抽象,而創(chuàng)新內(nèi)容數(shù)據(jù)集和知識(shí)庫(kù)包含了科學(xué)創(chuàng)新內(nèi)容的具體描述,數(shù)據(jù)資源的質(zhì)量在一定程度上反映了數(shù)據(jù)模型的質(zhì)量;反過(guò)來(lái),數(shù)據(jù)資源又可以對(duì)模型的合理性、適用性進(jìn)行有效的檢驗(yàn)。目前,與科技文獻(xiàn)創(chuàng)新內(nèi)容相關(guān)的數(shù)據(jù)資源主要分為兩類:機(jī)器學(xué)習(xí)數(shù)據(jù)集和語(yǔ)義知識(shí)庫(kù)。
3.3.1 創(chuàng)新內(nèi)容相關(guān)的機(jī)器學(xué)習(xí)數(shù)據(jù)集
運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)創(chuàng)新內(nèi)容進(jìn)行抽取或結(jié)構(gòu)化組織時(shí),一般需要有數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試??萍嘉墨I(xiàn)創(chuàng)新內(nèi)容機(jī)器學(xué)習(xí)數(shù)據(jù)集可細(xì)分為兩類,如表3所示。一類是以科技文獻(xiàn)全文或摘要作為數(shù)據(jù)來(lái)源進(jìn)行創(chuàng)新句判斷、標(biāo)注所構(gòu)建的數(shù)據(jù)集,目的在于創(chuàng)新內(nèi)容的識(shí)別。例如,CSPubSum基準(zhǔn)數(shù)據(jù)集[39]、SciARG數(shù)據(jù)集[65]分別從計(jì)算機(jī)科學(xué)和生物醫(yī)學(xué)文獻(xiàn)中標(biāo)注了其中的創(chuàng)新句和創(chuàng)新主張。另一類是對(duì)創(chuàng)新內(nèi)容中的論證結(jié)構(gòu)、實(shí)體關(guān)系、創(chuàng)新內(nèi)容類型等進(jìn)行細(xì)粒度的標(biāo)注,以幫助實(shí)現(xiàn)科技文獻(xiàn)創(chuàng)新內(nèi)容自動(dòng)結(jié)構(gòu)化表征,如捕捉實(shí)體間關(guān)系(如因果、比較、統(tǒng)計(jì)、比例)的SciClaim數(shù)據(jù)集[47]、對(duì)研究貢獻(xiàn)進(jìn)行分類的研究貢獻(xiàn)數(shù)據(jù)集[64]和NLPContributions數(shù)據(jù)集[63]等。
表3 科技文獻(xiàn)創(chuàng)新內(nèi)容機(jī)器學(xué)習(xí)數(shù)據(jù)集
除上述公開(kāi)發(fā)布的數(shù)據(jù)集外,還有很多研究臨時(shí)構(gòu)建創(chuàng)新內(nèi)容數(shù)據(jù)集。這些數(shù)據(jù)集往往針對(duì)于某一特定信息抽取任務(wù),由若干名相關(guān)領(lǐng)域人員標(biāo)注完成,數(shù)據(jù)集體量較小且并不公開(kāi),標(biāo)注的一致性較低,其質(zhì)量無(wú)從考究。大規(guī)模、高質(zhì)量的開(kāi)源數(shù)據(jù)集較少,主要集中于計(jì)算機(jī)、生物醫(yī)學(xué)等學(xué)科領(lǐng)域,構(gòu)建科技文獻(xiàn)創(chuàng)新內(nèi)容的大型基準(zhǔn)數(shù)據(jù)集是亟待解決的問(wèn)題之一。
3.3.2 創(chuàng)新內(nèi)容相關(guān)的語(yǔ)義知識(shí)庫(kù)
語(yǔ)義出版技術(shù)的出現(xiàn)為科技文獻(xiàn)組織與發(fā)布方式提供了新的思路[66],在科技文獻(xiàn)的語(yǔ)義化過(guò)程中,產(chǎn)生了大量的語(yǔ)義數(shù)據(jù),形成了一些科技文獻(xiàn)語(yǔ)義關(guān)聯(lián)知識(shí)庫(kù),即科學(xué)知識(shí)圖譜(scientific knowledge graph,SKG),該類知識(shí)圖譜目前通常包含科技文獻(xiàn)的元數(shù)據(jù),如作者、機(jī)構(gòu)、引文等內(nèi)容,但文獻(xiàn)的內(nèi)容仍表示為非結(jié)構(gòu)化文本。近年來(lái),出現(xiàn)了一些對(duì)科技文獻(xiàn)中科學(xué)知識(shí)進(jìn)行結(jié)構(gòu)化表征的知識(shí)圖譜實(shí)踐,如描述生物醫(yī)學(xué)領(lǐng)域的科學(xué)知識(shí)內(nèi)容中的實(shí)體、屬性及關(guān)系的KnowLife[67],對(duì)COVID-19病理生理學(xué)科學(xué)知識(shí)內(nèi)容進(jìn)行結(jié)構(gòu)化表達(dá)的COVID-19知識(shí)圖譜[68],涵蓋中醫(yī)養(yǎng)生的人物、思想、原則、方法和應(yīng)用等科學(xué)知識(shí)的中醫(yī)養(yǎng)生知識(shí)圖譜[69],用于描述計(jì)算機(jī)領(lǐng)域的任務(wù)(task)、方法(method)、指標(biāo)(metric)、材料(material)和其他實(shí)體(other entity)五類科學(xué)實(shí)體及其關(guān)系,并能夠進(jìn)行語(yǔ)義查詢的CS-KG(computer science knowledge graph)[70]等。其中不乏一些與科學(xué)創(chuàng)新內(nèi)容相關(guān)的研究成果,具體如表4所示。開(kāi)放研究知識(shí)圖譜(ORKG)直接針對(duì)研究貢獻(xiàn)進(jìn)行知識(shí)圖譜構(gòu)建,可用于比較同一研究主題下不同文獻(xiàn)的研究貢獻(xiàn)差異[71]。納米出版物在生物醫(yī)學(xué)領(lǐng)域得到了廣泛的應(yīng)用,其斷言(assertion)部分以三元組的形式表征科學(xué)主張,描述了生物醫(yī)學(xué)領(lǐng)域的藥物療效、蛋白質(zhì)相互作用等關(guān)鍵科學(xué)創(chuàng)新內(nèi)容,目前已經(jīng)發(fā)布了超過(guò)1000萬(wàn)個(gè)三元組,成為研究生命科學(xué)領(lǐng)域和關(guān)聯(lián)異構(gòu)數(shù)據(jù)的寶貴資源[72]。
表4 科技文獻(xiàn)創(chuàng)新內(nèi)容語(yǔ)義知識(shí)庫(kù)
目前,主流的科學(xué)知識(shí)圖譜仍聚焦于科技文獻(xiàn)元數(shù)據(jù),基于創(chuàng)新內(nèi)容的科學(xué)知識(shí)圖譜尚處于初期階段[73],且表現(xiàn)出嚴(yán)重的學(xué)科間不均衡現(xiàn)象,大量集中在計(jì)算機(jī)科學(xué)、生物醫(yī)學(xué)領(lǐng)域。從數(shù)據(jù)體量上看,納米出版物和CS-KG是兩個(gè)大規(guī)模的數(shù)據(jù)集,其余數(shù)據(jù)集的規(guī)模較小。另外,這些數(shù)據(jù)資源主要針對(duì)廣泛的科學(xué)知識(shí),而創(chuàng)新內(nèi)容只是科學(xué)知識(shí)的一個(gè)子集,這就意味著數(shù)據(jù)集中包含著大量的科學(xué)常識(shí)、科學(xué)定理等內(nèi)容。有時(shí)科學(xué)創(chuàng)新和科學(xué)常識(shí)這兩種知識(shí)類型的界限并不明顯,科學(xué)創(chuàng)新經(jīng)過(guò)實(shí)踐檢驗(yàn)和時(shí)間沉淀后,會(huì)成為科學(xué)社區(qū)認(rèn)可的科學(xué)事實(shí)和常識(shí)。
科學(xué)創(chuàng)新內(nèi)容在科技文獻(xiàn)中往往以創(chuàng)新點(diǎn)的方式出現(xiàn),特定領(lǐng)域科學(xué)創(chuàng)新內(nèi)容具有一定的領(lǐng)域語(yǔ)言特征。曹樹(shù)金等[5]分析了中外情報(bào)學(xué)領(lǐng)域各兩本期刊的論文在創(chuàng)新對(duì)象、主題、類別、語(yǔ)言表達(dá)等方面的差異;同樣是針對(duì)情報(bào)學(xué)領(lǐng)域,除了語(yǔ)言學(xué)方面的分析,索傳軍等[7]還對(duì)研究亮點(diǎn)進(jìn)行了位置分布特征的分析;溫浩[34]則分析了計(jì)算機(jī)領(lǐng)域兩本期刊的論文摘要中創(chuàng)新點(diǎn)的詞匯語(yǔ)義分布、謂語(yǔ)動(dòng)詞語(yǔ)義理解等維度上的特征。這類研究實(shí)踐一般會(huì)借助人工標(biāo)引、現(xiàn)有算法工具來(lái)識(shí)別創(chuàng)新內(nèi)容,通過(guò)常見(jiàn)的統(tǒng)計(jì)圖表形式呈現(xiàn)并歸納特定領(lǐng)域中創(chuàng)新內(nèi)容在語(yǔ)言規(guī)則表示層面的分布及其差異,并將分析所得的規(guī)則模式應(yīng)用于科學(xué)創(chuàng)新內(nèi)容的自動(dòng)化識(shí)別過(guò)程。
除了統(tǒng)計(jì)圖表外,學(xué)術(shù)出版領(lǐng)域出現(xiàn)了一些對(duì)科學(xué)創(chuàng)新內(nèi)容進(jìn)行新型呈現(xiàn)的有益嘗試。例如,愛(ài)思唯爾在傳統(tǒng)科技文獻(xiàn)的基礎(chǔ)上先后提出了亮點(diǎn)[29](highlight)和圖形化摘要(graphic abstract)的呈現(xiàn)方式。包含研究成果、研究方法的亮點(diǎn)有利于提升科學(xué)創(chuàng)新的可發(fā)現(xiàn)性,同時(shí),簡(jiǎn)短的亮點(diǎn)內(nèi)容對(duì)讀者友好,能夠快速獲取全文的關(guān)鍵創(chuàng)新內(nèi)容。而圖形化摘要是對(duì)論文主要發(fā)現(xiàn)的簡(jiǎn)潔的可視化總結(jié)[6],已日漸被國(guó)際期刊所采納,其呈現(xiàn)的內(nèi)容主要包括文章概述、關(guān)鍵結(jié)果、研究過(guò)程或方法等內(nèi)容[74]。有研究表明,圖形化摘要對(duì)文章觀點(diǎn)的表達(dá)以及文章在社交媒體上的提及度都有正面作用[75]。
基于科技文獻(xiàn)創(chuàng)新內(nèi)容語(yǔ)義知識(shí)庫(kù)的智能檢索也正在逐步發(fā)展[76]。醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)的語(yǔ)義化研究較多,已有較為豐富的大規(guī)模知識(shí)主張抽取、存儲(chǔ)與查詢應(yīng)用。Open PHACTS(open pharmaceuti‐cal triple store)項(xiàng)目[77]以及由美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館(The United States National Library of Medicine,NLM)開(kāi)發(fā)的SemRep工具[78]、SemMedDB知識(shí)庫(kù)[79]都是從生物醫(yī)學(xué)文獻(xiàn)中提取三元組的典型代表,可用于科學(xué)知識(shí)的表征,實(shí)現(xiàn)大規(guī)??茖W(xué)創(chuàng)新內(nèi)容知識(shí)單元的抽取、存儲(chǔ)和查詢,支持二次知識(shí)發(fā)現(xiàn)(literature based discovery,LBD)[80],如輔助藥物發(fā)明、支持各種臨床決策和應(yīng)用等。也有研究針對(duì)情報(bào)學(xué)領(lǐng)域構(gòu)建了創(chuàng)新內(nèi)容知識(shí)圖譜[81],并在此基礎(chǔ)上初步搭建了智能化檢索平臺(tái)[38],用戶能夠以創(chuàng)新對(duì)象和創(chuàng)新維度為線索進(jìn)行檢索。
此外,科學(xué)創(chuàng)新內(nèi)容是科技文獻(xiàn)的本質(zhì)與核心,將領(lǐng)域內(nèi)文獻(xiàn)的科學(xué)創(chuàng)新內(nèi)容按照一定的過(guò)濾和排序規(guī)則進(jìn)行整合,可高效地獲取相應(yīng)領(lǐng)域的學(xué)科進(jìn)展綜述。開(kāi)放研究知識(shí)圖譜(ORKG)[48]是一個(gè)旨在獲取、發(fā)布和處理科技文獻(xiàn)中發(fā)表的結(jié)構(gòu)化學(xué)術(shù)知識(shí)的系統(tǒng),利用ORKG不僅可以自動(dòng)識(shí)別論文中使用的方法、材料及結(jié)果,還可以比較相關(guān)文獻(xiàn)的研究貢獻(xiàn),從而輔助高效的科學(xué)文獻(xiàn)綜述任務(wù)。同時(shí),對(duì)創(chuàng)新內(nèi)容的結(jié)構(gòu)化表征有助于識(shí)別領(lǐng)域內(nèi)有矛盾或爭(zhēng)議性的知識(shí)主張[82],為潛在變革性研究發(fā)現(xiàn)提供新思路。
目前,基于文獻(xiàn)計(jì)量指標(biāo)的科技評(píng)價(jià)服務(wù)使用文獻(xiàn)網(wǎng)絡(luò)代替知識(shí)網(wǎng)絡(luò),使用各類文獻(xiàn)指標(biāo)表示科學(xué)創(chuàng)新程度,這是一種非直接的科學(xué)創(chuàng)新表示與度量手段。對(duì)科學(xué)創(chuàng)新及貢獻(xiàn)進(jìn)行本質(zhì)的直接表達(dá),在應(yīng)用過(guò)程中可以克服傳統(tǒng)計(jì)量方法對(duì)科學(xué)創(chuàng)新性的計(jì)量偏差,提供更全面、客觀的科學(xué)貢獻(xiàn)評(píng)價(jià)等科技服務(wù),有助于建立以創(chuàng)新貢獻(xiàn)為導(dǎo)向的學(xué)術(shù)評(píng)價(jià)氛圍,對(duì)“破五唯”起到積極推動(dòng)作用,促進(jìn)科學(xué)交流活動(dòng)向科學(xué)價(jià)值創(chuàng)造上的回歸。目前,已出現(xiàn)了基于科學(xué)創(chuàng)新內(nèi)容的學(xué)術(shù)評(píng)價(jià)探索,如基于論文內(nèi)容語(yǔ)義網(wǎng)絡(luò)的評(píng)估方法[83],基于創(chuàng)新句或研究問(wèn)題、方法、結(jié)論等創(chuàng)新要素的測(cè)評(píng)方法[84]等,但在具體學(xué)術(shù)評(píng)價(jià)實(shí)踐活動(dòng)中仍沒(méi)有出現(xiàn)被普遍采納的服務(wù)形態(tài)。
總體來(lái)看,目前基于科學(xué)創(chuàng)新內(nèi)容的大規(guī)模落地應(yīng)用還比較少,現(xiàn)有應(yīng)用主要聚焦于若干典型領(lǐng)域。在實(shí)踐中面臨如下困難:一是底層數(shù)據(jù)集構(gòu)建工作量較大,需要對(duì)學(xué)科領(lǐng)域存量論文進(jìn)行大規(guī)模的結(jié)構(gòu)化處理;二是創(chuàng)新內(nèi)容結(jié)構(gòu)化表征面臨的學(xué)科差異問(wèn)題尚未解決,運(yùn)用已有的模型能否對(duì)全學(xué)科科技文獻(xiàn)創(chuàng)新內(nèi)容進(jìn)行結(jié)構(gòu)化組織、效果如何,尚未有深入探索;三是科學(xué)創(chuàng)新內(nèi)容抽取的研究重點(diǎn)在于算法開(kāi)發(fā)與優(yōu)化,其研究主體和創(chuàng)新知識(shí)的組織及領(lǐng)域建模等領(lǐng)域存在差異,各個(gè)實(shí)踐主體往往著眼于具體的創(chuàng)新內(nèi)容識(shí)別與組織任務(wù),缺乏宏觀的協(xié)同意識(shí),各個(gè)任務(wù)之間往往沒(méi)有形成良好的銜接。
由圖2可以看出,當(dāng)前科研人員通過(guò)科學(xué)實(shí)驗(yàn)、論文寫(xiě)作發(fā)表、同行評(píng)議等一系列科學(xué)交流活動(dòng)進(jìn)行科學(xué)創(chuàng)新成果的生產(chǎn)傳播與消費(fèi),并通過(guò)科技文獻(xiàn)這一主要載體進(jìn)行創(chuàng)新內(nèi)容表達(dá),形成顯性知識(shí)。當(dāng)前科學(xué)交流體系中的科學(xué)基礎(chǔ)設(shè)施和科技知識(shí)服務(wù)基本都圍繞科技文獻(xiàn)而展開(kāi),如各類學(xué)術(shù)數(shù)據(jù)庫(kù)、學(xué)術(shù)搜索引擎等平臺(tái)??茖W(xué)創(chuàng)新內(nèi)容既是科學(xué)交流的主要對(duì)象,也是科學(xué)進(jìn)步的基石,在學(xué)術(shù)大數(shù)據(jù)的環(huán)境下,基于科技文獻(xiàn)的科學(xué)交流機(jī)制已難以滿足科研人員快速獲取、跟蹤和理解科學(xué)創(chuàng)新內(nèi)容的需求,并帶來(lái)了基于科技文獻(xiàn)相關(guān)計(jì)量指標(biāo)的學(xué)術(shù)評(píng)價(jià)活動(dòng)的繁榮?;诳萍嘉墨I(xiàn)而不是基于科學(xué)貢獻(xiàn)的評(píng)價(jià)機(jī)制已經(jīng)受到來(lái)自學(xué)術(shù)共同體的詬病,科學(xué)界亟須探索出一種新的科學(xué)交流模式,以解決當(dāng)前科學(xué)交流過(guò)程中存在的種種問(wèn)題。
圖2 基于新型科學(xué)創(chuàng)新表達(dá)的科學(xué)交流實(shí)踐框架
目前主要有兩條實(shí)踐路徑。一條路徑如上文所述,通過(guò)對(duì)海量科技文獻(xiàn)中的包括科學(xué)創(chuàng)新內(nèi)容在內(nèi)的各類知識(shí)元進(jìn)行識(shí)別抽取、結(jié)構(gòu)化組織,使用新的表達(dá)機(jī)制來(lái)表征科學(xué)創(chuàng)新內(nèi)容,形成各類科學(xué)知識(shí)圖譜等知識(shí)庫(kù),為各類智能科技知識(shí)服務(wù)提供支撐,這是一種漸進(jìn)型方案;另一條即圖2中由“科學(xué)創(chuàng)新”指向“科學(xué)創(chuàng)新的新表達(dá)形態(tài)”這一路徑,其直接對(duì)科學(xué)創(chuàng)新或創(chuàng)新內(nèi)容進(jìn)行新的表達(dá),而不一定通過(guò)“科技文獻(xiàn)”這一傳統(tǒng)中介,可以避免因科技文獻(xiàn)的處理算法性能的限制而造成的對(duì)科學(xué)創(chuàng)新內(nèi)容識(shí)別不精確等問(wèn)題,同時(shí)也可解決科學(xué)創(chuàng)新內(nèi)容的可信任性及溯源等問(wèn)題,這是一種突破型方案。在科學(xué)創(chuàng)新的新表達(dá)機(jī)制下,開(kāi)展相關(guān)科學(xué)基礎(chǔ)設(shè)施的建設(shè)以及相應(yīng)智能場(chǎng)景的設(shè)計(jì),無(wú)疑需要科研人員、內(nèi)容編輯、出版商、技術(shù)服務(wù)商等多方主體的參與,甚至?xí)呱鲂碌目茖W(xué)交流參與主體。
無(wú)論是漸進(jìn)型方案還是突破型方案,基于新型科學(xué)創(chuàng)新表達(dá)的科學(xué)交流過(guò)程都需要解決相關(guān)的核心問(wèn)題,重點(diǎn)圍繞科學(xué)創(chuàng)新內(nèi)容的新表達(dá)形態(tài)設(shè)計(jì)、科學(xué)創(chuàng)新內(nèi)容基礎(chǔ)設(shè)施建設(shè)以及基于科學(xué)創(chuàng)新的智能場(chǎng)景設(shè)計(jì)等方面開(kāi)展研究與實(shí)踐。
(1)科學(xué)創(chuàng)新內(nèi)容的新表達(dá)形態(tài)設(shè)計(jì)。在新的表達(dá)形態(tài)下,科研人員可以利用用戶友好的語(yǔ)義編輯工具,直接對(duì)科學(xué)創(chuàng)新本身進(jìn)行結(jié)構(gòu)化的表達(dá),如SciKGTeX[85]、RASH(research articles in simpli‐fied HTML)[86]等工具。這些編輯器的語(yǔ)義組件既可以對(duì)科學(xué)創(chuàng)新內(nèi)容等知識(shí)元進(jìn)行語(yǔ)義化編撰,支持研究人員在傳統(tǒng)的“科技文獻(xiàn)”這一載體類型的論文寫(xiě)作過(guò)程中,用形式語(yǔ)義對(duì)科學(xué)創(chuàng)新內(nèi)容進(jìn)行標(biāo)注[87-89];也可以不依賴于科技文獻(xiàn)這一表達(dá)載體,進(jìn)行全新的關(guān)于科學(xué)創(chuàng)新內(nèi)容的寫(xiě)作表達(dá),形成新型學(xué)術(shù)出版物類型,如納米出版物等形態(tài)。由于科學(xué)創(chuàng)新內(nèi)容一經(jīng)發(fā)布便是結(jié)構(gòu)化的,不需要特意對(duì)其進(jìn)行識(shí)別和抽取。對(duì)科學(xué)創(chuàng)新內(nèi)容進(jìn)行新的表達(dá)設(shè)計(jì)及實(shí)現(xiàn),需要考慮科學(xué)創(chuàng)新的創(chuàng)作主體、創(chuàng)作時(shí)間、創(chuàng)新內(nèi)容的特征、創(chuàng)新內(nèi)容組成要素及其關(guān)聯(lián)、不同創(chuàng)新內(nèi)容的關(guān)聯(lián)機(jī)制等信息,以實(shí)現(xiàn)對(duì)科學(xué)創(chuàng)新內(nèi)容的有效管理、溯源及應(yīng)用。
(2)科學(xué)創(chuàng)新內(nèi)容基礎(chǔ)設(shè)施建設(shè)??茖W(xué)創(chuàng)新內(nèi)容基礎(chǔ)設(shè)施是相關(guān)智能應(yīng)用場(chǎng)景的基礎(chǔ),其中科學(xué)創(chuàng)新知識(shí)庫(kù)是核心資產(chǎn),可通過(guò)漸進(jìn)型和突破型方法來(lái)構(gòu)建,其關(guān)鍵在于相關(guān)智能算法及編撰工具的支撐。創(chuàng)新內(nèi)容分發(fā)平臺(tái)則為用戶提供了關(guān)于具體科學(xué)創(chuàng)新內(nèi)容的提交、審核、發(fā)表、傳播等機(jī)制及統(tǒng)一入口,輔助科學(xué)創(chuàng)新過(guò)程的高效開(kāi)展。智能分析工具可為用戶提供如創(chuàng)新內(nèi)容檢索與推送、學(xué)科前沿主題分析等基礎(chǔ)學(xué)術(shù)服務(wù)。
(3)基于科學(xué)創(chuàng)新的智能場(chǎng)景設(shè)計(jì)。由于新的表達(dá)機(jī)制相對(duì)于傳統(tǒng)的“科技文獻(xiàn)”可以更為簡(jiǎn)明、直接地反映創(chuàng)新性科學(xué)成果,可以提供精準(zhǔn)的科學(xué)知識(shí)獲取等服務(wù),有效緩解當(dāng)前學(xué)術(shù)大數(shù)據(jù)環(huán)境下的知識(shí)獲取困境,從而成為科學(xué)交流的新媒介?;诳茖W(xué)創(chuàng)新的新表達(dá)方式,能夠催生一批新的智慧應(yīng)用,如科學(xué)創(chuàng)新內(nèi)容的論證與演化關(guān)系、推翻與支撐關(guān)系、改進(jìn)與突破關(guān)系的可視分析、基于科學(xué)創(chuàng)新內(nèi)容的科學(xué)前沿識(shí)別與趨勢(shì)探測(cè)、競(jìng)爭(zhēng)性科學(xué)發(fā)現(xiàn)挖掘與對(duì)比,以及學(xué)術(shù)貢獻(xiàn)評(píng)價(jià)等。當(dāng)然,以上應(yīng)用場(chǎng)景只是結(jié)合當(dāng)前科學(xué)交流體系而產(chǎn)生的有限的構(gòu)想,新的科學(xué)交流機(jī)制可能還會(huì)催生前所未有的產(chǎn)品和服務(wù)形態(tài)。
雖然基于科學(xué)創(chuàng)新的新表達(dá)形態(tài)的科學(xué)交流機(jī)制能夠彌補(bǔ)現(xiàn)有科學(xué)交流機(jī)制的短板、解決目前科學(xué)交流過(guò)程中存在的諸多問(wèn)題,但是將基于科學(xué)創(chuàng)新內(nèi)容的科學(xué)交流機(jī)制廣泛應(yīng)用于實(shí)踐還面臨著重重挑戰(zhàn)。
(1)基于大規(guī)模科技文獻(xiàn)的科學(xué)創(chuàng)新內(nèi)容識(shí)別抽取的效果仍有待提升?;诳萍嘉墨I(xiàn)創(chuàng)新內(nèi)容識(shí)別抽取的漸進(jìn)型方案作為當(dāng)前的主流實(shí)踐,目前主要聚焦于若干典型學(xué)科,相關(guān)算法存在領(lǐng)域移植困難、不能完全無(wú)監(jiān)督執(zhí)行、識(shí)別結(jié)果準(zhǔn)確度不高、缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)集等問(wèn)題,對(duì)后續(xù)的智能應(yīng)用將產(chǎn)生不利影響。大語(yǔ)言模型(large language model)技術(shù)的出現(xiàn)與流行,為科技文獻(xiàn)創(chuàng)新內(nèi)容的識(shí)別抽取帶來(lái)了性能提升[40],然而在算法結(jié)果的可解釋性以及細(xì)粒度的創(chuàng)新要素的識(shí)別與關(guān)聯(lián)效果上仍有待進(jìn)一步探索與改善。
(2)基于全學(xué)科領(lǐng)域的科學(xué)創(chuàng)新內(nèi)容的組織及具體實(shí)現(xiàn)仍有待探索。不同學(xué)科領(lǐng)域的科學(xué)創(chuàng)新內(nèi)容,其語(yǔ)言風(fēng)格、表達(dá)方式、創(chuàng)新類型迥異,現(xiàn)有的科學(xué)創(chuàng)新數(shù)據(jù)模型通常來(lái)源于理工科領(lǐng)域,藝術(shù)人文學(xué)科的創(chuàng)新內(nèi)容是否可以被形式化、現(xiàn)有的模式是否適用、是否存在符合全學(xué)科的科學(xué)創(chuàng)新內(nèi)容組織模式等問(wèn)題都需要進(jìn)一步探索,且新的組織模型如何大規(guī)模應(yīng)用、相關(guān)工具生態(tài)及實(shí)踐機(jī)制的設(shè)計(jì)仍是具有挑戰(zhàn)性的任務(wù)。
(3)相關(guān)智能場(chǎng)景設(shè)計(jì)過(guò)程的多學(xué)科、多主體協(xié)作有待加強(qiáng)。正如上文所述,科學(xué)創(chuàng)新內(nèi)容等知識(shí)元的識(shí)別抽取等實(shí)踐仍以算法開(kāi)發(fā)為主,形成的相關(guān)科學(xué)創(chuàng)新數(shù)據(jù)集只是作為驗(yàn)證算法性能的副產(chǎn)品,并沒(méi)有有效地對(duì)接到實(shí)際的應(yīng)用場(chǎng)景。同時(shí),對(duì)于科學(xué)創(chuàng)新內(nèi)容的識(shí)別、組織及應(yīng)用的不同環(huán)節(jié),其實(shí)踐主體通常由計(jì)算機(jī)領(lǐng)域、圖書(shū)情報(bào)學(xué)科以及知識(shí)服務(wù)提供商等各自開(kāi)展,缺乏圍繞科學(xué)創(chuàng)新內(nèi)容識(shí)別及應(yīng)用等全流程的宏觀協(xié)同機(jī)制與實(shí)踐意識(shí)。這一過(guò)程對(duì)多方參與主體提出了新的要求,如科研人員的語(yǔ)義編輯技能、技術(shù)人員的知識(shí)圖譜構(gòu)建等,同時(shí),新的商業(yè)模式、產(chǎn)品與服務(wù)形態(tài)以及利益分配方案都需要再思考。
基于科技文獻(xiàn)的科學(xué)交流機(jī)制已經(jīng)日漸不能滿足科研人員快速獲取科研信息的需求,并且?guī)?lái)了基于科技文獻(xiàn)計(jì)量指標(biāo)的科學(xué)評(píng)價(jià)形式。構(gòu)建基于科學(xué)創(chuàng)新內(nèi)容的科學(xué)交流機(jī)制是彌補(bǔ)現(xiàn)有科學(xué)交流機(jī)制短板、解決現(xiàn)存問(wèn)題的有效途徑之一。本文對(duì)國(guó)內(nèi)外相關(guān)研究實(shí)踐進(jìn)行了系統(tǒng)調(diào)研和分析,闡述了科學(xué)創(chuàng)新的概念內(nèi)涵及特征,梳理了科技文獻(xiàn)創(chuàng)新內(nèi)容識(shí)別抽取的主要方法,歸納了創(chuàng)新內(nèi)容結(jié)構(gòu)化組織的數(shù)據(jù)模型,并分析了基于科學(xué)創(chuàng)新內(nèi)容的智能應(yīng)用。最后,提出了一種基于新型科學(xué)創(chuàng)新表達(dá)形態(tài)的科學(xué)交流實(shí)踐框架,以及該框架的實(shí)踐建議和可能面臨的挑戰(zhàn)??v觀當(dāng)前實(shí)踐,科學(xué)創(chuàng)新內(nèi)容的相關(guān)研究及實(shí)踐的重要性尚未受到科研人員足夠的關(guān)注,未來(lái)新的科學(xué)交流機(jī)制的構(gòu)建仍面臨很多挑戰(zhàn),科學(xué)創(chuàng)新的類型及學(xué)科差異仍有待梳理,科學(xué)創(chuàng)新內(nèi)容識(shí)別抽取的自動(dòng)化、通用化仍需要加強(qiáng),全學(xué)科的科學(xué)創(chuàng)新語(yǔ)義組織及實(shí)踐仍需要持續(xù)探索,新的科學(xué)交流機(jī)制的落地應(yīng)用仍需要大量的跨界合作,以打破現(xiàn)有科學(xué)交流機(jī)制環(huán)境中知識(shí)獲取與傳播的困境、更好地支持科學(xué)知識(shí)獲取與同行評(píng)議等科學(xué)交流活動(dòng)。