黃筱瑾
(成都理工大學(xué)圖書館,四川 成都 610059)
·理論探索·
基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)研究
黃筱瑾
(成都理工大學(xué)圖書館,四川 成都 610059)
科學(xué)數(shù)據(jù)和科技文獻是科研成果產(chǎn)出的兩個重要表現(xiàn)形式??萍紨?shù)據(jù)與科技文獻關(guān)聯(lián)分析對于實現(xiàn)集成信息服務(wù)、促進知識發(fā)現(xiàn)和完善E-science環(huán)境具有重要意義。文章從科學(xué)數(shù)據(jù)和科技文獻的元數(shù)據(jù)出發(fā),從兩者的元數(shù)據(jù)描述中提取出表達內(nèi)容特征的元數(shù)據(jù)項,并利用向量空間模型進行特征的相似性計算,從而關(guān)聯(lián)科學(xué)數(shù)據(jù)與科技文獻。
科學(xué)數(shù)據(jù);科技文獻;元數(shù)據(jù);向量空間模型;特征提取
隨著科學(xué)數(shù)據(jù)的高速增長和科學(xué)數(shù)據(jù)驅(qū)動的科研范式的逐步形成,科學(xué)數(shù)據(jù)在整個科研流程中的重要性越來越受到重視。對于科研工作者而言,學(xué)術(shù)資源已不再僅僅是指期刊文獻和專著等傳統(tǒng)文獻類型,科學(xué)數(shù)據(jù)和科研記錄資料等也逐漸成為科研人員學(xué)術(shù)信息需求的重點。將科學(xué)數(shù)據(jù)與現(xiàn)有的基于科技文獻的科研信息支撐系統(tǒng)有效地關(guān)聯(lián),提供高質(zhì)量集成信息服務(wù),進而提高科學(xué)研究活動效率,成為一個迫切需要解決的問題。
開展科學(xué)數(shù)據(jù)與科技文獻之間的關(guān)聯(lián)對于科學(xué)數(shù)據(jù)的獲取與共享、科學(xué)數(shù)據(jù)的復(fù)用和科研創(chuàng)新、科技文獻的評價與評審乃至學(xué)術(shù)交流體系的轉(zhuǎn)變等都有極其重要的意義。為此,一些研究者也開展了相關(guān)的研究,文獻[1]以Elsevier出版集團的科學(xué)文獻與科學(xué)數(shù)據(jù)關(guān)聯(lián)實踐為研究對象,深入分析其4種關(guān)聯(lián)方式;文獻[2]分析了科學(xué)數(shù)據(jù)的不同來源以及科學(xué)數(shù)據(jù)與科技文獻的不同關(guān)聯(lián)模式;文獻[3]分析了當前期刊、出版商、數(shù)據(jù)庫商等不同主體,探索通過期刊與數(shù)據(jù)互聯(lián)、數(shù)據(jù)庫服務(wù)、科學(xué)數(shù)據(jù)期刊等途徑提供關(guān)聯(lián)服務(wù)的嘗試;文獻[4]基于引文進行了科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)研究。同時,本文作者在對科學(xué)數(shù)據(jù)與科技文獻的關(guān)聯(lián)研究中,提出了基于元數(shù)據(jù)進行兩者的關(guān)聯(lián),并就關(guān)聯(lián)的模式及可行性進行了分析[5]。在該研究的基礎(chǔ)上,本文從科學(xué)數(shù)據(jù)和科技文獻的元數(shù)據(jù)中提取出表達內(nèi)容特征的元數(shù)據(jù)項,基于內(nèi)容特征進行科學(xué)數(shù)據(jù)與科技文獻的關(guān)聯(lián)研究。
特征是對一個客體或一組客體特性的抽象結(jié)果??茖W(xué)數(shù)據(jù)和科技文獻的特征都可以分為外部特征和內(nèi)部特征??茖W(xué)數(shù)據(jù)的外部特征是指創(chuàng)建者、數(shù)據(jù)來源、發(fā)布機構(gòu)、數(shù)據(jù)量、格式、語種等與其表達內(nèi)容沒有過多關(guān)系的特征,內(nèi)部特征是指數(shù)據(jù)名稱、關(guān)鍵詞、摘要(簡介)等表達數(shù)據(jù)內(nèi)容的特征??萍嘉墨I的外部特征是指著者、著者單位、著者機構(gòu)等,而內(nèi)部特征是指題名、摘要、主題詞、關(guān)鍵詞等反映文獻內(nèi)容的特征。如果能提取科學(xué)數(shù)據(jù)和科技文獻的內(nèi)容特征,并建立他們之間的關(guān)聯(lián),就能將其背后的科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)起來。
科學(xué)數(shù)據(jù)是指各類科技活動產(chǎn)生的原始性基礎(chǔ)性數(shù)據(jù)及按照不同需求加工后的數(shù)據(jù)集和相關(guān)信息[6]。作為一種信息資源,科學(xué)數(shù)據(jù)的具體格式和類型包括:觀察模擬數(shù)據(jù);分類術(shù)語表;數(shù)學(xué)表達式;分子、化學(xué)、基因表達式;結(jié)構(gòu)、物理、計算模型;表格、圖形、圖表、地圖、圖片;實地與試驗筆記等。科學(xué)數(shù)據(jù)由于其具有數(shù)據(jù)的大量性、不均勻性、不規(guī)整性、動力學(xué)性、高維性等特點[7],對其特征進行描述是比較困難的。作者對一些科學(xué)數(shù)據(jù)庫及共享平臺進行了研究分析,其在對科學(xué)數(shù)據(jù)的特征進行揭示時,主要是通過元數(shù)據(jù)來進行描述的。元數(shù)據(jù)以其互操作性、可擴展性、語言互用性、可映射性等特點,已成為科學(xué)數(shù)據(jù)管理的基礎(chǔ),目前各科學(xué)數(shù)據(jù)倉儲大多使用元數(shù)據(jù)來描述科學(xué)數(shù)據(jù)的外部特征和內(nèi)容特征,進行科學(xué)數(shù)據(jù)的管理以及實現(xiàn)不同平臺間科學(xué)數(shù)據(jù)的交換與整合。
作者在對國內(nèi)建設(shè)得比較完善的10個科學(xué)數(shù)據(jù)平臺做了分析[5]。這些科學(xué)數(shù)據(jù)平臺通過元數(shù)據(jù)來描述數(shù)據(jù)本身的特征和屬性,從而利于科學(xué)數(shù)據(jù)的存儲、利用和管理。各科學(xué)數(shù)據(jù)平臺多以DC定義的15個基本的核心元數(shù)據(jù)作為科學(xué)數(shù)據(jù)基本元數(shù)據(jù)。除此之外,再根據(jù)各學(xué)科科學(xué)數(shù)據(jù)的特點,進行有效拓展,定義一些和基本元素不重復(fù)的新元素。從調(diào)查發(fā)現(xiàn),主要的元數(shù)據(jù)描述項包括數(shù)據(jù)名稱、格式、關(guān)鍵詞、摘要(簡介)、數(shù)據(jù)量、語種、分類、數(shù)據(jù)來源、創(chuàng)建者、其他貢獻者、創(chuàng)建日期、發(fā)布機構(gòu)、關(guān)聯(lián)信息、范圍(時間范圍、空間范圍)、聯(lián)系信息等。
國外的科學(xué)數(shù)據(jù)倉儲平臺同樣通過元數(shù)據(jù)進行數(shù)據(jù)描述。Dryad數(shù)據(jù)庫旨在實現(xiàn)對進化生物學(xué)領(lǐng)域期刊論文的支撐數(shù)據(jù)的保存、發(fā)現(xiàn)、復(fù)用和管理的科學(xué)數(shù)據(jù)倉儲[8]。
Dryad的元數(shù)據(jù)描述以DC元數(shù)據(jù)元素為基礎(chǔ),融合了其他元數(shù)據(jù)標準的元素。目前Dryad的元數(shù)據(jù)元素包括數(shù)據(jù)名稱、類型、作者、國家、提交日期、可獲取日期、卷期、DOI識別符、引用、統(tǒng)一資源標識符、描述、主題詞、關(guān)聯(lián)信息(來源文獻DOI識別符、來源文獻PMID號)。PANGAEA[9]是一個地球環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)倉儲,PANGAEA允許數(shù)據(jù)提交者通過使用都柏林核心、DIF或ISO 19115元數(shù)據(jù)標準進行地球環(huán)境科學(xué)科學(xué)數(shù)據(jù)的描述。目前PANGAEA的元數(shù)據(jù)元素主要包括數(shù)據(jù)名稱、關(guān)聯(lián)信息(來源文獻DOI識別符)、摘要、空間范圍、空間參數(shù)、知識共享署名許可協(xié)議、引用和責(zé)任方信息等?;诖?,從元數(shù)據(jù)中提取科學(xué)數(shù)據(jù)的內(nèi)容特征既具有高效性又具有可行性。
元數(shù)據(jù)的目的之一是用于有效地描述文獻的原始數(shù)據(jù),保存文獻數(shù)據(jù)的內(nèi)在本質(zhì),特別是對于文獻類電子資源。雖然,元數(shù)據(jù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展的產(chǎn)物,但是從其出現(xiàn)之初,就受到了圖書館界和數(shù)據(jù)庫商的青睞。圖書館在建立數(shù)字圖書館時,數(shù)據(jù)庫商對文獻類電子資源進行發(fā)展、推廣和應(yīng)用時,都迫切需要一種標準和規(guī)范來描述文獻類電子資源的原始屬性,因此,元數(shù)據(jù)成為對文獻原始屬性進行描述的一大選擇。文獻[10]對萬方等幾個數(shù)字圖書館系統(tǒng)元數(shù)據(jù)使用情況進行了統(tǒng)計。中科院文獻情報中心的研究人員也針對期刊論文的元數(shù)據(jù)描述規(guī)范進行了專門的研究,其元數(shù)據(jù)元素見表1[11]。由此可見,一篇科技文獻可以從它的元數(shù)據(jù)元素中提取題名、主題、描述等來表示科技文獻的內(nèi)容特征。因此,從元數(shù)據(jù)中提取科技文獻的內(nèi)容特征同樣是具有可行性的。
表1 期刊論文元數(shù)據(jù)構(gòu)成
由此可見,元數(shù)據(jù)已經(jīng)廣泛地存在于文獻數(shù)據(jù)庫和科學(xué)數(shù)據(jù)倉儲中,為兩者的關(guān)聯(lián)提供了較為豐富的數(shù)據(jù)基礎(chǔ)。表2中對科學(xué)數(shù)據(jù)與科技文獻的元數(shù)據(jù)元素進行對比,在元數(shù)據(jù)元素名稱上雖然兩者的表述方式存在差異,但是其描述的實質(zhì)內(nèi)容卻是一樣的,特別是在內(nèi)容特征元素的描述上是可以相互映射的。通過提取兩者元數(shù)據(jù)中的標題、摘要、關(guān)鍵詞等文本描述字段,可以進行兩者內(nèi)容特征的關(guān)聯(lián),從而實現(xiàn)科學(xué)數(shù)據(jù)與科技文獻的關(guān)聯(lián)。
表2 科學(xué)數(shù)據(jù)與科技文獻元數(shù)據(jù)映射表
基于以上的研究分析,本研究通過對科學(xué)數(shù)據(jù)和科技文獻元數(shù)據(jù)項中的內(nèi)容特征進行提取,并對提取的特征信息進行相似性計算,從而判斷科學(xué)數(shù)據(jù)和科技文獻是否具有內(nèi)容相似性,見圖1。
利用文本進行相似性計算的方法有多種,本研究主要采用向量空間模型(Vector Space Model,VSM)進行文本特征表示,通過TF-IDF方法進行特征的權(quán)值計算,采用余弦相似度計算方法來衡量資源對象的相似性。
圖1 科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)圖
向量空間模型的基本思想是[12]:設(shè)自然語言文本表示為D,預(yù)定義的特征詞集合表示為(T0,T1,…,Tn-1。通過計算機自動分詞并計算出相應(yīng)特征詞的權(quán)重(W0,W1,…,Wn-1)后,文本D可用特征項及相應(yīng)的權(quán)重表示為D(T0,W0,T1,W1,…,Tn-1,Wn-1),其中n為文本D所含特征詞的個數(shù),Ti為某一特征詞,Wi為根據(jù)某種規(guī)則計算出的該特征詞的權(quán)重。若不考慮Ti在文獻中出現(xiàn)的先后順序且Ti,i=0,1,…,n-1互異時,可以把(T0,T1,…,Tn-1)看作是一個n維坐標系,(W0,W1,…,Wn-1)則代表該坐標系構(gòu)成的n維空間中的一個點或向量,這個向量為文本D的向量表示或者向量空間模型。
使用TF-IDF(Term Frequency-Inverse Document Frequency)方法進行特征的權(quán)值計算,文獻Di中第j個特征詞的權(quán)值Wij可以通過TF×TIF得到,其中TF(Term Frequency)和IDF(Inverse Document Frequency)分別表示術(shù)語頻率和逆文檔頻率。TF用于度量特征詞在特定文獻的重要程度,其值越大說明這個特征詞越能反映文獻的核心問題。文獻Di中第j個特征詞術(shù)語頻率為:
(1)
其中,|Tj|表示在文獻Di中特征詞Tj出現(xiàn)的次數(shù),|Di|表示Di中所有單詞的個數(shù)IDF用于度量特征詞在整個文獻集中的重要性。一般來說,整個文獻集包含某一項T的文獻越多,則表明這個特征項在該文獻集中區(qū)分不同文獻的能力較差,對特定文獻的專指度也比較低,因而其值也就越小。Di中第j個特征詞的倒文本率為:
(2)
其中,Num表示文獻集中的文獻總數(shù),df(j)表示在所有被分析的文獻中,包含了特征詞Tj的文獻數(shù)目。根據(jù)公式(1)、(2)分別計算出某特征詞的TF和IDF值,并將這兩個值相乘就得到了該特征詞的權(quán)值。從科技文獻的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為D(Ti0,Wi0,Ti1,Wi1,…,Tin-1,Win-1),其中Ti表示第i個文本特征項,Wi表示該特征項的權(quán)重,從科學(xué)數(shù)據(jù)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為Sj(Tj0,Wj0,Tj1,Wj1,…,Tjm-1,Wjm-1,其中Tj表示第j個文本特征項,WJ表示該特征項的權(quán)重。
當文本以向量形式表示時,文本的相似度用文本特征向量的距離來衡量,即使用向量間夾角θ的余弦來計算,余弦計算正好是一個介于0~1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性:
(3)
選用國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺中的“青藏高原東緣森林生態(tài)系統(tǒng)土壤有機質(zhì)和養(yǎng)分數(shù)據(jù)”[13]作為測試數(shù)據(jù),在科技文獻的選取上,采用人工判定的方法,選取了4篇相關(guān)性的文獻及2篇不相關(guān)的文獻,具體見表3。通過對該科學(xué)數(shù)據(jù)與各科技文獻的特征向量進行相似性計算,來驗證該科學(xué)數(shù)據(jù)與科技文獻的相關(guān)性是否與人工設(shè)定的一致。
表3 實驗分析來源數(shù)據(jù)
我們利用文本特征詞提取工具ROST TF-IDF[14]及內(nèi)容挖掘工具ROST Content Mining分析科學(xué)數(shù)據(jù)及科技文獻的元數(shù)據(jù)中表示內(nèi)容特征的元素項的文本內(nèi)容,ROST TFIDF嵌入了tf-idf Chinese模塊,根據(jù)特征詞權(quán)重的TF-IDF量化方法原理,對文本進行分詞和詞頻統(tǒng)計,得到“逆文本頻率指數(shù)”IDF和TF以及TF*IDF的值,見圖2。提取出科學(xué)數(shù)據(jù)和各科技文獻的特征向量,通過公式3進行科學(xué)數(shù)據(jù)與預(yù)先設(shè)定的科技文獻的相似性計算和判定,結(jié)果證明通過向量空間模型計算出的科學(xué)數(shù)據(jù)與科技文獻的關(guān)聯(lián)性與人工判斷的關(guān)聯(lián)性是一致的。
圖2 ROST CM使用過程圖
近年來,一批具有高使用價值的科學(xué)數(shù)據(jù)共享平臺逐步建立起來并投入使用,同時,地球科學(xué)、生物學(xué)、空間科學(xué)、材料科學(xué)等學(xué)科領(lǐng)域在科學(xué)數(shù)據(jù)元數(shù)據(jù)的標準、結(jié)構(gòu)、管理體系、互操作性等方面進行了研究,建立了相應(yīng)的科學(xué)數(shù)據(jù)共享服務(wù)的元數(shù)據(jù)體系結(jié)構(gòu),這些都為筆者從科學(xué)數(shù)據(jù)與科技文獻的元數(shù)據(jù)中提取內(nèi)容特征奠定了良好的基礎(chǔ)。本文提出了從題名、主題、描述等元數(shù)據(jù)項中提取科學(xué)數(shù)據(jù)與科技文獻的內(nèi)容特征,通過向量空間模型進行兩者相似度計算,從而進行科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)的方法。在實踐過程中還會涉及元數(shù)據(jù)收割、元數(shù)據(jù)映射等相關(guān)內(nèi)容。同時,由于自然語言的復(fù)雜性,提取出的特征詞在表達對象內(nèi)容時可能存在語義上的不確定性。針對以上問題,將在今后進行更加深入的研究。
[1]衛(wèi)軍朝.科學(xué)文獻與科學(xué)數(shù)據(jù)關(guān)聯(lián)實踐研究——以Elsevier為例[J].國家圖書館學(xué)刊,2017,(3):93-101.
[2]孫文佳,常娥.科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)分析[J].圖書館理論與實踐,2017,(3):49-53.
[3]邱春艷.期刊文獻與科學(xué)數(shù)據(jù)的關(guān)聯(lián)服務(wù)研究[J].情報資料工作,2014,(2):63-66.
[4]郭學(xué)武.基于引文的科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)研究[J].情報科學(xué),2014,(4):59-62,125.
[5]黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)研究[J].情報理論與實踐,2013,(7):27-30.
[6]鄭淑容,趙培云.科學(xué)數(shù)據(jù)共享管理:問題及對策[J].中國科技成果,2003,(23):8-10
[7]秦?。獢?shù)據(jù)與科學(xué)數(shù)據(jù)信息的組織與管理[EB].2004年數(shù)字圖書館前沿問題高級研討班.http://www.docin.com/p-19306708.html,2015-04-04.
[8]黃如花,邱春艷.Dryad數(shù)據(jù)倉儲的元數(shù)據(jù)管理[J].圖書館雜志,2014,(1):68-73.
[9]PANGAEA[EB].https://www.pangaea.de/?t=Oceans,2017-07-17.
[10]金更達.文獻類電子資源元數(shù)據(jù)發(fā)展淺議[J].大學(xué)圖書館學(xué)報,2003,(6):15-19.
[11]我國數(shù)字圖書館標準規(guī)范建設(shè):期刊論文描述元數(shù)據(jù)規(guī)范[EB].https://wenku.baidu.com/view/7934fe2bccbff121dd3683 a4.html,2004.5.
[12]劉斌,陳樺.向量空間模型信息檢索技術(shù)討論[J].情報雜志,2006,(7):92-93,91.
[13]國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺.青藏高原東緣森林生態(tài)系統(tǒng)土壤有機質(zhì)和養(yǎng)分數(shù)據(jù)[EB].http://www.geodata.cn/data/datadetails.html?dataguid=243357923654808&docId=576,2017-07-17.
[14]ROST虛擬學(xué)習(xí)團隊.ROST Content Mining System User Manual[EB].http://wenku.baidu.com/view/e7a62df3f90f76c661371a 76.html?re=view,2017-04-02.
LinkStudyofScientificDataandScientificLiteratureBasedonContentFeatures
Huang Xiaojin
(Library,Chengdu University of Technology,Chengdu 610059,China)
Scientific data and scientific literature are two important forms of scientific research outputs.Link application of scientific data and scientific literature plays a vital part in realizing integrated information service,facilitating knowledge discovery and improving e-science environment.The paper extracted content features from the metadata of both,used vector space model to perform similarity calculation of content features.So then,it associated the scientific data and scientific literature on the basement of content features.
scientific data;scientific literature;metadata;vector space model;feature extraction
10.3969/j.issn.1008-0821.2018.01.008
G257.3
A
1008-0821(2018)01-0056-04
2017-09-13
四川省高校人文社會科學(xué)重點研究基地科研項目“社會科學(xué)數(shù)據(jù)與社科文獻關(guān)聯(lián)性研究”(項目編號SCAA14B18)。
黃筱瑾(1984-),女,館員,碩士,研究方向:信息資源組織與建設(shè)。
(實習(xí)編輯:陳 媛)