■鐘 鎮(zhèn)
河南工業(yè)大學(xué)管理學(xué)院,河南省鄭州市高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)蓮花街100號(hào) 450001
自科學(xué)引文數(shù)據(jù)庫(kù)建立以來(lái),引文分析已成為科學(xué)評(píng)價(jià)研究的重要方法之一。然而如果引文中出現(xiàn)錯(cuò)誤,不論是偶爾失誤,有意失范,還是文獻(xiàn)數(shù)據(jù)庫(kù)的標(biāo)引失誤,最終都會(huì)進(jìn)入引文數(shù)據(jù)庫(kù)與科學(xué)共同體內(nèi)部,對(duì)科技信息檢索、引文分析與科研評(píng)價(jià)造成傷害,影響引文分析方法的準(zhǔn)確性與可信性。在文獻(xiàn)調(diào)研的基礎(chǔ)上,利用中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD),以2005年《中華婦產(chǎn)科雜志》及其CSCD錯(cuò)(施)引文獻(xiàn)為樣本,解析中文學(xué)術(shù)期刊與中文引文數(shù)據(jù)庫(kù)中錯(cuò)誤引文的特征、成因與影響,以引起中文學(xué)術(shù)期刊編輯部與數(shù)據(jù)庫(kù)編制機(jī)構(gòu)對(duì)錯(cuò)引現(xiàn)象的重視,并為相關(guān)學(xué)者進(jìn)一步研究提供方法方面的借鑒。
受研究方法所限,本文所研究的錯(cuò)誤引文主要是指形式上著錄或標(biāo)引錯(cuò)誤的引文記錄,而不深入討論引用內(nèi)容的正確性。為便于表述,將出現(xiàn)錯(cuò)誤引文信息的施引方稱為“錯(cuò)引××”,錯(cuò)引記錄指向的被引方稱為“錯(cuò)被引××”。
早在20世紀(jì)70年代,Garfield[1]就注意到科學(xué)引文索引(SCI)數(shù)據(jù)庫(kù)收錄的期刊中有錯(cuò)誤引文信息,科學(xué)信息研究所(ISI)為此構(gòu)建了“Keysave”系統(tǒng),糾正具備一定條件的錯(cuò)引信息[2]。同時(shí),Garfield[3]也呼吁期刊編輯要認(rèn)真對(duì)待錯(cuò)誤引文現(xiàn)象。1989年,荷蘭萊頓大學(xué)的Moed[4]采用文獻(xiàn)計(jì)量學(xué)研究方法,通過(guò)SCI數(shù)據(jù)庫(kù)(時(shí)為CD版)引文檢索記錄,考察了5種期刊的錯(cuò)誤引文分布特征,認(rèn)為產(chǎn)生部分錯(cuò)誤引文的原因在于個(gè)別作者的“引文復(fù)制”。加州大學(xué)洛杉磯分校的Simkin和Roychowdhury[5-6],通過(guò)對(duì)錯(cuò)誤引文的長(zhǎng)期觀察,發(fā)現(xiàn)不同錯(cuò)引類型在頻度分布上呈現(xiàn)齊普夫分布特征,即指數(shù)遞減規(guī)律。兩位學(xué)者據(jù)此推測(cè),期刊論文中70%的文末參考文獻(xiàn)來(lái)自于對(duì)其他論文文末引文的復(fù)制。
國(guó)內(nèi)從20世紀(jì)90年代開(kāi)始也注意到一些中文學(xué)術(shù)期刊的外文引文信息存在著錄錯(cuò)誤[7-8],以定性討論為主。2000年以后,國(guó)內(nèi)學(xué)者對(duì)錯(cuò)誤引文特征及其成因的研究開(kāi)始采用定量實(shí)證研究方法。其中部分研究顯示,轉(zhuǎn)引或二手引用是導(dǎo)致錯(cuò)誤引文產(chǎn)生的重要原因之一[9-10]。在抑控對(duì)策研究方面,許多學(xué)者分別從作者、編輯乃至數(shù)據(jù)庫(kù)多個(gè)層面提出了較多有價(jià)值的建議[11-13]。盡管通過(guò)錯(cuò)引現(xiàn)象揭示潛藏于背后的引文失范行為是錯(cuò)誤引文研究的另一個(gè)重要研究方向[14],但是絕大多數(shù)的相關(guān)研究仍以定性討論為主[15-16],缺少大樣本的統(tǒng)計(jì)分析研究。因此,探索一種基于中文引文數(shù)據(jù)庫(kù)的錯(cuò)誤引文識(shí)別方法,對(duì)于解析中文論文錯(cuò)誤引文的成因并抑控錯(cuò)誤引文發(fā)生就顯得十分重要。
在目前國(guó)外的研究中,認(rèn)為引文數(shù)據(jù)庫(kù)中的信息標(biāo)引錯(cuò)誤主要是由信息錄入錯(cuò)誤所致[17]。在解析數(shù)據(jù)庫(kù)的錯(cuò)誤引文信息時(shí),Garfield[1]曾發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的個(gè)別錯(cuò)引記錄是由信息錄入錯(cuò)誤所致,而非作者錯(cuò)著。此外, Moed[4]在錯(cuò)引樣本中發(fā)現(xiàn),至少有27條錯(cuò)引記錄屬于數(shù)據(jù)庫(kù)的引文信息標(biāo)引錯(cuò)誤,另外有2條記錄是數(shù)據(jù)庫(kù)將被引文獻(xiàn)題錄信息標(biāo)引錯(cuò)誤所致。通過(guò)3種期刊的抽樣分析, Buchanan[18]認(rèn)為SCI中標(biāo)引型錯(cuò)誤引文的比例在1.2%~6.9%之間。除Web of Science(以下簡(jiǎn)稱WoS)之外,國(guó)際上其他著名的一些引文數(shù)據(jù)庫(kù),如Scopus、谷歌學(xué)術(shù)(Google Scholar)和SciFinder(CA,化學(xué)文摘數(shù)據(jù)庫(kù)在線版)[19],也都發(fā)現(xiàn)存在引文信息乃至題錄信息標(biāo)引錯(cuò)誤的情況。
中文引文數(shù)據(jù)庫(kù)信息標(biāo)引錯(cuò)誤的專題研究成果十分有限,相關(guān)研究大多是在資源建設(shè)與抑控機(jī)制討論中有所提及。目前,引文數(shù)據(jù)庫(kù)信息質(zhì)量控制的研究有很多來(lái)自數(shù)據(jù)庫(kù)的編制機(jī)構(gòu)。南京大學(xué)信息管理學(xué)院的蘇新寧教授等多次撰文闡述了中國(guó)社會(huì)科學(xué)索引數(shù)據(jù)庫(kù)(CSSCI)的設(shè)計(jì)原理與信息糾錯(cuò)機(jī)制[13,20-21];中科院文獻(xiàn)情報(bào)中心的研究人員也討論過(guò)中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)的信息準(zhǔn)確性保障機(jī)制[22]與外包數(shù)據(jù)質(zhì)量控制方法[23]。此外,也有少量基于第三方視角的引文數(shù)據(jù)庫(kù)質(zhì)量評(píng)價(jià)研究[24-26]。從已有成果的技術(shù)路線角度分析,缺少系統(tǒng)性數(shù)據(jù)采集與分析方法已經(jīng)成為制約中文引文數(shù)據(jù)庫(kù)錯(cuò)標(biāo)現(xiàn)象研究進(jìn)一步展開(kāi)的主要瓶頸。
通過(guò)引文數(shù)據(jù)庫(kù)提供的“被引參考文獻(xiàn)檢索”(以下稱為“引文檢索”)功能發(fā)現(xiàn)異常引文記錄并加以判別是識(shí)別錯(cuò)引信息的重要路徑,研究錯(cuò)誤引文的識(shí)別方法主要基于CSCD(WoS平臺(tái)版本)展開(kāi),并以2005年《中華婦產(chǎn)科雜志》為案例加以驗(yàn)證。CSCD由中科院文獻(xiàn)情報(bào)中心編制,具有建庫(kù)歷史最為悠久、專業(yè)性強(qiáng)、數(shù)據(jù)準(zhǔn)確規(guī)范、檢索方式多樣、完整、方便等特點(diǎn),自提供使用以來(lái),深受用戶好評(píng),被譽(yù)為“中國(guó)的SCI”。
與WoS類似,CSCD為每篇收錄論文在文末參考文獻(xiàn)都建立了獨(dú)立的引文記錄,并可通過(guò)引文檢索功能檢索。圖1為引文檢索的中間結(jié)果頁(yè)面:每行對(duì)應(yīng)一條獨(dú)立的引文記錄,右起第一列提供被引文獻(xiàn)“題錄頁(yè)面”指向鏈接;右起第二列為該“引文”的“CSCD施引文獻(xiàn)”數(shù)量,可通過(guò)勾選標(biāo)記檢索。
圖1 2005年《中華婦產(chǎn)科雜志》被引參考文獻(xiàn)檢索中間結(jié)果
一般來(lái)說(shuō),當(dāng)被引文獻(xiàn)為非收錄內(nèi)容時(shí),如各類圖書、報(bào)告、非收錄期刊或收錄期刊的非收錄內(nèi)容,指向鏈接為空。但是,當(dāng)引文記錄與收錄(被引)文獻(xiàn)的匹配出現(xiàn)問(wèn)題時(shí),也會(huì)造成指向鏈接缺失,并同時(shí)導(dǎo)致施引與被引文獻(xiàn)在數(shù)據(jù)庫(kù)中無(wú)法建立引文關(guān)系。WoS平臺(tái)將出現(xiàn)上述情況的引文記錄稱為“引文變體”,是引文數(shù)據(jù)庫(kù)中錯(cuò)引現(xiàn)象較為顯著的特征之一。因此,通過(guò)引文檢索發(fā)現(xiàn)引文變體,是識(shí)別錯(cuò)引記錄與采集錯(cuò)引文獻(xiàn)相對(duì)高效的方法。以圖1為例,第1條引文變體緣于施引作者的姓名錯(cuò)著(第一作者“王巍”錯(cuò)著為第二作者“朱蘭”),第2條引文變體則是由于施引作者將卷碼遺漏所致。
圖2 引文數(shù)據(jù)庫(kù)錯(cuò)誤引文信息成因分類
依據(jù)文獻(xiàn)調(diào)研與前期預(yù)研的結(jié)果[14,27],引文數(shù)據(jù)庫(kù)中錯(cuò)引記錄主要分為作者錯(cuò)著與數(shù)據(jù)庫(kù)錯(cuò)標(biāo)2種情況,見(jiàn)圖2。作者錯(cuò)著可分為一般性錯(cuò)著與失范性錯(cuò)著(如引文復(fù)制、引文杜撰);依據(jù)發(fā)生位置,數(shù)據(jù)庫(kù)錯(cuò)標(biāo)則可分為施引文獻(xiàn)的引文信息錯(cuò)標(biāo)(以下簡(jiǎn)稱“引文錯(cuò)標(biāo)”)與被引文獻(xiàn)的題錄信息錯(cuò)標(biāo)(以下簡(jiǎn)稱“論文錯(cuò)標(biāo)”)2種情況。
為區(qū)分作者錯(cuò)著與數(shù)據(jù)庫(kù)錯(cuò)標(biāo)2種類型,國(guó)際上一般采用跨數(shù)據(jù)庫(kù)引文信息核對(duì)的方法分類篩選。對(duì)于同一條錯(cuò)引信息,如2個(gè)或2個(gè)以上的引文數(shù)據(jù)庫(kù)表征相同,則視為錯(cuò)著,反之則說(shuō)明一個(gè)數(shù)據(jù)庫(kù)出現(xiàn)了錯(cuò)標(biāo)的情況。借鑒該思路,采用較為原始三方比對(duì)方式,即比較CSCD錯(cuò)誤引文信息、“原始施引文獻(xiàn)”的引文信息與“原始被引文獻(xiàn)”的題錄信息(原始文獻(xiàn)信息來(lái)自中國(guó)知網(wǎng)與維普等全文數(shù)據(jù)庫(kù)),完成錯(cuò)誤引文分類篩選,具體技術(shù)路線見(jiàn)圖3。需要說(shuō)明的是,除CSCD和CSSCI外(兩者的重疊性較低),國(guó)內(nèi)鮮有中文引文數(shù)據(jù)庫(kù)同時(shí)具備引文檢索與大批量引文信息“套錄下載”功能,難以直接應(yīng)用多個(gè)引文數(shù)據(jù)庫(kù)完成引文信息核對(duì)。
圖3 中文期刊錯(cuò)誤引文信息識(shí)別與分類篩選的技術(shù)路線
選擇2005年的《中華婦產(chǎn)科雜志》作為錯(cuò)被引目標(biāo)期刊。該刊創(chuàng)刊于1953年,現(xiàn)任主編為郎景和院士,影響因子在《中國(guó)科學(xué)計(jì)量指標(biāo):期刊引證報(bào)告(2005年卷)》中的婦產(chǎn)與生殖領(lǐng)域排序第1,代表了我國(guó)婦產(chǎn)科學(xué)理論研究的較高水平。在CSCD中,該刊2005年的論文共計(jì)收錄287篇,均為研究型或綜述型論文,數(shù)量略少于中國(guó)知網(wǎng)(315篇)與萬(wàn)方數(shù)據(jù)庫(kù)(302篇)的檢索結(jié)果。依據(jù)通常所采用的一般檢索與統(tǒng)計(jì)方法,該刊2005年論文在2005—2014年期間被“正常引用”了725次,h指數(shù)為10。
錯(cuò)引樣本的引文檢索式為:被引著作:(中華婦產(chǎn)科雜志)AND 被引年份:(2005)AND時(shí)間跨度:(2005—2014)AND索引:CSCD。引文窗口截至2014年,一方面希望能夠降低近2年新收錄期刊數(shù)據(jù)回溯對(duì)統(tǒng)計(jì)結(jié)果重復(fù)性的影響;另一方面10年期的引文窗口易于觀察錯(cuò)誤引文的變化趨勢(shì)。
依據(jù)該檢索式,共提取到錯(cuò)引案例86例,涉及錯(cuò)被引論文60篇,包括44篇錯(cuò)著引用,5篇錯(cuò)標(biāo)引用,8篇既被錯(cuò)標(biāo)又被錯(cuò)著(錯(cuò)著與錯(cuò)標(biāo)分屬不同錯(cuò)引案例,但均指向同一篇被引論文),另有3篇被引論文自身的索引信息出現(xiàn)標(biāo)引錯(cuò)誤;涉及錯(cuò)(施)引文獻(xiàn)103篇中的106條錯(cuò)(施)引記錄,其中有3篇錯(cuò)引文獻(xiàn)(編號(hào)分別為CSCD:2947217、3479515和3526221)出現(xiàn)了2條錯(cuò)引記錄。部分論文存在多種錯(cuò)被引形式,導(dǎo)致錯(cuò)引案例數(shù)與記錄數(shù)顯著高于錯(cuò)被引論文篇數(shù)。以本案例錯(cuò)被引頻度最高的兩篇論文為例(編號(hào)CSCD:1907415和1987200),錯(cuò)被引的頻次均為4次,一個(gè)涉及了2個(gè)2頻度錯(cuò)引案例,另一個(gè)則涉及了4個(gè)1頻度錯(cuò)引案例。
依據(jù)錯(cuò)引字段差異將錯(cuò)著案例分為卷碼錯(cuò)、頁(yè)碼錯(cuò)、(被引作者)姓名錯(cuò)3種單一錯(cuò)著類型,以及卷頁(yè)雙錯(cuò)、(姓)名卷雙錯(cuò)2種復(fù)合錯(cuò)著類型。除此之外,經(jīng)標(biāo)題核對(duì),另有10條錯(cuò)著記錄指向的被引文獻(xiàn)來(lái)自其他年份(年份錯(cuò)著),或是名稱相近的其他期刊(期刊名稱錯(cuò)著),統(tǒng)一歸類為期刊錯(cuò)著(簡(jiǎn)稱“期刊錯(cuò)”)而不再細(xì)分。由于標(biāo)引錯(cuò)誤引文的樣本較小,只依據(jù)引用方向?qū)㈠e(cuò)標(biāo)案例分為引文錯(cuò)標(biāo)與論文錯(cuò)標(biāo)2組。
表1 2005年《中華婦產(chǎn)科雜志》CSCD施引文獻(xiàn)錯(cuò)引記錄分布
由表1可知,錯(cuò)引樣本具有以下3個(gè)特征:第一,總體錯(cuò)引率略大于10%,“正?!迸c錯(cuò)引記錄的比例接近7…1(725…106),略高于國(guó)外相關(guān)研究的統(tǒng)計(jì)結(jié)果,這可能是統(tǒng)計(jì)中將錯(cuò)著與錯(cuò)標(biāo)統(tǒng)一歸類為錯(cuò)引結(jié)果所致;第二,作者錯(cuò)著是引文數(shù)據(jù)庫(kù)錯(cuò)引記錄形成的主要原因,所有錯(cuò)標(biāo)型錯(cuò)引加起來(lái)也只占錯(cuò)引總體的25%左右,而其中論文錯(cuò)標(biāo)的比例更是不到10%,反映了CSCD較高的數(shù)據(jù)準(zhǔn)確性;第三,從錯(cuò)著字段的統(tǒng)計(jì)結(jié)果發(fā)現(xiàn),頁(yè)碼最易發(fā)生錯(cuò)誤,其次為卷碼,作者姓名書寫錯(cuò)誤的情況較為少見(jiàn),顯示長(zhǎng)串?dāng)?shù)字出錯(cuò)概率更高。此外,在案例研究中,未發(fā)現(xiàn)頁(yè)(碼)(姓)名雙錯(cuò)以及卷碼、頁(yè)碼和作者三錯(cuò)的復(fù)合錯(cuò)著類型。
《中華婦產(chǎn)科雜志》早在2000年前,就開(kāi)始在正文頁(yè)較為顯著的位置標(biāo)注卷、期、頁(yè)信息。2005年,該刊共出版1卷12期,卷碼為40,均可通過(guò)國(guó)內(nèi)主要全文數(shù)據(jù)庫(kù)獲取全文信息,具有較高的可檢索性與可訪問(wèn)性。但統(tǒng)計(jì)結(jié)果顯示,該刊2005年的論文有52篇論文在引用時(shí)被錯(cuò)誤著錄,錯(cuò)被引總頻次高達(dá)79次,顯然并不是簡(jiǎn)單一句“作者筆誤”所能解釋。通過(guò)對(duì)比相關(guān)數(shù)據(jù),認(rèn)為樣本中的引文錯(cuò)著可能由以下5方面因素中的一個(gè)或多個(gè)作用所致。
3.3.1 陌生情境引用
雖然同屬醫(yī)學(xué)學(xué)科,但不同專科之間的研究范式有時(shí)存在一定差異,而這種差異有可能反映到期刊文獻(xiàn)著錄與編輯規(guī)則之中,并導(dǎo)致在引文著錄或編輯時(shí)出現(xiàn)一定偏差。對(duì)比2005年《中華婦產(chǎn)科雜志》主要的正確與錯(cuò)誤施引期刊,見(jiàn)表2,可以發(fā)現(xiàn)期刊自引的錯(cuò)著比例(正確與錯(cuò)著比為98…2)明顯低于其他主要施引期刊(《中國(guó)實(shí)用婦科與產(chǎn)科雜志》引用該刊的正確與錯(cuò)著比為60…9)。其次,正確與錯(cuò)著施引期刊的名錄與排序差異較為明顯,顯示兩組期刊的作者在引文采納習(xí)慣上存在不同,“學(xué)術(shù)圈子”的交集相對(duì)較小。
表2 2005年《中華婦產(chǎn)科雜志》主要的正確與錯(cuò)誤施引期刊
如表3所示,錯(cuò)引樣本中包含了9個(gè)涉及“姓名錯(cuò)”的錯(cuò)著案例,許多為近音或近形字錯(cuò)誤,見(jiàn)表3案例1~7,很有可能與作者或編輯的文字編碼輸入方法有關(guān)。案例3將“李巍”輸入成“李魏”屬于典型的拼音編碼相近(近音字)輸入錯(cuò)誤;案例5將“水”輸入成“永”則是比較顯著的五筆編碼相近(近形字)輸入錯(cuò)誤。值得注意的是,案例8~9均由作者將第二作者著錄為第一作者而產(chǎn)生。
表3 2005年《中華婦產(chǎn)科雜志》施引期刊作者著錄錯(cuò)誤
3.3.3 卷碼信息著錄錯(cuò)誤
“卷期不分”是本次案例研究中引文錯(cuò)著的重要表現(xiàn)形式,具體分為“卷期錯(cuò)位”(卷碼與頁(yè)碼位置對(duì)調(diào))與“以期代卷”(使用期碼作為卷碼)2種形式。在20多個(gè)與“卷碼”有關(guān)的引文錯(cuò)著記錄中,一半以上都可歸因于“卷期不分”,包括“以期代卷”(14例)、“卷期錯(cuò)位”(4例)。卷碼錯(cuò)引占比如此之高,實(shí)際上緣于作者對(duì)著錄規(guī)則的理解性偏差,不了解卷碼的含義,忽視卷碼對(duì)于引文記錄數(shù)據(jù)庫(kù)定位的重要性。
3.3.4 引文復(fù)制
樣本中重復(fù)出現(xiàn)的引文錯(cuò)著共計(jì)7例,但錯(cuò)引頻度較低,均為2。此外,7個(gè)案例皆為卷碼(V)或頁(yè)碼(P)單一錯(cuò)引類型,包括2個(gè)卷碼錯(cuò)與5個(gè)頁(yè)碼錯(cuò)案例,見(jiàn)表4。
表4 2005年《中華婦產(chǎn)科雜志》重復(fù)錯(cuò)引案例
通過(guò)核對(duì)錯(cuò)引文獻(xiàn)的作者與引文信息,發(fā)現(xiàn)案例3、5、7屬于作者自引錯(cuò)著并自引復(fù)制。此外,通過(guò)核對(duì)錯(cuò)引與被錯(cuò)引作者后,可以確認(rèn)樣本中沒(méi)有其他自引錯(cuò)著現(xiàn)象。對(duì)于表4中的其他重復(fù)錯(cuò)引案例,由于CSCD收錄期刊相對(duì)有限,且錯(cuò)引頻次相對(duì)較低,難以肯定是否存在引文復(fù)制行為。
特別指出的是,引文復(fù)制并非只發(fā)生在重復(fù)錯(cuò)引案例中。表3中案例8的姓名錯(cuò)著,實(shí)際涉及了2篇有前后引用關(guān)系的錯(cuò)引文獻(xiàn)(編號(hào)分別為CSCD:3041480和3479463),并存在顯著的引文復(fù)制痕跡。兩篇錯(cuò)引文獻(xiàn)都將第二作者楊孜當(dāng)作第一作者著錄,但后發(fā)表論文在引用先發(fā)表論文的同時(shí),還將楊孜發(fā)文的頁(yè)碼也著錄錯(cuò)誤,使得兩篇錯(cuò)引文獻(xiàn)分屬不同錯(cuò)引案例。
3.3.5 “不完全”轉(zhuǎn)引錯(cuò)誤
語(yǔ)言能力的限制讓我無(wú)法體驗(yàn)到最精華、最有趣的部分,這一晚顯得略有失落感,但當(dāng)我發(fā)現(xiàn)全場(chǎng)都是本地人參與,我們是唯一的中國(guó)孩子時(shí),又不覺(jué)驕傲于我們能體驗(yàn)一些當(dāng)?shù)仉y得的活動(dòng),回想起來(lái)還是很令人難忘。
如表5所示,期刊錯(cuò)引可劃分為“來(lái)源性錯(cuò)誤”(案例1~5)與“年份性錯(cuò)誤”(案例6~9)2個(gè)類別,前者來(lái)自于《中華婦產(chǎn)科雜志》之外的其他期刊,后者則來(lái)自該刊其他年份(非2005年)。案例9較為特殊,為預(yù)引用案例。被引文獻(xiàn)2005年應(yīng)當(dāng)是錄用,但2006年才正式刊出,因此作者在“自引”時(shí)著錄的實(shí)際是錄用年份,并且未著錄其他字段。仔細(xì)觀察表5可知,除期刊名稱外,案例1、2、5的錯(cuò)著字段數(shù)量都在2個(gè)以上,顯然超過(guò)了一般筆誤的范疇??赡艿慕忉屖?,施引文獻(xiàn)作者從其他文獻(xiàn)獲取了部分引文信息(即二手文獻(xiàn)),但條目信息有缺失。在不經(jīng)過(guò)檢索確認(rèn)的情況下,為保證參考文獻(xiàn)格式的完整性,作者在轉(zhuǎn)引的基礎(chǔ)上“補(bǔ)充”了其他字段的內(nèi)容。
表5 2005年《中華婦產(chǎn)科雜志》CSCD施引文獻(xiàn)中期刊錯(cuò)引案例
*《中國(guó)婦幼保健》非CSCD收錄期刊,論文的被引頻次為“引文檢索”結(jié)果統(tǒng)計(jì)而得。
錯(cuò)標(biāo)型錯(cuò)引與錯(cuò)著型錯(cuò)引在數(shù)據(jù)庫(kù)中的表現(xiàn)形式類似,但成因卻大相徑庭。
3.4.1 引文錯(cuò)標(biāo)的成因解析
研究樣本中包含了18條引文錯(cuò)標(biāo)記錄,涉及10篇被引文獻(xiàn),見(jiàn)表6。通過(guò)分析錯(cuò)標(biāo)字段的特征,發(fā)現(xiàn)樣本中的引文錯(cuò)標(biāo)成因主要來(lái)自于以下3個(gè)方面。
第一,匹配失效。引文記錄未出現(xiàn)的顯著的著錄錯(cuò)誤,但卻無(wú)法與被引文獻(xiàn)建立正常的鏈接關(guān)系。表6中案例1為典型代表,引文記錄實(shí)際被引頻次較高(合計(jì)7次),但論文的數(shù)據(jù)庫(kù)被引頻次卻顯示為0,說(shuō)明問(wèn)題并非作者錯(cuò)著,而是數(shù)據(jù)庫(kù)的匹配算法出現(xiàn)了某種誤差。
第二,卷碼缺失。表6中案例4~8的其他字段均正確,但因缺少卷碼難以定位而成為“錯(cuò)引記錄”。通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),我國(guó)不少學(xué)者在著錄引文時(shí)都不太重視卷碼信息,甚至部分期刊也不提供編碼信息導(dǎo)致“無(wú)卷可著”,使得卷碼遺漏在中文期刊論文中成為多發(fā)現(xiàn)象,同時(shí)也不被視為“錯(cuò)著”。但在CSCD中,卷碼是引文記錄的主要定位字段,一旦缺失,直接影響引文鏈接,導(dǎo)致“錯(cuò)引記錄”。
第三,輸入錯(cuò)誤。重要索引字段信息錄入錯(cuò)誤,導(dǎo)致錯(cuò)引記錄,表6中案例9~10即屬于該類型。從2個(gè)案例的錯(cuò)標(biāo)形式分析,字形十分接近,應(yīng)是文字識(shí)別技術(shù)不完善或錄入人員疏忽所致。
表6 2005年《中華婦產(chǎn)科雜志》引文錯(cuò)標(biāo)案例
值得注意的是,在樣本中,引文錯(cuò)標(biāo)與引文錯(cuò)著往往相伴出現(xiàn),在涉及引文錯(cuò)標(biāo)的10篇被引文獻(xiàn)中,其中7篇在被引用時(shí)也發(fā)生過(guò)錯(cuò)著的情況,說(shuō)明引文錯(cuò)標(biāo)與引文錯(cuò)著在成因方面具有一定的耦合性。
3.4.2 論文錯(cuò)標(biāo)的成因解析
論文錯(cuò)標(biāo)往往都只是1~2個(gè)字符的錯(cuò)誤,但由于發(fā)生在關(guān)鍵索引字段,導(dǎo)致“失之毫厘,謬以千里”的錯(cuò)配結(jié)果。在CSCD中,2005年《中國(guó)婦產(chǎn)科雜志》共計(jì)有3篇論文(被引文獻(xiàn))出現(xiàn)了標(biāo)引錯(cuò)誤,見(jiàn)表7,包括1篇頁(yè)碼錯(cuò)標(biāo)和2篇作者姓名錯(cuò)標(biāo),并由此產(chǎn)生了11條“數(shù)據(jù)庫(kù)錯(cuò)引記錄”。從錯(cuò)誤形式分析,應(yīng)是文字識(shí)別技術(shù)不完善所導(dǎo)致的近形字替代所致。
表7 2005年《中華婦產(chǎn)科雜志》論文錯(cuò)標(biāo)案例
由表7可知,由于頁(yè)碼和作者信息錯(cuò)標(biāo),案例1~2成為了CSCD中的零被引論文,而實(shí)際上至少分別被引用1次和8次(還可能存在其他錯(cuò)引形式)。比較有趣的是案例3,雖然CSCD將其作者“吳小華”錯(cuò)標(biāo)為“吳小云”,但該篇論文在數(shù)據(jù)庫(kù)中仍顯示被引用1次,且施引記錄標(biāo)注的是“吳小華”。與引文錯(cuò)著和引文錯(cuò)標(biāo)相比,論文錯(cuò)標(biāo)負(fù)面影響較為顯著,但總體發(fā)生概率極低。如果能輔以更為有效的糾錯(cuò)機(jī)制,應(yīng)該能夠有效避免論文錯(cuò)標(biāo)的發(fā)生。
圍繞樣本案例,錯(cuò)引現(xiàn)象的初步評(píng)估結(jié)果如下。
3.5.1 引文錯(cuò)著的影響評(píng)估
引文錯(cuò)著仍是一個(gè)較為普遍的現(xiàn)象,但對(duì)于期刊的影響相對(duì)有限。一方面,2005年《中華婦產(chǎn)科雜志》共有52篇論文在CSCD中出現(xiàn)了被錯(cuò)引著錄,接近該刊論文總數(shù)的20%;另一方面,引文錯(cuò)著的總頻次只有69次,錯(cuò)著率并未超過(guò)10%。換言之,引文錯(cuò)著雖然導(dǎo)致該刊影響因子降低,但作用區(qū)間不大。此外,錯(cuò)著引用與正常引用曲線的變化趨勢(shì)較為相近,各年的錯(cuò)著率相對(duì)接近,顯示錯(cuò)引概率與被引頻次存在一定的正相關(guān)關(guān)系,見(jiàn)圖4。
圖4 《中華婦產(chǎn)科雜志》2005—2014年被引曲線
在論文層面,以h核為標(biāo)準(zhǔn)(被引頻次不小于該刊2005年的h指數(shù))定義高被引論文,統(tǒng)計(jì)了錯(cuò)被引論文在高被引與零被引兩個(gè)分組的論文篇數(shù),見(jiàn)表8。對(duì)比兩個(gè)分組可以歸納錯(cuò)被引論文的2個(gè)特征。
第一,高被引論文錯(cuò)被引的概率高于其他論文,且錯(cuò)被引頻次相對(duì)較高。該刊h核論文共計(jì)10篇,其中50%(5篇)被錯(cuò)引,并且涵蓋了錯(cuò)被引頻次最高(4次)的2篇論文。
第二,作者錯(cuò)著可能是引文數(shù)據(jù)庫(kù)零被引論文產(chǎn)生的原因之一,但較低的錯(cuò)被引頻次則表明造成論文低被引或零被引還存在其他因素。樣本中共有9篇零被引論文被錯(cuò)著引用,但錯(cuò)引頻次僅有1次。換言之,即使沒(méi)有錯(cuò)引,9篇論文在數(shù)據(jù)庫(kù)中也仍是低被引論文。
表8 2005年《中華婦產(chǎn)科雜志》錯(cuò)被引論文分布
3.5.2 數(shù)據(jù)庫(kù)錯(cuò)標(biāo)的影響評(píng)估
數(shù)據(jù)庫(kù)錯(cuò)標(biāo)所導(dǎo)致的錯(cuò)誤引文記錄在引文數(shù)據(jù)庫(kù)中屬于小概率事件,波及范圍小,對(duì)期刊評(píng)價(jià)結(jié)果幾乎不產(chǎn)生影響。但在單篇論文層面,一旦出現(xiàn)論文錯(cuò)標(biāo)(如表7)及類似匹配算法問(wèn)題導(dǎo)致的引文錯(cuò)標(biāo)(如表6中案例1~3),則會(huì)直接導(dǎo)致“低/零被引論文”,應(yīng)引起作者、讀者、期刊編輯部及數(shù)據(jù)庫(kù)提供商的重視。
通過(guò)文獻(xiàn)調(diào)研,以2005年《中華婦產(chǎn)科雜志》的錯(cuò)引文獻(xiàn)為實(shí)證案例,討論了中文期刊與中文引文數(shù)據(jù)庫(kù)中錯(cuò)誤引文的識(shí)別方法,基于案例分析結(jié)果初步解析錯(cuò)引現(xiàn)象的成因及影響,得到主要結(jié)論如下。
第一,通過(guò)引文檢索功能檢索引文變體記錄,是發(fā)現(xiàn)和識(shí)別中文期刊與中文引文數(shù)據(jù)庫(kù)錯(cuò)引記錄的有效路徑之一。
第二,引文數(shù)據(jù)庫(kù)中錯(cuò)誤引文主要構(gòu)成有2類,即作者錯(cuò)著與數(shù)據(jù)庫(kù)錯(cuò)標(biāo)。作者錯(cuò)著可分為一般性錯(cuò)著與失范性錯(cuò)著(包括引文復(fù)制、引而不注等)2種類型;數(shù)據(jù)庫(kù)錯(cuò)標(biāo)所導(dǎo)致的錯(cuò)引記錄可以分為(施引文獻(xiàn))引文錯(cuò)標(biāo)與(被引文獻(xiàn))論文錯(cuò)標(biāo)2種情況。
第三,陌生情境引用、字型編碼或拼音編碼相近及著錄規(guī)則理解性偏差是造成作者引文錯(cuò)著的主要原因,而同類型多頻度的錯(cuò)著引用及涉及期刊名稱在內(nèi)的多字段錯(cuò)著引用都潛在含有引文復(fù)制或不完全二手引文信息的補(bǔ)充引用等學(xué)術(shù)不端因素。雖然作者引文錯(cuò)著現(xiàn)象的波及范圍較為廣泛,但對(duì)期刊評(píng)價(jià)結(jié)果的影響相對(duì)有限,也并非產(chǎn)生低/零被引論文的決定性因素。
第四,匹配算法的某些缺陷、施引文獻(xiàn)作者的引文卷碼著錄遺漏及數(shù)據(jù)庫(kù)信息導(dǎo)入方法不完善是造成數(shù)據(jù)庫(kù)錯(cuò)標(biāo)型錯(cuò)引記錄的主要原因。雖然數(shù)據(jù)庫(kù)錯(cuò)標(biāo)的發(fā)生概率較小,但對(duì)于單篇論文的評(píng)價(jià)有可能產(chǎn)生顛覆性影響,甚至?xí)?dǎo)致不應(yīng)有的低/零被引論文出現(xiàn)。
錯(cuò)誤引文在阻礙科學(xué)信息正常交流的同時(shí)損害了引文的“科學(xué)承認(rèn)”機(jī)制,并導(dǎo)致引文分析與文獻(xiàn)計(jì)量研究的準(zhǔn)確性與可信性受到影響,因而需要采取一定措施有效抑控此類現(xiàn)象。
第一,在宏觀層面要呼吁學(xué)會(huì)、科研機(jī)構(gòu)、期刊等部門聯(lián)合起來(lái),端正學(xué)風(fēng),倡導(dǎo)科學(xué)引用,抵制引文失范現(xiàn)象;另一方面,科研工作者自身也要提高對(duì)參考文獻(xiàn)引用準(zhǔn)確性與規(guī)范性的認(rèn)知程度。在研究中,部分錯(cuò)誤引文來(lái)自于二手文獻(xiàn)轉(zhuǎn)引,甚至有些緣于自引,這些錯(cuò)誤都是學(xué)者不重視引文價(jià)值與規(guī)范所致。令人感到欣慰的是,包括《中國(guó)科技期刊研究》在內(nèi)的很多期刊投稿系統(tǒng),已經(jīng)引入引文檢測(cè)機(jī)制,預(yù)警監(jiān)測(cè)錯(cuò)誤引文,有效降低了錯(cuò)引現(xiàn)象。
第二,完善引文數(shù)據(jù)庫(kù)的信息錄入方式與引文信息糾錯(cuò)算法。文字識(shí)別技術(shù)的大規(guī)模應(yīng)用在提高引文數(shù)據(jù)庫(kù)的信息導(dǎo)入效率的同時(shí),可能加大了信息錯(cuò)標(biāo)的概率,因而相關(guān)部門應(yīng)當(dāng)不定期地測(cè)試和完善現(xiàn)有的信息輸入方法和技術(shù),降低錯(cuò)標(biāo)的風(fēng)險(xiǎn)。而且通過(guò)改進(jìn)糾錯(cuò)算法,修正相對(duì)微小的錯(cuò)著信息,也是提高數(shù)據(jù)庫(kù)信息準(zhǔn)確性的一個(gè)重要途徑。在進(jìn)行中國(guó)知網(wǎng)(CNKI)全文檢索時(shí),發(fā)現(xiàn)一些原本被錯(cuò)著的引文在建立引文關(guān)系鏈接時(shí),由數(shù)據(jù)庫(kù)進(jìn)行了糾正,指向了正確的被引文獻(xiàn)。
第三,建立涵蓋所有利益相關(guān)主體在內(nèi)的錯(cuò)誤引文報(bào)告機(jī)制。由于錯(cuò)誤引文的形式較為多樣,成因較為復(fù)雜,因此有效的錯(cuò)引抑控機(jī)制需要作者(被引方)、讀者(施引方)、期刊編輯部、數(shù)據(jù)庫(kù)提供機(jī)構(gòu),以及科學(xué)共同體中其他利益相關(guān)者共同參與。一種可能的方式是建立包括申報(bào)、監(jiān)測(cè)、警告、懲戒或獎(jiǎng)勵(lì)等措施在內(nèi)的錯(cuò)誤引文報(bào)告平臺(tái),實(shí)現(xiàn)對(duì)錯(cuò)誤引文乃至失范引文的有效抑控。
部分結(jié)論主要基于CSCD醫(yī)學(xué)類這一個(gè)相對(duì)較小的樣本集合,年份也相對(duì)較早,因而研究結(jié)論的局限性較為顯著。在后續(xù)的研究中,計(jì)劃將研究擴(kuò)展到其他學(xué)科與其他引文數(shù)據(jù)庫(kù),并選擇近期的研究樣本,對(duì)錯(cuò)引現(xiàn)象的識(shí)別方法與產(chǎn)生原因進(jìn)行全方位多學(xué)科的深度研究解析。
[1] Garfield E. Errors-theirs,ours and yours[J].EssaysofanInformationScientist,1974,76(2):80-81.
[2] Garfield E. Project Keysave-ISI′s new online system for keying citations corrects errors[J].EssaysofanInformationScientist,1977,78(3):42-44.
[3] Garfield E. Journal editors awaken to the impact of citation errors[J].CurrentContents,1990,41:5-13.
[4] Moed H F,Vriens M. Possible inaccuracies occurring in citation analysis[J].JournalofInformationScience,1989,15(2):95-107.
[5] Simkin M V,Roychowdhury V P. Read before you cite[J].ComplexSystems,2003,14(3):269-274.
[6] Simkin M V,Roychowdhury V P. Stochastic modeling of citation slips[J].Scientometrics,2005,62(3):367-384.
[7] 潘伯榮. 期刊文獻(xiàn)中年卷期頁(yè)的著錄規(guī)范[J]. 編輯學(xué)報(bào),1993,5(3):161-164.
[8] 曹金盛. 參考文獻(xiàn)外國(guó)作者姓名書寫錯(cuò)誤分析[J]. 科技與出版,1997,3:31.
[9] 張菊,鐘均行. 醫(yī)學(xué)期刊中參考文獻(xiàn)引用錯(cuò)誤分析[J]. 中國(guó)科技期刊研究,2005,16(6):845-847.
[10] 董時(shí)軍. 醫(yī)學(xué)稿件中幾種隱蔽的參考文獻(xiàn)引用錯(cuò)誤辨析[J]. 編輯學(xué)報(bào),2007,19(2):103-104.
[11] 趙秋民. 科技期刊參考文獻(xiàn)著錄錯(cuò)誤分析及防范對(duì)策[J]. 編輯之友,2009,29(6):47-49.
[12] 陳先軍. 文后參考文獻(xiàn)引著質(zhì)量及其審查方法[J]. 中國(guó)科技期刊研究,2014,25(9):1145-1148.
[13] 蘇新寧. 引文索引數(shù)據(jù)質(zhì)量控制研究[J]. 中國(guó)圖書館學(xué)報(bào),2001,27(2):76-78.
[14] 梁立明,鐘鎮(zhèn). 錯(cuò)引現(xiàn)象折射出的科學(xué)家群體引文失范行為:以Nature上一篇19萬(wàn)次高頻引用論文的錯(cuò)引記錄為例[J]. 自然辯證法研究,2007,23(6):62-65.
[15] 趙賢瑤. 引文失范問(wèn)題及其防治對(duì)策研究[J]. 科技管理研究,2010,30(23):257-260.
[16] 劉應(yīng)竹. 學(xué)術(shù)論文中的引文失范問(wèn)題芻議[J]. 編輯學(xué)報(bào),2014,26(1):7-9.
[17] Franceschini F,Maisano D,Mastrogiacomo L. Errors in DOI indexing by bibliometric databases[J].Scientometrics,2015,102(3):2181-2186.
[18] Buchanan R A. Accuracy of cited references:The role of citation databases[J].College&ResearchLibraries,2006,67(4):292-303.
[19] Li J,Burnham J F,Lemley T,etal. Citation analysis:Comparison of web of science?,scopusTM,SciFinder?,and google scholar[J].JournalofElectronicResourcesinMedicalLibraries,2010,7(3):196-217.
[20] 蘇新寧. 中國(guó)社會(huì)科學(xué)引文索引設(shè)計(jì)[J]. 情報(bào)學(xué)報(bào),2000,19(4):290-295.
[21] 蘇新寧. 中文社會(huì)科學(xué)引文索引 (CSSCI) 的設(shè)計(jì)與應(yīng)用價(jià)值[J]. 中國(guó)圖書館學(xué)報(bào),2012,38(5):95-102.
[22] 胡曉青,張建勇. 數(shù)據(jù)庫(kù)檢索系統(tǒng)可用性評(píng)價(jià)指標(biāo)與實(shí)證研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009,3(2):46-50.
[23] 陸耘. 外包數(shù)據(jù)質(zhì)量控制初探:以中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)為例[J]. 河南圖書館學(xué)刊,2013,33(4):95-97.
[24] 蔣鴻標(biāo). 引文數(shù)據(jù)質(zhì)量控制研究[J]. 圖書館建設(shè),2014,(9):81-86.
[25] 宋宇紅. 《中文科技期刊數(shù)據(jù)庫(kù)(引文版)》 記錄的缺失與重復(fù)[J]. 浙江紡織服裝職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008,6(4):81-83.
[26] 張友誼,劉春. 中文社會(huì)科學(xué)引文索引數(shù)據(jù)質(zhì)量問(wèn)題研究[J]. 情報(bào)雜志,2012,31(1):21-24.
[27] Liang L,Zhong Z,Rousseau R. Scientists′ referencing (mis) behavior revealed by the dissemination network of referencing errors[J].Scientometrics,2014,101(3):1973-1986.