黃國彬 黃 戀
(北京師范大學(xué)政府管理學(xué)院 北京 100875)
參考文獻(xiàn)是學(xué)術(shù)出版物的基本組成部分,其作為學(xué)術(shù)論文的一種隨附記錄,為后來的研究人員考證和學(xué)習(xí)作者的引用內(nèi)容提供了原始的來源依據(jù)。過去,參考文獻(xiàn)通常是已發(fā)表的文章或已出版的書籍。而如今,在基于web的學(xué)術(shù)交流環(huán)境中,參考文獻(xiàn)還包括了指向廣泛web資源的在線鏈接。與引用紙質(zhì)版或收入數(shù)據(jù)庫的電子版學(xué)術(shù)出版物不同,對從不依托任何物理介質(zhì)存在的各類原生網(wǎng)絡(luò)數(shù)字資源進(jìn)行引用著錄,若著錄方式只有原始資源的標(biāo)題、URL鏈接、引用日期等信息,一旦其引用狀態(tài)因各種原因發(fā)生了改變,就常常會(huì)出現(xiàn)引用失效(Reference Rot)的問題。如此,當(dāng)后來的研究人員進(jìn)行學(xué)術(shù)考證時(shí),施引當(dāng)時(shí)的原始內(nèi)容就有較大可能無法完整呈現(xiàn),這就與參考文獻(xiàn)為所引內(nèi)容提供原始來源依據(jù)的初衷相悖。原生網(wǎng)絡(luò)數(shù)字資源的引用失效現(xiàn)象為學(xué)術(shù)交流帶來了不可忽視的挑戰(zhàn)。
為了了解國內(nèi)外相關(guān)研究工作,本文采取的檢索策略是,于2021年1月12日,對國外文獻(xiàn)以web of science為檢索庫,使用“l(fā)ink rot”和“reference rot”等檢索詞集,通過主題詞字段進(jìn)行檢索;以“網(wǎng)絡(luò)引文”并“可獲得性”或“可追溯性”作為檢索詞,通過篇關(guān)摘字段對CNKI進(jìn)行檢索,獲取本主題的國內(nèi)研究文獻(xiàn)。另外,對從web of science檢索到的外文文獻(xiàn)中第一作者姓名和發(fā)文機(jī)構(gòu)可直接判斷屬于國內(nèi)作者的,也將其劃入國內(nèi)研究文獻(xiàn)中。
目前,web環(huán)境下,數(shù)字圖書館或?qū)W術(shù)出版物中使用URL引用原生網(wǎng)絡(luò)數(shù)字資源是普遍現(xiàn)象,且都涉及到不容忽視的引用失效問題。以Martin等人[1]對1997年至2012年間約350萬篇文章中的超100萬個(gè)鏈接的檢測結(jié)果來說,其發(fā)現(xiàn),五分之四援引了原生網(wǎng)絡(luò)數(shù)字資源的文獻(xiàn)都或多或少面臨引用失效問題。
國內(nèi)外很多行業(yè)領(lǐng)域的研究者都就其各自所屬行業(yè)的出版物中原生網(wǎng)絡(luò)數(shù)字資源引用失效的程度問題進(jìn)行了量化研究。以法律行業(yè)為例,Rumsey研究了法律資料中的引文鏈接,她發(fā)現(xiàn)一年前資料中的鏈接還有60%可以正常訪問,而五年前資料中的鏈接就只剩下30%可正常訪問。顯然,隨著時(shí)間的遞增,鏈接失效的比例會(huì)上升。另一項(xiàng)來自哈佛大學(xué)的研究還對可客觀判斷是否變化的內(nèi)容更替進(jìn)行了量化,其取樣了美國最高法院的意見,發(fā)現(xiàn)最高法院意見中援引的鏈接有近40%失效(無法返回200正常狀態(tài)),而返回200正常狀態(tài)的鏈接中也有49.9%已不再包含最初引用的信息;對于《哈佛法律評論》(HLR)、《哈佛法律與技術(shù)雜志》(JOLT)、《哈佛人權(quán)雜志》(HHRJ)三種期刊而言,其過去十幾年間的引用鏈接失效率也維持在40%左右,剩余的可返回200正常狀態(tài)的鏈接中,也有近35%的內(nèi)容不再包含最初引用的信息。國內(nèi)圖情領(lǐng)域也開展過類似的研究。武漢大學(xué)的學(xué)者莊曉喆[2]對四種核心期刊《中國圖書館學(xué)報(bào)》、《大學(xué)圖書館學(xué)報(bào)》、《圖書情報(bào)工作》和《圖書館雜志》進(jìn)行了量化研究,其發(fā)現(xiàn)四種期刊的鏈接有效率都是隨時(shí)間推移而逐漸消減的,并由此推算出四種圖情核心期刊的半衰期大約在六年以上。盡管這一結(jié)果較之國會(huì)圖書館報(bào)告[3]中對一般網(wǎng)頁平均壽命估值的44-100天而言,已經(jīng)相對長了很多,但就整個(gè)學(xué)術(shù)交流環(huán)境來看,其引用失效問題仍不容樂觀。計(jì)算機(jī)領(lǐng)域中,Spinellis對Communications of the ACM和IEEE Computer Society所發(fā)文章的引用鏈接進(jìn)行了量化,發(fā)現(xiàn)引用鏈接的半衰期是4年,且鏈路的結(jié)構(gòu)層次越復(fù)雜,出現(xiàn)失效的概率越高。
此外,根據(jù)切薩皮克數(shù)字保存小組(CDPG)[4]的報(bào)告顯示,其在過去六年間收集的可公開訪問且無付費(fèi)壁壘的文獻(xiàn)所引鏈接有44%已經(jīng)失效,這些鏈接的內(nèi)容包括健康手冊、學(xué)術(shù)聲明、報(bào)告以及流行的媒體資源和個(gè)人網(wǎng)頁等。CDPG的報(bào)告還指出了,從域名角度分析,引用.gov和.mil之類的超50%的政府域鏈接會(huì)出現(xiàn)失效情況。這說明即便是具有較高權(quán)威性的官方政府,也無法保證其原生網(wǎng)絡(luò)數(shù)字資源得到穩(wěn)定維護(hù)和保存。
學(xué)者們在對各自領(lǐng)域內(nèi)學(xué)術(shù)出版物的引用失效程度展開研究時(shí),主要是對無法訪問資源的鏈接進(jìn)行量化。就鏈接提取和測試而言,早期的研究中,通常采用人工方式從紙質(zhì)文獻(xiàn)中提取URL鏈接,并逐條在瀏覽器中手動(dòng)輸入,以訪問目標(biāo)網(wǎng)頁。如Germaine、屈衛(wèi)群等,受限于技術(shù)工具,其樣本量通常較少。而以Sumeer[5]、Carmine為代表的學(xué)者,則對逐條手動(dòng)驗(yàn)證鏈接進(jìn)行了改進(jìn),其開始使用Link Checker之類的鏈接檢測工具進(jìn)行批量檢測,該方法大大提升了批量資源鏈接的檢驗(yàn)效率。這也是國內(nèi)學(xué)者如莊曉喆、王平[6]、楊思洛[7]等在進(jìn)行引用資源有效性量化研究時(shí)采取的主流做法。更進(jìn)一步的改進(jìn)源于文本識(shí)別技術(shù)的發(fā)展。國外學(xué)者Sanderson等人[8]提出一種更自動(dòng)化的鏈接提取方法,即將所研究的pdf轉(zhuǎn)化成XML格式,再基于一定的提取規(guī)則提取引文中的URL,并作過濾和消重處理。此后,以Ke Zhou等人[9]為例,對于方法改進(jìn)的研究聚焦于不同提取規(guī)則、不同正則表達(dá)式的準(zhǔn)確性提升和評估等問題上。
就統(tǒng)計(jì)量化頻率而言,學(xué)者們的統(tǒng)計(jì)頻率主要分為一次性和多次性統(tǒng)計(jì)。一次性統(tǒng)計(jì)的研究方法一般用于大規(guī)模批量鏈接的可訪問性檢測,方法包括,統(tǒng)計(jì)某一研究周期內(nèi)可正常訪問的樣本鏈接在不同年代的分布情況,如國外Mia等、國內(nèi)朱瑩等[10]的研究;以及,統(tǒng)計(jì)文獻(xiàn)在某一時(shí)段內(nèi)所引鏈接可正常訪問量,如國外的Koehler、Kumar等人[11]的研究。多次性統(tǒng)計(jì)的研究方法需要較長的研究周期,一般統(tǒng)計(jì)周期內(nèi)某些時(shí)間點(diǎn)的可正常訪問量,形成文獻(xiàn)所引鏈接可訪問情況的定期跟蹤,如Sarah[12]的研究。
對引用失效量化研究進(jìn)行分析,主流的影響因素可歸納為:學(xué)科、域名、資源類型、鏈接深度等。國內(nèi)外學(xué)者對于相同影響因素的研究,可能存在較大差異。
就域名因素而言,國內(nèi)學(xué)者吳志強(qiáng)[13]、朱瑩驗(yàn)證后分別發(fā)現(xiàn),.org域中的鏈接比.com和.edu域中的可正常訪問率更高,這一結(jié)果與國外學(xué)者Spinellis、Dellavallle等結(jié)論一致,但與Sampath等人[14]相反,其研究結(jié)果是.org的失敗率反而最高。而Saberi等人[15]的結(jié)論是.net域中的可正常訪問率最高。
就資源類型而言,國內(nèi)學(xué)者吳志強(qiáng)提出,可分為四類,分別為服務(wù)器級(jí)域、目錄頁、web頁和web文件。其認(rèn)為目錄頁和web頁類型的資源,鏈接可正常訪問率會(huì)比服務(wù)器級(jí)域的高。楊思洛等提出不同的分類,其分為靜態(tài)類、動(dòng)態(tài)類、網(wǎng)站和其他共四類,并認(rèn)為網(wǎng)站類的可正常訪問率最高,且文本格式為ASP、JSP、PHP、CFM及網(wǎng)址中含有“?”的動(dòng)態(tài)類資源可正常訪問率高于HTM、HTML、PDF、DOC、PPT、TXT等靜態(tài)類資源。
就鏈接深度而言,國外學(xué)者Spinellis指出,鏈接可正常訪問率會(huì)隨路徑深度的增加而下降,但吳志強(qiáng)認(rèn)為不能一概而論,例如以后綴擴(kuò)展名是pdf的web文件來說,其鏈接路徑可能很深,但可正常訪問率反而最強(qiáng)。這一結(jié)論也得到了Sarah的驗(yàn)證。
除此之外,還有一些影響因素也被納入探討,但次數(shù)不多,如引文來源國家地區(qū)分布[16]、施引文獻(xiàn)是否屬于高引用原生網(wǎng)絡(luò)數(shù)字資源類別等。
本節(jié)主要從概念內(nèi)涵、概念溯源與概念辨析三方面進(jìn)行梳理進(jìn)而對概念進(jìn)行界定。其中,概念內(nèi)涵主要揭示了概念本身的含義;概念溯源重點(diǎn)展示了概念的形成邏輯;而概念辨析則著重比較了主要概念與易混淆的臨近概念的關(guān)系。
2.1.1概念內(nèi)涵
本文認(rèn)為的原生網(wǎng)絡(luò)數(shù)字資源是指那些從創(chuàng)作之初即以數(shù)字形式存在并在網(wǎng)絡(luò)上傳播的數(shù)字資源,而不是經(jīng)過數(shù)字化加工后在網(wǎng)絡(luò)上傳播的數(shù)字資源。由原生網(wǎng)絡(luò)數(shù)字資源構(gòu)成的引文最顯著的表現(xiàn)特征是每一條引文的文本內(nèi)容中都包含有對應(yīng)的網(wǎng)絡(luò)鏈接URL,其不僅指向?yàn)檠芯炕顒?dòng)提供了參考的外界網(wǎng)絡(luò)數(shù)字資源,也包括在研究過程中由研究者自行創(chuàng)建并上傳至網(wǎng)絡(luò)的數(shù)字資源。從形式上看,這些引用資源可能包括多種類型,如電子公告、博客、論壇貼、在線百科、演示文稿、項(xiàng)目工作流、本體、數(shù)據(jù)集、自媒體視頻等。
2.1.2概念溯源
原生網(wǎng)絡(luò)數(shù)字資源的概念起源可追溯到“Born Digital”,在國內(nèi)常被譯為“原生數(shù)字資源”。原生數(shù)字資源概念中的核心部分是“數(shù)字形式”和“信息資源”,此二者在很多定義中都得到了明確的強(qiáng)調(diào)。以國外機(jī)構(gòu)Word Spy[17]和UNESCO[18]為例,其分別的定義是“僅以數(shù)字形式產(chǎn)生和存在的信息資源”和“除數(shù)字形式外再?zèng)]有其他載體形式的信息資源”。也有一些定義只側(cè)重于強(qiáng)調(diào)“數(shù)字形式”,如OCLC[19]的“以數(shù)字形式創(chuàng)建和管理的項(xiàng)目(items)”。此外,有一些學(xué)者如國內(nèi)的李寶強(qiáng)等不直接作正面強(qiáng)調(diào),而是嘗試從側(cè)面,如數(shù)字資源產(chǎn)生的技術(shù)手段角度著手,將之定義為“直接由文字處理軟件、CAD、數(shù)字?jǐn)z像設(shè)備等數(shù)字信息系統(tǒng)產(chǎn)生的數(shù)字資源”。一些學(xué)者也試圖從拓寬其外延的角度切入,如國外的Mahesh和Mittal[20]從內(nèi)容創(chuàng)作模式角度對原生數(shù)字資源作分類,對存續(xù)期間不以任何紙質(zhì)形式存在的“專有數(shù)字資源”,和接受內(nèi)容托管且可能被制作成各類副本的“印刷數(shù)字資源”進(jìn)行了區(qū)分。后者實(shí)際是對電子期刊、電子書等一旦生成并發(fā)布見刊,修改更新往往受到絕對限制的資源進(jìn)行了囊括。
從各家定義可看出,原生數(shù)字資源作為信息資源的一種,其傳播環(huán)境通常是沒有被納入概念范疇進(jìn)行探討的。為了強(qiáng)調(diào)web環(huán)境下被傳播的原生數(shù)字資源,國內(nèi)學(xué)界進(jìn)一步提出了原生網(wǎng)絡(luò)數(shù)字資源的概念,除了強(qiáng)調(diào)數(shù)字性外,還著重強(qiáng)調(diào)網(wǎng)絡(luò)傳播環(huán)境。如國內(nèi)學(xué)者常娥等[21]將之定義為“網(wǎng)上最初始的信息資源, 指那些利用計(jì)算機(jī)和網(wǎng)絡(luò)創(chuàng)造、生成、存儲(chǔ)及傳播的數(shù)字資源, 并且沒有經(jīng)費(fèi)支持, 沒有固定的組織、機(jī)構(gòu)或者商業(yè)公司加以管理, 由網(wǎng)絡(luò)用戶自發(fā)創(chuàng)作的、原汁原味的信息資源”。此外,還有陳紅星[22]等提出的“直接在互聯(lián)網(wǎng)活動(dòng)中產(chǎn)生的或僅僅發(fā)布于互聯(lián)網(wǎng)并僅以數(shù)字形式傳播交流、保存利用的網(wǎng)絡(luò)信息資源”。
2.1.3概念辨析
a.原生網(wǎng)絡(luò)數(shù)字資源與網(wǎng)絡(luò)數(shù)字資源。比起原生網(wǎng)絡(luò)數(shù)字資源來,網(wǎng)絡(luò)數(shù)字資源所能包括的資源類型更廣泛。除了包含我們所定義的原生網(wǎng)絡(luò)數(shù)字資源外,網(wǎng)絡(luò)數(shù)字資源還涵蓋了各種已經(jīng)見刊的數(shù)字化文獻(xiàn),包括發(fā)布在各數(shù)據(jù)庫的傳統(tǒng)文獻(xiàn)的電子版本(盡管這類資源只在網(wǎng)絡(luò)傳播,但是由紙質(zhì)版本經(jīng)歷數(shù)字化加工而來,故認(rèn)為其不屬于原生網(wǎng)絡(luò)數(shù)字資源)。如果從信息傳播的功能特征對“網(wǎng)絡(luò)數(shù)字資源”進(jìn)行描述,也可稱其為網(wǎng)絡(luò)信息資源。
b.原生網(wǎng)絡(luò)數(shù)字資源引文與網(wǎng)絡(luò)引文。對網(wǎng)絡(luò)數(shù)字資源進(jìn)行引用著錄形成的引文屬于“網(wǎng)絡(luò)引文”(或網(wǎng)絡(luò)參考文獻(xiàn)),很多研究中學(xué)者們常使用“網(wǎng)絡(luò)引文”這一概念來指代由原生網(wǎng)絡(luò)數(shù)字資源構(gòu)成的引文,但實(shí)際上這二者是存在較大差別的,不可一概而論。具體差異可基于“網(wǎng)絡(luò)引文”這一概念的邏輯結(jié)構(gòu)來進(jìn)行梳理。從內(nèi)涵的角度來看,廣義的網(wǎng)絡(luò)引文是指互聯(lián)網(wǎng)環(huán)境下文獻(xiàn)和資源之間互相引用的一種引文形式;而狹義的網(wǎng)絡(luò)引文則是指將網(wǎng)絡(luò)數(shù)字資源作為學(xué)術(shù)論文參考文獻(xiàn)的一種引文形式。從外延的角度來看,廣義的網(wǎng)絡(luò)引文包括互聯(lián)網(wǎng)環(huán)境下的四種引證類型:其一是學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)數(shù)字資源(P-W),其二是網(wǎng)絡(luò)數(shù)字資源引用學(xué)術(shù)文獻(xiàn)(W-P),其三是網(wǎng)絡(luò)數(shù)字資源間的互相引用(W-W),其四則是學(xué)術(shù)文獻(xiàn)間的互相引用(P-P);而狹義的網(wǎng)絡(luò)引文引證形式只有學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)數(shù)字資源這一種。由此可知,原生網(wǎng)絡(luò)數(shù)字資源引文是狹義網(wǎng)絡(luò)引文的一種所引資源類型,無法指代所有網(wǎng)絡(luò)數(shù)字資源構(gòu)成的引文。因而,無論狹義廣義的網(wǎng)絡(luò)引文都是不能被等同于原生網(wǎng)絡(luò)數(shù)字資源引文的。
2.2.1概念內(nèi)涵
本文定義的引用失效是指施引時(shí)原始版本的網(wǎng)絡(luò)資源不再能夠通過所引鏈接在瀏覽器中正常呈現(xiàn)的現(xiàn)象,究其根本,是由網(wǎng)絡(luò)資源的動(dòng)態(tài)特性導(dǎo)致的引用狀態(tài)發(fā)生變化。其不僅可以描述那些被引用著錄的資源,也能夠描述引用了這些資源的文獻(xiàn)本身。從文獻(xiàn)引用著錄的參考資源來說,一旦該條著錄包含的網(wǎng)絡(luò)鏈接不能通過瀏覽器正常訪問著錄當(dāng)時(shí)的內(nèi)容,即可認(rèn)為對應(yīng)該資源鏈接的參考文獻(xiàn)出現(xiàn)引用失效的問題。而對文獻(xiàn)本身而言,若文獻(xiàn)中某一條參考文獻(xiàn)資源出現(xiàn)引用失效問題,即可認(rèn)為該文獻(xiàn)也出現(xiàn)引用失效問題(本研究中的“引用失效”主要用來描述某一參考資源的引用狀態(tài))。
2.2.2概念溯源
引用失效的概念源于“Reference Rot”,可直譯為“參考腐爛”,本文譯為“引用失效”。究其實(shí)質(zhì),以國外學(xué)者Burnhill等人[23]的觀點(diǎn)來看,是引用原生網(wǎng)絡(luò)數(shù)字資源的信息衰減問題。該觀點(diǎn)對引用失效的適用范圍進(jìn)行了限定,即引用失效是主要針對原生網(wǎng)絡(luò)數(shù)字資源而存在的概念。
相對于引用失效而言,國內(nèi)還存在字面意義近似的概念“引用無效”。實(shí)際上,除適用于描述原生網(wǎng)絡(luò)數(shù)字資源的引用情況外,引用無效還適用于描述學(xué)術(shù)出版物等內(nèi)容固定的文本資源的引用狀態(tài)。若不事先對引用無效的適用前提作設(shè)定,其內(nèi)涵會(huì)比引用失效要寬泛得多。以趙麗瑩[24]等對無效引用的界定,凡不相關(guān)引用、過度引用、自我標(biāo)榜式引用及所引信息滯后等情況,都屬于該范疇內(nèi)。對于這幾種情況的無效引用,從朱大明[25]的觀點(diǎn)中我們可以提取出“學(xué)術(shù)性無效引用”的概念,相應(yīng)的,也可以對人為的著錄不規(guī)范導(dǎo)致的引用錯(cuò)誤和一般意義的引用失效作“非學(xué)術(shù)性無效引用”的概念提取??梢钥闯?,在引用錯(cuò)誤和學(xué)術(shù)性無效引用的情況下,施引人的主觀能動(dòng)性很大程度上能對引用的有效性產(chǎn)生影響,而涉及到原生網(wǎng)絡(luò)數(shù)字資源信息衰減問題的引用失效時(shí),引用的有效性則主要受外部網(wǎng)絡(luò)環(huán)境影響。
2.2.3概念辨析
a.有效引用與無效引用。本文所探討的引用有效與否,從時(shí)間上看,是相對于每個(gè)研究者考證文獻(xiàn)引用來源時(shí)的時(shí)間點(diǎn)而言的;從對象上看,主要是針對從不以任何紙質(zhì)形式存在過,且修改不受限制的原生網(wǎng)絡(luò)數(shù)字資源而言的;而從效果本身來看,是不考慮過度引用、不相關(guān)引用等學(xué)術(shù)性引用問題而言的。明確這三點(diǎn)后,再下定義,即,有效引用是指,目前還能依據(jù)文獻(xiàn)引用原生網(wǎng)絡(luò)數(shù)字資源時(shí)所給引用鏈接,訪問其最初引用時(shí)的內(nèi)容,并以之作為支撐作者觀點(diǎn)的可考證據(jù)的一種引用狀態(tài)。而無效引用則是指,目前不能依據(jù)文獻(xiàn)引用原生網(wǎng)絡(luò)數(shù)字資源時(shí)所給引用鏈接訪問原始資源,或原始資源內(nèi)容已經(jīng)經(jīng)歷了較大更替,現(xiàn)有內(nèi)容不再能代表最初引用時(shí)的內(nèi)容,不足以支撐作者觀點(diǎn)的一種引用狀態(tài)。
b.無效引用、引用失效與引用錯(cuò)誤。與“引用失效”字面意思近似,但容易混淆的概念是“無效引用”與“引用錯(cuò)誤”。實(shí)際上,三者間構(gòu)成邏輯關(guān)系,即無效引用包括引用失效和引用錯(cuò)誤。
具體說來,對于無效引用中目前鏈接不可用的情況,究其原因,可分為兩種情況:一是該鏈接曾經(jīng)在施引后的一段時(shí)間內(nèi)有效,但現(xiàn)在由于鏈接狀態(tài)或內(nèi)容發(fā)生改變已經(jīng)處于無效狀態(tài)(即引用失效)。二是該鏈接自正式施引時(shí)刻起就是無效的,此類情況通常是由人為的鏈接書寫不規(guī)范導(dǎo)致的相關(guān)引用一直處于無效狀態(tài)(即引用錯(cuò)誤)[26],例如URL地址書寫時(shí)出現(xiàn)問題,包括拼寫有誤、字符多余或缺失等;此外,對于服務(wù)器架設(shè)在Unix/Linux操作系統(tǒng)上的網(wǎng)站,其URL地址中字母大小寫不完全匹配也會(huì)影響到鏈接有效與否[27]。
c.引用失效與引用老化。與“引用失效”字面意思存在差異,但仍容易出現(xiàn)混淆的概念是“引用老化”。傳統(tǒng)的引用老化只用于描述引用對象的內(nèi)容價(jià)值隨時(shí)間流逝的變化,此時(shí)是不可與“引用失效”混為一談的。但網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)信息計(jì)量也將鏈接不可訪問率等作為老化的計(jì)量指標(biāo),因而引用老化也可用于描述引用路徑、引用對象的變化,此時(shí)其外延就囊括了“引用失效”。
鏈接到原生網(wǎng)絡(luò)數(shù)字資源的參考引用會(huì)出現(xiàn)引用失效的情況,按失效形式對“引用失效”作細(xì)分,主要可分為兩類,即鏈接失效(Link Rot)與內(nèi)容更替(Content Drift)。若對文獻(xiàn)中某一條援引了原生網(wǎng)絡(luò)數(shù)字資源的引文進(jìn)行考證,發(fā)現(xiàn)其引用狀態(tài)屬于此二者中的任意一種形式,即可認(rèn)為該條引用已經(jīng)失效,進(jìn)而得出該文獻(xiàn)已經(jīng)出現(xiàn)引用失效問題。
3.1.1表現(xiàn)形式
鏈接失效的概念來自“Link Rot”,直譯為“鏈接腐爛”,本文譯為“鏈接失效”。該現(xiàn)象作為互聯(lián)網(wǎng)的伴生品,較早可見于Denmark等人的研究中。學(xué)界對鏈接失效的概念研究通常是從其原理層面進(jìn)行探討的,但不同學(xué)者有著不同叫法。國外學(xué)者M(jìn)arkwell等人以及Kobayashi等人稱其為斷鏈(Broken Link);Spinellis則稱其為衰變故障鏈接(Decay and Failure Link);Król等[28]則將這些不再可用的鏈接都總結(jié)為非功能性鏈接(Non-functional Link)。國內(nèi)學(xué)者對失效鏈接還有另一種主流叫法,如譚園園等人、劉敏等人[29]稱其為死鏈。但一些觀點(diǎn)認(rèn)為死鏈?zhǔn)擎溄邮У囊环N類別,如國內(nèi)學(xué)者唐光前就認(rèn)為鏈接失效是由死鏈和鏈接重定向共同構(gòu)成的。此外,國外以Ke Zhou等人[30](發(fā)文機(jī)構(gòu)為英國,可認(rèn)為屬于國外學(xué)者)為例,認(rèn)為只要用戶不再能依循所給鏈接訪問相應(yīng)的目標(biāo)網(wǎng)頁,就屬于鏈接失效。這兩類觀點(diǎn)下,鏈接失效的概念就與本研究所定義的“內(nèi)容更替”出現(xiàn)交叉。
為了避免上述概念交叉,本文定義的“鏈接失效”是指用戶將不再能夠依循所給鏈接訪問相應(yīng)的目標(biāo)網(wǎng)頁,該鏈接不再指向任何實(shí)質(zhì)內(nèi)容,通過鏈接進(jìn)行訪問會(huì)返回錯(cuò)誤狀態(tài)代碼。一般來說,用戶對于鏈接失效的感知通常都是即時(shí)且直觀的,一旦用戶點(diǎn)擊鏈接后發(fā)現(xiàn)目標(biāo)網(wǎng)頁顯示諸如“404錯(cuò)誤代碼”之類的問題,即可意識(shí)到該鏈接處于失效狀態(tài)。而對于研究者而言,鏈接失效的量化工作無論是手動(dòng)還是使用自動(dòng)化工具都具有一定可行性,如果與http狀態(tài)代碼建立映射,其鏈接失效的成因還能被精準(zhǔn)定位。
3.1.2形成原因
鏈接失效的原因從時(shí)間性上看,主要可分為暫時(shí)性鏈接失效和長期性鏈接失效。暫時(shí)性鏈接失效即網(wǎng)頁處于短暫性不可訪問的狀態(tài)下,一般是因?yàn)榉?wù)器流量限制或程序問題導(dǎo)致網(wǎng)站一時(shí)無法訪問, 其反映在http狀態(tài)代碼上一般是以5開頭,如504、509等[31]。長期性鏈接失效即該網(wǎng)頁長期都不可通過所引用的鏈接被正常訪問到。主要是由資源維護(hù)不足和權(quán)限獲取受限兩個(gè)方面導(dǎo)致的。因資源維護(hù)不足或未進(jìn)行維護(hù)而導(dǎo)致的鏈接失效主要表現(xiàn)為:鏈接對應(yīng)的web資源被網(wǎng)站管理員刪除;鏈接對應(yīng)的web資源被暫時(shí)或永久性移動(dòng)到同一服務(wù)器的不同位置或別的服務(wù)器上,且沒有作鏈接重定向處理;實(shí)時(shí)網(wǎng)站域名已更改而所引用的鏈接未更新;服務(wù)器關(guān)閉或停止運(yùn)行等。其最直觀的體現(xiàn)可反映在http狀態(tài)代碼上,如404、410等。因資源獲取權(quán)限受到限制而導(dǎo)致的鏈接失效主要表現(xiàn)為:鏈接可訪問內(nèi)容受限,如鏈接對應(yīng)的web資源內(nèi)容為第三方所有,訪問需要經(jīng)過第三方授權(quán)[32];鏈接可訪問時(shí)間受限,訪問時(shí)間已經(jīng)過期;鏈接訪問申請受限,被內(nèi)容過濾器或防火墻阻止;鏈接可訪問渠道受限,當(dāng)時(shí)可公開訪問的渠道如今因?yàn)樘厥獾貐^(qū)或機(jī)構(gòu)的政策、法律等限制,目前已經(jīng)不可使用等。其最直觀的體現(xiàn)也可反映在http狀態(tài)代碼上,如401、403、305等[33]。
3.1.3存在問題
引用失效現(xiàn)象自被研究以來二十幾年,關(guān)于失效程度和數(shù)量的研究幾乎都是從鏈接失效角度來開展的。在前文中引用失效量化方法一節(jié)已經(jīng)介紹過批量檢測失效鏈接的工具,這也有力證實(shí)了通過鏈接失效來量化引用失效程度的可操作性。單從鏈接失效的角度分析引用失效已經(jīng)可證明此現(xiàn)象的嚴(yán)重性。如2003年的一項(xiàng)研究]發(fā)現(xiàn),網(wǎng)絡(luò)上每周每200個(gè)鏈接中就有1個(gè)會(huì)斷開,其計(jì)算出的鏈接半衰期為138周。該數(shù)據(jù)也得到了2017年的一項(xiàng)基于Yahoo! Directory中鏈接失效率研究[34]的證實(shí),其發(fā)現(xiàn)鏈接的半衰期為兩年。其研究結(jié)果發(fā)現(xiàn),一般情況下,鏈接半年時(shí)間后失效的概率約為16%,一年后為30%,而兩年后為50%。國內(nèi)學(xué)者吳志強(qiáng)估計(jì),六年時(shí)間足以讓90%的鏈接都變得不可訪問。國外學(xué)者Aronsky等則用較短的計(jì)算周期得到過另一種描述鏈接失效比率的方法,其對每日發(fā)布在PubMed上的某一學(xué)科出版物作隨機(jī)抽取,發(fā)現(xiàn)有11.9%的鏈接失效時(shí)間是自文章正式發(fā)布日起的兩天內(nèi)。盡管不同研究獲得的鏈接失效比率可能存在較大差別,但足以從數(shù)據(jù)層面說明引用這些網(wǎng)絡(luò)資源存在的問題。
盡管為了應(yīng)對鏈接失效已經(jīng)采取了一些有效措施,如web存檔,但其覆蓋率通常是有限的,以2013年進(jìn)行的一項(xiàng)研究[35]來說,其分析了Web of Science引文索引中近15,000個(gè)鏈接,發(fā)現(xiàn)網(wǎng)頁的平均壽命為9.3年,而其中有62%被Internet Archive存檔,62%的覆蓋率已經(jīng)是較好的結(jié)果了。此外,還有引入DOI等對數(shù)字資源進(jìn)行唯一且永久的標(biāo)識(shí)的方法,但這種方法始終存在費(fèi)用成本的問題,且同樣不能保證對所引資源做到全覆蓋(可能的覆蓋率在30%~60%間)。
3.2.1表現(xiàn)形式
內(nèi)容更替這一表達(dá)源自英文“Content Drift”,直譯為“內(nèi)容漂移”,本文譯為“內(nèi)容更替”,包括內(nèi)容更新、更改或替換等情形。在美國阿拉莫斯國家實(shí)驗(yàn)室Hiberlink項(xiàng)目[36]首先使用“內(nèi)容更替”的概念并提出“引用失效是鏈接失效和內(nèi)容更替的組合”這一觀點(diǎn)前,引用內(nèi)容方面的失效問題常被認(rèn)為處于鏈接失效的范疇內(nèi)。例如Bar-Yossef就在鏈接對應(yīng)資源不存在情況下,將服務(wù)器不返回404,而是呈現(xiàn)替代頁或“OK”碼(200)之類soft-404的情況就歸為死鏈接。但自從內(nèi)容更替概念被明確提出后,依據(jù)Król等的觀點(diǎn),這種頁面內(nèi)容的變化導(dǎo)致的失效問題就從鏈接失效的情況中區(qū)分了出來。
因內(nèi)容方面發(fā)生變化而導(dǎo)致的網(wǎng)絡(luò)信息傳播層面的資源不可用,可能與“Bit Rot”(直譯為比特腐爛,本文譯為數(shù)據(jù)失效)產(chǎn)生混淆,數(shù)據(jù)失效可以被理解為是數(shù)字資源的內(nèi)容衰減[37]。其雖然也描述因資源信息內(nèi)容的變化而導(dǎo)致資源不可訪問的情況,但成因涉及更多層面。以國外學(xué)者Król等的觀點(diǎn),數(shù)據(jù)失效的成因還涉及軟件層面或物理層面數(shù)據(jù)載體的損壞。同理,作為數(shù)據(jù)失效的近義詞,內(nèi)容衰減、內(nèi)容失效等類似概念也涉及更寬泛的外延,不能精準(zhǔn)揭示引用失效在內(nèi)容層面的資源變更過程。
本文定義的“內(nèi)容更替”指通過鏈接進(jìn)行訪問可以返回正確狀態(tài)代碼,但其實(shí)目標(biāo)網(wǎng)頁內(nèi)容已經(jīng)發(fā)生更改且更改程度不再能代表原始引用內(nèi)容[38]。對于目標(biāo)鏈接出現(xiàn)鏈接重定向、空白頁、自定義錯(cuò)誤頁面等可以客觀判斷的更替形式而言,研究者的量化工作是能夠開展的,用戶的感知也是即時(shí)的。而對于需要參考原有引用內(nèi)容才能判斷實(shí)質(zhì)變更程度的更替形式而言,研究者是難以進(jìn)行精準(zhǔn)衡量的,用戶也是難以察覺的。
3.2.2形成原因
通過所引鏈接對相應(yīng)網(wǎng)頁進(jìn)行訪問可以返回正常狀態(tài),但從內(nèi)容本身來說,已經(jīng)經(jīng)歷了實(shí)質(zhì)性更改而不再包含最初引用的信息。內(nèi)容更替的原因有太多,可能是網(wǎng)站運(yùn)營者方面的問題,也可能是內(nèi)容本身存在問題,還有可能是惡意的攻擊等,總之無法做到一一列舉。以引用博客或論壇貼為例,其原有內(nèi)容可能會(huì)因?yàn)樵馉幾h、過時(shí)、有誤等被修改或增刪。而對于一些公告板類的網(wǎng)頁而言,無論私人還是官方,其內(nèi)容也可能因?yàn)楦鞣N原因被上傳者或管理者作更新處理。此外,鏈接雖然返回正常http狀態(tài)(代碼200),但因?yàn)榘l(fā)生鏈接重定向?qū)е略墟溄颖恢囟ㄏ虻狡渌耆幌嚓P(guān)的網(wǎng)頁,或直接顯示空白頁、自定義錯(cuò)誤頁面等,從用戶角度而言,也屬于內(nèi)容更替的情況。
3.2.3存在問題
一般說來,相對于鏈接失效而言,從內(nèi)容更替的角度對引用失效程度進(jìn)行客觀判斷的難度會(huì)更大。一方面,單憑那些想要考證原始引證內(nèi)容的研究者來判斷網(wǎng)頁內(nèi)容更替程度,結(jié)果很可能會(huì)帶有主觀色彩,使得結(jié)論不夠準(zhǔn)確。因?yàn)檫@類研究者在進(jìn)行判斷時(shí),往往會(huì)出于各自不同的考證目的關(guān)注到頁面中不同位置的內(nèi)容,對于部分學(xué)者而言已經(jīng)出現(xiàn)了重大變化的內(nèi)容可能并不在其他學(xué)者的關(guān)注范圍內(nèi),此時(shí)不同學(xué)者關(guān)于內(nèi)容更替程度的判斷就容易出現(xiàn)較大差異。另一方面,對于那些不抱有考證目的、只想單純量化內(nèi)容更替程度的研究者而言,則需要采用一種全面、客觀的量化方法。但是,采用目前已有的量化方法還難以在操作性和效果之間達(dá)到平衡,例如,一種可操作的方法是逐個(gè)查看頁面以排除鏈接重定向、空白頁、自定義錯(cuò)誤頁面等直觀的內(nèi)容更替問題,顯然,此法不能察覺網(wǎng)頁詳細(xì)內(nèi)容的變化,在量化效果方面還存在較大不足。其他如McCown等在早期研究中提出的通過測量網(wǎng)頁內(nèi)容大小來檢測更替程度的可操作方法,無法排除頁面內(nèi)廣告變化帶來的干擾,被證明準(zhǔn)確性較差,同樣不能達(dá)到理想的量化效果。而能夠在內(nèi)容更替方面有較好效果的方法,其可操作性往往不強(qiáng),如Mia等人[39]在研究中提及的將Internet Archive存儲(chǔ)的相應(yīng)日期下的快照作為更替程度的評估參照進(jìn)行逐條比對的方法,其實(shí)施難度主要體現(xiàn)在:一是不能保證Internet Archive這一web存檔保存了原始頁面,二是沒有一套判斷內(nèi)容更替程度的標(biāo)準(zhǔn)。
對引用了原生網(wǎng)絡(luò)數(shù)字資源的文獻(xiàn)進(jìn)行分析,不難發(fā)現(xiàn),其公開發(fā)表時(shí)長越久,引用原生網(wǎng)絡(luò)數(shù)字資源的頻率越高,引用失效的概率越高。從邏輯推理來看,引文中原生網(wǎng)絡(luò)數(shù)字資源的可訪問性會(huì)受到各種因素干擾,且時(shí)間越長,頻率越高,各類不可把控的干擾因素就有越多機(jī)會(huì)對引用對象或引用路徑發(fā)揮負(fù)面影響,因此,不難得出失效率與引用時(shí)長、引用頻率呈正相關(guān)的結(jié)論。對于與引用時(shí)長的關(guān)系,從實(shí)證統(tǒng)計(jì)來看,盡管不同學(xué)者在各自的研究中針對這一問題時(shí)選取的計(jì)量指標(biāo)可能存在差異,(正如前文綜述部分所提,有的學(xué)者選擇了計(jì)量半衰期,有的選擇了計(jì)量網(wǎng)頁資源的生命周期長度,有的則選擇直接計(jì)算不同時(shí)長的有效鏈接比例等),但這些不同的計(jì)量指標(biāo)在反應(yīng)失效率隨引用時(shí)間增長而增長的特征時(shí),始終是保持一致的。
對原生網(wǎng)絡(luò)數(shù)字資源引用頻率較高的文獻(xiàn)更容易出現(xiàn)引用失效現(xiàn)象。從文獻(xiàn)綜述部分對不同領(lǐng)域引用失效嚴(yán)重程度的梳理可知,將這一結(jié)論延伸至學(xué)科層面,不難推斷出更常引用原生網(wǎng)絡(luò)數(shù)字資源的學(xué)科其失效現(xiàn)象也更容易發(fā)生。盡管很少有學(xué)者會(huì)關(guān)注不同學(xué)科的學(xué)科因素對文獻(xiàn)中原生網(wǎng)絡(luò)數(shù)字資源引用失效的影響。但通過已有引用失效量化研究的學(xué)科分布來看,大部分學(xué)者在研究時(shí)都會(huì)聚焦某個(gè)更傾向需要及時(shí)性知識(shí)作為研究背景和基礎(chǔ)的學(xué)科,如醫(yī)學(xué)、生物、法學(xué)、傳播學(xué)、商業(yè)領(lǐng)域、計(jì)算機(jī)領(lǐng)域、圖情領(lǐng)域等實(shí)用性較強(qiáng)的社會(huì)科學(xué)或社會(huì)性較強(qiáng)的自然科學(xué)。而對于人文科學(xué)如歷史、文學(xué)、哲學(xué)而言,其研究基礎(chǔ)并不強(qiáng)調(diào)背景知識(shí)的及時(shí)性,而是更強(qiáng)調(diào)背景材料的權(quán)威性與穩(wěn)定性。在研究工作中,這類學(xué)科的研究者通常更依賴于可考證的一手著作或檔案材料,而非可靠性難以保證的原生網(wǎng)絡(luò)資源,即便對少量的原生網(wǎng)絡(luò)數(shù)字資源有所引用,也會(huì)引用權(quán)威度較高,流傳性較廣的資源。因此,盡管這些研究領(lǐng)域也涉及到不可忽視的引用失效問題,但在涉及到引用失效現(xiàn)象出現(xiàn)頻率的話題時(shí),相比而言仍會(huì)低于那些更常引用原生網(wǎng)絡(luò)數(shù)字資源的研究領(lǐng)域。
學(xué)者們在研究引用失效的影響因素時(shí),是有可能因?yàn)檫x擇了量化對象而在同一影響因素上得出相反結(jié)論的。這一點(diǎn)在資源類型、域名等因素上表現(xiàn)尤其突出,以吳志強(qiáng)、Spinellis等人的研究為例,此二者關(guān)于域名和鏈接深度都剛好得出相反結(jié)論。這類問題的出現(xiàn)與未能選擇有效且準(zhǔn)確的分類標(biāo)準(zhǔn)息息相關(guān)。對于學(xué)者們在研究引用失效的影響因素時(shí)通常會(huì)涉及到的網(wǎng)頁不同分類標(biāo)準(zhǔn)如域名、資源類型等因素進(jìn)行梳理,發(fā)現(xiàn)造成很多研究結(jié)論差異的來源可以追溯到網(wǎng)頁構(gòu)造方式上。網(wǎng)頁按其構(gòu)造方式分為靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁。這兩類網(wǎng)頁呈現(xiàn)在瀏覽器中時(shí),直觀來看是難以察覺有何不同點(diǎn)的,但一旦涉及到交互使用功能層面的體驗(yàn),就能發(fā)現(xiàn)區(qū)別。一般來說,由于靜態(tài)網(wǎng)頁內(nèi)容固定,一般已存儲(chǔ)在服務(wù)器或本地,更新比較麻煩,而動(dòng)態(tài)網(wǎng)頁則需要服務(wù)器加載存儲(chǔ)在后臺(tái)數(shù)據(jù)庫中的數(shù)據(jù)寫入內(nèi)聚框架中,更新靈活方便,因此,動(dòng)態(tài)網(wǎng)頁更容易出現(xiàn)內(nèi)容更替類型的引用失效。而一旦網(wǎng)頁管理者有了必須更新網(wǎng)頁內(nèi)容的需求,處理靜態(tài)網(wǎng)頁就要更新整個(gè)網(wǎng)頁文件,而處理動(dòng)態(tài)網(wǎng)頁只需更新相應(yīng)模塊,從該角度出發(fā),靜態(tài)網(wǎng)頁會(huì)更容易出現(xiàn)鏈接失效類型的引用失效。如果在研究過程中混淆不同類型的引用失效,或是忽略不同構(gòu)造方式的網(wǎng)頁帶來的影響,就很容易導(dǎo)致結(jié)論中的影響因素缺乏一致性的問題。
文獻(xiàn)資料的可靠性評價(jià)在很大程度上會(huì)基于其援引的引文。引文不僅要為行文者提供行文背景,還要被用來證實(shí)行文目標(biāo)的可行性。當(dāng)行文者提出不同意見、方法時(shí),引文還會(huì)被作為提出和分析不同意見、方法的依據(jù)。而諸多實(shí)證結(jié)果顯示,web環(huán)境下,學(xué)術(shù)研究交流面臨著引用失效帶來的一系列沖擊。原生網(wǎng)絡(luò)數(shù)字資源作為引文的重要組成,若未經(jīng)任何web存檔處理,一旦處于失效狀態(tài),將難以再為后人所考證,文獻(xiàn)資料的可靠性也就不得而知。
引用失效不僅不利于各學(xué)科學(xué)術(shù)研究的完整性,更不利于各行業(yè)事務(wù)決策的科學(xué)性。以一貫遵循先例的法律領(lǐng)域?yàn)槔?,若某一判決所遵循的先例正好援引了當(dāng)下已徹底失效的web資源,后人將無從理解當(dāng)時(shí)的判決理由,該先例也將不再具有被繼續(xù)遵循的意義。如此,證據(jù)無從追溯,先例失去意義,聲明的效力慢慢衰退,決策的基石不斷瓦解。引用失效造成的不利后果正如歷史學(xué)家Jill Lepore[40]所言,如今基于開放網(wǎng)絡(luò)進(jìn)行的分享和閱讀研究“就像試圖站在流沙上”。更有甚者,“腳注,文明史上的里程碑,花了幾個(gè)世紀(jì)的時(shí)間才被發(fā)明和傳播開,卻在(web環(huán)境下)短短幾年的時(shí)間里被迅速摧毀?!?該說法雖然明確針對腳注,仍能揭示比腳注更寬泛的概念——引文,尤其是網(wǎng)絡(luò)環(huán)境中,大量原生網(wǎng)絡(luò)數(shù)字資源的引文)。
從整個(gè)信息生命周期來看,每一篇援引了原生網(wǎng)絡(luò)數(shù)字資源的文獻(xiàn)資料都將持續(xù)面臨引用失效的風(fēng)險(xiǎn)。而在創(chuàng)作、發(fā)布、以及發(fā)布后的傳播過程中,何時(shí)出現(xiàn)引用失效的狀況無疑是難以預(yù)計(jì)的,有時(shí)甚至難以察覺。盡管目前圖情領(lǐng)域已經(jīng)在數(shù)字資源保存方面投入了大量精力,但對于每一位文獻(xiàn)創(chuàng)作者援引的原生網(wǎng)絡(luò)數(shù)字資源而言,依然無法全面覆蓋。在未來的研究工作中,這些原生網(wǎng)絡(luò)數(shù)字資源的引用失效現(xiàn)象還需要業(yè)界和學(xué)界投注精力,共同建立有效的應(yīng)對策略來緩解其不利后果和負(fù)面影響。