周春雷 李彥博 孟麗慧
摘 ?要:探討國內(nèi)外學術(shù)資源平臺中普遍存在的阻滯信息流動問題,分析其影響并探討破解之道。通過列舉各平臺存在的限制用戶利用數(shù)據(jù)、錯誤展示資源關(guān)系、隨機提供部分檢索結(jié)果等現(xiàn)象,歸納出信息幽禁問題并詳細闡述其表現(xiàn)與影響。本文認為,用戶需增強對信息幽禁問題的認識,提升應(yīng)對能力; 數(shù)據(jù)庫商需加強數(shù)據(jù)質(zhì)量控制工作, 提高信息服務(wù)能力;政府需完善學術(shù)資源管理制度,保障知識生產(chǎn)者合法權(quán)益。
關(guān)鍵詞:學術(shù)資源平臺;信息幽禁;代理風險;信息感知;信息權(quán)利
Abstract: This paper explores the common problem of blocking information flow in academic resource platforms in domestic and international, analyzes its impact and discusses the way to solve it. By enumerating the phenomena existing in various platforms, such as restricting researchers' use of data, wrongly displaying resource relationships, and randomly providing some retrieval results. This paper sums up the information confinement problem and elaborates its performance and influence in detail. As for the solution to information confinement, this paper holds that users need
to enhance their understanding of information confinement and enhance their coping ability; database vendors need to strengthen data quality control and improve information service ability; the government needs to improve the management system of academic resources to protect the legitimate rights and interests of knowledge producers.Keywords: Academic resource platform; Information confinement; agency risk; Information perception; Information rights
1 引言
本文通過梳理相關(guān)文獻[1-9],發(fā)現(xiàn)學術(shù)界對學術(shù)資源平臺阻滯信息流動的現(xiàn)象已有所認識,但尚未對該問題進行系統(tǒng)性研究。本文將該現(xiàn)象定義為“信息幽禁問題”并以實例闡述其影響及危害,然后從政府、數(shù)據(jù)庫商與用戶三個角度探討解決對策。
2 信息幽禁問題及其表現(xiàn)
2.1 信息幽禁問題。作為用戶,我們在接受國內(nèi)外學術(shù)資源平臺提供的各種服務(wù)時,經(jīng)常會遇到檢索結(jié)果與預(yù)期存在偏差、部分信息不可得的情況。通常,大多數(shù)人會善意地將其理解為自身的檢索策略問題或數(shù)據(jù)庫偶然出現(xiàn)的技術(shù)故障,而很少懷疑是由數(shù)據(jù)庫商設(shè)定的檢索環(huán)境造成的,更不用說系統(tǒng)反思用戶應(yīng)有的信息權(quán)利與數(shù)據(jù)庫商采取的某些數(shù)據(jù)控制措施之間的矛盾。但事實上,當用戶將獲取學術(shù)資源的工作委托給數(shù)據(jù)庫平臺由其作為代理人檢索各種底層數(shù)據(jù)時,往往會出于對數(shù)據(jù)庫的信任而忽視其中的代理風險,并未察覺其所用信息可能不夠完整、準確。本文將那些因功能缺陷或數(shù)據(jù)質(zhì)量問題導致正常用戶難以通過學術(shù)資源平臺所提供的信息服務(wù)順利提取其所允諾數(shù)據(jù)的現(xiàn)象稱為信息幽禁問題。
2.2 信息幽禁問題的表現(xiàn)
2.2.1 過度干預(yù)用戶獲取數(shù)據(jù)。數(shù)據(jù)庫商本身并不生產(chǎn)新的學術(shù)信息,但為學術(shù)成果的傳播與利用提供了平臺,其開發(fā)的各種學術(shù)資源庫為學術(shù)界的知識生產(chǎn)和消費活動提供了必要的基礎(chǔ)設(shè)施。雖然數(shù)據(jù)庫商和用戶在某些方面有著共同利益,但這并不意味著用戶可以自由取用數(shù)據(jù)庫中的資源。當用戶嘗試從數(shù)據(jù)庫中獲取信息時,會面臨諸多隱性限制。
表1總結(jié)了用戶從主流學術(shù)資源平臺批量下載題錄數(shù)據(jù)、引文數(shù)據(jù)時須遵守的規(guī)則。其中“是否需逐頁點擊”指用戶是否需要點擊“下一頁”等按鈕才能實現(xiàn)翻頁功能;“單頁最大顯示量”指同一頁面呈現(xiàn)的最大記錄條數(shù);“單次最大導出量”指單個導出文件最多能接納的數(shù)量;“最大可獲取量”指單次檢索時能獲取的最大數(shù)據(jù)量。雖然用戶借助一定的技巧可以部分規(guī)避數(shù)據(jù)庫方的不合理限制,但某些情況下即使檢索經(jīng)驗再豐富也不得不放棄對完整數(shù)據(jù)的追求。
2.2.2 隨機提供部分檢索結(jié)果。筆者在利用專業(yè)表達式批量檢索數(shù)據(jù)時遇到了一些令人困惑的問題:在不同時間使用相同的檢索表達式有可能得到不同的記錄。例如,筆者于2021年3月24日以“DO=10.1016/S0378-4371(02)00736-7”為專業(yè)檢索式在WoS中檢索時可以查到相應(yīng)的論文,而以“DO=10.1007/s11192-009-0120-0orDO=10.1016/S0378-4371(02)00736-7”檢索時卻無法查到該文。但是,當2021年4月24日重復(fù)驗證時卻又完全正常了。此外,類似情況還有:檢索時明明選中了某些文獻卻無法導出,以及調(diào)整批量檢索語句的組合次序會出現(xiàn)不同的檢索結(jié)果等。在萬方數(shù)據(jù)庫中,筆者發(fā)現(xiàn)盡管選擇記錄總數(shù)可以大于500,但最多只能導出500條,且并不滿足前500或后500條這樣的規(guī)則。這些現(xiàn)象不僅會浪費用戶的時間和精力,也會讓人質(zhì)疑相關(guān)數(shù)據(jù)庫的穩(wěn)定性和數(shù)據(jù)質(zhì)量。如上所述,數(shù)據(jù)庫商通常會有意或無意地在其產(chǎn)品中設(shè)置種種障礙,以限制數(shù)據(jù)自由流通、增加數(shù)據(jù)復(fù)用難度等手段來保障自身的商業(yè)利益,壓制潛在的競爭者。
2.2.3 錯誤展示文獻題錄信息。由于相關(guān)技術(shù)還不夠完善,各學術(shù)資源平臺在數(shù)據(jù)處理、加工及提供等方面均面臨不少難題,我們在獲取信息時也難免會遇到繁體字、外文、化學式等,但數(shù)據(jù)庫的處理結(jié)果往往不盡如人意,如CNKI將《青海藏族喪葬文化》的作者加工成“愫”,而其作者本名為“忞愫”。作者姓名為兩個字時,數(shù)據(jù)庫處理標準不一致,或是不做任何處理(直接著錄名字),或是在名字中間加空格,然而有些情況下,無論加不加空格均無法檢索出作者的發(fā)文或被引數(shù)據(jù)。此外,對于篇名中破折號前后的內(nèi)容、主副標題等也會出現(xiàn)不同程度刪除處理現(xiàn)象。在著錄信息時,數(shù)據(jù)庫商的某些信息加工人員會由于粗心等原因造成一些錯誤。
2.2.4 錯誤展示文獻間的關(guān)系。WoS核心集中同樣存在文獻關(guān)系錯誤問題。表2展示了《SCIENTOMETRICS》上存在引用關(guān)系的三篇論文的具體信息,其不同視角的引用情況如圖1所示。
完全符合事實的正確引用關(guān)系為:B引用A,C同時引用A、B。但是,不同視角下的文獻關(guān)系卻讓這本應(yīng)清晰明了的關(guān)系變得如同“羅生門”般復(fù)雜。圖1中的實線箭頭表示文獻間存在引用關(guān)系,如A→B表示文獻B引用文獻A,虛線箭頭表示文獻間存在錯引。由于C的原文參考文獻存在錯誤,故從正文體現(xiàn)的引用情況來看,三者間的關(guān)系為:B引用了A,C引用了B,C引用了A但存在錯引問題。這一錯誤引發(fā)了一連串的衍生問題:從WoS導出數(shù)據(jù)來看,CR字段“忠實”地記錄了原文的錯誤,沒有糾正文獻C與A之間的錯引,導致C與A之間的引文關(guān)系呈現(xiàn)斷裂狀態(tài);從WoS平臺上的文獻鏈接情況來看,這三篇論文各自獨立,不存在引用或鏈接關(guān)系。
3 信息幽禁問題的影響
3.1 阻礙信息流動,干擾學術(shù)探索。在政府財政資助下產(chǎn)生的科學數(shù)據(jù)具有公共屬性,理應(yīng)由社會公眾共享,而學術(shù)資源平臺中的信息來源于學術(shù)界,因此本文認為這些資源理應(yīng)由學術(shù)界共享。自由獲取信息是用戶應(yīng)享的信息權(quán)利,而該權(quán)利實行的效果與數(shù)據(jù)庫商釋放數(shù)據(jù)的程度息息相關(guān)。大數(shù)據(jù)時代下,人們對信息的獲取效率與擁有量成為科研產(chǎn)出的重要影響因素,同行之間的智力對抗逐漸演變?yōu)樾畔⒁庾R比拼。信息意識較低的群體獲取信息效率較低,對研究前沿的感知也落后于他人,而信息幽禁問題更是會拉開二者的差距。總之,數(shù)據(jù)庫商的信息服務(wù)能力關(guān)系著學術(shù)成果的擴散,也在一定程度上影響著科研人員的學術(shù)熱情與科研創(chuàng)新深度。
3.2 妨礙展示真實的學術(shù)交流圖景。學術(shù)交流圖景是通過文獻間的引用關(guān)系呈現(xiàn)出來的,其中體現(xiàn)著學術(shù)界的智力償還與信息禮儀。通過分析學術(shù)交流圖景,我們不僅可以了解學科間的知識流動,發(fā)現(xiàn)其中存在的學緣關(guān)系,還可揭示學者的學術(shù)視野與學術(shù)偏好。但由于數(shù)據(jù)庫收錄范圍、加工技術(shù)等原因,使得原本應(yīng)完整反映學術(shù)交流概況的數(shù)據(jù)割裂開來,且這些異域分布的數(shù)據(jù)多在字段結(jié)構(gòu)、字段內(nèi)容等方面有所差異。此外,部分加工錯誤的數(shù)據(jù)也在妨礙展示學術(shù)交流圖景,同時不利于學術(shù)評價結(jié)果的真實性。
4 信息幽禁問題解決對策
4.1 建議從國家層面完善學術(shù)資源管理制度。長期以來,學術(shù)文獻數(shù)據(jù)庫缺乏宏觀規(guī)劃與統(tǒng)一管理,不同數(shù)據(jù)庫商普遍存在重復(fù)收錄文獻、技術(shù)壁壘、各自為政等問題,相關(guān)方的知識產(chǎn)權(quán)界限較為模糊。收費不合理等問題也加劇了用戶對數(shù)據(jù)庫商的不滿情緒。
筆者認為,無論是促進科學發(fā)展還是完善管理機制,國家都應(yīng)該制定一系列行業(yè)標準與規(guī)范,以法律法規(guī)的形式宏觀調(diào)控數(shù)據(jù)庫商的行為,以一系列學術(shù)資源管理措施指導實踐活動。數(shù)據(jù)庫商限制信息與數(shù)據(jù)流通的行為,多數(shù)可歸為知識產(chǎn)權(quán)問題,模糊的知識產(chǎn)權(quán)界限讓中介環(huán)節(jié)謀取了大量的利益。在數(shù)字環(huán)境下,如果默許數(shù)據(jù)庫商無限追求利益而罔顧公眾的信息權(quán)利,則會損害知識生產(chǎn)者的合法權(quán)益。
4.2 建議數(shù)據(jù)庫商不斷提升信息服務(wù)能力。要想讓數(shù)據(jù)和信息充分發(fā)揮促進知識生產(chǎn)作用,需要讓其在流通環(huán)節(jié)“活”起來,減少各種不合理的阻滯行為。我們不僅要考慮如何保障數(shù)據(jù)庫商的經(jīng)濟利益,更應(yīng)思考如何激發(fā)數(shù)據(jù)活力以提升社會效益。雖然學術(shù)數(shù)據(jù)庫商為展示學術(shù)界的成果提供了“上傳”“下載”“流通”的空間,但其中的絕大部分資源來源于學術(shù)界,具有明顯的公共屬性,其理應(yīng)承擔一定的學術(shù)責任與社會責任,與包括學術(shù)界在內(nèi)的各界人士合作,共同解決信息幽禁問題。首先,數(shù)據(jù)庫商應(yīng)與高校及科研院所等方合作,共同更新各類詞表,完善網(wǎng)絡(luò)環(huán)境下文獻著錄與標引等工作的規(guī)則,針對呈現(xiàn)文獻量、檢索字段、閱讀途徑等共同制定工作流程與標準。其次,數(shù)據(jù)庫商可聯(lián)合業(yè)界人士形成團體,共同參與完善數(shù)據(jù)庫中的短缺技術(shù),解決如部分生僻字與外文無法顯示、內(nèi)容中有亂碼等問題。最后,還應(yīng)與期刊社等相關(guān)方開發(fā)參考文獻檢測工具,解決學術(shù)資源間關(guān)系紊亂等問題和規(guī)避學術(shù)不端問題。
4.3 建議廣大用戶增強應(yīng)對信息幽禁問題的能力。長期以來,學術(shù)界成員缺乏對信息幽禁問題的認知,深受數(shù)據(jù)庫商信息幽禁行為的困擾,忽視了自身應(yīng)有的信息權(quán)利。我們在開展知識創(chuàng)新活動時,或不熟悉情報檢索語言,或不熟悉數(shù)據(jù)庫使用方法與技巧而遇到各種阻力,阻礙著我們的知識生產(chǎn)與消費。因此在數(shù)據(jù)庫商等方積極作為的同時,也應(yīng)提高信息權(quán)利意識,增強信息幽禁問題認知并提升應(yīng)對能力。
*基金項目:河南省哲學社會科學規(guī)劃項目“基于ESI的河南省優(yōu)勢學科識別與人才評價研究”(項目編號:2019BZH005);鄭州大學教學改革研究與實踐項目“大學生信息空間適應(yīng)能力提升機制研究”(項目編號:2020zzuJXLX184)。
參考文獻:
[1]蘇新寧,黃水清.學術(shù)資源庫建設(shè)重在促進學術(shù)研究[N].光明日報,2016-01-21.
[2]王啟云.關(guān)于數(shù)字資源計量問題[EB/OL].[2021-5-20].http://blog.sciencenet.cn/blog-213646-721092.html.
[3]蘇新寧.引文索引數(shù)據(jù)質(zhì)量控制研究[J].中國圖書館學報,2001(02):76-78.
[4]張友誼,劉春.中文社會科學引文索引數(shù)據(jù)質(zhì)量問題研究
[5]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.A novel approach for estimating the omitted-citation rate of bibliometric databases with an application to the field of bibliometrics[J].Journal of the American Society for Information Science and Technology,2013,64(10),2149-2156.
[6]FRANCESCHINI F,MAISANO D,MASTROGIACOMO L.Empirical analysis and classification of database errors in Scopus and Web of Science[J].Journal of Informetrics,2016,10(04):,933-953.
[7]張美琦,劉斐,姚蘭,等.查收查引質(zhì)量控制關(guān)鍵環(huán)節(jié)——錯引判斷實踐及其效果評估[J].大學圖書館學報,2018,36(05):93-100.
[8]LIU WS.Accuracy of funding information in Scopus:a comparative case study[J].Scientometrics,2020,124(01):803-811.
[9]LIU WS,HUANG MT,WANG HF.Same journal but different numbers of published records indexed in Scopus and Web of Science Core Collection:causes,consequences,and solutions[J].Scientometrics,2021,126,4541-4550.
(作者單位:周春雷,鄭州大學信息管理學院,鄭州市數(shù)據(jù)科學研究中心;李彥博、孟麗慧,鄭州大學信息管理學院 來稿日期:2021-08-01)