陳陽 吳雁平 劉永
摘? 要:尋找檔案數(shù)據(jù)、數(shù)據(jù)檔案兩個概念的定義演進變化趨勢,為國內(nèi)該領(lǐng)域的未來研究提供參考。通過文本分析法和列舉法對中國知網(wǎng)數(shù)據(jù)庫文獻中的檔案數(shù)據(jù)、數(shù)據(jù)檔案定義進行梳理、列舉,歸納總結(jié)。定義演化過程可以看作尋找事物“屬”概念的過程,也可以看成是一事物尋找其歸屬的過程。檔案數(shù)據(jù)和數(shù)據(jù)檔案定義的演化過程,均可以用“1F2N2”概括,即同一起源、不同個階段、兩種觀點、N多屬概念、兩大類別。檔案數(shù)據(jù)由檔案到數(shù)據(jù),數(shù)據(jù)檔案由數(shù)據(jù)到檔案,彼此相向?qū)M,殊途同歸,是一個最終趨同融合的過程,二者本質(zhì)上是一事物概念(名稱)由種到屬的表述。
關(guān)鍵詞:數(shù)據(jù)檔案;檔案數(shù)據(jù);文本分析法
Abstract: To find the evolution trends of archival data and data archives, providing references for future research in this field in China. Through text analysis and enumeration method, this paper combs, lists and summarizes the definitions of the archival data and data archives in the CNKI database. Defining the evolution process can be seen as the process of searching for the concept of 'Belonging' of a thing, or as a process of finding its belonging. The evolution process of the definitions of archival data and data archives can be summarized by '1F2N2', that is, the same origin, different stages, two viewpoints, N concepts, and two major categories. Archival data is from archive to data, data archive is from data to archive, they are opposite to each other, different ways but to the same end and it is a process of convergence and integration in the final. They are all expressions of the concept (name) of a thing from species to genus essentially.
Keywords: Data archive; Archival data; Text analysis
2015年,國務院頒布《促進大數(shù)據(jù)發(fā)展行動綱要》,檔案學界隨之掀起了數(shù)據(jù)研究的熱潮。有關(guān)檔案數(shù)據(jù)、數(shù)據(jù)檔案的文章逐年增多,但尚未有論文對二者的定義及相互關(guān)系進行剖析。本文以中國知網(wǎng)數(shù)據(jù)庫為依托,對論文中涉及“檔案數(shù)據(jù)”“數(shù)據(jù)檔案”概念的定義按照時間線進行梳理,嘗試回答檔案數(shù)據(jù)、數(shù)據(jù)檔案從哪里來、是什么、到哪里去的三個問題。由于可用樣本數(shù)量有限,使用時沒有采用綜述性研究時的歸納法,而是采用凡有不同表述能用盡用的方法,這種方法便于從細微的定義差異中,找到其演化的規(guī)律與趨勢,但弊端在于定義中類似的表述重復率高。
1 檔案數(shù)據(jù)定義的演化
“檔案數(shù)據(jù)”作為名詞概念于1963年首次出現(xiàn)在文獻中但未做解釋。1995年出現(xiàn)“科技檔案數(shù)據(jù)”的定義,1998年首次賦予“檔案數(shù)據(jù)”明確的定義。27年間,“檔案數(shù)據(jù)”定義的演化過程可以用“1F2N2”來表示。“1”是從定義起源看,“檔案數(shù)據(jù)”發(fā)端于“科技檔案”;“F”指兩個不同方向的檔案數(shù)據(jù)定義經(jīng)歷的發(fā)展階段并不相同(檔案數(shù)據(jù)經(jīng)歷了4個階段:從個別開始,個別到一般,一般到個別,個別到一般;數(shù)據(jù)檔案經(jīng)歷了3個階段:從個別開始,個別到一般,一般到個別);首次出現(xiàn)的“2”是指兩派觀點,即檔案數(shù)據(jù)是檔案,檔案數(shù)據(jù)是數(shù)據(jù);“N”是從檔案數(shù)據(jù)的屬概念來看,有檔案、數(shù)據(jù)、信息、文獻、文件、材料、資料、記錄、實體等多種;后一個“2”是從檔案數(shù)據(jù)產(chǎn)生的過程看,分加工和非加工(原始)兩類。
1.1 個別·實體·加工,科技檔案是認識檔案數(shù)據(jù)的起點,檔案數(shù)據(jù)是檔案。1991年,陸曙東提出:“檔案數(shù)據(jù)是運動員訓練效果的反映,是檢查教練訓練計劃是否合理的重要依據(jù)?!盵1]嚴格意義上講,這個表述并沒有清晰明了地回答“檔案數(shù)據(jù)”是什么,只是十分籠統(tǒng)地指出“檔案數(shù)據(jù)”是訓練效果的反映,強調(diào)了“檔案數(shù)據(jù)”的依據(jù)作用。類似地,周發(fā)強等認為:“檔案數(shù)據(jù)主要是指電力系統(tǒng)的核心業(yè)務實體,如線路和臺區(qū)?!盵2]由這兩種定義,我們可知,從定義起源來看,“檔案數(shù)據(jù)”發(fā)端于科技檔案。最先試圖給“檔案數(shù)據(jù)”下定義的,往往不是專門從事檔案學理論研究與教學的學界,而是各行業(yè)中(包括高校)從事檔案工作及涉及檔案或檔案工作的實務界。這也進一步印證了“新概念的產(chǎn)生源于實踐”的觀點,檔案實務界對源于實踐的新概念下定義,雖然不一定符合下定義的學術(shù)規(guī)則,嚴謹性不足、規(guī)范性欠缺,但卻是我們認識新事物的起點。對檔案數(shù)據(jù)的認知亦是如此。
1995年,王英瑋認為:“科技檔案數(shù)據(jù)是指經(jīng)過加工并輸入計算機的科技檔案二次信息。”[3]該定義中有五個基本要素:一是“科技檔案數(shù)據(jù)”來自“科技檔案”,即檔案數(shù)據(jù)是檔案的組成部分,檔案數(shù)據(jù)是檔案;二是經(jīng)過加工,表明科技檔案數(shù)據(jù)并非原始;三是能輸入計算機,是為計算機使用而產(chǎn)生;四是二次信息,是科技檔案信息的形式轉(zhuǎn)換,即并非全部一次信息;五是科技檔案數(shù)據(jù)的屬概念是信息。
同年,劉軍將“文書檔案數(shù)據(jù)的前處理”定義為“對文書檔案進行收集、分析、分類、組織、加工,最終將原始的文書檔案信息轉(zhuǎn)換成適合于輸入微機的形式的過程。”[4]與王英瑋對“科技檔案數(shù)據(jù)”定義類似,“文書科技檔案數(shù)據(jù)”定義也具有五個基本要素,即文書檔案數(shù)據(jù)來自文書檔案;文書檔案數(shù)據(jù)經(jīng)過加工;適合于輸入微機(計算機);是文書檔案信息的形式轉(zhuǎn)換;文書檔案數(shù)據(jù)的屬概念是信息。
1.2 由個別到一般,檔案數(shù)據(jù)認知的升華,檔案數(shù)據(jù)亦可是數(shù)據(jù)。1998年至2006年間,“檔案數(shù)據(jù)”概念的定義認知完成了由個別到一般的升華,并形成了“檔案數(shù)據(jù)是檔案”和“檔案數(shù)據(jù)是數(shù)據(jù)”的兩種代表性觀點。
(1)檔案數(shù)據(jù)是檔案。1998年,熊志云提出:“檔案數(shù)據(jù)是指所有存入計算機以便加工處理的檔案信息。”[5]這是檔案界首次給予“檔案數(shù)據(jù)”明確的定義。這個定義在堅持“檔案數(shù)據(jù)是檔案”觀點的同時,與早期的定義有三處變化:一是不再單指某一類檔案,而是泛指所有檔案;二是不再強調(diào)輸入計算機和適合輸入計算機,改用“存入”,由事后數(shù)據(jù)輸入轉(zhuǎn)為形成后直接保存;三是由強調(diào)輸入計算機的前加工,轉(zhuǎn)向強調(diào)存入計算機后的加工處理,加工的重點由輸入計算機轉(zhuǎn)為使用計算機處理。反映出檔案界對“檔案數(shù)據(jù)”的認識從“點”到“線”的進步,檔案數(shù)據(jù)使用由“點”到“線”的進階。持這一觀點的還有陳香萍[6]等。
(2)檔案數(shù)據(jù)是數(shù)據(jù)。2004年,劉家真提出:“檔案數(shù)據(jù)是指那些具有長期或永久保存價值,需要在檔案館或其他信息資源基地保存的數(shù)據(jù)?!盵7]該觀點一改之前“檔案數(shù)據(jù)源自檔案,由檔案加工而來”的觀點。將“具有長期或永久保存價值”和“需要在檔案館或其他信息資源基地保存”作為“檔案數(shù)據(jù)”的標準,不再強調(diào)是否源自檔案。同時將“檔案數(shù)據(jù)”的屬概念由信息拓展到數(shù)據(jù)。簡言之,即檔案數(shù)據(jù)是數(shù)據(jù)的組成部分,其屬概念為數(shù)據(jù)。同意這種觀點的還有楊劍云、李啟坤等人[8]、黃南鳳[9]、周丹[10]、吳斌[11]、田華麗[12]等。2006年,劉家真、倪麗娟提出:“文獻的檔案數(shù)據(jù)是指那些具有長期或永久保存價值、需要永續(xù)地發(fā)揮作用的電子文獻的數(shù)據(jù)?!盵13]這一定義仍然堅持了“檔案數(shù)據(jù)”的屬概念是“數(shù)據(jù)”,即“檔案數(shù)據(jù)是數(shù)據(jù)”的觀點,但將“檔案數(shù)據(jù)”的歸屬范圍擴大至整個文獻,實現(xiàn)了檔案數(shù)據(jù)由“線”到“面”的拓展。2008年,劉家真、許杰將該觀點簡化為:“檔案數(shù)據(jù)指的是具有長期保存價值的數(shù)據(jù)。”[14]
至此,檔案界對“檔案數(shù)據(jù)”的認知明顯分成了“檔案數(shù)據(jù)是檔案”和“檔案數(shù)據(jù)是數(shù)據(jù)”兩種。
1.3 由一般到個別,檔案數(shù)據(jù)認知的擴展,檔案數(shù)據(jù)屬概念逐漸多樣化。2005年至2019年,是檔案數(shù)據(jù)認知從一般到個別的擴展階段。一方面,將對檔案數(shù)據(jù)的認知從一般擴展到地籍檔案數(shù)據(jù)、銀行客戶檔案數(shù)據(jù)、企業(yè)客戶檔案數(shù)據(jù)、客戶檔案數(shù)據(jù)、國土資源檔案數(shù)據(jù)、城市規(guī)劃檔案數(shù)據(jù)、醫(yī)院電子檔案數(shù)據(jù)、高校檔案數(shù)據(jù)、火災檔案數(shù)據(jù)、城建檔案數(shù)據(jù)等個別、具體的行業(yè)。另一方面,檔案數(shù)據(jù)的屬概念也從檔案擴展到文件、數(shù)據(jù)、數(shù)據(jù)庫、信息、信息條目、材料、資料、記錄等。
(1)文件說。2005年,陳先偉、楊建平認為:“檔案數(shù)據(jù)是指地籍檔案掃描后的電子文件。”[15]這個專指性明顯的檔案數(shù)據(jù)定義,保留了源自檔案、前加工兩個要素,省略了目的,將屬概念框在“電子文件”之內(nèi)。這種觀點在行業(yè)內(nèi)有一定的共鳴,比如黃道偉、任啟萍等人[16],以及王合群[17]、王大龍[18]等持相同觀點。
(2)數(shù)據(jù)說。盡管2004年至2008年,也有學者提出“檔案數(shù)據(jù)是數(shù)據(jù)”的觀點,但自2011年開始,該觀點得到進一步的升華。劉雅在其學位論文中提出:“歷史檔案數(shù)據(jù)主要是指國土資源管理部門在日常的信息處理過程中日積月累得到的數(shù)據(jù),它又可以稱為檔案數(shù)據(jù)?!盵19]該觀點實質(zhì)上認為檔案數(shù)據(jù)是數(shù)據(jù)的一部分。與之相似,2018年,鄭龍水在其學位論文中指出:“用戶檔案數(shù)據(jù)是指用戶在注冊社交網(wǎng)絡時,根據(jù)社交網(wǎng)絡平臺所要求,用戶要提供的必填和選填數(shù)據(jù)?!盵20]檔案數(shù)據(jù)同時具有規(guī)定性與可選擇性,即檔案數(shù)據(jù)在“量”上不完全等于“檔案”。同年,劉薇則認為:“檔案數(shù)據(jù)是指不以學術(shù)研究為最初收集目的的數(shù)據(jù)”,[21]強調(diào)了檔案數(shù)據(jù)的二次性。于英香則在數(shù)據(jù)與信息關(guān)系演化的基礎(chǔ)上分析討論了“檔案數(shù)據(jù)”概念的發(fā)展,將檔案數(shù)據(jù)定義為“一種具備檔案屬性的數(shù)據(jù)”。[22]2019年,譚淑紅提出:“城建檔案數(shù)據(jù)是指在城市建設過程中(涉及工民建、道路、橋涵、管線等),數(shù)字化具有保存價值的文件、圖樣、表冊、聲像等信息資料形成的電子數(shù)據(jù)?!盵23]
(3)數(shù)據(jù)庫說。2009年,孫明賢在其學位論文中指出“客戶檔案數(shù)據(jù)主要是指注冊公司的財務數(shù)據(jù)數(shù)據(jù)庫、基本情況數(shù)據(jù)庫等”,[24]將“檔案數(shù)據(jù)”屬概念定位為“數(shù)據(jù)庫”。
(4)信息說。2007年,李廣都、羅輝提出:“銀行客戶檔案數(shù)據(jù)并不完全是指銀行客戶檔案中所記載的內(nèi)容,它還包括來源于銀行客戶并經(jīng)過再加工后形成的信息產(chǎn)品,因此也就決定了銀行客戶檔案數(shù)據(jù)所涵蓋的內(nèi)容與銀行客戶有著不可分割的關(guān)系?!盵25]該觀點認為某個主體形成的檔案數(shù)據(jù)與該主體相關(guān),但不限于該主體所形成檔案的全部內(nèi)容。同時強調(diào)了檔案數(shù)據(jù)經(jīng)過加工產(chǎn)生,其屬概念是信息。2008年,侍文庚提出:“企業(yè)客戶檔案數(shù)據(jù)是指存在于企業(yè)客戶檔案中以數(shù)據(jù)資料的形式存在的信息”,[26]將“檔案數(shù)據(jù)”的范圍縮小到“檔案中以數(shù)據(jù)資料的形式存在的”部分,同時指出“檔案數(shù)據(jù)的屬概念是信息”。2011年,高文君對城市規(guī)劃檔案數(shù)據(jù)進行了定義,“指在規(guī)劃編制、規(guī)劃審批和規(guī)劃監(jiān)督過程中形成的各類檔案,主要包括規(guī)劃成果、建設用地規(guī)劃管理、建設工程規(guī)劃管理和建設工程規(guī)劃驗收管理檔案等數(shù)據(jù)信息”,[27]強調(diào)了“城市規(guī)劃檔案數(shù)據(jù)”是在規(guī)劃編制、規(guī)劃審批和規(guī)劃監(jiān)督過程中形成的各類檔案,同時將“城市規(guī)劃檔案數(shù)據(jù)”的屬概念定為“信息”。
(5)信息條目說。2011年,周丹在對“檔案數(shù)據(jù)”定義進行評介時指出:“從‘檔案數(shù)據(jù)’這個概念上說,以往的檔案數(shù)據(jù)是指信息系統(tǒng)中處理的檔案信息條目,由不同的字段構(gòu)成?!盵28]
(6)材料說。2013年,許建偉對醫(yī)院電子檔案數(shù)據(jù)進行了定義,“醫(yī)院電子檔案數(shù)據(jù)是指醫(yī)院在醫(yī)療、科研科技、教學和基礎(chǔ)建設等活動中,所形成的歸檔保存的文字、圖表、聲像等形態(tài)的科技文件材料”,[29]將醫(yī)院電子檔案數(shù)據(jù)的范圍規(guī)定在歸檔科技文件材料的范圍,其屬概念是材料。
(7)資料說。2013年,何振才提出,“檔案數(shù)據(jù),是指在教學、科研、學生管理、學校各類事務管理等活動中形成的以數(shù)據(jù)形式存在的,并且在網(wǎng)絡發(fā)布后,分別由文檔形成單位單獨保管及移交給檔案館后的數(shù)據(jù)資料”,[30]強調(diào)了“檔案數(shù)據(jù)”形成時的數(shù)據(jù)形式和保管移交,其屬概念為資料。
(8)記錄說。2014年,王淑萍、張衛(wèi)兵、李銳認為:“火災檔案數(shù)據(jù)是指對歷史火災所做的詳細記錄,經(jīng)驗總結(jié)等。”[31]
1.4 由個別到一般,電子環(huán)境下“檔案數(shù)據(jù)是檔案”與“檔案數(shù)據(jù)是數(shù)據(jù)”趨同。2020年,金波、楊鵬從廣義和狹義兩個角度對“檔案數(shù)據(jù)”概念進行了界定。[32]由此,檔案數(shù)據(jù)指的是“有保存和利用價值”,在“通信網(wǎng)絡上傳輸?shù)母黝愲娮游募捌湓獢?shù)據(jù)”,即在使用中的未歸檔保存的數(shù)據(jù)。這一觀點,在學界有較高的認同度。比如:劉延婷、朱家彪、陶珂、周彬認為:“檔案數(shù)據(jù)是指從原始到更新結(jié)果的所有數(shù)據(jù),便于歷史回溯,可查找同一地塊發(fā)生多次變更的相關(guān)信息,以及某一時間段內(nèi)發(fā)生變化的地塊和相關(guān)信息?!盵33]展倩慧認為:“檔案數(shù)據(jù)是指具備檔案屬性的數(shù)據(jù)和涵蓋電子文檔、數(shù)字資源以及在檔案業(yè)務活動中產(chǎn)生的數(shù)據(jù)等?!盵34]邢小美在其學位論文中提出:“檔案數(shù)據(jù)是指伴隨企業(yè)業(yè)務活動而形成的原始、真實數(shù)據(jù)?!盵35]“廣義的檔案數(shù)據(jù)是指各級各類檔案機構(gòu)收集保存的具有檔案性質(zhì)的數(shù)據(jù)記錄,包括各種數(shù)據(jù)形式的檔案資源,如各類數(shù)字檔案、多媒體檔案;也包括檔案管理與利用過程中產(chǎn)生的數(shù)據(jù),如檔案網(wǎng)站的瀏覽記錄、平臺日志、查閱服務數(shù)據(jù)、檔案統(tǒng)計數(shù)據(jù)等?!盵36]在這個觀點中,檔案數(shù)據(jù)指已歸檔的數(shù)據(jù)及由這些已歸檔的數(shù)據(jù)產(chǎn)生的“二代”數(shù)據(jù)。
這種以是否包含“二代”數(shù)據(jù)劃分狹義與廣義檔案數(shù)據(jù)的方法,有兩點需要注意:其一,這只是方法之一。如果以是否歸檔的數(shù)量來劃分,那么歸檔保存的有利用價值的,在通信網(wǎng)絡上傳輸?shù)母黝愲娮游募捌湓獢?shù)據(jù)的量,應該大于已歸檔的數(shù)據(jù)及由這些已歸檔的數(shù)據(jù)產(chǎn)生的“二代”數(shù)據(jù)的量,因為只要“有文必檔”尚未實現(xiàn),檔案數(shù)據(jù)的“廣”與“狹”就會反轉(zhuǎn)。其二,這種劃分只針對電子環(huán)境下生成的應歸和已歸的“增量”檔案數(shù)據(jù),沒有明確既有館藏“存量”非電子傳統(tǒng)檔案的數(shù)字化副本。相比之下,2021年,夏天、錢毅提出的有關(guān)檔案數(shù)據(jù)的表述更為準確,即“檔案數(shù)據(jù)是指檔案機構(gòu)收集保存的各種數(shù)據(jù)形式的記錄,既包括電子檔案的內(nèi)容數(shù)據(jù)、傳統(tǒng)載體檔案的數(shù)字化副本,也包括管理和利用過程中產(chǎn)生的各類元數(shù)據(jù)”。[37]
綜上,我們可以較為清晰地看出,檔案數(shù)據(jù)概念的定義源于實體檔案的電子化應用,長于存量檔案數(shù)字化和增量電子檔案歸檔,“檔案數(shù)據(jù)是檔案”與“檔案數(shù)據(jù)是數(shù)據(jù)”的爭論,或因檔案數(shù)據(jù)化而最終消失。
2 數(shù)據(jù)檔案定義的演化
“數(shù)據(jù)檔案”概念的定義最早出現(xiàn)在1981年。從1981年到2021年,40年來,“數(shù)據(jù)檔案”的定義過程同樣可以用“1F2N2”來表示?!?”是從定義的起源看,“數(shù)據(jù)檔案”定義同樣發(fā)端于“科技檔案”,“F”即從發(fā)展階段看,數(shù)據(jù)檔案的概念同樣從個別開始,經(jīng)過由個別到一般,再從一般向個別擴展的過程。前一個“2”即從數(shù)據(jù)與檔案的關(guān)系上分為“數(shù)據(jù)檔案是數(shù)據(jù)”“數(shù)據(jù)檔案是檔案”兩種觀點;“N”即從數(shù)據(jù)檔案的屬概念上看,有數(shù)據(jù)、檔案、信息、記錄、文件、資料、數(shù)據(jù)庫等多種;后一個“2”即從數(shù)據(jù)檔案產(chǎn)生的來源看,分存量和增量兩類。
2.1 管理·價值·歸檔,從個別(科技檔案)為認識起點,數(shù)據(jù)檔案是數(shù)據(jù)。有關(guān)“數(shù)據(jù)檔案”的個別論述,主要是湯其強在1981年和1982年發(fā)表的觀點。1981年,湯其強提出:“數(shù)據(jù)檔案是科技檔案的一個重要組成部分,是科技檔案的主要內(nèi)容之一?!盵38]“企業(yè)生產(chǎn)講核算必然講經(jīng)濟效果,產(chǎn)品數(shù)量的多少、質(zhì)量的好壞、成本的高低,以及產(chǎn)品的銷路和發(fā)展方向如何,都要進行具體的分析,通過調(diào)查、解剖各個生產(chǎn)環(huán)節(jié)。要分析、要預測、要競爭就要有憑據(jù)。這種憑據(jù)來源于生產(chǎn)中形成的技術(shù)文件材料,這種材料經(jīng)過加工整理即以圖表、表報形式轉(zhuǎn)化為數(shù)據(jù)檔案?!盵39]
1982年,湯其強基于企業(yè)科技檔案管理的視角,將“數(shù)據(jù)檔案”定義為“在現(xiàn)代化管理活動中產(chǎn)生和形成的、具有查考利用價值的、按照一定的歸檔制度匯編保管起來的數(shù)據(jù)材料,叫作數(shù)據(jù)檔案”,[40]并闡述了數(shù)據(jù)材料轉(zhuǎn)化為數(shù)據(jù)檔案的三個條件。同時,作者極具前瞻性地指出:“數(shù)據(jù)檔案產(chǎn)生的主要客觀基礎(chǔ)是管理手段和管理活動的現(xiàn)代化。”[41]“數(shù)據(jù)檔案作為檔案的一個類別,它既具有檔案的共同屬性,也具有數(shù)據(jù)檔案的特殊屬性?!盵42]簡言之,數(shù)據(jù)檔案是數(shù)據(jù),是數(shù)據(jù)的組成部分,是數(shù)據(jù)中歸檔保存的部分。
2.2 從個別到一般,數(shù)據(jù)檔案是數(shù)據(jù),用于保存。1987年,薩兆為提出:“數(shù)據(jù)檔案是指為一定目的而生產(chǎn)的有序數(shù)據(jù),經(jīng)使用之后還可以儲存起來,形成為其他目的服務可以檢索的數(shù)據(jù)情報?!盵43]該定義中有五個要點:一是數(shù)據(jù)檔案是數(shù)據(jù),二是數(shù)據(jù)檔案的產(chǎn)生是有目的的,三是數(shù)據(jù)檔案是有序的,四是數(shù)據(jù)檔案可以存儲,五是可以服務其他目的。
2.3 由一般到個別,數(shù)據(jù)檔案應用范圍不斷擴展,數(shù)據(jù)檔案亦可是檔案。數(shù)據(jù)檔案范圍逐漸從單一門類拓展到多個門類。從時間線上看,觀點梳理如下。
2003年,張欣認為:“數(shù)據(jù)檔案主要是指存儲會計數(shù)據(jù)和程序的軟盤和其他存儲介質(zhì)以及打印輸出的各種賬簿、報表、憑證。”[44]2009年,林玲提出:“咨詢統(tǒng)計檔案就是指以數(shù)字形式記錄的、按分類表格儲存起來的、可直觀反映咨詢總體面貌的、具有參考價值的統(tǒng)計數(shù)據(jù)檔案。”[45]2010年,花文博提出:“基礎(chǔ)地理信息數(shù)據(jù)檔案是指具有利用和參考價值并作為檔案保存的數(shù)據(jù)成果和重要原始的基礎(chǔ)地理信息數(shù)據(jù)。”[46]2012年,駱椒在其學位論文中認為:“數(shù)據(jù)檔案是指通過計算機打印輸出的相關(guān)憑證、會計賬簿和會計報表。”[47]2014年,李小娟認為:“電子財務數(shù)據(jù)檔案是指在會計電算化的應用中形成,可以直接打印、復制或傳出,所以存在財務數(shù)據(jù)泄露的潛在風險的存儲于硬盤、光盤等電子介質(zhì)中的各種票據(jù)、憑證、賬冊?!盵48]同年,董雷認為:“數(shù)據(jù)檔案是指可能對產(chǎn)品質(zhì)量產(chǎn)生影響的原材料檔案和設備檔案?!盵49]2015年,梁好在其學位論文中認為:“數(shù)據(jù)檔案管理是指在供電過程中設備實時運行時,將收集到的線路設備運行信息進行收集和管理?!盵50]
綜上,“數(shù)據(jù)檔案”亦可是檔案。如果將上述敘述中的“數(shù)據(jù)”隱去,無論是形成、來源、收集、管理任一環(huán)節(jié),得到的就是“檔案”是“檔案”這個句式。
2.4 數(shù)據(jù)檔案屬概念多樣化,信息化推動數(shù)據(jù)檔案與檔案數(shù)據(jù)的融合。近些年,隨著涉及行業(yè)專業(yè)的不斷增加,“數(shù)據(jù)檔案”的屬概念范圍也不斷拓展,由原先的數(shù)據(jù)檔案是數(shù)據(jù)、檔案拓展為數(shù)據(jù)檔案是記錄、信息、資源、文件、資料、數(shù)據(jù)庫等。
(1)記錄說。2014年,張繁偉在其學位論文中指出“數(shù)據(jù)檔案是指對食品從原輔料采購、制成中間產(chǎn)品乃至最終產(chǎn)品,通過各種渠道進入到最終零售環(huán)節(jié)的有關(guān)食品的產(chǎn)地、生產(chǎn)加工、物流和資金流等信息的記錄?!盵51]
(2)信息說。2016年,孫俐麗、吳建華認為:“數(shù)據(jù)檔案資源是指國家機構(gòu)等在活動中產(chǎn)生的有價值的為數(shù)字形式的歷史信息,和由非數(shù)字檔案轉(zhuǎn)換而成的數(shù)字檔案?!盵52]
(3)資源說。這種觀點又分兩分說和三分說。2016年,李夢瑤、李廣都認為:“數(shù)據(jù)檔案,是指以數(shù)據(jù)形式存在的具有保存和利用價值的數(shù)據(jù)資源?!盵53]“這類數(shù)據(jù)檔案是開放獲取的,不受具體限制,是指各種具備國家檔案屬性的各類數(shù)據(jù)檔案資源?!盵54]2018年,陳巖認為:“數(shù)據(jù)檔案的實質(zhì)為一種檔案”,[55]分為公共性數(shù)據(jù)檔案、商業(yè)性數(shù)據(jù)檔案、私有性數(shù)據(jù)檔案三種。[56]
(4)文件說。2017年,張宏磊、李正燕認為:“體育傳統(tǒng)項目數(shù)據(jù)檔案是指體育傳統(tǒng)項目,如籃球、足球等,在日常訓練、比賽、科研等過程中形成的具有保存價值的各類數(shù)據(jù)文件?!盵57]
(5)資料說。2019年,劉麗敏認為:“數(shù)據(jù)檔案是指通過U盤、磁盤、光碟等信息化手段錄入檔案資料,同傳統(tǒng)的紙張保存檔案既有區(qū)別又互相連通的系列數(shù)據(jù)資料的總和?!盵58]
(6)數(shù)據(jù)庫說。2020年,鄧舒音在其學位論文中指出:“業(yè)務數(shù)據(jù)檔案是指機關(guān)在履職過程中通過業(yè)務系統(tǒng)形成的業(yè)務數(shù)據(jù)庫?!盵59]
綜上,我們可以比較清晰地看到,“數(shù)據(jù)檔案”概念的定義源于實體數(shù)據(jù)的歸檔,長于電子數(shù)據(jù)歸檔,“數(shù)據(jù)檔案是檔案”與“數(shù)據(jù)檔案是數(shù)據(jù)”的爭論,或因數(shù)據(jù)檔案化而最終消失。
3 結(jié)語
檔案數(shù)據(jù)、數(shù)據(jù)檔案從哪里來的問題,是一個起源問題。檔案數(shù)據(jù)、數(shù)據(jù)檔案異名同源(均源自科技檔案)并非偶然,初看與提出者的專業(yè)、學科、職業(yè)、崗位等背景因素相關(guān),相關(guān)性的強度有待進一步研究。
檔案數(shù)據(jù)、數(shù)據(jù)檔案是什么的問題,實際上是一事物概念(名稱)由種到屬的表述。可以看作尋找事物“屬”概念過程,也可以看成是一事物尋找其歸屬的過程。從理論上論證需費一番周折,限于篇幅,本文不作深究,另文再論。從實踐中區(qū)分,即為簡單的先有“誰”后有誰的問題。先有檔案,后有數(shù)據(jù),即為檔案數(shù)據(jù)。先有數(shù)據(jù),后有檔案(歸檔),即為數(shù)據(jù)檔案。
檔案數(shù)據(jù)、數(shù)據(jù)檔案到哪里去的問題,是一個趨勢問題。檔案數(shù)據(jù)、數(shù)據(jù)檔案分別從檔案和數(shù)據(jù)兩個起點出發(fā),經(jīng)由檔案到數(shù)據(jù)、由數(shù)據(jù)到檔案兩個方向?qū)M,殊途同歸,最終趨同融合。雖然兩者的表述、指向不同,但“通過對檔案或數(shù)據(jù)所承載信息的限制性使用,以維護信息所有者在競爭中的優(yōu)勢”[60]的目的相同。
*本文系國家檔案局科技項目“面向治理體系現(xiàn)代化和應急處置決策需求的檔案數(shù)據(jù)能力建設研究”(批準編號:2020-R-5)研究成果之一。
學術(shù)授信分析方法在采信學術(shù)評價信息時主張根據(jù)學術(shù)社區(qū)內(nèi)成員間的相互授信情況來鑒別有關(guān)信息的可信度,高度重視評價視域構(gòu)建和授信者分析問題,力圖使“外行”也能擁有“內(nèi)行”的學術(shù)見識和判斷能力。將學術(shù)授信分析方法運用到各種學術(shù)評價活動中,是對學術(shù)授信評價理論的有力實踐。相關(guān)實踐表明,學術(shù)授信分析有助于提升學術(shù)評價及信息分析過程的透明度,能幫助用戶跟蹤相關(guān)信息的源流并評估其可信度,實用性較強。運用學術(shù)授信分析方法時需先選定評價主體,標記不同學術(shù)社區(qū)成員的學術(shù)地位,然后采用引文分析及Altmetrics等方法挖掘?qū)W術(shù)群體的學術(shù)授信信息,進而開展影響力分析、人才評價等應用研究。從數(shù)據(jù)角度看,這種分析方法具有內(nèi)容不可篡改、可追溯、公開透明等特點,可較為客觀地反映評價對象給外界留下的穩(wěn)定印象,并用于測度學術(shù)聲譽、學術(shù)地位等原本難以量化的對象。
3 學術(shù)授信分析方法及應用
3.1 Dh指數(shù)分析法。2005年,美國物理學家Hirsch提出可用于衡量科學家個人學術(shù)影響力的評價指標——h指數(shù)[3]。該指標在學術(shù)評價方面的有效性很快就在全球范圍內(nèi)得到廣泛認可。但是,原初意義上的h指數(shù)是基于WoS數(shù)據(jù)庫的,不便于統(tǒng)計,而且不能在領(lǐng)域、主題層面比較不同學者的影響力。為此,周春雷(2010)[4]提出一種適合程序處理的h指數(shù)計算方法——h指數(shù)批量統(tǒng)計法,兩年后將通過該方法計算出的數(shù)據(jù)正式命名為一種新的h指數(shù)衍生指標——領(lǐng)域內(nèi)h指數(shù)(簡稱Dh指數(shù))[5]。
從表面上看,這種指標的計算方式與h指數(shù)相似,僅將來源數(shù)據(jù)中的數(shù)據(jù)庫調(diào)整為用戶指定的任意數(shù)據(jù)集。但是,這種調(diào)整非常有實際意義:不僅大大降低了統(tǒng)計成本,使通過程序批量計算大批學者在細分領(lǐng)域的h指數(shù)、g指數(shù)變得切實可行,而且能更好地反映不同評價對象在特定領(lǐng)域的學術(shù)影響力差異。相應地,Dh指數(shù)分析法就是在特定數(shù)據(jù)集上利用Dh指數(shù)等指標標記全部評價對象的學術(shù)地位,然后根據(jù)其相互授信情況開展各種深度信息分析工作的方法。通過使用Dh指數(shù)、Dg指數(shù)等公信力較強的指標對特定領(lǐng)域內(nèi)的全部學者進行批量標記,我們可以根據(jù)學術(shù)影響、學術(shù)聲望差異將特定群體快速分層,同時也讓學者們在領(lǐng)域內(nèi)的身份更加透明、信息行為更易追蹤,可用來研究專家、新手等群體的學術(shù)判斷能力、預測能力、信息敏感性差異,觀察、預測特定學術(shù)群體的研究路徑等。例如,筆者團隊利用這一方法對Price獎得主進行了模擬分析,嘗試利用Dh指數(shù)、Dg指數(shù)識別國際科學計量學領(lǐng)域內(nèi)的專家群體,然后根據(jù)其引文信息預測潛在的Price獎得主[6]。筆者團隊在文獻中提出了基于領(lǐng)域?qū)<乙暯堑腄h-Dg指數(shù)分析法,并于2016年12月預測了表1所列榜單前30名中被引量較高但尚未獲獎的學者,如Bornmann、Abramo、Meyer、Burrell、Schreiber、Waltman、Bar-Ilan、Porter、Kostof、Chen、Jacso、Tijssen、VanLeeuwen等,他們都可能是未來競爭Price獎的有力人選,并且年輕學者似乎更有潛力。截至2021年10月,Bar-Ilan、Bornmann、Waltman分別成為2017年、2019年、2021年的Price獎得主,這項研究有效檢驗了挖掘、利用專家群體學術(shù)授信信息的價值。
表1 國際科學計量學專家群體學術(shù)授信的部分學者名單[6]
當我們將Dh指數(shù)分析法應用于人才評價時,評價視域的大小非常關(guān)鍵,較大的評價視域有助于降低評估誤差并提升人才評價的準確度?;陬I(lǐng)域?qū)<乙暯堑腄h-Dg指數(shù)分析法將定量評估技術(shù)與專家的定性評價有效地結(jié)合在一起模擬評價對象在專家群體中的聲望。該方法嘗試借助內(nèi)生于學術(shù)交流活動的正常引用行為及專家的學術(shù)鑒賞力,深入挖掘?qū)<胰后w的施引信息,為評估不同學者的專業(yè)影響力提供客觀、準確的依據(jù),既能降低同名者因素的影響,又能提高評價效率。Dh-Dg指數(shù)分析法的精髓在于可較為客觀地模擬專家群體的學術(shù)判斷意見,具有操作簡便、效果良好等優(yōu)勢,可為各種學術(shù)大獎的預測研究提供高價值參考信息。
鑒于h指數(shù)無法反映學者在不同時期的學術(shù)影響力升降情況,筆者團隊還提出了能解決這一問題的TDh指數(shù)[7]。若學者的TDh指數(shù)持續(xù)上升,說明學者學術(shù)生命力旺盛,可在未來成為領(lǐng)域內(nèi)的高影響力學者;反之,當TDh指數(shù)呈下降趨勢時,意味著該學者的研究不再是領(lǐng)域內(nèi)關(guān)注的熱點,或其學術(shù)生命已近尾聲。TDh指數(shù)可客觀反映學者在領(lǐng)域內(nèi)所獲關(guān)注情況,能讓不同學者在相同條件下進行比較。
此外,根據(jù)學者的TDh指數(shù)變化情況,可有效探測研究主題的冷熱趨勢。蔡程瑞曾利用TDh指數(shù)和群組分析法探討了圖情領(lǐng)域期刊高頻編委群體的集體學術(shù)授信對領(lǐng)域的影響,發(fā)現(xiàn)圖情領(lǐng)域高頻編委不斷發(fā)展壯大學科內(nèi)核進而推動學科發(fā)展[8]。
綜上所述,TDh指數(shù)能有效區(qū)分學者之間的影響力差異,對學者的學術(shù)生涯變化進行有效預測及分析,并可根據(jù)學者學術(shù)地位的變化,發(fā)現(xiàn)領(lǐng)域內(nèi)研究主題的變化趨勢,若將其與年度Z指數(shù)有效結(jié)合起來,對研究主題及學者學術(shù)生涯的監(jiān)測將更為方便。
3.2 引薦分析法。在學術(shù)評價中,實施同行評議的難點通常在于尋找合適的同行專家。從引文分析角度看,對引文數(shù)據(jù)進行挖掘有助于尋找同行專家,評價對象的施引者可在一定程度上被視為“同行”。引用認同理論認為,一個作者所參考的全部學者都是其引用認同的對象[9],通過分析某作者的引用認同,可了解其學術(shù)視野。但是,這種觀點若應用于學術(shù)評價則存在明顯的瑕疵,會因大量的偶然引用沖淡評價結(jié)果的可信度。
從學術(shù)授信角度看,引用認同關(guān)于學術(shù)認可的判斷標準過于寬泛。事實上,只有高頻引證行為才具有明顯的學術(shù)認可含義。因此,基于學術(shù)授信評價理論的引薦分析法將某一學者對同一評價對象的多次引用行為界定為“引薦”,表示其認可被引者的學術(shù)能力和學術(shù)觀點[10]?!痘谝]分析的國內(nèi)引用認同領(lǐng)域分析》一文運用引薦分析法研究了國內(nèi)引用認同領(lǐng)域,發(fā)現(xiàn)該方法在識別重要研究者、受關(guān)注研究主題方面效果良好[11]。周春雷等研究了CNKI收錄的國內(nèi)檔案學博碩士學位論文的施引及被引信息分析,發(fā)現(xiàn)學位論文是否開放直接影響到研究生群體對朋輩學術(shù)成果的感知和利用[12]。引薦分析法通過從施引作者入手,不斷地尋找其領(lǐng)域同行、同行的同行來繪制整個領(lǐng)域的研究結(jié)構(gòu)圖,可用于發(fā)現(xiàn)領(lǐng)域新秀、高影響力學者。
3.3 鏈接內(nèi)容分析法。鏈接分析的思想最早由Mckiernan[13]提出。網(wǎng)站研究與鏈接分析法息息相關(guān),是鏈接分析法的主要應用領(lǐng)域[14],但目前對鏈接內(nèi)容的研究較少。鏈接內(nèi)容分析法是把鏈接所指內(nèi)容作為基本分析單元,將指向同一內(nèi)容的多個鏈接進行語義級合并,然后將對鏈接形式的分析轉(zhuǎn)化為對鏈接指向內(nèi)容的分析?;谶@種思路,周春雷(2012)[15]以科學網(wǎng)博客為研究對象提出“被好友”指標,以衡量學術(shù)博客在博客社區(qū)內(nèi)的影響力。
此外,博文閱讀量、評論量等也可用于衡量博文質(zhì)量。周春雷、王涵墨(2015)以博文閱讀量、評論量、推薦數(shù)以及博主發(fā)文量、好友數(shù)、學歷及職稱等指標分析了科學網(wǎng)博文質(zhì)量,發(fā)現(xiàn)在博文評價當中,博文閱讀量、推薦數(shù)可以高效合理地篩選出符合一定質(zhì)量標準的博文,對評論進行語義分析可用于輔助識別質(zhì)量不高的博文[16]。博客、博文與傳統(tǒng)的期刊、論文差別很大,不能直接套用引文環(huán)境中發(fā)展出來的方法開展研究,需要采用一些新的指標進行的過渡與轉(zhuǎn)換。在分析手段上,需要從引文分析走向鏈接分析和學術(shù)授信分析。
3.4 Z指數(shù)分析法。本文所稱的Z指數(shù)是筆者2010年提出的一個h指數(shù)衍生指標,該指標由全體評價對象通過相互授信而產(chǎn)生,可用于揭示個體學者在資深學者群體中的學術(shù)影響力和相對學術(shù)聲望,其應用步驟分為收集數(shù)據(jù)、賦值、Z變換、數(shù)據(jù)清理、批量h變換[17]。Z指數(shù)分析法可用于圖書評價、期刊評價以及博客評價等研究。
3.4.1 圖書評價。目前使用類h指數(shù)模型及多維視角影響力評價體系等方法雖能在某些方面反映出圖書價值,但權(quán)重系數(shù)劃分主觀、評價主體模糊,實踐性較差。結(jié)合上述原因,筆者嘗試根據(jù)圖書獲得專家學術(shù)授信情況測度其學術(shù)影響力和學術(shù)價值,提出圖書Z指數(shù)[17],即某圖書被至少Z名學術(shù)地位不低于Z的學者引用。圖2展示了圖書Z指數(shù)的計算過程。
圖2 圖書Z指數(shù)的計算流程圖[17]
圖書Z指數(shù)可在一定程度上揭示圖書的學術(shù)價值。例如,出自同一作者的圖書A和B的被引次數(shù)分別為52和145次,其圖書Z指數(shù)分別為6、5。從施引者規(guī)模、學術(shù)地位層次角度看,圖書A比B更能得到同行專家的認可,其學術(shù)價值自然更大。與被引指標僅能描述學術(shù)成果在學術(shù)界的知名度相比,圖書Z指數(shù)在測度影響力深度方面顯然更勝一籌。邢變變等(2019)[18]以圖書Z指數(shù)為量化指標從學術(shù)書評角度比較了不同檔案學經(jīng)典著作的價值,認為圖書Z指數(shù)能在兼顧量化指標的基礎(chǔ)上彰顯不同學術(shù)圖書的質(zhì)量差異。陳艷云(2019)[19]利用圖書Z指數(shù)構(gòu)建了圖書影響力評價模型。
此外,圖書Z指數(shù)可以描述高影響力施引群體的規(guī)模及學術(shù)地位,為評估不同圖書的學術(shù)影響力以及由此而衍生的作者及機構(gòu)聲譽提供了較為精細的測度工具,故在學者、機構(gòu)影響力評價方面也有一定的應用價值。
3.4.2 研究主題預測。從學術(shù)授信分析角度看,特定研究主題之所以能夠快速發(fā)展,一個很重要的原因是其獲得了足夠多的學者的關(guān)注及參與。為測度特定研究主題對內(nèi)行群體的學術(shù)吸引力,周春雷等(2019)[20]提出了一個名為“年度Z指數(shù)”的量化測度指標,用于反映特定主題每年吸引到的參與者規(guī)模及層次。當某年的年度Z指數(shù)與之前相比明顯下降,或年度Z指數(shù)雖有回升但不能超過前高時,該主題很可能在未來一段時間內(nèi)變冷;反之,當年度Z指數(shù)持續(xù)增長,說明該主題的研究熱度會上升。利用年度Z指數(shù)預測研究主題變化趨勢的流程如圖3所示。
圖3研究主題預測流程圖
筆者使用年度Z指數(shù)對研究主題進行學術(shù)授信分析識別“曇花一現(xiàn)”型研究主題,結(jié)果顯示,可通過考察領(lǐng)域內(nèi)主要作者的規(guī)模及學術(shù)地位變化特征和經(jīng)典論文的年度Z指數(shù)變化來觀察研究力量的變化并預測研究主題的冷熱趨勢。值得注意的是,研究主題的冷熱程度與其重要程度并無直接關(guān)系,故不能將各種學術(shù)資源配置工作與研究主題的冷熱過度掛鉤。
3.5 群組分析法。對群組進行深入分析能夠發(fā)現(xiàn)其中的內(nèi)行群體,而揭示、利用他們所看重的信息對開展學術(shù)評價研究十分有益。群組分析法是一種從發(fā)文或引文角度研究群組學術(shù)授信成果、探究學科領(lǐng)域研究熱點或引證規(guī)律的數(shù)據(jù)挖掘方法[21]。群組分析法通過分析高水平群體的學術(shù)行為來研究、利用其中蘊藏的集體智慧。
3.5.1 期刊評價。在期刊評價方面,群組分析法著重挖掘?qū)W者群體以發(fā)文或引用形式表達出的學術(shù)授信信息,以此評價期刊的學術(shù)影響力等方面。筆者結(jié)合群組分析法及Dh指數(shù)分析法分析了《人大復印報刊資料<圖書館學情報學>》的選文特征[22],發(fā)現(xiàn)圖情類入選論文的發(fā)表載體較為權(quán)威,選文作者的學術(shù)影響力基本處于中上水平,建議以《資料》為代表的二次文獻機構(gòu)廣泛吸納單篇論文評價成果及學術(shù)共同體的意見,為選稿專家提供更加豐富的支持信息,進一步提高選文質(zhì)量。《引文視角下的<檔案管理>學術(shù)影響力探討》[23]一文對期刊的施引群體和作者群體進行了比較,探討了作者回報率問題,發(fā)現(xiàn)該刊部分高產(chǎn)作者的引文回報率較低,建議獎勵重要貢獻者。作者回報率的計算方式如下:
R_AB=[(G_BA+C_BA)/T_BA ]×100%(1)
其中,R_AB是A期刊的B作者回報率;G_BA為B作者在A期刊所發(fā)文章的總被引次數(shù);C_BA是B作者對A期刊的施引次數(shù);T_BA是B作者在A期刊的發(fā)文篇數(shù)。
通過使用作者回報率指標能夠幫助期刊找到對擴大其學術(shù)影響力作出貢獻的學者,但該文同時指出采用CSSCI引文數(shù)據(jù)計算作者回報率可能存在的偏頗之處,可能助長某些未必合理的措施,建議各方辯證看待,謹慎使用。另外在該文的研究中發(fā)現(xiàn)提升期刊影響力的關(guān)鍵在于獲得專業(yè)群體的學術(shù)授信??傊萌航M分析法對期刊進行評價,可有效揭示專業(yè)群體對特定期刊的真實學術(shù)授信情況,避免尋常量化指標易受操控之弊。
表2 2002—2014年河南省社會科學優(yōu)秀成果獎[24]
注:表2中曾屬機構(gòu)與現(xiàn)屬機構(gòu)合并居中表示機構(gòu)未發(fā)生變動。
3.5.2 成果影響力評價。群組分析法從學者群體的學術(shù)授信情況分析學術(shù)成果的影響力。周春雷、曹玲靜(2017)以2002—2014年的河南省社會科學優(yōu)秀成果獎的獲獎信息為研究對象,并與教育部高校社科優(yōu)秀成果獎進行了對比(見表2),探討獲獎成果的學術(shù)影響力,[24]研究發(fā)現(xiàn)河南省優(yōu)秀成果獎的影響力圈子相對封閉,影響群體集中在河南省內(nèi),獲獎者的學術(shù)影響力有限,獲獎機構(gòu)分布不均衡且存在人才外流現(xiàn)象。
此外,通過深入研究獲獎者履歷發(fā)現(xiàn),21名獲獎者中有7人的所屬機構(gòu)發(fā)生了變化,例如丁建定、解志熙和柯平,均轉(zhuǎn)向經(jīng)濟發(fā)達地區(qū)發(fā)展。由于社會科學領(lǐng)域?qū)W術(shù)人才的成長周期較長,這種高層次學術(shù)人才大規(guī)模外流現(xiàn)象對河南省哲學社會科學的發(fā)展非常不利,相關(guān)管理者應予以重視。同時,該研究還發(fā)現(xiàn),原信陽職業(yè)技術(shù)學院的楊明星是河南省??圃盒+@得高校社科獎的第一人,但當時未曾獲得河南省社科獎二等獎以上獎項并據(jù)此認為“此例也許足以警示依出身論學術(shù)成果等級的觀點不可取”,建議有關(guān)部門慎重考慮各種報獎門檻問題,還建議梳理評審標準中是否存在不利于優(yōu)秀成果脫穎而出的限制。目前,該學者為鄭州大學特聘教授、中國外交話語研究院主任。不難看出,學術(shù)授信分析在人才識別與管理、評獎管理等方面的潛在價值。
3.5.3 機構(gòu)評價??蒲袡C構(gòu)的學術(shù)聲望,對其知識生產(chǎn)效率和建立合作伙伴關(guān)系均有較大的影響。為觀察各科研機構(gòu)獲得的合作伙伴學術(shù)授信情況并定量評價其在科研朋友圈中的學術(shù)聲望,評估其學術(shù)關(guān)系網(wǎng)絡中的社會資本豐裕程度,筆者從被引角度提出了機構(gòu)論文SCAN指數(shù)[25]。該指數(shù)的計算流程如圖4所示。
圖4SCAN指數(shù)的計算流程[25]
SCAN指數(shù)能體現(xiàn)出評價對象的科研實力、學術(shù)聲望及其學術(shù)合作網(wǎng)絡的整體價值。SCAN指數(shù)與QS排名相關(guān)性很高,與各高校的學科實力排名也較為吻合,可有效揭示各高校學術(shù)論文合作網(wǎng)絡的社會資本價值。具體而言,SCAN指數(shù)在機構(gòu)評價方面的應用潛力體現(xiàn)在以下方面:①預測高潛力科研機構(gòu)。可以利用SCAN指數(shù)比較不同科研機構(gòu)的合作價值并發(fā)現(xiàn)高潛力科研機構(gòu)。②學術(shù)合作網(wǎng)絡分析。利用SCAN指數(shù)對某科研機構(gòu)的學術(shù)合作網(wǎng)絡進行價值分析,更好地挖掘、利用學術(shù)合作網(wǎng)絡中蘊藏的社會資本。
4 總結(jié)與展望
本文系統(tǒng)總結(jié)了筆者團隊在學術(shù)授信分析方面的研究成果,展示了該方法在成果影響力評價、人才評價及評獎預測、研究主題預測、期刊評價和圖書評價等方面的應用潛力。這種新型信息分析方法主張以更加合理的方式使用量化分析技術(shù)及其結(jié)果,建議優(yōu)先采信那些經(jīng)過專業(yè)群體學術(shù)授信的可靠信息。這種強調(diào)證據(jù)可驗證性的信息分析技術(shù)與區(qū)塊鏈思想有較多相通之處,有望在紛繁復雜的開放環(huán)境下找到更多用武之地。
*基金項目:國家社會科學基金項目“學術(shù)圖書價值揭示方法研究”(項目編號:21BTQ067)。
參考文獻:
[[1]陸曙東.怎樣搞好業(yè)余訓練[J].體育與科學,1991(02):47.
[2]周發(fā)強,王慶.在線監(jiān)測數(shù)據(jù)分析下的配電網(wǎng)降損增效研究[J].通訊世界,2018(03):282-283.
[3]王英瑋.科技檔案管理學自學輔導答疑[J].北京檔案,1995(05):27-30.
[4]劉軍.用微機管理文書檔案的幾個重要環(huán)節(jié)[J].南都學壇,1995(03):67-70.
[5]熊志云.計算機輔助檔案管理概述[J].成人教育學報,1998(01):29-31.
[6]陳香萍.論辦公自動化條件下的高校檔案管理策略[J].湘南學院學報,2005(04):108-109.
[7]劉家真.檔案數(shù)據(jù)備份選擇[J].浙江檔案,2004(01):20.
[8]楊劍云,李啟坤,王巍.汶川地震給檔案數(shù)據(jù)備份帶來的新思考[J].蘭臺世界,2008(21):51.
[9]黃南鳳.檔案數(shù)據(jù)備份研究[D].蘇州大學,2009.
[10]周丹.關(guān)于檔案登記備份制度的理論思考[D].浙江大學,2011.
[11]吳斌.試論檔案數(shù)據(jù)的備份[J].辦公室業(yè)務,2013(03):182.
[12]田華麗.淺談學校檔案管理工作現(xiàn)狀及對策[J].科學咨詢(科技·管理),2015(04):42.
[13]劉家真,倪麗娟.創(chuàng)建我國文獻的檔案數(shù)據(jù)災備基地的構(gòu)想[J].檔案學研究,2006(04):47-52.
[14]劉家真,許杰.影響我國數(shù)字信息長期保存的問題與解決方案[J].檔案學研究,2008(04):50-55.
[15]陳先偉,楊建平.成都市中心城區(qū)地籍數(shù)據(jù)庫建設的設計與實踐[C].中國土地學會?中國土地勘測規(guī)劃院?國土資源部土地利用重點實驗室.新技術(shù)在土地調(diào)查中的應用與土地科學技術(shù)發(fā)展-2005年中國土地學會學術(shù)年會論文集.中國土地學會?中國土地勘測規(guī)劃院?國土資源部土地利用重點實驗室:中國土地學會,2005:181-186.
[16]黃道偉,任啟萍,張小宏.以MAPGIS為平臺建立城鎮(zhèn)地籍數(shù)據(jù)庫的探討[J].青??萍?,2010,17(01):45-49.
[17]王合群.淺談第二次土地調(diào)查中城鎮(zhèn)地籍更新調(diào)查數(shù)據(jù)庫建設[J].科技信息,2010(23):445+515.
[18]王大龍.淺談在地籍調(diào)查中的幾個問題[J].新疆有色金屬,2011,34(S2):38-41.
[19]劉雅.數(shù)據(jù)共享技術(shù)在縣級國土資源“一張圖”中應用研究[D].長安大學,2011.
[20]鄭龍水.跨平臺的社交網(wǎng)絡用戶身份識別技術(shù)研究[D].西南科技大學,2018.
[21]劉薇.會計研究現(xiàn)狀梳理及會計信息化研究借鑒[J].會計之友,2018(10):110-114.
[22]于英香.從數(shù)據(jù)與信息關(guān)系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報雜志,2018,37(11):150-155.
[23]譚淑紅.基于“圖查檔案”的城建檔案管理應用[J].城建檔案,2019(04):52-53.
[24]孫明賢.業(yè)務決策支持系統(tǒng)的研究與設計[D].江南大學,2009.
[25]李廣都,羅輝.銀行客戶檔案的數(shù)據(jù)安全問題[J].中國檔案,2007(10):32-33.
[26]侍文庚.淺析企業(yè)客戶檔案的數(shù)據(jù)管理[J].蘭臺世界,2008(13):31-32.
[27]高文君.關(guān)于城市規(guī)劃數(shù)據(jù)標準化的研究與實踐[C].中國城市規(guī)劃學會?南京市政府.轉(zhuǎn)型與重構(gòu)——2011中國城市規(guī)劃年會論文集.中國城市規(guī)劃學會?南京市政府:中國城市規(guī)劃學會,2011:2330-2340.
[28]周丹.關(guān)于檔案登記備份制度的理論思考[D].浙江大學,2011.
[29]許建偉.醫(yī)院電子檔案管理存在的問題與思考[J].社區(qū)醫(yī)學雜志,2013,11(15):17-19.
[30]何振才.智慧校園建設中的檔案數(shù)據(jù)備份淺析[J].蘭臺世界,2013(05):25-26.
[31]王淑萍,張衛(wèi)兵,李銳.森林防火信息管理系統(tǒng)的構(gòu)建[C].中國地球物理學會國家安全地球物理專業(yè)委員會?陜西省地球物理學會軍事地球物理專業(yè)委員會.國家安全地球物理叢書(十)——地球物理環(huán)境與國家安全.中國地球物理學會國家安全地球物理專業(yè)委員會?陜西省地球物理學會軍事地球物理專業(yè)委員會:中國地球物理學會,2014:417-421.
[32][36]金波,楊鵬.大數(shù)據(jù)時代檔案數(shù)據(jù)治理研究[J].檔案學研究,2020(04):29-37.
[33]劉延婷,朱家彪,陶珂,周彬.基于國土空間基礎(chǔ)信息平臺更新土地利用規(guī)劃[J].地理空間信息,2020,18(09):36-39+51+6.
[34]展倩慧.協(xié)同治理視域下檔案數(shù)據(jù)開發(fā)模式探究[J].檔案與建設,2020(04):33-37.
[35]邢小美.工業(yè)大數(shù)據(jù)背景下的鋼鐵企業(yè)檔案管理研究[D].河北大學,2021.
[37]夏天,錢毅.面向知識服務的檔案數(shù)據(jù)語義化重組[J].檔案學研究,2021(02):36-44.
[38][39]湯其強.談談數(shù)據(jù)檔案[J].檔案工作,1981(03):19-20.
[40][41][42]湯其強.試論數(shù)據(jù)檔案——兼談工業(yè)企業(yè)數(shù)據(jù)檔案的收集和分類[J].湖南檔案,1982(04):10-12.
[43]薩兆為.數(shù)據(jù)性文摘初探[J].北京社會科學,1987(03):155-159.
[44]張欣.試論會計電算化環(huán)境下企業(yè)的內(nèi)部控制[J].華東經(jīng)濟管理,2003(S1):160-161.
[45]林玲.高校圖書館應加強參考咨詢檔案的收集與管理工作[J].蘭臺世界,2009(16):70-71.
[46]花文博.淺論基礎(chǔ)地理信息數(shù)據(jù)檔案的管理[J].蘭臺世界,2010(S2):128-129.
[47]駱椒.ERP環(huán)境下的會計信息系統(tǒng)內(nèi)部控制研究[D].湖南大學,2012.,.
[48]李小娟.淺談電子財務數(shù)據(jù)檔案的管理與保存[J].西部財會,2014(03):44-45.
[49]董雷.質(zhì)量管理數(shù)據(jù)標準為大[J].印刷技術(shù),2014(03):26-28.
[50]梁好.縣(區(qū))級供電公司供電檢修計劃管理系統(tǒng)的研究與分析[D].云南大學,2015.
[51]張繁偉.基于供應鏈的食品安全保障體系構(gòu)建研究[D].成都理工大學,2014.
[52]孫俐麗,吳建華.關(guān)于國家數(shù)字檔案資源整合與服務機制頂層設計的初步思考[J].檔案學研究,2016(01):57-61.
[53][54]李夢瑤,李廣都.大數(shù)據(jù)時代利用移動終端獲取數(shù)據(jù)檔案模式研究[J].北京檔案,2016(10):22-23.
[55][56]陳巖.大數(shù)據(jù)和泛在知識背景下的中國數(shù)據(jù)檔案發(fā)展研究[J].云南檔案,2018(08):54-59.
[57]張宏磊,李正燕.大數(shù)據(jù)思維下體育傳統(tǒng)項目數(shù)據(jù)檔案系統(tǒng)的建設[J].山西檔案,2017(01):142-144.
[58]劉麗敏.淺析信息化項目建設中的檔案電子化管理[J].臨床醫(yī)藥實踐,2019,28(11):879-880.
[59]鄧舒音.黑龍江省縣級機關(guān)數(shù)字檔案管理現(xiàn)狀調(diào)研[D].黑龍江大學,2020.
[60]吳雁平.大成編客.檔案數(shù)據(jù)研究與實踐.[EB/OL]2021-02-11[2021-10-07].https://bianke.cnki.net/home/corpus/25530.html.
(作者單位:陳陽,中山大學信息管理學院;吳雁平,開封市檔案館;劉永,鄭州航空工業(yè)管理學院 來稿日期:2022-02-19)
[5]周春雷.領(lǐng)域內(nèi)h指數(shù)及其應用研究[J].圖書情報工作,2012,56(10):45-49.
[6]Zhou C L,Kong X Y,Lin Z P.Research on Derek John de Solla Price Medal Prediction Based on Academic Credit Analysis[J].2019,118(01):159-175.
[7]周春雷,蔡程瑞,張?zhí)?,?國內(nèi)圖情學者歷時h指數(shù)研究[J].圖書情報工作,2017,61(19):96-101.
[8]蔡程瑞.國內(nèi)圖情期刊高頻編委群體學術(shù)影響力研究[D].鄭州大學,2018.
[9]White,HD.Authors as Citers Over Time[J].Journal of American Society for Information Science and Technology,2001,52(02):,87-108.
[10]周春雷.引薦分析法:一種新的引文分析法[J].情報學報,2010,29(04):671-678.
[11]周春雷,李冰瑩.基于引薦分析的國內(nèi)引用認同領(lǐng)域分析[J].數(shù)字圖書館論壇,2015,(01):26-29.
[12]周春雷,蔡程瑞.基于CNKI的國內(nèi)檔案學博碩士學位論文研究[J].檔案管理,2017(01):37-39.
[13]McKiernan G.Automated categorisation of web resources:a profile of selected projects,research,products,and services[J].New review of information networking.1996,2(01):15-40.
[14]盧文輝,葉繼元.鏈接分析法在國內(nèi)網(wǎng)站實證研究中的應用現(xiàn)狀分析[J].圖書情報工作,2019,63(18):119-130.
[15]周春雷.鏈接內(nèi)容分析視角下的科學網(wǎng)博客評價探索.圖書情報知識,2012,(04):11-17.
[16]周春雷,王涵墨.科學網(wǎng)博文質(zhì)量評價研究[J].圖書館學研究,2015(23):94-101.
[17]周春雷,陳艷云,蔡程瑞.圖書Z指數(shù)及在其影響力評價研究中的應用[J]圖書情報工作,2018,62(14):106-115.
[18]邢變變,各玉杰.檔案學經(jīng)典著作學術(shù)授信評價研究——以學術(shù)書評為分析樣本[J].檔案學研究,2019,(03):83-88.
[19]陳艷云.學術(shù)授信評價視角下的圖書影響力研究[D].鄭州大學,2019.
[20]周春雷,師文欣,王小凱.學術(shù)授信視角下的“曇花一現(xiàn)”型研究主題識別方法研究[J].情報雜志,2019,38(08):68-74,89.
[21]王涵墨.基于學術(shù)授信的群組分析法研究[D].鄭州大學,2017.
[22]周春雷,孟麗慧,李正南.人大復印報刊資料《圖書館學情報學》選文特征分析[J].情報雜志,2021,40(08):159-163,封三.
[23]周春雷,陳瑩.引文視角下的《檔案管理》學術(shù)影響力探討[J].檔案管理,2021,(02):97-99.
[24]周春雷,曹玲靜.河南省社會科學優(yōu)秀成果獎學術(shù)影響力研究[J].中國科技期刊研究,2017,28(08):748-756.
[25]周春雷,周慧芳.學術(shù)網(wǎng)絡社會資本視角下的學科評價指標探索[J].現(xiàn)代情報,2018,38(09):79-86.
(作者單位:周春雷,李彥博,曾慶坤鄭州大學信息管理學院;孟麗慧,鄭州市數(shù)據(jù)科學研究中心來稿日期:2021-12-20)
問題及其解決[J].山西檔案,2017(06):11-16.
[21]李明德,趙琛.新媒體時代“四力”的突圍與跨越——基于“十三五”時期中國新媒體發(fā)展的幾個焦點[J].編輯之友,2021(01):12-20.
(作者單位:南昌大學人文學院 來稿日期:2021-07-28)
[18]蔣志清.企業(yè)業(yè)務流程設計與管理[M].北京:電子工業(yè)出版社,2002:15-16.
[19][20][25]王建仁,王錦,趙斌,段剛龍.基于業(yè)務流程生命周期的流程知識分類及管理[J].情報雜志,2006(02):72-74.
[21]張臻.文件生命周期理論研究進展[J].蘭臺世界,2017(13):10-16.
[22]王英瑋,金凡.記錄連續(xù)體的構(gòu)成要素內(nèi)涵與創(chuàng)新研究[J].檔案學研究,2019(01):4-10.
[24]尹鵬程,李鋼,黃亮,喻存國.土地業(yè)務全程管理模式研究[J].中國土地科學,2009,23(10):59-65.
[26][29][38]馮惠玲.電子文件管理教程[M].北京:中國人民大學出版社,2001:2-161.
[27][40]薛四新.云計算環(huán)境下電子文件管理的實現(xiàn)機理研究[D].北京:中國人民大學,2012.
[28]盧藝豐,徐躍權(quán).“互聯(lián)網(wǎng)+”環(huán)境下信息鏈的重構(gòu)——交互式信息鏈[J].情報科學,2020,38(06):32-37.
[30]IBM商業(yè)價值研究院.組件化模型[EB/OL].[2021-01-10].https://wenku.baidu.com/view/e566f422af45b307e8719717.html.
[31]于英香,孫遜.從文件結(jié)構(gòu)演化看電子文件數(shù)據(jù)化管理的發(fā)展——基于技術(shù)變遷的視角[J].檔案學通訊,2019(05):20-26.
[33]陳永生,楊茜茜,王沐暉,蘇煥寧.基于互聯(lián)網(wǎng)政務服務平臺的文件歸檔與管理:記錄觀[J].檔案學研究,2019(03):16-23.
[34][36]陳永生,蘇煥寧,楊茜茜,王沐暉.基于互聯(lián)網(wǎng)政務服務平臺的文件歸檔與管理:全程觀[J].檔案學研究,2018(04):4-12.
[35]許民利,齊鑫,簡惠云.不同權(quán)力(權(quán)利)結(jié)構(gòu)下考慮價值共創(chuàng)的閉環(huán)供應鏈決策研究[J].工業(yè)技術(shù)經(jīng)濟,2020,39(08):62-71.
[37]任紅,邢一杰.“華龍一號”文檔管理體系構(gòu)建[J].中國檔案,2017(03):61-63.
[39]吳志杰,王強.組織機構(gòu)視角下的業(yè)務系統(tǒng)電子文件歸檔:問題?理念與策略框架[J].檔案學通訊,2020(04):79-86.
[41]Henry J P,祁天嬌,嘎拉森.從紙質(zhì)到增值:渥太華市的信息治理和電子文件[J].檔案學通訊,2020(02):26-31.
[42]Standards.Australia.HB5031-2011 Records Classification[S].Sydney:SAI Global Limited,2011.
(作者單位:李喆、陳瑩,福建福清核電有限公司;任琳琳,中國人民大學信息資源管理學院 來稿日期:2021-05-13)