舒光美
關鍵詞: 獨立信息; 評價指標; 數(shù)據(jù)冗余; 指標體系; 學術期刊
DOI:10.3969 / j.issn.1008-0821.2023.05.011
〔中圖分類號〕G302 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 05-0114-09
在學術期刊評價中, 評價指標從不同視角提供了全方位的信息。早期的文獻計量指標主要從影響力、來源指標等角度進行評價, 評價指標如影響因子、基金論文比、載文量、地區(qū)分布數(shù)、平均作者數(shù)等, 后面慢慢地拓展到其他視角, 如期刊時效性、網(wǎng)絡下載、期刊跨學科特征等, 評價指標如被引半衰期、引用半衰期、Web 即年下載率、擴散因子等。目前, 已有幾十余種學術期刊評價指標,這些指標的出現(xiàn), 豐富了期刊的評價內容, 便于人們從多方面對學術期刊進行評價。
期刊評價指標之間往往是相關的, 因此分離出期刊特有的獨立信息非常重要。期刊評價指標數(shù)量眾多, 并且指標之間的相關度往往較高, 比如影響因子與5 年影響因子, 總被引頻次與h 指數(shù)等。在多屬性評價中, 除了少數(shù)采用主成分或因子分析進行降維的評價外, 大多數(shù)期刊評價方法均面臨著由于評價指標相關導致的重復計算問題, 勢必會嚴重影響評價結果。這是學術評價方法的基本理論問題, 迄今為止缺乏有效的研究, 必須加以重視。
信息價值測度與實現(xiàn)問題是信息社會面臨的基本問題[1] 。信息冗余是信息相關問題的另一種表述方式, 必須加以關注。信息論認為, 如果一個信號所包含的信息可以從該系統(tǒng)其他信號中取得, 那么該信息就是冗余信息[2] 。Muller E 等[3] 從社會網(wǎng)絡結構角度指出, 如果網(wǎng)絡的重復程度低, 每個連接傳遞的信息都是有價值的。Harrigan N M 等[4] 分析了信息冗余的表現(xiàn), 包括用戶關注許多內容相似的信息, 或者收到許多重復的信息時。秦爍等[5]認為, 信息冗余過于嚴重會導致信息傳播效率低,使信息喪失原有價值。劉偉超等[6] 提出, 當用戶的信息需求超過其搜集能力, 導致無法在恰當?shù)臅r間、以適當?shù)男问綄η閳筮M行有效利用時, 就處于“信息冗余” 的困境之中。
關于指標相關問題的解決方法, 目前主要集中在刪減指標上。Meyer P E 等[7] 提出, 為了降低信息重疊度, 實現(xiàn)指標的篩選功能, 應采取剔除刪除相對不重要的指標的方式。陳洪海[8] 首先建立了信息可替代性標準, 然后剔除冗余信息較大指標,降低了評價指標之間的信息重疊程度。遲國泰等[9]為了解決主成分法無法賦權及合理篩選指標的問題, 提出了基于信息敏感性的指標篩選與賦權模型。蔣艷霞等[10] 通過遺傳算法技術, 根據(jù)預測模型的預測正確率來選擇指標, 以降低指標信息重疊問題。此外, 俞立平等[11] 采用1減去擬合優(yōu)度R2的方法作為判斷指標獨立信息的標準。
基于現(xiàn)有的研究, 關于指標信息重疊或數(shù)據(jù)冗余問題及其后果已經得到了學術界的公認, 對于相關問題的解決方法, 從指標層面, 目前均集中在采用一定的規(guī)則刪除冗余指標上, 相關研究主要集中在基本方法論上, 而從學術評價角度開展相關討論的尚處于起步階段。目前, 以下問題尚需要進一步探討:
第一, 通過刪除指標來降低指標之間相關帶來的冗余問題是不得已的辦法, 因為被刪除的指標仍然包含一些重要的信息, 尤其在期刊數(shù)量較多的學科, 刪除指標對評價結果的排序可能影響很大。
第二, 關于指標信息重疊的剔除, 目前尚沒有有效方法, 有必要厘清思路, 從新的視角探索評價指標消除冗余后的“獨立信息”。
第三, 如果采取某種方法獲得指標的“獨立信息”, 那么這些獨立信息的特點如何, 其內涵有什么特征, 相關問題缺乏深入分析。
本文根據(jù)期刊評價指標與其他指標的相關度大小以及指標可預測性水平進行評價指標“獨立信息” 的測度, 創(chuàng)造性地提出了一種新的測度方法,在此基礎上, 首先按期刊綜合指標CI 指數(shù)分類,分析指標獨立信息的特點; 然后按獨立信息對期刊進行評價, 分類后分析原始指標的特點; 再比較期刊CI 指數(shù)與獨立信息評價指標之間的關系; 最后基于BP 人工神經網(wǎng)絡, 研究原始指標與獨立信息評價值的關系, 從而對期刊獨立信息測度方法進行綜合評價。
本文的貢獻主要是創(chuàng)造性地提出了一種新的期刊評價指標獨立信息測度方法, 解決了學術評價與多元統(tǒng)計的基本問題。對于情報學方法與多元統(tǒng)計方法具有開創(chuàng)性的貢獻, 研究成果對于學術評價也具有一定意義, 解決了評價指標的數(shù)據(jù)冗余問題,降低了學術評價的系統(tǒng)誤差, 因而具有非常重要的學術價值與應用價值。
1研究方法
1.1獨立信息測度的基本原理
本文基于回歸分析的基本原理來進行指標獨立信息的測度, 如圖1 所示。先考慮最簡單的情況,假設只有兩個評價指標X、Y, 兩者具有相關關系,首先用X 作為自變量, Y 作為因變量進行回歸, ei為殘差。很明顯, 具有如下特征:
第一, 當殘差ei=0時, 說明該點(Xi,Yi)位于擬合直線上, 此時Yi 完全可以由Xi進行預測, 也就是說, Yi不具有獨立信息。極限情況下, 當所有的殘差為0 時, X和Y 之間的擬合優(yōu)度R2= 1,此時Y 可以完全由X 計算得到, 即Y 不包含任何信息。
基于以上分析, 殘差ei大小就決定了Yi的獨立信息量。由于殘差ei既有可能大于0, 也有可能小于0, 而評價指標的獨有信息必須大于0, 因此需要取絕對值, 另外, 由于不同指標量綱不同, 顯然不能直接用殘差大小表示獨立信息, 因此本文采用殘差絕對值與Y 之比表示獨立信息, 簡寫為Ⅲ(Independent Information Index):
1.2研究框架
本文的研究框架如圖2 所示, 在對原始指標的獨立信息進行測度后, 為了對獨立信息的內涵特征進行綜合分析, 主要沿著以下3 條脈絡進行分析:
第一, 獨立信息的內涵問題。鑒于獨立信息是一種全新的處理方式, 其內涵特征有待進一步分析。計算獨立信息后, 分析各指標與原始指標的相關系數(shù), 各指標與原始指標的復相關系數(shù), 并進行對比。
第二, CI 指數(shù)分類視角下獨立信息的特征?;谥袊W(wǎng)CI 指數(shù)的分區(qū), 將學術期刊進行分組,一組為Q1 區(qū)期刊, 另一組為其他期刊, 在此基礎上, 基于獨立樣本t 檢驗分析獨立信息指標兩組均值是否有明顯差異, 從而對單個指標獨立信息的內涵特征進行分析。
第三, 基于獨立信息指標進行評價, 比較CI指數(shù)與獨立信息評價結果的關系, 從總體視角分析獨立信息的特點。
第四, 獨立信息評價視角下原始指標的特征?;讵毩⑿畔⒅笜诉M行多屬性評價, 然后對評價結果進行分組, 在此基礎上, 對原始指標進行獨立樣本t 檢驗, 比較均值是否有顯著差異, 從另外一個角度分析單個指標獨立信息的特點。
第五, 原始指標對獨立信息評價結果的解釋能力。用原始指標作為輸入變量, 獨立信息評價結果作為輸出變量, 建立BP人工神經網(wǎng)絡模型學習模型, 分析原始指標的解釋力, 從另外一個視角對獨立信息的總體特征進行分析。
以上分析框架既有微觀視角的分析, 也有宏觀視角的分析, 可以更加全面地對指標獨立信息測度方法及其對學術評價帶來的影響進行全方位的分析。
1.3研究方法
1) 獨立樣本t 檢驗。獨立樣本t 檢驗統(tǒng)計量為:
式(3) 中, Xi為樣本值, Si為其標準差, ni表示樣本量。構造1 個t 檢驗值, 用來比較評價指標兩組均值是否有顯著差異。其前提條件是方差齊次性與正態(tài)分布, 一般情況下, 獨立樣本t 檢驗具有較好的穩(wěn)健性, 只要樣本容量足夠, 往往效果較好。
2) BP 人工神經網(wǎng)絡。對于采用指標獨立信息的評價結果, 分析原始評價指標與其關系, 可以深度感知獨立信息的總體內涵。本質上, 這相當于一個黑箱, 原始指標作為輸入變量, 獨立信息評價結果作為輸出變量, 通過建立BP 人工神經網(wǎng)絡學習模型, 分析兩者的關系是一種全新的思路。
BP 神經網(wǎng)絡模型本質上是模擬大腦神經網(wǎng)絡的工作原理, 而且其具有分布式并行處理的特征,因而近年來應用越來越廣泛[12] 。BP 神經網(wǎng)絡包括輸入、隱含、輸出3 層。每層網(wǎng)絡節(jié)點可有多個,算法的核心思想是通過調整網(wǎng)絡連接的權重使其總體誤差最小。
假設輸入變量有m 個, 隱含層q 個, 輸出變量l 個, 學習步驟如下:
第一, 進行網(wǎng)絡初始化, 并給權重系數(shù)最小的隨機數(shù)賦值。
2研究數(shù)據(jù)
本文以中國知網(wǎng)農業(yè)經濟期刊為例進行研究,相關評價指標數(shù)據(jù)來源于《中國學術期刊影響因子年報(人文社會科學)》2020版以及中國知網(wǎng)引文數(shù)據(jù)庫。知網(wǎng)農業(yè)經濟期刊共51 種, 其中8 種期刊數(shù)據(jù)缺失, 將其刪除, 實際還有43種。
作為一個評價指標相關度解決方法的算例, 本文選取的評價指標有平均引文數(shù)、引用期刊數(shù)、基金論文比、影響因子、h 指數(shù)、即年指標、被引期刊數(shù)、Web 即年下載率、總下載量、被引半衰期、引用半衰期。在期刊評價時, 同樣基于算例原則,設定所有評價指標的權重相等。所有評價指標的描述統(tǒng)計如表1 所示。
3實證結果
3.1獨立信息的測度及與原始指標的相關系數(shù)對比
首先進行評價指標獨立信息的測度, 其描述統(tǒng)計如表2 所示。即年指標的獨立信息數(shù)據(jù)偏倚情況比較嚴重, 其他指標總體上尚處于穩(wěn)定狀態(tài)。
原始指標與獨立信息指標各類相關系數(shù)如表3所示。從原始指標與獨立信息指標的相關系數(shù)看,其平均值為0.210, 總體上相關水平較低, 說明評價指標原始數(shù)據(jù)與獨立信息相差較大, 從另外一個角度說明, 由于評價指標重疊信息的存在, 必將對評價結果產生較大影響。
原始指標與其他指標的復相關系數(shù)的平均值為0.889, 總體上水平均較高, 說明冗余比較嚴重, 即使最小的基金論文比, 其復相關系數(shù)也高達0.777,即77.7%的信息由其他指標解釋, 只有22.3%的信息是自己的獨立信息。而獨立信息指標與其他指標復相關系數(shù)的均值為0.624, 大大降低了復相關系數(shù), 說明獨立信息指標的降低信息冗余效果較好, 能夠較好地提高評價精度。
3.2基于CI 指數(shù)分區(qū)的獨立信息指標特征分析
根據(jù)CI 指數(shù), 農業(yè)經濟期刊分為Q1、Q2、Q3、Q4 共4 區(qū), 為簡捷起見, 本文區(qū)分Q1 區(qū)期刊與其他區(qū)期刊, 其中Q1 區(qū)期刊共12種, 其他期刊31 種。CI 指數(shù)根據(jù)總被引頻次和影響因子計算而來, 其計算公式如下:
式(12) 中, A為影響因子, B為總被引頻次,k為權重調節(jié)系數(shù), 根據(jù)量效指數(shù)進行適當調整。
獨立樣本t 檢驗結果如表4所示, 平均引文數(shù)、影響因子、h 指數(shù)、被引期刊數(shù)、Web 即年下載率、總下載量通過了統(tǒng)計檢驗, 其他指標獨立信息沒有通過統(tǒng)計檢驗。主要原因是CI 指數(shù)與期刊影響力高度相關, 因此, 期刊影響力指標以及和期刊影響力指標高度相關的指標就通過了統(tǒng)計檢驗。通過統(tǒng)計檢驗的指標中, 除影響力指標外, 平均引文數(shù)一定程度上說明期刊論文質量高, 容易被引, 而Web 即年下載率和總下載量本質上也是期刊影響力指標。作為影響力指標的即年指標沒有通過統(tǒng)計檢驗, 主要原因可能是其數(shù)據(jù)偏倚比較嚴重造成。
從通過獨立樣本t 檢驗指標的均值看, 相對優(yōu)秀的Q1 區(qū)期刊的獨立信息均值都小于其他一般期刊。即使是沒有通過統(tǒng)計檢驗的指標, 相對優(yōu)秀的Q1 區(qū)期刊的獨立信息均值也小于其他一般期刊,從這個角度可以看出, 獨立信息屬于反向指標。
3.3基于獨立信息指標的學術期刊評價及其比較
作為一個算例, 基于等權重對所有獨立信息指標進行加權匯總, 得到獨立信息評價結果, 將其排序與CI 指數(shù)進行對比, 結果如表5所示。兩者排序相差較大, 主要原因是獨立信息提供了更多的信息, 而CI 指數(shù)提供的只是期刊影響力信息。
獨立信息評價結果S 與CI指數(shù)的回歸結果如下:
兩者相關度中等, 回歸系數(shù)為-0.467,并且通過了統(tǒng)計檢驗, 說明獨立信息越小, 期刊影響力越大。
采用獨立信息評價, 本質上是發(fā)揮各指標所提供的獨立信息功能, 并且減少了信息冗余, 這樣獨立評價結果就和以影響力為主的CI 指數(shù)評價結果相差較大, 說明獨立信息評價在減少冗余的同時能夠提供評價的全方位信息。
3.4基于獨立信息評價結果分類的期刊原始指標信息分析
根據(jù)CI 指數(shù)分區(qū)中Q1 區(qū)期刊的數(shù)量, 將獨立信息評價結果分為12 種優(yōu)秀期刊與31 種一般期刊, 再對原始指標進行獨立樣本t 檢驗, 以分析獨立信息評價結果的側重點和信息量, 結果如表6 所示。需要說明的是, 由于獨立信息評價結果與CI指數(shù)負相關, 因此在篩選12 種獨立信息評價優(yōu)秀期刊時, 采取的是“越小越好” 原則。
原始指標獨立樣本t 檢驗的結果表明, 采用獨立信息評價的優(yōu)秀期刊與一般期刊, 平均引文數(shù)、基金論文比、影響因子、h 指數(shù)、即年指標、被引期刊數(shù)、Web 即年下載率、總下載量均通過了統(tǒng)計檢驗, 只有引用期刊數(shù)、被引半衰期、引用半衰期沒有通過統(tǒng)計檢驗, 并且通過統(tǒng)計檢驗的指標中, 優(yōu)秀期刊的相關指標均值均高于一般期刊, 這說明采用獨立信息評價能夠更好更全面地反映期刊相關信息。
3.5原始指標與獨立信息評價結果的神經網(wǎng)絡預測
建立3層BP神經網(wǎng)絡模型, 輸入變量為原始評價指標, 輸出變量為學術期刊獨立信息評價結果, 用來分析獨立信息對原始指標信息量的解釋程度。典型神經網(wǎng)絡的預測的擬合結果如圖3 所示,擬合度具有較高水平。由于BP神經網(wǎng)絡模型每次訓練的結果均不一致, 因此訓練5 次, ?。?次的平均結果, 如表7 所示。
從BP 神經網(wǎng)絡的預測結果看, 獨立信息評價結果與原始指標的相關系數(shù)的平均值為0. 985, 擬合優(yōu)度的平均值為0.961, 具有極高的相關度, 說明采用獨立信息評價可以充分展示原始指標的各類信息。
4研究結論與討論
4.1研究結論
1) 由評價指標之間的相關性導致的信息重疊問題需引起足夠的重視。在學術期刊評價中, 建立指標體系采用多屬性評價是一類重要的評價方法,但由于文獻計量指標之間往往相關性比較嚴重, 帶來數(shù)據(jù)的冗余問題, 導致信息重疊, 嚴重扭曲專家權重, 從而使評價結果產生較大的誤差, 降低了評價方法的科學性, 這個問題必須盡快加以解決。
2)基于回歸的獨立信息測度方法提供了一種較好的解決思路。本文基于多元回歸原理, 采用殘差絕對值除以原始指標的比值作為獨立信息的一種測度方法, 這是一種全新的解決方法。研究結果表明,原始指標與獨立信息指標的相關系數(shù)僅為0.210,說明獨立信息指標能夠提供更多的信息。獨立信息指標的平均復相關系數(shù)與原始指標相比降低了30%,這也進一步說明獨立信息指標較好地解決了指標信息重疊問題。此外, 基于原始指標與獨立信息評價結果的人工神經網(wǎng)絡分析也顯示, 獨立信息包括了原始指標的絕大多數(shù)信息, 相關系數(shù)為0.985, 擬合優(yōu)度為0.961, 具有極少的信息損失。
3) 獨立信息指標是一個反向指標。根據(jù)CI 指數(shù)分類的獨立信息獨立樣本t 檢驗的研究結果, 以及根據(jù)獨立信息評價結果分類的原始指標獨立樣本t 檢驗的研究結果均表明, 獨立信息指標均是反向指標, 此外, 獨立信息評價結果與CI 指數(shù)也是負相關, 這充分說明, 根據(jù)本文方法計算得到的獨立信息評價指標是反向指標。
4) 獨立信息指標能夠反映原始指標的“元信息”。根據(jù)CI 指數(shù)分級, 對獨立信息指標的獨立樣本t 檢驗結果表明, 平均引文數(shù)、影響因子、h 指數(shù)、被引期刊數(shù)、Web 即年下載率、總下載量通過了統(tǒng)計檢驗, 引用期刊數(shù)、即年指標、被引半衰期、引用半衰期沒有通過統(tǒng)計檢驗, 因為通過統(tǒng)計檢驗的指標, 總體上與影響力相關, 而CI 指數(shù)主要測度的就是影響力, 所以與影響力相關指標的獨立信息能夠較好地反映期刊的影響力。
根據(jù)獨立信息評價結果分級, 對原始指標進行獨立樣本t 檢驗, 絕大多數(shù)指標均通過了統(tǒng)計檢驗, 只有引用期刊數(shù)、被引半衰期、引用半衰期沒有通過統(tǒng)計檢驗, 這說明基于指標獨立信息進行評價, 擁有更好的信息廣度。
以上研究充分說明, 獨立信息指標能夠反映原始評價指標的原始信息, 也可以稱為“元信息”,這是非常重要的, 也是獨立信息指標測度方法正確的另一種佐證。
4.2討論
本文根據(jù)農業(yè)期刊數(shù)據(jù)進行了實證研究, 對于其他學科期刊的指標獨立信息測度及其深入分析,有待進一步研究。此外, 本文研究方法需要大樣本數(shù)據(jù)支持, 因此, 當期刊數(shù)量較多時效果會更好。