張雪蕾,魏青山(西安交通大學圖書館)
高校機構知識庫網(wǎng)絡影響力研究與思考
張雪蕾,魏青山(西安交通大學圖書館)
利用層次分析法構建高校機構知識庫網(wǎng)絡影響力評價指標體系,從網(wǎng)站鏈接認可度、網(wǎng)站可見度和網(wǎng)站關注度三項指標考察我國部分高校機構知識庫的網(wǎng)絡表現(xiàn),結合灰色關聯(lián)分析法,發(fā)現(xiàn)我國高校機構知識庫網(wǎng)絡影響力普遍較低。結合網(wǎng)絡分析結果,提出應從優(yōu)化網(wǎng)站架構、注重外鏈建設、存繳特色資源等方面強化,以提升我國高校機構知識庫網(wǎng)絡影響力。
機構知識庫;網(wǎng)絡影響力;評價指標
機構知識庫 (Institutional Repository,簡稱 IR)是2002年《布達佩斯宣言》發(fā)布以來,開放獲取運動的一項重要產(chǎn)物,旨在日益開放的網(wǎng)絡時代使得學術資源能夠為公眾便利地獲取,從而促進全球學術交流。高等學校肩負著學術傳播的重任,構建IR是開放獲取運動發(fā)展的必然結果。自2008年起,西班牙網(wǎng)絡計量實驗室發(fā)布世界知識庫網(wǎng)絡計量學排名(Ranking Web of Repository),從網(wǎng)頁規(guī)模、能見度、文檔豐富度及學術成果數(shù)4項指標對全球知識庫進行排名。[1]
本文以“世界知識庫網(wǎng)絡計量學排名(2015年7月版)”為基礎,借鑒前人研究成果,利用層次分析法和專家論證,對世界知識庫網(wǎng)絡計量學排名的評價指標做出了部分調(diào)整,構建了基于網(wǎng)絡計量學的高校IR影響力評價指標體系,對各高校IR進行評估,并通過分析排名結果,找出我國IR網(wǎng)絡表現(xiàn)不足之處;針對發(fā)現(xiàn)的問題,結合筆者這幾年的工作實踐,提出一些深入思考。
2.1網(wǎng)絡影響力概述
國外針對網(wǎng)絡計量學的研究起步較早。20世紀末,Peter Ingwersen提出了網(wǎng)絡影響因子指標這一概念;[2]1999年,德克薩斯州大學奧斯汀分校的Sybil Shearin研究了如何利用網(wǎng)絡計量學來改善搜索引擎指標,提升網(wǎng)站的能見度;2003年,Musgrove等人在研究中發(fā)現(xiàn)網(wǎng)站的內(nèi)鏈建設在網(wǎng)絡計量中有重要作用;2005年,胡弗漢頓大學的Li Xuemei基于網(wǎng)絡計量學對國際大學網(wǎng)站網(wǎng)絡影響力進行了研究。[3]
張洋等針對網(wǎng)絡鏈接分析術語混亂的問題,建議對術語規(guī)范化;[4]岳增慧等通過網(wǎng)絡空間鏈接特征,網(wǎng)絡空間規(guī)模、鏈接數(shù)量和影響力等多項指標對中美高校圖書館進行評價;[5]劉文云等構建了我國省級圖書館網(wǎng)絡影響力評價指標體系,包括網(wǎng)站規(guī)模、流量、被鏈接量、關注度和利用率5個評價指標;[6]丁敬達等在此5個指標基礎上,新增了網(wǎng)站PR值指標對我國高校IR網(wǎng)絡影響力進行分析;[7]邱均平等在借鑒世界大學網(wǎng)絡計量排名(Ranking Web of University)[8]評價指標基礎上,從鏈接、顯示度、內(nèi)容豐富度和學術文檔的角度評價了我國部分大學的網(wǎng)絡影響力;[9]吳茵茵使用鏈接總數(shù)、外部鏈接總數(shù)、網(wǎng)頁總數(shù)、鏈接效率、網(wǎng)絡影響因子和外部網(wǎng)絡影響因子等6項指標對中美26所高校的網(wǎng)絡影響因子進行測定。[10]
綜合國內(nèi)外研究現(xiàn)狀,學者大都運用鏈接分析法對不同類型網(wǎng)站的網(wǎng)絡影響力進行評價,提出如何優(yōu)化搜索引擎、如何提高外鏈數(shù)目等有助于網(wǎng)站發(fā)展的策略。目前,多是針對某一特定行業(yè)網(wǎng)站進行評價分析,尚未形成完整的網(wǎng)絡計量評價指標體系。
2.2指標體系模型的構建
利用層次分析法構建了高校IR網(wǎng)絡影響力評價指標體系模型,如圖所示。構建的指標體系模型涵蓋了網(wǎng)站鏈接認可度(外部鏈接數(shù)、鏈接效率、外部網(wǎng)絡影響因子);網(wǎng)站可見度(網(wǎng)頁規(guī)模、學術成果論文數(shù)、文檔豐富度、PR值(PageRank));網(wǎng)站認可度;網(wǎng)站訪問總量。各指標內(nèi)涵見表1所示。此處針對網(wǎng)站認可度指標的選取做出一點說明,認可度通常是指根據(jù)網(wǎng)絡流量來判斷網(wǎng)站的人氣及粘著性,常用的統(tǒng)計指標有網(wǎng)站點擊量、網(wǎng)站訪問量、訪問人次等,通常利用站長之家、流量統(tǒng)計工具等來獲取數(shù)據(jù)。但由于大部分IR在流量工具中只能統(tǒng)計到訪問量,其余指標無法統(tǒng)計,故僅選用總訪問量作為評價指標。
圖 高校IR網(wǎng)絡影響力評價指標體系模型
2.3各項指標權重的確定
在確定評價指標后,通過專家論證對上述各項指標權重加以確定。利用Saaty提出的9級比例標尺來評價各指標重要性,構建比較判斷矩陣(如表2-表4所示),對各矩陣進行一致性檢驗,并對層次進行總排序及一致性檢驗,最后得出各項指標的權重。[11]
表1 高校IR網(wǎng)絡影響力指標內(nèi)涵
表2 一級指標判斷矩陣A
表3 二級指標判斷矩陣B1
表4 二級指標判斷矩陣B2
求解出各判斷矩陣的特征向量和最大特征值λmax,得:
一級指標判斷矩陣A: λmax=3.009,特征向量W0=[0.587,0.324,0.089]T
二級指標判斷矩陣B1:λmax=3,特征向量 W0= [0.143,0.286,0.571]T
二級指標判斷矩陣 B2:λmax=3.994,特征向量W0=[0.167,0.499,0.167,0.167]T
本文針對最高層級排序,即對矩陣 A進行單層次排序結果為總排序結果。針對于 A矩陣下的不同矩陣 B1、B2,分別需要在不割裂各指標間相互關系的基礎上計算總排序權重,計算結果見表5。除對各判斷矩陣進行一致性檢驗,還需進行組合一致性檢驗,以確定組合權向量是否可作為最終的決策依據(jù)。檢驗結果如下:=0.026,=0.63,=0.041<0.1,可認定所有的判斷具有整體滿意的一致性。
表5 高校IR網(wǎng)絡影響力評價指標體系層次總排序(權重表)
其中,一級指標中網(wǎng)站鏈接認可度權重為0.587,所占比例最高;其次為網(wǎng)站可見度和網(wǎng)站關注度。二級指標中,權重比例排名前三的指標分別是外部網(wǎng)絡影響、鏈接效率和學術文檔數(shù)目。
3.1研究對象的選擇
通過對我國部分高校IR建設調(diào)研、多次參加IR學術會議,參照中國機構知識庫推進工作組發(fā)布的《中國機構知識庫案例匯編手冊》,本文選擇了清華大學、北京大學、中國人民大學、西安交通大學、廈門大學、蘭州大學、西北工業(yè)大學、江蘇大學、北京師范大學、北京工業(yè)大學、北京科技大學、北京郵電大學和首都師范大學共計13所高校IR作為網(wǎng)絡影響力分析樣本,且樣本中IR系統(tǒng)可分為DSpace(4家)和產(chǎn)品軟件(9家)。根據(jù)上述指標體系模型,對各IR進行評價和結果分析。
3.2數(shù)據(jù)采集與處理
鑒于早期主流分析網(wǎng)絡影響力的工具,如AltaVisa、AllTheWeb、Hotbot等已停止服務,[12]本文采用測試集合的方式進行,即不同評價指標通過不同的測試工具進行數(shù)據(jù)采集(采集時間為2015年10月23日至10月25日)。
(1)外部鏈接數(shù)目。通過各IR網(wǎng)站URL在全球最大外鏈查詢數(shù)據(jù)庫Majestic SEO和Ahrefs來獲取目標IR外鏈數(shù)目,取均值計算。
(2)鏈接效率。通過Google搜索引擎獲取各IR的鏈接總數(shù)。檢索式以廈門大學IR為例(linkdomain: dspace.xmu.edu.cn),獲得鏈接總數(shù)后,計算出各IR鏈接效率。
(3)網(wǎng)頁規(guī)模。通過Google搜索引擎獲取到的網(wǎng)頁總數(shù),檢索式以廈門大學IR為例(site:dspace.xmu. edu.cn)。
(4)外部網(wǎng)絡影響因子。通過Google搜索引擎獲取網(wǎng)頁總數(shù)后,計算出各IR外部網(wǎng)絡影響因子。
(5)學術文檔數(shù)。通過Google Scholar檢索到的各大學學術成果總數(shù)。由于各大學署名情況較為復雜,檢索時盡量避免單位名稱不規(guī)范性帶來的影響,故本文僅選擇各大學官方英文署名方式進行檢索,如廈門大學(Xiamen University)。
(6)文檔豐富度。通過Google搜索引擎獲取到的存檔為PDF格式的學術成果總數(shù)。檢索式以廈門大學IR為例(filetype:pdf site:dspace.xmu.edu.cn)。
(7)PR值。站長工具(http://tool.chinaz.com)PR查詢功能,統(tǒng)計各高校IR網(wǎng)站PR值。
(8)總訪問量。通過訪問各高校IR網(wǎng)站的流量工具獲取總訪問量。針對總訪問量進行一點說明:大部分高校IR網(wǎng)站流量工具統(tǒng)計時并沒有去掉爬蟲、蜘蛛或惡意IP等訪問量,導致不能客觀反映網(wǎng)站的真實總訪問量情況。
由于上述各項指標單位不統(tǒng)一,不利于后續(xù)數(shù)據(jù)處理,故需要將采集到的數(shù)據(jù)進行標準化處理后繼續(xù)使用。采用極差標準化變換法,標準化后的各項指標均滿足 0≤Yij≤1。
從統(tǒng)計數(shù)據(jù)可以看出,各高校IR按照不同指標排序結果各異,很難說明按照哪種指標評價更能正確體現(xiàn)IR的網(wǎng)絡影響力。因此,本文先利用灰色關聯(lián)分析法描述各指標間關系的強弱,各指標在綜合評價中作用不同,可對關聯(lián)系數(shù)求加權平均值,得出綜合評價結果。[13]
3.3評價結果與分析
通過上述計算,最終得到各高校IR的關聯(lián)度,對其關聯(lián)度排序,評價結果如表6所示。
表6 IR網(wǎng)絡影響力關聯(lián)度排序
從表6數(shù)據(jù)可以看出,關聯(lián)度最大即網(wǎng)絡影響力最大的前三所IR分別是北京大學、廈門大學和蘭州大學,網(wǎng)絡影響力較小的后三所IR分別是北京郵電大學、中國人民大學和首都師范大學。北京大學IR是在CALIS三期“機構知識庫建設及推廣項目”時,北京大學圖書館作為示范館搭建的IR平臺。北京大學作為我國知名學府,科研產(chǎn)出碩果豐厚,學術論文數(shù)指標表現(xiàn)優(yōu)異,綜合評價后其網(wǎng)絡影響力名列榜首;廈門大學是我國高校最早啟動IR建設的高校,經(jīng)過多年發(fā)展有較高的網(wǎng)絡影響力;蘭州大學IR剛剛完成建設工作,但是其外鏈數(shù)目、網(wǎng)頁規(guī)模等各項指標均有不俗表現(xiàn)。前三名的IR均是在開源軟件DSpace的基礎上進行二次開發(fā)。
將采集的數(shù)據(jù)進行歸一化處理,標準化后的各項指標均滿足 0≤Yij≤100。通過與權重相乘后求和,可得各高IR網(wǎng)絡影響力分值(見表7)。
由表7可以看出,所選的樣本高校IR其網(wǎng)絡影響力差距較大,總體發(fā)展并不均衡,且使用DSpace系統(tǒng)的IR網(wǎng)絡影響力明顯優(yōu)于使用商業(yè)軟件。網(wǎng)絡影響力較大的網(wǎng)站其外部鏈接數(shù)、鏈接效率、外部網(wǎng)絡影響因子、網(wǎng)頁規(guī)模、學術文檔數(shù)、文檔豐富度指標表現(xiàn)優(yōu)異,而影響力較小的網(wǎng)站都比較普遍存在某項指標數(shù)值偏小。從單項指標來看,僅有廈門大學IR各項指標均排名在前6位,這與該IR建設時間長、知名度高等因素密不可分。蘭州大學作為新上線IR,有7項指標排名在前6,僅總訪問量指標排名第8,這與其剛上線不久的現(xiàn)狀相符合,其網(wǎng)絡影響力實力在未來不容小覷。北京師范大學IR系統(tǒng)采用的是商業(yè)軟件,雖然總訪問量第一,但其網(wǎng)站鏈接認可度的各項指標都表現(xiàn)一般,導致排名中段。且除北京大學、清華大學和廈門大學外,其余各高校PR值均為0,網(wǎng)站亟待進一步優(yōu)化來提升網(wǎng)站的重要性。以上分析表明,我國IR的網(wǎng)絡影響力首先與選擇的系統(tǒng)平臺有關,其次各指標排名與高??蒲谐晒a(chǎn)出量及存檔量有關。
表7 各IR網(wǎng)絡影響力評價指標排序及總分值
3.4問題與討論
數(shù)據(jù)采集是排名的重要基礎,利用不同工具采集數(shù)據(jù)會導致不同結果,且在不同時間對同一搜索引擎的檢索結果也不盡相同,因此微觀指標的排名結果可信度不高,但宏觀排名仍具有一定的參考價值。目前,我國僅有5所高校IR在RangkingWebofRepository進行了注冊,排名按順序為廈門大學、北京大學、清華大學、北京科技大學和西安交通大學。對比此次排名與世界知識庫網(wǎng)絡計量學排名(2015年7月版),總排名、網(wǎng)頁規(guī)模、能見度和文檔豐富度幾項指標均與本文設計指標排名基本一致,但仍略有差距。其中原因如下:(1)學術論文指標是由于本文數(shù)據(jù)采集僅使用了官方英文表達方式,造成會有部分成果并未統(tǒng)計到,且學術論文指標占比30%;(2)Altmetrics指標涉及的部分網(wǎng)站由于網(wǎng)絡開放性等因素無法訪問,且該指標占比達到25%;(3)同一指標的處理方式不同,如外部鏈接數(shù)目,本文選擇均值法,但知識庫排名的計算方法為去掉前十的反向鏈接后,兩個外鏈數(shù)目的平方根之和;(4)本文的采集時間為2015年10月,世界知識庫排名新版發(fā)布時間為2015 年7月;(5)本文選取的指標與權重略有不同,新增了PR值、總訪問量等指標。
雖然部分學校在不同排名中略有差異,一方面說明網(wǎng)絡數(shù)據(jù)變化快,單一依靠網(wǎng)絡數(shù)據(jù)來評價網(wǎng)站并不非??捎^;另一方面,不同排名的整體趨勢趨向一致,表明排名是可供參考的。正如網(wǎng)絡影響力高的IR,無論是選取何指標、權重,都會排名表現(xiàn)優(yōu)異。
4.1盡可能選擇通用的IR系統(tǒng)
搭建IR系統(tǒng)的軟件多以開源為主,早期主要有DSpace、EPrints、Fedora、Digital Commons等軟件。近年來,IR+、Hydra、Drupal、Islandora等支持內(nèi)部資源語義關聯(lián)、非文本資源保存的新型開源軟件逐步進入市場,[14]這些開源、通用的系統(tǒng)具備機構知識庫需要訪問的多接口性,易于被訪問和被發(fā)現(xiàn),各高校可以結合自身現(xiàn)狀及各軟件優(yōu)缺點來選取適合本校IR建設的軟件平臺。從世界機構知識庫排名來看,前100名的IR大都采用了通用的開源軟件,正如本研究中蘭州大學采用了中國科學院CSpace軟件,在短期發(fā)布就取得很好的網(wǎng)絡影響力。開源軟件設計標準、搜索引擎更是針對開源軟件進行的優(yōu)化處理,因此建議國內(nèi)高校優(yōu)先采用開源通用的IR系統(tǒng),這有利于提升IR網(wǎng)絡排名。
4.2選擇通俗易懂的IR域名,不要采用生僻域名
域名的選擇對IR來說至關重要,合適的域名應能簡短表達出網(wǎng)站內(nèi)容,便于公眾第一時間了解這是什么網(wǎng)站,并有利于搜索引擎發(fā)現(xiàn)和鏈接,對于一些不太出現(xiàn)在域名中的字符應該盡量避免或者去除。在本文數(shù)據(jù)采集中,發(fā)現(xiàn)有部分高校IR網(wǎng)站尚未注冊域名或以aspx.為擴展名,導致無法在Google和外鏈查詢工具中采集到數(shù)據(jù),嚴重影響了IR排名。
4.3完善網(wǎng)站自身框架,提升網(wǎng)站整體表現(xiàn)力
網(wǎng)站組織體系框架越完整,網(wǎng)站的信息整合、揭示程度越高,公眾獲得的資源越為豐富。通過合理完善網(wǎng)站的自身架構,即增加內(nèi)鏈數(shù)目可形成較為完備的網(wǎng)絡層次體系,使得信息揭示更為充分。[5]同時,內(nèi)部鏈接要具備豐富性和完整性,每個內(nèi)部鏈接都可以返回到網(wǎng)站主頁。各高校在進行IR建設的同時,可采取優(yōu)化網(wǎng)站導航設置、增加質量與內(nèi)容并重的網(wǎng)頁、增加網(wǎng)站互動等手段,提高IR網(wǎng)站綜合評定水平,從而提升網(wǎng)站鏈接的認可度與網(wǎng)站可見度。
4.4加大IR宣傳推廣力度,增加外部鏈接數(shù)
網(wǎng)站鏈接宣傳推廣好,網(wǎng)站導入性就強,外部鏈接數(shù)目就多。國內(nèi)高校要加大對IR的宣傳,采用多種手段,如電子郵件、微信推送、海報等,增強IR在校園的能見度,增加用戶的訪問行為,鼓勵本校學者主動存繳,提高IR網(wǎng)頁規(guī)模。同時要及時在國際知名網(wǎng)站如OpenDOAR、ROAR及各大搜索引擎中注冊登記,這能夠有效增加IR外鏈數(shù)目。知名網(wǎng)站本身PR值就高且外部鏈接多,被越來越多的知名網(wǎng)站外鏈,IR的PR值越高,在搜索引擎排序越為靠前,越能被公眾發(fā)現(xiàn)、利用。
4.5注重特色資源存繳,豐富存檔類型
IR的存檔內(nèi)容不再局限于常規(guī)的學術論文成果,還可以存檔科研數(shù)據(jù)、視頻音頻等非文本資源。應在弘揚我國特色文化的基礎上,更貼近讀者需求。各高校IR可與本校特色文化相結合,吸引讀者訪問、使用和轉載,如北京大學機構知識庫存檔了昆曲傳承計劃相關的視頻、圖片資料;浙江大學機構知識庫一度將古代拓片的圖片作為特色資源存繳;臺灣交通大學收集系所當年的老照片,用圖片形式記錄歷史等。特色資源及豐富的存檔類型,有利于成果被各大社交網(wǎng)站轉載,提高成果能見度,提升IR網(wǎng)絡影響力。
IR的網(wǎng)絡影響力雖然能夠促進學術成果的開放獲取,但并不意味著高校在建設過程中要過度關注網(wǎng)站排名,而采用各種手段刻意制造質量不高的網(wǎng)頁、鏈接等內(nèi)容,一味追求擴大網(wǎng)頁規(guī)模,甚至付費購買友情鏈接來增加外鏈數(shù)目,忽略IR網(wǎng)站的可持續(xù)發(fā)展。IR網(wǎng)站應立足本校實際情況,在網(wǎng)站結構優(yōu)化、學術文檔的質量、網(wǎng)站加值應用、與其他系統(tǒng)共享集成等方面下功夫,只有質量保證的IR才能真正發(fā)揮其網(wǎng)絡影響力。
[1]世界知識庫網(wǎng)絡計量學排名[EB/OL].[2015-10-20].http://repositories.webometrics.info/.
[2]蘭娜.我國省級公共圖書館網(wǎng)站網(wǎng)絡影響力評估研究[D].石家莊:河北大學,2015.
[3]夏旭.高屋建瓴 臻于至善——《網(wǎng)絡計量學》評介[J].圖書情報知識,2012 (3):125-129.
[4]張洋,趙蓉英.網(wǎng)絡鏈接分析的基本術語及其規(guī)范化[J].圖書情報工作,2007,51(9):20-24.
[5]岳增慧,等.中美高校圖書館網(wǎng)絡空間鏈接特征的比較研究[J].情報科學,2011,29(9):1363-1369.
[6]劉文云,周泰冰.我國省級公共圖書館網(wǎng)絡影響力評價研究[J].圖書館建設,2011(3):85-89.
[7]丁敬達,朱夢月.高校機構知識庫網(wǎng)絡影響力評價研究——基于我國重點大學的實證分析[J].圖書館雜志,2014,33(7):13-23.
[8]世界大學網(wǎng)絡計量學排名[EB/OL].[2015-10-20].http://www.webometrics.info/.
[9]邱均平,等.中國大學的網(wǎng)絡產(chǎn)出、顯示度和影響力研究[J].情報科學,2011(3):325-332.
[10]吳茵茵.中美大學網(wǎng)絡影響因子研究[J].情報科學,2008(7):1048-1055.
[11]張炳江.層次分析法及其應用案例[M].北京:電子工業(yè)出版社,2014:67-73.
[12]付威風,鄭春厚.網(wǎng)絡計量學常用工具比較研究[J].圖書館學研究,2009(7):24-27,14.
[13]劉思峰.灰色系統(tǒng)理論及其應用[M].7版.北京:科學出版社,2014:66-75.
[14]張旺強,等.幾種典型新型開源機構知識庫軟件的比較分析[J].現(xiàn)代圖書情報技術,2014 (2):17-24.
Research on Web Impact of University Institutional Repositories
Zhang Xue-lei,Wei Qing-shan
This article applies analytical hierarchy process(AHP)to construct university institutional repository web impact evaluation index system,and investigates the website performance of some institutions of domestic higher education from the aspects of website link recognition,website visibility and website attention.Applying gray relative analysis method,is found that the web impact of university institutional repositories is generally low.Based on above analysis,this article puts forward the suggestion that we should strengthen the optimization of website structure,pay attention to the construction of the external link and special resources,so as to improve the web impact of university institutional repositories.
Institutional Repository;Web Impact;Evaluation Index
G250.76
B
1005-8214(2016)07-0061-05
張雪蕾(1988-),女,西安交通大學圖書館信息技術部館員,研究方向:機構知識庫、電子資源流量控制;魏青山(1974-),男,西安交通大學圖書館信息技術部副研究館員,研究方向:機構知識庫、特色數(shù)據(jù)庫開發(fā)、學科服務、數(shù)字資源整合。
2015-12-17[責任編輯]閻秋娟