□吳淑娟 王憲洪 蔣玲
近年來對于碩博士論文進行引文分析的文章多是對論文后所有引文進行分析,而且主要是通過對引文的分析來了解圖書館的文獻保障情況,多是為館藏建設提 供依據(jù)[1][2][3][4]。目前 專門對 網(wǎng)絡引 文進行分析 的 文 章 不 多[5][6][7],引 文 分 析 的 學 科 也 只集中在某一個學科,尚未見從多個學科角度對網(wǎng)絡引文進行分析。本研究將免費的網(wǎng)絡學術(shù)資源作為引文分析的對象,從多個學科揭示碩博士在學習和研究中利用網(wǎng)絡免費學術(shù)資源的情況,從而考量網(wǎng)絡文獻在碩博士研究和創(chuàng)新中的作用是否日益突出。
本研究選取北京地區(qū)普通高校的碩博士論文作為研究對象。為了使研究結(jié)果全面、客觀,力求涵蓋不同層次、學科的學校以及不同專業(yè)的碩博士,故進行分類研究。高校涵蓋985工程高校、211工程高校和一般普通高校。學科范圍包括哲學、經(jīng)濟學、法學、教育學、文學、歷史學、理學、工學、管理學。本研究最終確定了15所高校作為研究對象。其中985工程高校4所,211工程高校5所,一般普通高校6所。在選取不同高校的同一學科時,盡量選取同一學科下的不同專業(yè),以便能涵蓋更多的專業(yè)。
選取15所高校從2005年到2011年的碩博士論文作為數(shù)據(jù)來源,對論文的數(shù)量、引文數(shù)量、網(wǎng)絡引文的數(shù)量、網(wǎng)絡引文的類型、網(wǎng)絡引文的語種、含網(wǎng)絡引文的可訪問性和文件類型進行統(tǒng)計分析。含網(wǎng)絡引文的論文數(shù)用Wa表示,論文總數(shù)用a表示,引文總數(shù)用C表示,網(wǎng)絡引文數(shù)用W表示。
采用spss統(tǒng)計分析工具對數(shù)據(jù)進行統(tǒng)計分析。
主要利用中國博士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士論文全文數(shù)據(jù)庫、萬方中國學位論文全文數(shù)據(jù)庫和各高校的碩博士論文庫。
學科分布和高校分布如表1:
表1 按照學科選定的高校列表
選取的碩博士論文共3807篇,其中碩士論文2856篇,博士論文951篇。引文總數(shù)286841篇,篇均參考文獻量為75.34,篇均參考文獻數(shù)量高于平均值的學科為歷史學、工學、理學、哲學、文學。含網(wǎng)絡引文的論文數(shù)為1313篇,網(wǎng)絡引文數(shù)為11641篇,篇均網(wǎng)絡引文率為8.9,網(wǎng)絡引文占引文總數(shù)的百分比為4%,含網(wǎng)絡引文的論文數(shù)占論文總數(shù)的百分率為34.5%,其中法學的篇均網(wǎng)絡引文率高于平均值,見表2。
2.2.1 按照不同學科分析
采用非參數(shù)統(tǒng)計中的Kruskal-Wallis檢驗,可以對各個學科的網(wǎng)絡引文數(shù)是否存在顯著性差異進行檢驗,結(jié)果顯示,卡方統(tǒng)計量=563.58,p值<0.001,因此在0.05的顯著性水平下,拒絕原假設,認為不同學科間網(wǎng)絡引文數(shù)具有顯著差異。
為了解具體是哪些學科的網(wǎng)絡引文數(shù)與其他學科有顯著差異,采用未假定方差齊性的多重比較法分析,并做出各學科引用網(wǎng)絡文獻均值圖,結(jié)果如表3、圖1所示。
圖1 各學科引用網(wǎng)絡文獻均值圖
確定顯著性水平為0.05,則p值<0.05表明拒絕原假設,即學科之間存在顯著性差異。根據(jù)表2結(jié)果以及圖1中各學科引用網(wǎng)絡文獻均值情況,得到結(jié)論如下:
① 法學碩博士論文網(wǎng)絡引文數(shù)顯著高于其他8個學科;
②教育學碩博士論文網(wǎng)絡引文數(shù)顯著高于哲學、文學、歷史學、理學、工學和管理學;
③理學碩博士論文網(wǎng)絡引文數(shù)顯著少于除經(jīng)濟學以外的7個學科;
④ 哲學、文學、歷史學、工學、管理學的碩博士論文的網(wǎng)絡引文數(shù)沒有顯著差異。
表2各學科博士論文網(wǎng)絡引文數(shù)據(jù)量描述統(tǒng)計
表3 多重比較結(jié)果
2.2.2 按照不同學歷分析
將所得數(shù)據(jù)按照不同學歷(博士、碩士)整理,利用整理得到的數(shù)據(jù),采用t檢驗方法對博士論文和碩士論文兩個總體的均值是否具有顯著性差異進行檢驗。得到結(jié)果見表4:
表4 方差齊性的Levene檢驗結(jié)果
方差齊性的Levene檢驗結(jié)果顯示,在顯著性水平為0.05前提下,p值=0.231>0.05,故不能拒絕原假設,即認為不同學歷引用網(wǎng)絡文獻數(shù)的方差相等。因此,均值的t檢驗以假設方差相等得出的結(jié)論為準。
對均值的t檢驗顯示,p值為0.001,小于顯著性水平0.05,故拒絕原假設,即認為不同學歷的學位論文引用網(wǎng)絡文獻數(shù)據(jù)有顯著差異。分別計算博士、碩士論文網(wǎng)絡引文數(shù)的均值,得到每篇博士論文平均引用網(wǎng)絡文獻10.05篇,而每篇碩士論文平均引用網(wǎng)絡文獻8.37篇,即博士論文中網(wǎng)絡引文數(shù)顯著高于碩士論文。
2.2.3 按照不同學校分析
將搜集數(shù)據(jù)按照985工程、211工程高校以及普通高校分類,利用整理得到的數(shù)據(jù),采用方差分析的方法對不同學校類別的均值是否具有顯著性差異進行檢驗。方差齊性檢驗p-value=0.845>0.05,故在0.05的顯著性水平下不能拒絕原假設,即認為不同學校類別引用網(wǎng)絡文獻的方差相等。假定方差相等的前提下,方差分析結(jié)果見表5:
表5 方差分析表
從方差分析表5可看到,檢驗p-value=0.009,小于顯著性水平0.05,拒絕原假設,即認為985工程高校、211工程高校和普通高校三者的碩博士論文的網(wǎng)絡引文數(shù)存在顯著性差異。
使用多重比較的方法在三者之間進行兩兩相互比較;在假定方差相等情況下,LSD多重比較結(jié)果如表6所示:
表6 多重比較結(jié)果
根據(jù)多重比較結(jié)果顯示,p-value<0.05時,說明學校之間網(wǎng)絡引文數(shù)存在顯著差異,即可知985工程高校和211工程高校之間存在顯著性差異——985工程高校網(wǎng)絡引文數(shù)顯著高于211工程高校。
2.2.4 根據(jù)網(wǎng)絡文獻來源類型分析
本研究將網(wǎng)絡文獻來源分為政府信息源、綜合網(wǎng)站學術(shù)信息源、開放獲取信息源、學術(shù)機構(gòu)信息源、科研信息源、教育信息源、古籍信息源、港臺地區(qū)學術(shù)信息源、新聞報刊信息源、個人文獻信息源、參考工具信息源、圖書館信息源(特藏和導航)、學科信息源。將搜集的網(wǎng)絡文獻數(shù)據(jù)按照來源網(wǎng)站進行整理分析,得到各種網(wǎng)絡文獻來源的均值圖,見圖2。
從圖2可見,來自學術(shù)機構(gòu)信息源、政府信息源、新聞報刊信息源以及學科信息源的最多,均值分別是50.42、45.16、39.96、31.75。最少的是來自其他信息源(包括開放獲取信息源和古籍信息源),平均值為0.82。對數(shù)據(jù)進行非參數(shù)統(tǒng)計中的Kruskal-Wallis檢驗,進一步檢驗不同來源的網(wǎng)絡文獻數(shù)是否具有顯著差異。結(jié)果顯示,卡方統(tǒng)計量等于191.681,p值小于0.001,因此在0.05的顯著性水平下,拒絕原假設,認為不同網(wǎng)站來源的網(wǎng)絡文獻數(shù)量具有顯著差異。
圖2 按照來源分類的網(wǎng)絡文獻均值
為了解具體是哪些網(wǎng)站的引用數(shù)量與其他網(wǎng)站有顯著差異,采用未假定方差齊性的多重比較法分析,結(jié)果如表7所示(由于比較類別比較多,故僅將差異顯著的情況列出)。
表7 網(wǎng)站來源多重比較結(jié)果
政府信息源港臺地區(qū)學術(shù)信息源-40.644 0.025綜合網(wǎng)站學術(shù)信息源-15.600 0.010新聞報刊信息源-35.444 0.007學科信息源-26.533 0.001其他39.133 0.001科研信息源新聞報刊信息源39.044 0.001港臺地區(qū)學術(shù)信息源35.444 0.007個人文獻信息源32.689 0.017其他6.444 0.028科研信息源個人文獻信息源6.356 0.031新聞報刊信息源-32.689 0.017學科信息源-23.778 0.004其他圖書館信息源13.200 0.029科研信息源13.111 0.031其他30.222 0.000科研信息源30.133 0.000學科信息源港臺地區(qū)學術(shù)信息源 26.533 0.001個人文獻信息源 23.778 0.004
多重比較結(jié)果顯示:
① 其他信息源、科研信息源的網(wǎng)絡文獻量均顯著低于政府信息源、綜合網(wǎng)站信息源、新聞報刊信息源、學科信息源、個人文獻信息源、圖書館信息源;
② 政府信息源、綜合網(wǎng)站信息源、新聞報刊信息源、學科信息源的網(wǎng)絡引文數(shù)量都顯著高于港臺地區(qū)學術(shù)信息源;
③個人文獻信息源的網(wǎng)絡引文數(shù)量顯著低于新聞報刊信息源、學科信息源;
④ 學術(shù)機構(gòu)信息源、教育信息源、參考工具信息源的網(wǎng)絡引文數(shù)量與其他所有信息源沒有顯著差異。
2.2.5 根據(jù)語種分析
將搜集到的網(wǎng)絡引文按照語種進行整理,分布情況見圖3。
圖3 按照語種分類的網(wǎng)絡引文均值
從均值來看,漢語和英語的引文數(shù)量遠遠高于其他語種。故將漢語、英語與其他語種分開比較:即(1)比較漢語、英語之間是否存在顯著差異;(2)比較俄語、日語、法語、德語、韓語之間有無顯著差異。
(1)比較漢語、英語之間是否存在顯著差異。
對漢語、英語兩總體的方差同質(zhì)性進行檢驗,檢驗顯示沒有證據(jù)表明方差不相等,故使用單因素方差分析法對均值進行檢驗,結(jié)果見表8。
表8 漢語、英語的單因素方差分析表
結(jié)果表明,p值等于0.299>0.05,即在0.05的顯著性水平下,不能拒絕原假設,即認為漢語和英語的網(wǎng)絡文獻引用數(shù)量沒有顯著差異。這可能是因為隨著國際學術(shù)交流增多,學生的英語水平和能力提高,很多學生在參考文獻時,都比較關注國外先進文獻,故使用英語文獻的數(shù)量也增加,甚至提高至與國內(nèi)文獻的地位相同。
(2)比較俄語、日語、法語、德語、韓語之間有無顯著差異。
考慮到這幾類語種的樣本數(shù)量比較少,有的甚至不足5(韓語的樣本量僅為4),故直接采用非參數(shù)統(tǒng)計中的Kruskal-Wallis檢驗進行差異性檢驗,p值為0.185,大于顯著性水平0.05,故不能拒絕原假設,即沒有證據(jù)表明俄、日、法、德、韓這五類語種之間的網(wǎng)絡文獻數(shù)量存在顯著差異。
2.2.6 根據(jù)年份分類的網(wǎng)絡文獻分析
將網(wǎng)絡文獻數(shù)量按照年份整理,并做出每年的網(wǎng)絡文獻均值折線圖(圖4)。
圖4 網(wǎng)絡引文年度均值折線圖
2008年的網(wǎng)絡文獻均值達到最大值,為107.41篇;2005年的網(wǎng)絡文獻均值最小,僅為40.88篇。對各年網(wǎng)絡引文數(shù)量進行方差同質(zhì)性檢驗,Levene檢驗p值為0.181,不能拒絕方差相等的原假設,故采用單因素方差分析進行深入分析。
表9 按年份分類的單因素方差分析表
表9是按年份分類進行的方差分析結(jié)果,p值等于0.53,大于顯著性水平0.05,故不能拒絕原假設,即沒有證據(jù)顯示各年份的網(wǎng)絡文獻數(shù)量具有顯著性差異。
2.2.7 網(wǎng)絡引文的可訪問狀態(tài)
筆者對所有網(wǎng)絡引文的URL逐一進行了訪問,6094條網(wǎng)絡引文的URLs可以訪問,占網(wǎng)絡引文總數(shù)的52.3%。5547條網(wǎng)絡引文的URLs無法訪問(包括該頁面不存在、禁止訪問、頁面錯誤、該頁面無法打開、服務器錯誤),占網(wǎng)絡引文總數(shù)的47.7%。
2.2.8 網(wǎng)絡引文的文件格式類型
筆者根據(jù)引文中所涉及到的文件格式,將文件格式分為以下幾種類型:HTML(包括JSP、ASP、PHP)、DOC、PDF、XLS、PPT。各種文件格式類型的分布見表10。
表10 網(wǎng)絡引文的文件格式類型分布
從總體統(tǒng)計可看出,篇均網(wǎng)絡引文率為8.9%,網(wǎng)絡引文占引文總數(shù)的4%,含網(wǎng)絡引文的論文數(shù)占論文總數(shù)的34.5%。部分學科,例如法學、管理學、教育學、經(jīng)濟學這四個學科,含網(wǎng)絡引文的論文數(shù)占論文總數(shù)的百分比分別為74.2%、37.9%、36.2%、35.1%。從這些數(shù)據(jù)可看出,雖然目前網(wǎng)絡文獻占引文總數(shù)的比例仍然很小,但是已經(jīng)達到了一定規(guī)模,說明在學術(shù)研究中,碩博士已經(jīng)意識到了網(wǎng)絡免費資源的學術(shù)性和新穎性,開始逐漸認同和使用這些資源來從事學習和研究。
按照學科分析的結(jié)果,法學網(wǎng)絡引文數(shù)顯著高于其他8個學科,教育學顯著高于除經(jīng)濟學之外的其他6個學科,而理學則顯著低于除經(jīng)濟學之外的其他學科。而其他6個學科之間并無顯著差異。
按照學歷分析的結(jié)果,博士論文篇均網(wǎng)絡引文數(shù)高于碩士論文,說明博士在查找、吸收和利用網(wǎng)絡文獻方面好于碩士,同時也說明這些免費網(wǎng)絡文獻的學術(shù)性在增強,得到越來越多的學者的接受。
按照學校分析的結(jié)果,可知985工程高校和211工程高校之間存在顯著性差異——985工程高校網(wǎng)絡引文數(shù)顯著高于211工程高校。而985工程高校、211工程高校和普通高校之間并沒有顯著差異。說明在使用網(wǎng)絡免費資源方面,普通高校的碩博士生和985工程、211工程高校在使用的意識和實際利用方面差別不大。
從網(wǎng)絡免費文獻的類型來看,均值排在前五位的分別為學術(shù)機構(gòu)信息源、政府信息源、新聞報刊信息源、學科信息源、綜合網(wǎng)站學術(shù)信息源。再綜合多重比較的結(jié)果,可以看出碩博士比較信賴的網(wǎng)絡免費資源主要集中在政府信息源、綜合網(wǎng)站信息源、新聞報刊信息源、學科信息源,而利用比較少的信息源為科研信息源、其他信息源。
從網(wǎng)絡免費文獻的語種分析來看,目前主要集中在中文和英文文獻,中文和英文的引用數(shù)量沒有顯著差別,反映出碩博士對中外文文獻的吸收能力基本持平,也說明他們的研究基本上能借鑒國內(nèi)外的前沿的研究趨勢。而其他語種的數(shù)量微乎其微。
從網(wǎng)絡文獻的年代分析來看,沒有結(jié)論顯示越接近目前的年份,碩博士論文對網(wǎng)絡文獻的需求越大。姚蓉、廖永霞對1999-2006年間評選出的776篇全國優(yōu)秀博士學位論文的引文分析中得出網(wǎng)絡資源的引用呈逐年增長的趨勢[10],本文并未得出該結(jié)論,可能是因為數(shù)據(jù)的年代分布不均勻所致。
從網(wǎng)絡引文的可訪問狀態(tài)分析來看,52.3%的網(wǎng)絡引文可訪問,而47.7%的網(wǎng)絡引文無法訪問,無法訪問的原因包括該頁面不存在、禁止訪問、頁面錯誤、該頁面無法打開、服務器錯誤。從本研究來看,網(wǎng)絡引文的穩(wěn)定性較差,接近一半的網(wǎng)絡引文不能訪問,這為研究者參考網(wǎng)絡引文帶來了障礙,在未來我們應該考慮建立相應的網(wǎng)絡引文保存和數(shù)字對象的識別系統(tǒng)(DOI),來不斷地定位和交換這些數(shù)字資源。
從網(wǎng)絡引文的文件格式類型來看,目前使用最普遍的文件類型是HTML格式,包括JSP、ASP、PHP等這些動態(tài)的網(wǎng)頁格式,其次是PDF格式的文件為大家所廣泛使用,再其次是DOC文件格式,而PPT和XLS格式的文件使用相對很少。
本研究力圖盡可能多地反映不同學科不同專業(yè)的網(wǎng)絡文獻引用情況,但是在實際搜集數(shù)據(jù)的過程中,存在學校、專業(yè)、學科的分布不均勻,不具有典型代表性的缺憾,尤其是年代分布因為搜集數(shù)據(jù)來源的限制,導致年代分布有些不均勻,這些都是在今后的研究中有待改善的方面。
網(wǎng)絡免費學術(shù)文獻已經(jīng)成為學者治學的重要的參考來源,隨著網(wǎng)絡學術(shù)文獻的質(zhì)量和學術(shù)性的不斷提升,加之獲取方便和免費的優(yōu)勢,已經(jīng)得到越來越多的學者的接受和認可,圖書館應該重視這些免費網(wǎng)絡學術(shù)資源的建設,尤其在進行學科服務的過程中,針對網(wǎng)絡免費學術(shù)資源使用率高的學科,按照使用頻率高的網(wǎng)絡免費文獻類型搜集資源進行學科導航服務,讓圖書館的數(shù)據(jù)庫資源和網(wǎng)絡的免費資源成為學者治學的左膀右臂。
參考資料
1 Conkling T.W.,Harwell K.R.,Mccallips C.,et al.Research Material Selection in the pre-web and post-web Environments:An Interdisciplinary Study of Bibliographic Citations in Doctoral Dissertations.The Journal of Academic Librarianship,2010,36(1):20-31
2 Kumar H.A.,Dora M..Citation analysis of doctoral dissertations at IIMA:A review of the local use of journals.Library Collections,Acquisitions,and Technical Services,2011,35(1):32-39
3 劉良璧.從碩士學位論文引文分析透視重點學科文獻保障情況.圖書館建設,2010(04):58-61
4 姚蓉,廖永霞.全國優(yōu)秀博士論文參考文獻分析與研究.圖書館建設,2007(06):127-130
5 胡德華,金建彬.基于網(wǎng)絡引文的網(wǎng)絡學術(shù)資源利用效率研究.情報科學,2009(03):379-383
6 Nayak B.M.A.K.,Sahu N K.Scholarly use of web resources in LIS research:a citation analysis.Library Review,2006,55(9):598-607
7 Mardani A..An investigation of the web citations in Irans chemistry articles in SCI.Library Review,2012,61(1):18-29
8 Saberi M.K.,Abedi H..Accessibility and decay of web citations in five open access ISI journals.Internet Research,2012,22(2):234-247
9 Alireza J.M.N.Y.Analyzing web citations availability and half-life in medical journals_A case study in an Iranian university.Aslib Proceedings:New Information,2013,65(3):242-261
10 同4