黃 印
(南京大學 信息管理學院,江蘇 南京 210023)
目前,絕大部分傳統(tǒng)文獻數(shù)據(jù)庫檢索系統(tǒng),對于檢索結(jié)果文獻的組織都是基于文獻的外部特征和內(nèi)部特征,外部特征主要包括篇名、作者姓名、發(fā)表時間,內(nèi)部特征包括關(guān)鍵詞、標題詞、敘詞等等。在互聯(lián)網(wǎng)化的學術(shù)平臺上,被引次數(shù)和下載次數(shù)作為重要的外部指標,也常常被使用。以CNKI為例,檢索結(jié)果可以按照“相關(guān)度”、“發(fā)表時間”、“被引”和“下載”等進行排序。
引用關(guān)系是論文間的重要關(guān)系。一篇論文被引用,證明了這篇論文的影響力。目前引用關(guān)系的常用量化指標是“被引次數(shù)”。但是這個指標存在一些問題,許多學者認為,被引次數(shù)只有當引用是真引用才是合適的[1]。除此之外,不同論文對文獻的引用也不應該視作等價。在現(xiàn)有的“被引次數(shù)”指標中,一篇領域內(nèi)重要論文的引用和一篇普通論文的引用次數(shù)是相同的,體現(xiàn)的是引用關(guān)系的數(shù)量特征,掩蓋了引用關(guān)系的質(zhì)量特征。
對于引用關(guān)系的質(zhì)量特征的量化,目前并沒有廣泛應用的方法。但是論文之間的引用關(guān)系與網(wǎng)頁之間的鏈接關(guān)系具有很高的相似性,因此對于論文之間的引用關(guān)系的質(zhì)量特征的量化一定程度上可以借鑒、參考搜索引擎中網(wǎng)頁的排序方法。
楊思洛按照排序技術(shù)進行分類,將搜索引擎分為三代,我們目前正處于第二代搜索引擎,即按照鏈接分析的方式進行排序,主要有PageRank算法[2],HillTop算法[2]。除此之外,頁面排序算法還有:HITS算法,主題敏感 PageRank算法 (TSPR)等[3]。
為了量化引用關(guān)系的質(zhì)量特征,對“被引次數(shù)”指標進行補充,參考了搜索引擎鏈接分析的排序機制,提出了使用HITS算法對檢索結(jié)果進行計算,使用計算值來量化引用關(guān)系的質(zhì)量特征,并實驗了HITS算法在量化引用關(guān)系的質(zhì)量特征中的實際效果,進一步研究了HITS算法在不同數(shù)量級別下的可靠性。
1998年,就職于Cornell University的克萊因伯格博士提出了HITS 算法(Hypertext-Induced Topic Search)[4]。HITS算法的原理基于這樣的假設:一個高質(zhì)量的權(quán)威(Authority)頁面會被很多高質(zhì)量的樞紐(Hub)頁面所指向,反之亦然。
在搜索領域,相對于PageRank算法,HITS算法存在一些缺點,沒有被目前主流的搜索引擎所采用。主要有兩點:①HITS算法是基于某一檢索主題的,而 PageRank 算法不受限制。②HITS算法是在得到結(jié)果集后進行計算,耗時較長。
將鏈接分析方法應用應用于文獻引用中,是因為兩者在本質(zhì)上十分相似:兩者研究的都是一個網(wǎng)絡模型中兩個元素之間的影響關(guān)系及其形成過程,都具有高度的目的性和理性。也有學者做過類似的嘗試,比如李江等學者從算法角度對網(wǎng)頁評價和文獻評價進行了對比,將PageRank算法應用于論文中,提出了Paperank算法。該算法傾向于挑選出高被引的、被高質(zhì)量且少出度的論文引用的論文,是對被引次數(shù)的一種修正。 筆者嘗試將HITS算法應用到檢索文獻的排序中,并初步評價其效果。
具體而言,應用于文獻中的HITS算法需要計算兩種值,即權(quán)威值(Authority Scores)和樞紐值(Hub Scores)。所有引用該文獻的文獻的樞紐值的和即權(quán)威值。該文獻所有引用的文獻的權(quán)威值的和即樞紐值。
HITS算法的數(shù)學計算步驟如下所示[6]:
①a(i)表示文獻i的權(quán)威值,h(i)表示文獻i的樞紐值,所有文獻的權(quán)威值和樞紐值初始設定為1。
②迭代計算,a(i)等于所有引用文獻i的文獻的樞紐值之和,即:a(i)=Σh(j)
j指所有指向文獻i的文獻。
③h(i)等于文獻i所有引用的文獻j的權(quán)威值之和,即:h(i)=Σa(j)
④將所有文獻的a(i),h(i)進行標準化,即都除以其最大值。
n是指所有文獻。
⑤計算上一輪迭代計算中的值和本輪迭代以后值的差異,在達到允許的誤差之前,不停地重復上述②③④步驟。只有當對于總體來說差異在允許的范圍內(nèi),證明數(shù)據(jù)已收斂時,才可以結(jié)束計算。
由于CNKI中大批量的檢索結(jié)果難以快速直接地導出,為了方便收集、計算數(shù)據(jù),筆者選取人工智能領域來源于2015年度中國計算機學會(CCF)于人工智能方面推薦的A、B、C三類共39個國際學術(shù)會議論文,作為數(shù)據(jù)集,作為使用某一檢索策略進行檢索,所得到檢索結(jié)果的模擬,具體會議如表1所示。
表1 CCF于人工智能方面推薦的國際學術(shù)會議
2016年,清華大學唐杰教授團隊建立了Aminer,該數(shù)據(jù)庫是計算機及相關(guān)領域的知名數(shù)據(jù)庫,收集了大量關(guān)于人工智能的學術(shù)論文成果。Aminer被設計為面向新一代的科技情報分析與挖掘,而且完全不依賴外國知識產(chǎn)權(quán)。筆者以Aminer中的Open Academic Graph(OAG)作為數(shù)據(jù)來源,下載了截止到2017年3月22日的所有論文題錄信息,共得到113 195篇文獻。
數(shù)據(jù)中,存在文獻的“被引次數(shù)”和“引用的文獻”字段。由于本文的研究對象是113 195篇文獻,所以在“被引次數(shù)”之外,根據(jù)“引用文獻”計算“數(shù)據(jù)內(nèi)被引次數(shù)”——數(shù)據(jù)內(nèi)是指作為計量對象的113 195篇文獻。
將“被引次數(shù)”和“數(shù)據(jù)內(nèi)被引次數(shù)”進行對比,發(fā)現(xiàn)存在一些文獻“被引次數(shù)”為0,但是“數(shù)據(jù)內(nèi)被引次數(shù)”很高的情況。比如,其中3篇的“被引次數(shù)”是0,但是 “數(shù)據(jù)內(nèi)被引次數(shù)”卻分別高達1 128、981和999次。經(jīng)過查證,這3篇文獻的標題都是各類會議的總集文件。通過對比“被引次數(shù)”和“數(shù)據(jù)內(nèi)被引次數(shù)”數(shù)據(jù),再進行人工檢查,發(fā)現(xiàn)這類文獻共有526篇,去除這些文獻,剩余112 669篇。最后計算112 669篇文獻的權(quán)威值和樞紐值。
112 669篇文獻的權(quán)威值和樞紐值按照權(quán)威值、樞紐值排序前20分別如表2、表3所示。
表2 權(quán)威值排序前20文獻情況
表3 樞紐值排序前20文獻情況
可以明顯地看出,權(quán)威值較高的文獻大都有著較高的“數(shù)據(jù)內(nèi)被引次數(shù)”,樞紐值較高的文獻大都有著較多的“數(shù)據(jù)內(nèi)引用文獻”。
為了探究指標之間的關(guān)系,對其進行相關(guān)性檢驗。使用SPSS工具對所有數(shù)據(jù)進行統(tǒng)計分析,結(jié)果顯示,所有指標都是非正態(tài)分布的。而斯皮爾曼相關(guān)系數(shù)法可以適用于非正態(tài)分布的數(shù)據(jù),故采用次方法,結(jié)果如表4所示。
表4 相關(guān)性檢驗
從表4可以看出,“權(quán)威值”與“數(shù)據(jù)內(nèi)被引次數(shù)”相關(guān)度很高,相關(guān)系數(shù)為0.814,屬于高度相關(guān);“樞紐值”與“數(shù)據(jù)內(nèi)引用文獻”相關(guān)度很高,相關(guān)系數(shù)為0.870,屬于高度相關(guān)。“權(quán)威值”與“被引次數(shù)”的相關(guān)性不如“數(shù)據(jù)內(nèi)被引次數(shù)”,相關(guān)系數(shù)僅為0.549。
可以初步得到一個結(jié)論,“權(quán)威值”與“數(shù)據(jù)內(nèi)被引次數(shù)”高度相關(guān),可以揭示某個領域內(nèi)的引用情況,而且與“數(shù)據(jù)內(nèi)引用文獻”相關(guān),兼顧了文獻引用的文獻的影響。
上文的研究基于的數(shù)據(jù)是112 699篇文獻,但是很多時候,檢索結(jié)果往往只有幾十篇,幾百篇。為了探究HITS算法在不同規(guī)模數(shù)據(jù)下的效果,筆者選擇在這112 699篇文獻中,以摘要中包含“AI”和“Artificial Intelligence”的1 046條數(shù)據(jù)為例,計算各指標之間的相關(guān)性。得到結(jié)果如表5所示。
表5 相關(guān)性檢驗(1 046篇)
可以看出,在數(shù)據(jù)量較少的情況下,各個指標之間的相關(guān)度明顯降低。為了找出HITS算法具有較好效果的數(shù)據(jù)集大小界限,選擇AAAI,CVPR兩個會議的11 932條記錄作為研究數(shù)據(jù)。得到結(jié)果如下表6。
表6 相關(guān)性檢驗(11 932篇)
3種數(shù)據(jù)量得到的結(jié)果的“權(quán)威值”與“數(shù)據(jù)內(nèi)被引次數(shù)”的相關(guān)性進行對比,得到表7。
表7 3種數(shù)據(jù)量下“權(quán)威值”與“數(shù)據(jù)內(nèi)被引次數(shù)”的相關(guān)性
可以看出,當數(shù)據(jù)量在一萬級以上時,HITS算法具有較高的可靠性;當數(shù)據(jù)量在一萬以下時,可靠性急劇下降。
綜上所述,“權(quán)威值”指標與“數(shù)據(jù)內(nèi)被引次數(shù)”指標高度正相關(guān),與“數(shù)據(jù)內(nèi)引用文獻”也有一定的相關(guān)性。這表示,將“權(quán)威值”作為指標,與“被引次數(shù)”相比,有以下優(yōu)點:①可以更好地反映一個主題內(nèi)(或者一個檢索結(jié)果內(nèi))的文獻被引情況。②根據(jù)權(quán)威值和樞紐值的算法,“權(quán)威值”是引用文獻的樞紐值之和,“樞紐值”與“數(shù)據(jù)內(nèi)引用文獻”高度相關(guān),可以說權(quán)威值是綜合了“數(shù)據(jù)內(nèi)被引次數(shù)”和“數(shù)據(jù)內(nèi)引用文獻”兩個指標。相比于“被引次數(shù)”,權(quán)威值能夠選出既被廣泛引用地,也引用了高質(zhì)量文獻的文獻。
“權(quán)威值”也存在以下缺點:①計算速度可能比較慢。②如果檢索結(jié)果數(shù)量少于一萬,會導致文獻間的引用關(guān)系數(shù)量不足,使得HITS算法的“權(quán)威值”不能很好地反映真實情況。