張 瑜,顧進廣,4,張銘暉,張 俊
1(武漢科技大學 計算機科學與技術學院,武漢 430065)
2(智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,武漢 430065)
3(深圳證券信息有限公司,廣東 深圳 518028)
4(國家新聞廣電出版總局富媒體數(shù)字出版內(nèi)容組織與知識服務重點實驗室,北京 100038)
對于科研人員而言,在日常研究工作中閱讀大量的文獻是必不可少的.當閱讀一些具有影響力的文獻時,研究人員可能需要通過這些文獻的研究動機來深入理解這些文獻.當研究人員想要選擇新的研究方向時,他們需要查閱相關文獻以及這些文獻的參考文獻.由于并非所有的參考文獻都是非常重要的,有必要過濾出所需要的重要參考文獻.通常,研究人員會選擇尋找一些更具價值的參考文獻,這些參考文獻是引用文獻學術思想的主要來源.但是,一篇文獻中有許多參考文獻,研究人員如何高效地在這些參考文獻中找到最重要的參考文獻呢?
當前,關于引用文獻影響力評估的研究可以分為兩類:(1)非監(jiān)督方法.主要包括圖模型,如由Dietz等[1]提出的引文影響模型(CIM).其它一些模型可以用來計算主題分布概率,如局部因子圖模型[2],傳承主題模型(ITM)[3],引文追蹤話題(CTT)模型[4],成對約束玻爾茲曼器(PRBMs)[5]及概率生成圖模型[6].(2)監(jiān)督方法.Bethard等[7]通過使用一些特征來計算學習權(quán)重相似度來進行引文推薦,可以利用訓練集學習啟發(fā)性指導來評估影響力.這些方法旨在從不同的角度解決鏈路強度問題,使用監(jiān)督方法的引文影響力評估方法采用啟發(fā)式線索,可以避免陷入局部術語細節(jié).此外,還有社交網(wǎng)絡中影響力最大化研究方法[8,9],也可用于引用文獻影響力評估.本文將考慮融合這幾個方面的優(yōu)點,以使用主題信息和文獻自身的靜態(tài)特征來評估引文影響力.
可將參考文獻重要性評估問題設計成一個集成參考文獻各種重要因素的文獻數(shù)據(jù)集上的分類器.本文引入主題相似性將關鍵詞相似性作為重要考慮因素,將引用計數(shù)作為文獻的人氣指數(shù),期刊的影響力也可以用來評估不同期刊中的文獻影響力.本文設計了一個文獻分類器,使用帶標簽的邏輯回歸模型評估這些特征的重要性權(quán)重,以反映參考文獻對引用文獻的影響程度;建立邏輯回歸模型作為影響力評估模型;使用具有不同特征值的新文獻實例模型來評估參考文獻的重要程度.這對于研究人員以更高效的方式來獲得有影響力的文獻是非常有幫助的.
現(xiàn)有的研究工作中有不少關于影響力評估的研究,如圖模型和監(jiān)督方法.潛在狄利克雷分配(LDA)模型[10]是一種生成概率模型,將引文集成到主題建模中[11].基于LDA的擴展變形可以用來提取文獻的潛在主題,以建立引文和文獻之間的關系模型.Tang等[4]提出了一種基于估計主題模型計算引文關系影響力的方法,通過考慮源文獻和目標文獻的主題分布以及主題-類別混合來計算引文的影響力.Dietz等[1]提出的引文影響模型(CIM)描述了引文行為的生成過程,被引用文獻對引用文獻的影響可以通過引文的統(tǒng)計信息進行評估.Qi等[3]提出了一種迭代的主題進化學習框架,利用LDA和引文網(wǎng)絡,研究了一個新的繼承主題模型.Hall等[12]將無監(jiān)督主題建模應用于ACL文集,以分析主題的變化過程,并檢查每個主題隨時間變化的強度,展示了主體思想的變化過程.生成模型可用于對隨機生成進行建模,這適用于文獻的生成過程,并且可以僅使用文檔里的詞而不考慮每個詞的含義來評估主題級別的影響.
Bethard等[7]提出的引用推薦檢索模型是一種基于監(jiān)督的引文關系分析方法,其特征包括相似術語、他引關系、相似主題和引用習慣,它們的權(quán)重可以通過SVM-MAP進行計算.這種方法利用文獻自身的信息,反映了文獻的研究動機,可以在引文影響評價中充分利用這些特征.
上述方法都是關于參考鏈接的評估,但其目的各不相同,如文獻搜索,引文推薦和引文關系分類等.本文探索采用啟發(fā)式方法來輔助引文影響評估.文獻中存在一些重要的特征,例如文獻之間的內(nèi)容相似性,作者之間的共同作者關系,參考鏈接,引用計數(shù),會議影響力,共同引用關系等,雖然這些特征不能被視為共同特征,但它們包含了影響文獻引用動機的重要因素,可以有效地使用這些特征來檢測文獻之間的隱含關系.為此,本文設計了一個分類器來捕捉有影響力的參考文獻,以幫助研究人員有效地獲得有影響力的重要文獻.
科學文獻形成了一個通過引文關系連接的文獻研究網(wǎng)絡[13].學術網(wǎng)絡中的引文統(tǒng)計特征包括引文數(shù)、引文PageRank.常見符號D是整個語料庫,l和r是文獻,M是文獻的數(shù)量.引文數(shù)是文獻被引用的次數(shù),用于表達文獻的重要程度[7].文獻1的引文數(shù)可以用公式(1)表示.
Citing(1)={1′∈D:1′cites1}
favg-citation-count(1)=log(|citing(1)|/yeardiff)
(1)
其中,yearcur表示當前年份,yearpub表示出版年份.引文數(shù)是從Libra copra下載的.使用平均引文數(shù)來反映每篇參考文獻的長期影響.引文數(shù)特征由對數(shù)值歸一化,以便保持在引文數(shù)縮放范圍.
為了更好地捕捉文獻的主題,將主題的相似性作為擴展特征.文獻1的主題向量用公式(2)表示.
topics(1)={probt1,probt2,…,probtK}
(2)
其中,probti是文獻1的主題ti的推斷概率;K是主題的數(shù)量.
借用文獻之間Jensen-Shannon (JS) 差異作為文獻相似性度量,它為每對分布的KL發(fā)散度之和的平均值,如公式(3)所示.
(3)
(4)
這種主題相似性度量是一種語義上的相似性,并沒有考慮每個主題的術語特征.考慮引入文獻的標題和摘要來度量文獻的相似性.如公式(5)和公式(6)所示.
Title-similarity(r,l)=cosine(TF(r),TF(l))
(5)
Abstract-similarity(r,l)=cosine(TF-IDF(r),
TF-IDF(l))
(6)
利用相關性向量來計算關鍵詞相似性,如公式(7)所示.
Keywords-Similarity(r,l)=
consine(Relevance(r),Relevance(l)
(7)
其中,Relevance(r)和Relevance(l)為文獻r和l的相關性向量.
文獻作者的影響對參考文獻的選擇也是十分重要的.通過計算文獻作者引用參考文獻的總次數(shù)表示作者引文偏好的權(quán)重,用公式(8)表示.
(8)
其中,author_cited(l,ai)是作者ai被文獻1引用的總次數(shù),它是從語料庫中統(tǒng)計出來的,U是文獻1中的作者數(shù)量.
在高級期刊中發(fā)表的文獻比低級期刊更具影響力,可利用的期刊信息有出版物、引文和作者,用一種簡單的方法來計算期刊的影響力,如公式(9)所示.
fconference(r)=log(Npubs+Ncites+Nauthors)
(9)
其中,Npubs是出版物的數(shù)量,Ncites是引文的數(shù)量,Nauthors是作者的數(shù)量,本文使用對數(shù)來表示三個值的權(quán)重.
對參考文獻影響進行評估的目的是為當前的研究選擇出最有影響力的參考文獻,這就好比使用一個過濾器來濾出非常重要的參考文獻.過濾模型大致可分為兩種類型:生成模型(如Na?ve Bayes)和判別模型(如支持型向量機和邏輯回歸(LR)).大量的分類測試表明,判別模型要優(yōu)于生成模型.因此,本文使用邏輯回歸模型(LR 模型)作為影響評估模型.
使用邏輯回歸模型可以訓練每個特征的權(quán)重,并且可以根據(jù)這些特征來計算每篇參考文獻屬于非常重要類型的概率.可以用公式(14)來預測影響概率.
(10)
對參考文獻是否為非常重要類型的分類通常有一個臨界值,將該值用θ表示.如果影響概率大于θ,則評估的參考文獻屬于“重要”類型,否則屬于“非常重要”的類型.通常情況下,θ可取值0.5,θ的最佳取值也可以根據(jù)文獻數(shù)據(jù)集來確定.
接下來的問題是如何訓練特征的權(quán)重.在訓練影響過濾模型時,本文借助了梯度下降法[14],采用學習等級來控制在梯度方向上的跨度,其值通常取rate=0.02.
算法1.邏輯回歸模型訓練算法
begin
if(p>θ)
predict yj=important
else predict yj=very-important
if(yj=very-important)
end
用邏輯回歸模型訓練特征的權(quán)重后,可以利用概率度量作為影響評分.如果參考文獻影響評分大于θ,則預測表明它為“重要”,否則為“非常重要”,然后,將預測的標簽與原本的標簽進行比較,可以得到“非常重要”類型數(shù)和“重要”類型數(shù),以及非常重要類型錯誤分類數(shù)和重要類型錯誤分類數(shù)的靜態(tài)特征,以此來評估模型的性能.
為評估使用的影響評估模型,考慮到非常重要類型錯誤分類率(vimr)和重要類型錯誤分類率(imr),其中具有較低vimr和imr的分類器優(yōu)于較高的.將影響評分與臨界值θ進行比較可以確定分類類型,所以精度對本文的方法而言并不是一個好的指標.接收者操作特性(ROC)曲線分析可用于評估非常重要和重要的錯誤分類概率之間的平衡.(vimr,imr)的點集決定了ROC空間中的曲線.將ROC曲線下方面積記為AUC.為了得到vimr和imr之間可能的臨界值,我們使用1-AUC 來測算隨機“重要”類型消息得分比隨機“非常重要”類型消息得分還低的錯誤概率.綜上,本文的評估指標是vimr,imr,1-AUC以及ROC曲線上方面積的百分比.其中具有較低vimr,imr和1-AUC 的分類器要優(yōu)于高的.
我們收集了關于計算機科學的兩個學術語料庫.一個是Arnetminer(現(xiàn)為AMiner)的文獻,其中包含629814篇文獻和超過632752個引用關系,刪除了沒有參考文獻的文獻.另一個是Libra上2011年5月之前的會議信息,其中分別包含177381個出版物,2770個會議和614587作者.使用兩個學術語料庫之間有交集且作者和會議信息完整的文獻作為文獻數(shù)據(jù)集.在預處理階段,選擇參考文獻數(shù)量超過6篇的文獻作為訓練數(shù)據(jù)集,并把它們以結(jié)構(gòu)化數(shù)據(jù)存儲起來.為了訓練LR模型,從1000篇文獻中標記出6360篇參考文獻作為訓練集.將訓練集中每篇參考文獻的重要度進行數(shù)字化,用標簽1和0分別標記“非常重要”和“重要”.利用訓練后的LR模型,可以計算出參考文獻的影響評分.
表1 基于LR模型的基線特征權(quán)重和等級Table 1 Baseline features weights and Rank according to LR model
表2 屬性編號、屬性名、特征權(quán)重和等級Table 2 Attributes number,name,features weights and Rank according to LR model
為了在添加上述特征后還能對結(jié)果進行合理的比較,使用標題和摘要相似性作為基線特征來訓練LR模型,其中訓練的權(quán)重如表1所示.
在LR模型中使用梯度下降法訓練每個屬性權(quán)重的方法已在4.1節(jié)中描述.表2給出了特征的絕對權(quán)重和等級.對于邏輯回歸模型,由標記集訓練的權(quán)重反映了每個特征的影響程度,絕對權(quán)重越高,特征的影響等級越高.
從表2可知,摘要相似性的權(quán)重最高.研究人員在選擇參考文獻時,他們會先通過閱讀文獻摘要作為第一步篩選.使用這些權(quán)重,在(vim%,im%)集上對接收者操作特性(ROC)曲線進行比較.由于臨界值不是固定的,根據(jù)臨界值θ的變化繪制了ROC曲線,如圖1所示.
圖1 使用帶有基線特征(標題相似性和摘要相似性)和第3節(jié)中所有特征的邏輯回歸模型繪制的ROC曲線Fig.1 ROC of logistic regression model using baseline features (title similarity and abstract similarity) and all the features mentioned in Section 3
如圖1所示,具有所有特征的1-AUC (曲線上方的面積)小于僅具有基線特征的1-AUC.加入其他特征來促進分類器的辨別能力,這些特征對于參考文獻影響評估是十分有用的.研究人員在選擇參考文獻時往往會忽略一些重要信息,可以在分析參考文獻時充分使用這些特征,以得到更準確的結(jié)果.
在本文的研究中,使用辨別模型來訓練一個分類器以區(qū)分有影響的參考文獻,使用大量特征來評估參考文獻的重要性.在特征集中通過梯度下降法訓練LR模型后,得到每個特征的適當權(quán)重,然后使用該模型計算影響類型概率,以便在得分與臨界值相比較時對參考文獻進行評估.如實驗結(jié)果所示,該模型的性能優(yōu)于僅使用標題和摘要相似性的基準模型,這將是過濾參考文獻的更好方法.
此外,本文方法尚有一些不足之處.我們的數(shù)據(jù)集不能得到作者、文獻和期刊/會議的精確計數(shù),因為它們在不斷變化.在LR模型中,只使用非常重要和重要這兩個標記,但是參考文獻的評估可以有各種不同的粒度.如果能找到參考文獻的鑒別劃分策略,就能得到一個更合理的評價.另外,使用的語料庫主要是計算機科學方面,如果條件允許,可以在更大的文獻引用數(shù)據(jù)庫上進行測試,以測試這些特征是否符合這里觀察到的模式或能否揭示科學引文的新趨勢.