張長宏,張明亮
(青海民族大學)
基于內(nèi)容和引用的科學領域主題的發(fā)現(xiàn)
張長宏,張明亮
(青海民族大學)
結(jié)合了文獻的引用和內(nèi)容,將內(nèi)容相似度和引用相似度融合形成統(tǒng)一的語義空間,譜聚類后發(fā)現(xiàn)更準確的主題.最后以IEEE VIS 頂級會議的文獻為數(shù)據(jù)集進行了驗證,顯示有較好的效果.
主題發(fā)現(xiàn);引用分析;內(nèi)容分析;IEEEVIS文獻
發(fā)現(xiàn)科學領域內(nèi)的主要研究內(nèi)容及未來方向,對于科學管理部門做好后期的規(guī)劃有著重要的指導意義,也對研究者對一個研究領域的了解、熟悉及提高研究效率有著重要意義.對科學文獻研究傳統(tǒng)的方法以引用分析為主要分析方法,1964年Martyn J.提出了耦合分析法[1],1965年Garfield提出了引用分析[2],1973年Small H提出了共引分析[3],并成為分析文獻的主要方法.他們都以通過文獻的引用關系來進行聚類,再通過每個類中最關鍵的文獻來確定該類的研究主題,能夠較好的發(fā)現(xiàn)科學領域的主要研究方向.但是都有一定的滯后,對于未來的研究方向總是有一個延遲.2004 年,陳超美提出了分析知識領域演化情況的可視化分析方法,并基于Java語言研究開發(fā)了知識圖譜繪制軟件 Citespace Ⅰ[4],具有時序分割、 同被引聚類、 尋徑網(wǎng)絡、 時序網(wǎng)絡可視化分析等功能.2006年又推出了Citespace Ⅱ[5],其版本不斷的更新.后來將共現(xiàn)的思想應用于文獻的關鍵詞來構(gòu)建共詞網(wǎng)絡進行科學領域的研究,對共詞網(wǎng)絡進行聚類來發(fā)現(xiàn)主要的學科研究方向,但是詞匯量相對較少,不能很好的反映研究的科學方向.隨著自然語言處理技術的進步,提出了主題模型,能較好的反映文本的內(nèi)容,如LSA,PLSA,LDA[6]等主題模型,并在許多領域得到了廣泛使用.但是該本的維度比較高,其噪音也比較高.
針對上面的問題,提出將文本內(nèi)容與引用關系結(jié)合,將兩個語義空間中對象關系表示到一個統(tǒng)一的語義空間,再對其融合后的矩陣進行譜聚類,提取更準確的主題.
為了提取主題,分三步來做,分別是文本內(nèi)容相似度計算、文本引用相似度的計算、兩個相似度矩陣合并后再進行譜聚類,并提取各個主題的主要關鍵詞.
1.1文本相似度的計算
將收集的文獻集的題目和摘要作為每一篇文獻的文本內(nèi)容,進行分詞后,統(tǒng)計每個詞的詞頻TF,并計算每個詞逆文檔頻率IDF,兩者的乘積就得個詞的TFIDF.當某個詞的TFIDF越高,表示它對文章越重要,故常用排名最靠前的幾個詞來表示文獻的內(nèi)容,也可用一個類中排名前幾位的關鍵詞來表示一個類的內(nèi)容.最后按照余弦公式(1)來計算兩篇文獻的相似度,其值越大,表示兩篇文獻越相似.分子表示兩篇文獻中所有相同單詞的TFIDF差值的平方和,分母表示兩篇文獻各自的所有單詞的TFIDF值的平方和的平方根的乘積.
(1)
1.2文本引用相似度的計算
根據(jù)文獻的參考文獻建立文獻的引用矩陣,任意兩個文獻的相似度用公式(2)來計算.當兩個文獻的參考文獻相同越多,兩個文獻的主題越相似.但是這樣構(gòu)建的矩陣稀疏,分子表示兩篇文獻共同的參考文獻數(shù)量,分母表示所有參考文獻中有共同參考文獻的最大值.
(2)
1.3相似度矩陣的合并及聚類
為了將引用關系和內(nèi)容相似統(tǒng)一到一個語義空間,采用公式(3)進行合并得到混合矩陣W,認為引用關系和內(nèi)容的影響是相同的,再利用譜聚類方法對此矩陣進行聚類.
(3)
也可以將上面的相似度矩陣轉(zhuǎn)換成距離矩陣,因為相似度最大值是1,最小值是0,故用全1矩陣減去相似度矩陣得到距離矩陣,再采用Kmeans等方法進行聚類得到各個主題.該實驗中采用了譜聚類算法[7],其類算法如下:
(1)把矩陣W的每一列元素加起來得到N個數(shù),得到對角矩陣D,并把W-D的結(jié)果記為拉普拉斯矩陣L=D—W.
(2)求出L的前k個特征值(前k個指按照特征值的大小從小到大排序),以及對應的特征向量.
(3)把這k個特征向量排列在一起組成一個N×k的矩陣,使用 K-means 算法進行聚類.引用關系和內(nèi)容相似度矩陣的合并的本質(zhì),直觀的講,就是在主題相似的基礎上,提高了主引用文獻的相似性,從而保證了聚類有著更高的準確性.認為引用關系和文獻內(nèi)容是同等重要,故對融合矩陣的權(quán)重都設為了0.5.如果下一步進行深入研究,可以去調(diào)整兩個矩陣的權(quán)重使其達到合理的值,但要保證權(quán)重之和要為1.
最后根據(jù)各個類中的文獻,提出TDIDF最高的10個詞來表示各個類的內(nèi)容,TFIDF的值越高,對應的詞越能表示文獻的主題.
隨著人們生活中的數(shù)據(jù)指數(shù)級的增長,不僅要求數(shù)據(jù)處理技術不斷提高,而且需要快速的解讀數(shù)據(jù)中信息,可視化技術為人們提供了去發(fā)現(xiàn)、分析,探索數(shù)據(jù)中的現(xiàn)象和規(guī)律,這幾年發(fā)展非常迅速.可視化現(xiàn)已廣泛應用于生命醫(yī)學、材料、天文物理、氣候模擬,金融等領域的數(shù)據(jù)分析,一方面是為了驗證數(shù)據(jù)方面的有效性,另一方面是揭示可視化領域主要的研究內(nèi)容和現(xiàn)在主要的研究趨勢,故筆者采用了可視化領域最高級別的會議IEEE VIS(1990-2015)的數(shù)據(jù)做為數(shù)據(jù)集.2016年,Isenberg P[8]對可視化頂級會議IEEE VIS所發(fā)表的所有的文獻進行了整理,剔除和修正了所有的文獻信息.將可視化會議由三個會議科學可視化,信息可視化,可視分析、科學與技術(VAST)的發(fā)展進行了總結(jié),并提供網(wǎng)站可以下載數(shù)據(jù)集.數(shù)據(jù)集來源于[9],總共有2803篇文獻,剔除沒有摘要的,總共2702篇.表1就是剔除后每年的文獻情況.
表1 文獻分年統(tǒng)計情況
2.1主題的提取
采用上面的方法,首先提取了一元和二元的單詞,建立所有文獻的tfidf矩陣,以及引用矩陣.根據(jù)tfidf矩陣中平均值最高的筆者采用了2000維的數(shù)據(jù),按照余弦相似度公式(1)來計算文獻間的相似度.對于引用矩陣,只考慮了引用IEEE VIS 中的論文情況,是個稀疏矩陣,使用了兩個文獻中引用相同文獻的數(shù)量作為分子,而將引用矩陣中引用數(shù)量的最大值做為分母,再按公式(3)計算得到文獻引用的相似度矩陣.最后使用譜聚類算法得到所有主題,并提取tfidf值最高的10個詞做為類的標識.表2是所有主題的主要關鍵詞.表中的主題是按平均強度來排名,自上而下,主題的強度不斷減弱.根據(jù)文獻和關鍵詞為每個類提供了一個標簽.
表2 文獻集主題及對應的關鍵詞
2.2主題的分析
從圖1看到各個主題的變化趨勢,可以看到主題1一直是最強的,由于可視化的應用領域的多樣性和研究方法的多樣性.主題4基因數(shù)據(jù)和社區(qū)網(wǎng)絡數(shù)據(jù)的研究從2004年開始一直不斷的增長,是第二個熱門的研究主題.主題7時空數(shù)據(jù)的也在不斷的增強,尤其是2013年以后,隨著移動網(wǎng)絡的快速發(fā)展,其數(shù)據(jù)量大,而且非常有應用價值,能及時發(fā)現(xiàn)一些規(guī)律,是第三個熱門的主題.比較獨特是主題2虛擬現(xiàn)實,90年代初期,是個研究的熱點,但是慢慢的減弱,但從2011以后慢慢又熱了起來,尤其現(xiàn)在隨著硬件技術的發(fā)展,虛擬現(xiàn)實和混合現(xiàn)實越來越熱.主題3表面建模自上世紀90年代初期,逐漸成為最熱門的主題,但是自2005年后就其研究的熱度不斷的下降.
圖1 主題的強度年度變化趨勢圖
該文將文獻的內(nèi)容相似度矩陣和引用相似度矩陣融合為一個矩陣,采用了譜聚類算法提取了可視化領域的最高級別的會議(IEEE VIST)1990~2015年的所有文獻的主題,分析了主題的發(fā)展趨勢,發(fā)現(xiàn)了比較熱門的主題.實驗證明對準確度有一定的提高,同時也為可視化領域的內(nèi)容和發(fā)展的趨勢進行了分析.
[1] Martyn J.BIBLIOGRAPHIC COUPLING[J].Journal of Documentation,1964,20(4):236-236.
[2] Garfield E.Use of citation data in writing the history of science[J].Isis,1965(Volume 56,Number 4).
[3] Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265-269.
[4] Chen C M. Searching for intellectual turning points:progressive knowledge domain visualization[J] . Proceedings of the National Academy of Sciences of the United States of America( PNAS) ,2004( 1) :5303 - 5310.
[5] Chen C M. CiteSpace II:detecting and visualizing emerging trends and transient patterns in scientific literature [J] . Journal of the American Society for Information Science and Technology,2006,57( 3) :359 - 377.
[6] Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[7] Zha H,He X,Ding C,et al.Spectral relaxation for K-means clustering[C] International Conference on Neural Information Processing Systems:Natural and Synthetic.MIT Press,2001:1057-1064.
[8] Isenberg P,Heimerl F,Koch S,et al.Vispubdata.org:A Metadata Collection about IEEE Visualization (VIS) Publications[J].IEEE Transactions on Visualization & Computer Graphics,2016,PP(99):1-1.
Abstract:Traditional topic analysis in the field of science mainly uses citation analysis.With the development of natural language processing technology,content-based analysis technology has been widely used.They have their own advantages.This paper combines the references and contents of the literature,and merges the similarity of content and the similarity of reference to form a unified semantic space.Using spectral clustering,we detect a more accurate topic.Finally,the datasetsof the IEEE VIS top conference literature has been verified,showing a better effect.
Keywords:Topic detection; Citation analysis; Content analysis; IEEEVIS literature
(責任編輯:李家云)
TheTopicsDetectionBasedonContentandReferencesintheScienceField
Zhang Changhong,Zhang Mingliang
(Qinghai Nationalities University)
TP393
A
1000-5617(2017)02-0100-04
2017-01-14