• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    時間加權的TF-LDA學術文獻摘要主題分析

    2020-01-10 06:49:30哲,楊
    計算機技術與發(fā)展 2020年1期

    伍 哲,楊 芳

    (西安郵電大學 計算機學院,陜西 西安 710121)

    0 引 言

    學術文獻是一種特殊的記錄,或者可以稱之為科學的總結,記錄一種學術課題的新的科研成果,也總結一些創(chuàng)新性的見解。思路是應用某種已知的原理,對實際問題進行解決的進程敘述,可用來與其他人進行交流,多在學術性的會議上進行宣讀,進行討論,多數(shù)發(fā)表于相應領域的刊物上,其他則作為別的用途的書面文件[1]。文獻是一種載體,用來傳播學術性知識,人們通常閱讀文獻來獲取知識,其可以反映人們在一定社會歷史階段的知識水平,其更是科學研究的基礎[2]。隨著社會的發(fā)展,文獻的種類和數(shù)量越來越多,相關的研究人員在從事一項科研之前,需要進行準備工作,包括獲得這項科研的相關知識,進行人員分配,設計科研的實施方法,以及定期目標等,在積累基礎的階段,目前仍然還得閱讀大量的學術文獻,了解這項科研的全面知識,并且得到這項研究所屬學術領域的最新研究熱點。數(shù)量如此龐大的學術文獻,人工進行分析顯然速度很慢,無法達到目前社會的效率要求。搜索引擎是處理這一問題的工具之一,但其只能幫助科研人員篩選出符合檢索條件的文章列表,這些列表對于科學研究需要的主題沒有什么實用性價值,科研人員仍然需要通過大量閱讀來熟知這些列表的內(nèi)容,這需要付出很多時間和精力。如何更加有效地快速得到海量專業(yè)學術文獻主題信息,更加直觀地得到學術文獻主題的結果信息,使科研人員迅速了解學術文獻的熱點和發(fā)展,判斷該學術領域的發(fā)展方向,從而快速進行下一項任務。顯然,減少人工査看分析時間,節(jié)省科研人員的精力,是一個急需解決的現(xiàn)實問題。

    因此,為了能夠高效、準確地提取學術文獻的主題,提出一種TF-IDF[3]結合LDA的學術文獻主題分析方法。該方法采用分詞和停用詞詞典對文獻集進行預處理,使用TF-IDF對其進行特征提取,降低維度,使用特征詞構建主題引導特征詞詞庫引導主題的生成,并加入時間因素,提出時間權重,綜合特征詞權重和時間權重計算總的影響權重,引導主題的概率分布,最后采用LDA主題模型得到主題分布情況。

    1 相關介紹

    1.1 TF-IDF

    TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術[4]。TF意思是詞頻,指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。IDF意思是逆文本頻率,在IDF中,詞的集合中的一個詞,有這樣的特點,相對于其他的詞,這個詞在文檔集中很少出現(xiàn),但這個詞在某一篇文檔中卻經(jīng)常出現(xiàn)。顯然這個詞對于整個文檔集而言沒有任何意義,不是整個文檔集的關鍵詞,但對于這篇文章來說很重要,這個詞就是這篇文章的關鍵詞。那么怎樣用一個指標來表示這種特性,如何去衡量這個詞,怎么給它一個相對這篇文章較高的,而相對總體文檔集沒有作用的權重呢,這是一個問題。通常,這個特性是一個具有調(diào)整功能的變量,則需要定義一個重要性的調(diào)整系數(shù)來解決這個問題,用統(tǒng)計學語言表達就是在詞頻統(tǒng)計的基礎上,對每個詞項分配一個“重要性”的調(diào)整系數(shù),這個詞的出現(xiàn)次數(shù)和它的權重呈反比,出現(xiàn)的多反而權重小,出現(xiàn)的少反而權重大,具有重要作用,這就是通常所說的逆文檔頻率。綜上,TF-IDF的主要思想如下:對于某個屬于詞集合的詞,如果在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn)(IDF),則認為此詞是這篇文章的關鍵詞,即特征詞,與其他詞相比,具有代表性,有很好的類別區(qū)分能力,能代表這篇文章。這個算法的細節(jié)如下:

    詞頻(TF)=詞在文檔中的出現(xiàn)次數(shù)/該文檔中所有字詞的出現(xiàn)次數(shù)之和

    逆向文件頻率(IDF)=log(文檔總數(shù)/包含該詞語的文檔數(shù)目)

    TF-IDT=TF*IDF

    1.2 LDA

    LDA(隱含狄利克雷分布)是目前一種比較主流的主題模型,也是一種典型的詞袋模型[5]。它是一種非監(jiān)督機器學習技術,可以展現(xiàn)離散型數(shù)據(jù)集的概率增長,具有三層,分別為文檔集層、主題層及特征詞層,每層均由相應的隨機變量或參數(shù)控制。它可以將文檔集合中的每篇文檔的主體以概率分布的形式給出,從而分析一些文檔抽取出它們的主題分布,然后可以根據(jù)主題進行文本分類或者是主題聚類。LDA采用貝葉斯估計的方法,假設文檔的主題分布和主題的特征詞分布的先驗分布都是Dirichlet分布(狄利克雷分布),認為所有的文檔存在K個隱含主題,要生成一篇文檔,首先生成該文檔的一個主題分布,然后再生成詞的集合;要生成一個詞,需要根據(jù)文檔的主題分布隨機選擇一個主題,然后根據(jù)主題中詞的分布隨機選擇一個詞,重復這個過程直至生成文檔。

    LDA是一種使用聯(lián)合分布計算在給定觀測變量下隱藏變量的條件分布(后驗分布)的概率模型,觀測變量為詞的集合,隱含變量為主題[6]。LDA的生成過程對應的觀測變量和隱藏變量的聯(lián)合分布如式1所示:

    p(β1:K,θ1:D,Z1:D,W1:D)=G*H*J

    (1)

    其中,β表示主題,θ表示主題的概率,Z表示特定文檔或詞語的主題,W為詞語。β1:K為全體主題集合,其中βk是第k個主題的詞的分布。第d個文檔中該主題所占的比例為θd,其中θd,k表示第k個主題在第d個文檔中的比例。第d個文檔的主題全體為Zd,其中Zd,n是第d個文檔中第n個詞的主題。第d個文檔中所有詞記為Wd,其中Wd,n是第d個文檔中第n個詞,每個詞都是固定的詞匯表中的元素。p(β)表示從主題集合中選取了一個特定主題,p(θd)表示該主題在特定文檔中的概率,大括號的前半部分是該主題確定時該文檔第n個詞的主題,后半部分是該文檔第n個詞的主題與該詞的聯(lián)合分布。連乘符號描述了隨機變量的依賴性,用概率圖模型表述如圖1所示。

    圖1 LDA的文檔生成

    圖中,每個圓圈表示一個隨機變量,矩形表示變量的重復,同時參照其在生成過程中所扮演的角色進行標注。白色圓圈表示隱含變量,觀測變量Wd,n則用灰色的圓圈表示;D表示文檔的集合;K表示設置的主題數(shù)目;a表示每篇文檔的主題分布的先驗分布-Dirichlet分布的超參數(shù);η'表示每個主題的詞分布的先驗分布-Dirichlet分布的超參數(shù);W表示建模過程中可以觀測的詞語。具體的過程如下:

    (1)從Dirichlet分布a中取樣生成文檔d的主題分布θd。

    (2)從主題的多項式分布θd取樣生成文檔d第n個詞的主題Zd,n。

    (3)從Dirichlet分布η'中取樣生成主題Zd,n對應的詞語分布βk。

    (4)從詞語的多項式分布βk中采樣最終生成詞語Wd,n。

    用吉布斯采樣法(Gibbs sampling)[7]對LDA模型的文檔-主題分布和主題-詞語分布進行推斷,吉布斯采樣的算法流程描述如下:

    (1)初始化,對第i個詞Wi隨機分配某個主題。

    (2)狀態(tài)更新,對每個單詞W,計算除i以外的其他全部詞語的主題z-i(-i是i的補集)已知的情況下,Wi屬于每一個主題j的后驗概率p(zj=j|z-I,w),將當前詞語安排給概率值最高的主題。

    (3)將第2步進行多次迭代,直到每個詞語的主題收斂到穩(wěn)定的狀態(tài)。

    1.3 時間因子

    學術文獻的一個重要屬性是發(fā)表時間,發(fā)表時間越久,被引的數(shù)量越多,而發(fā)表時間越久,反而造成其熱度下降,其時效性的特點不同于其他一些屬性的文本,忽略時間容易造成主題挖掘不準確,即主題聚類的結果不正確?,F(xiàn)有的主題分析模型[8-9]沒有對學術文獻的發(fā)表時間進行分析,而學術文獻熱點主題是具有時效性的,它隨著時間的變化而變化,如果忽略這個特點,會導致主題分析的不準確性;每個學術文獻都有自己的發(fā)表時間,如果學術文獻的發(fā)表時間與當前時間的間隔越小,越能反映這一時間段內(nèi)的學術熱點主題,因此時間因素在考慮學術文獻的主題上是不可忽視的因素[10]。針對這種缺陷,引入時間因子,根據(jù)德國心理學家艾賓浩斯提出的艾賓浩斯遺忘曲線來得到學術文獻摘要的時間權重大小。將每個學術文獻摘要的特征詞根據(jù)發(fā)表時間權重分別相加,并按照權重和進行排序,然后用來訓練時間窗口的大小,得出的時間窗口對學術文獻主題分析的時間做出限定,發(fā)表時間位于在時間范圍內(nèi)的學術文獻,對其摘要進行主題分析。

    (1)構造學術文獻的發(fā)表時間因子函數(shù)(如式2),計算學術文獻發(fā)表時間和當前時間的間隔,及其對學術文獻主題的影響:

    (2)

    其中,TimeWeigh表示發(fā)表論文的時間和當前時間的時間差,以及時間差所反映的主題變化的權重;Tnow表示當前時間;Tpub表示學術文獻的發(fā)表時間;EWeigh表示學術文獻根據(jù)發(fā)表時間這一特點,得出的時間內(nèi)主題的衰減因子,主題的衰減因子是由艾賓浩斯曲線擬合出的函數(shù)決定的。

    (2)艾賓浩斯曲線是以一位心理學家的名字命名的。德國心理學家艾賓浩斯,通過研究人腦,發(fā)現(xiàn)人腦對于新事物的遺忘總是遵循著一種規(guī)律,這種規(guī)律可以由一種曲線所反映。在人們接觸一種新鮮事物時,經(jīng)過一階段對于這種新鮮事物產(chǎn)生認識后,遺忘立刻開始,最初遺忘的速度很快,并且遺忘的數(shù)量很大,隨著時間的變化,遺忘速度會變慢,遺忘的內(nèi)容會減少,最終到達一定的程度,總結下來就是速度由快變慢,內(nèi)容由多變少,這些都是德國心理學家艾賓浩斯的理念。這一過程的發(fā)現(xiàn)對于人類的記憶力研究有很大幫助,還能適用于多個領域[11]。文中將學術文獻的特征詞當作準備被新認知的事物,即是對應于人腦即將會產(chǎn)生記憶的材料,而計算機對應于人腦,會對這些特征詞產(chǎn)生記憶,這個記憶的遺忘過程遵循艾賓浩斯遺忘曲線,對于特征詞的遺忘情況進行記錄,將結果擬合成函數(shù),如式3。

    EWeigh=97.53(Tpub)-0.446+17.68

    (3)

    (3)對學術文獻摘要的發(fā)表時間進行分析,判斷其是否在時間范圍內(nèi),對于窗口范圍內(nèi)出現(xiàn)的學術文獻摘要計算發(fā)表時間權重,依據(jù)式3將計算出來的發(fā)表時間權重進行求和運算,都是以特征詞為單位而進行的,得出學術文獻摘要的某一個特征詞的總的發(fā)表時間權重,如式4:

    (4)

    其中,Tre表示特征詞離現(xiàn)在時間最近,出現(xiàn)的時間;TFir表示特征詞第一次在文檔集中出現(xiàn)的時間;SumWeigh表示各特征詞的發(fā)表時間的權重和。

    (4)學術文獻的另一個屬性是其擁有發(fā)表的作者,有如下情況,作者相同的學術文獻,方向不同;作者相同的學術文獻,方向相同;作者不同的學術文獻,方向相同;作者相同的學術文獻,方向不同。綜合上述因素考慮,將學術文獻的摘要以作者為區(qū)分變量進行分類,并且建立目標文檔集,建立文檔集后,對文檔集內(nèi)的每一篇學術文獻摘要進行預處理,處理主要有分詞和去除停用詞,并且統(tǒng)計每一篇學術文獻摘要的發(fā)表時間,以便計算發(fā)表時間的權重。這樣的學術文獻摘要內(nèi)容才能更加適用于特征提取算法,將分詞和去除停用詞的學術論文摘要內(nèi)容使用TTF-IDF進行特征提取,提取出可以代表學術文獻摘要內(nèi)容的特征詞,對內(nèi)容的數(shù)量進行簡化,同時對學術文獻摘要的發(fā)表時間進行轉(zhuǎn)化,將其表示成二元組的形式,使其序列化。二元組中,word表示學術文獻摘要中的某個特征詞,time表示該特征詞所在的學術文獻的發(fā)表時間。

    設置學術文獻的發(fā)表時間窗口分為以下幾步:

    (1)根據(jù)式3,可得出每一篇學術文獻摘要的發(fā)表時間權重大小,對應于一個一個的點,這些點的斜率值就是學術文學摘要的發(fā)表時間權重。在三角符號93天處,發(fā)現(xiàn)斜率的變化小于0.02,此時對于特征詞的記憶程度的遺忘是一個很重要的時間點。人腦對于學術文獻特征詞的遺忘趨于平穩(wěn),遺忘的速度和量將不會發(fā)生大的改變,因此將學術文獻摘要所對應的時間窗口初始化為93天,如圖2所示。

    圖2 時間窗口

    (2)將學術文獻的發(fā)表時間數(shù)據(jù)以月為單位進行轉(zhuǎn)化,轉(zhuǎn)化后進行抽取,抽出40%,將這40%的學術文獻摘要作為訓練集,訓練敘述學術文獻發(fā)表時間所對應的時間窗口大小。

    (3)對訓練集進行計算,得出訓練集的每一篇學術文獻摘要所對應的每一個特征詞的發(fā)表時間權重,并對這些特征詞的總的發(fā)表時間權重進行計算,即SumWeigh。將各個特征詞按得出的SumWeigh值進行降序排列,取SumWeigh值大的前100個特征詞進行記錄,記為T1,并且定義一個變量j,用來對學術文獻摘要發(fā)表時間所對應的時間窗口進行操作,初始化j=0。

    (4)學術文獻的發(fā)表時間所對應的時間窗口的大小減少Δt(Δt=2j),對訓練集進行計算,將各個特征詞按得出的SumWeigh值進行降序排列,取值為前100個特征詞記為T2,j++。

    (5)按照T1和T2中的相同特征詞數(shù)目計算T1和T2的匹配度,記為M。

    (6)若M<0.8(特征詞的相同量小于80%),認為收斂,確定時間窗口大小為93-Δt,否則,將T2集合覆蓋為空(NULL),返回步驟4。

    2 基于學術文獻的TF-LDA主題模型

    學術文獻文本具有時效性的特點,在分析其主題時需要考慮各文本的發(fā)表時間,而LDA模型的本質(zhì)是顯示出主題的概率,其是一種主題概率模型,忽略詞序、語法等,認為每個詞與每個詞之間是獨立的,沒有聯(lián)系,可以獨立出現(xiàn),在任意位置選擇一個詞都不會受到前面選擇的影響。詞知識跟該詞所處的主題有關,在建模的過程中,以詞頻作為基礎[12-13],詞頻高的詞就有優(yōu)勢,對主題進行選擇時,會偏向高概率詞。而在學術文獻的摘要中并不是出現(xiàn)次數(shù)多的詞就一定是學術文獻摘要的特征詞,能代表學術文獻的摘要內(nèi)容,顯然這種主題選擇方式對于學術文獻的摘要并不適合,不符合學術文獻摘要的主題分布,并且LDA模型提取主題時,沒有將學術文獻摘要的重要因素—發(fā)表時間考慮在內(nèi),使效果不佳,挖掘出來的學術文獻摘要的主題不符合學術文獻摘要的內(nèi)容。

    綜上所述,在進行學術文獻摘要的主題分析時應加入學術文學摘要的發(fā)表時間,并且對LDA建模過程中的采樣策略進行改進,然后進行學術文獻摘要的主題挖掘。具體如下:使用TF-IDF提取特征詞,進行初步采樣,形成一個主題引導特征詞詞庫,對主題引導特征詞詞庫進行計算,得到特征詞的權重,使用主題引導特征詞詞庫進行引導,從而促使主題的提取更加準確,達到增加主題引導特征詞詞庫對主題建模產(chǎn)生作用的狀態(tài)。并提出發(fā)表時間因子,將每個學術文獻的發(fā)表時間作為其時間標簽,在特征詞分配給主題的過程中,利用時間因子產(chǎn)生的時間窗口進行時間限制,優(yōu)化主題的選取,增加發(fā)表時間影響權重的大小,距離當前時間越近的特征詞,所對應的時間權重就應該越大,從而符合學術文獻摘要的發(fā)表時間特點。改進后的總體步驟如下:

    (1)輸入文檔集合,進行分詞和去除停用詞等預處理;

    (2)根據(jù)TF-IDF提取特征詞;

    (3)初步采樣;

    (4)特征詞標注;

    (5)構建主題引導特征詞詞庫;

    (6)綜合步驟3、5,計算特征詞引導權重;

    (7)利用艾賓浩斯遺忘曲線進行時間權重的計算;

    (8)綜合步驟6、7,計算總的影響權重;.

    (9)利用吉布斯采樣算法對分詞后的文本數(shù)據(jù)進行迭代采樣;

    (10)迭代完成,輸出主題模型的結果。

    將學術文獻的發(fā)表時間融合到LDA模型中,對TTF-LDA模型中的詞條進行表示,對于學術文獻摘要的特征詞的發(fā)表時間,以及詞條的表示形式如圖3所示。

    圖3 融合發(fā)表時間的TTF-LDA模型

    在模型中融合發(fā)表時間因子后,學術文獻文本中各特征詞的概率分布可以展現(xiàn)出來,如式5所示:

    (5)

    用吉布斯采樣進行推理,推理結果的特征詞和主題服從的分布如式6所示:

    (6)

    (7)

    (8)

    則第一項因子的最后結果為:

    (9)

    (10)

    (11)

    學術文獻摘要的超參數(shù)為αk和βt,后期期望如式12和式13所示:

    (12)

    (13)

    依靠聯(lián)合分布以及后驗期望,對隱含變量也就是需要的學術文獻摘要的主題Z,可以在考慮發(fā)表時間因素下,挖掘出學術文獻摘要中隱藏的主題,得到主題的分布。

    3 實 驗

    3.1 實驗數(shù)據(jù)及預處理

    實驗數(shù)據(jù)采用爬蟲爬取的知網(wǎng)上的論文摘要共46 312條,在數(shù)據(jù)預處理階段首先對摘要的標點符號進行去除,將純文本數(shù)據(jù)使用python的jieba庫進行分詞,并去除停用詞,將分詞和去除停用詞后的文本數(shù)據(jù)整合成文檔。

    3.2 實驗結果與分析

    文中提出的TTF-LDA主題模型的參數(shù)設置為主題數(shù)K=20,超參數(shù)α=1,β=0.02,δ=0.02,吉布斯采樣的迭代次數(shù)一般設置為2 000。在初始時間窗為93天的情況下計算學術文獻的發(fā)表時間權重,圖2中正方形處得出時間窗口大小為86天。TTF-LDA模型的6個主題結果如圖4所示。

    圖4 部分主題結果

    6個主題分別是有關人工智能、機器人、計算機視覺、機器視覺、深度學習和機器學習,在TTF-LDA的權重值中人工智能這一特征詞的權重最高,是在2017-10-1至2017-12-31期間發(fā)生的最熱門的主題,也符合趨勢。目前人工智能的發(fā)展最為普遍,人工智能類的論文也最多,機器人相關的論文數(shù)量也很多,而深度學習和機器學習為人工智能領域下的兩大熱點話題,概率也高于其他話題,主要是相同的特征詞在時間權重的影響下權重更高,反映出文中模型能準確挖掘出相關主題。在主題模型中,主題與主題之間的相似性越低則效果越好,圖5為TTF-LDA和LDA模型的主題之間的相似度的對比情況。結果表明,在文檔集增加的情況下,主題之間的相似度在降低,但TTF-LDA的主題之間的差異大,效果優(yōu)于LDA,主要是對主題引導詞的加權,提高主題引導詞在文檔中的重要性,特征詞引導主題的貢獻也越大,使得結果更加符合文檔集自身的分布特點,主題提取更準確。

    圖5 主題之間的相似度

    對TTF-LDA模型、LDA模型和WMC-LDA模型進行對比分析,使用評價指標混亂程度,用Perplexity值來代表主題分析后的情況,對主題分析后的情況進行混亂程度對比和分析?;靵y程度是主題模型研究中常用的對比指標[14]。在混亂程度的理念里,如果Perplexity越大,則表示這個主題模型的混亂程度越混亂,效果越差,與之相反,如果Perplexity值越小,則表示這個主題模型的混亂程度越小,即主題很清晰,效果越好。Perplexity的定義如式14所示。

    (14)

    其中,W為測試集,由學術論文摘要組成;Wm為測試集中抽取到的特征詞,對應于學術文獻摘要內(nèi)容由TF-IDF提取出的,能表示學術文獻摘要的特征詞;Nm為特征詞的總數(shù),統(tǒng)計所有的特征詞總數(shù)得來。

    TTF-LDA、LDA和WMC-LDA[15]的Perplexity與迭代次數(shù)的關系如圖6所示,實驗的條件都設置一樣,其中縱坐標為Perplexity/100。

    圖6 Perplexity值

    由圖6可以看出,在其他情況都相同的條件下,隨著迭代次數(shù)的增加,三種模型的Perplexity值都一直下降,而TTF-LDA模型的Perplexity值一直都最小,表明其運算速度更快、效率更高,內(nèi)部的主題提取情況更加明確,證明提出的采樣的策略和增加的學術文獻的發(fā)表時間權重是有效的。

    4 結束語

    文中提出一種學術文獻摘要的主題分析方法,針對現(xiàn)有的主題分析中的主題模型未考慮論文發(fā)表時間的缺點,提出將學術文獻的發(fā)表時間適用于人腦的記憶遺忘規(guī)律,使遺忘曲線計算出學術文獻特征詞的遺忘曲線,設置學術論文摘要的發(fā)表時間對應的時間窗口,對主題的時間范圍進行縮短,并利用特征詞處理后得到的主題引導特征詞詞庫,共同引導主題分布。通過實驗證明了該方法的可行性,能準確地挖掘出當前學術文獻摘要的主題。

    扶风县| 和田县| 石楼县| 祁连县| 巨鹿县| 宜黄县| 永济市| 花莲县| 鄂州市| 安乡县| 察哈| 湘潭市| 龙江县| 慈溪市| 茂名市| 城固县| 乾安县| 姚安县| 满洲里市| 靖西县| 浪卡子县| 绥德县| 秭归县| 洛川县| 龙川县| 宜城市| 庐江县| 卓尼县| 古蔺县| 江门市| 道孚县| 迁安市| 沭阳县| 育儿| 正阳县| 历史| 大余县| 南宫市| 怀宁县| 鄂伦春自治旗| 东安县|