• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于核心主題特征的作者身份識別研究

      2023-12-10 19:30:51孟旭謝靖李春旺
      知識管理論壇 2023年5期

      孟旭 謝靖 李春旺

      作者簡介:孟旭,碩士研究生;謝靖,研究員,碩士生導(dǎo)師,通信作者,E-mail:xiej@mail.las.ac.cn;李春旺,研究館員,碩士生導(dǎo)師。

      收稿日期:2023-03-16? ? ? ? 發(fā)表日期:2023-10-16? ? ? ? 本文責(zé)任編輯:劉遠(yuǎn)穎

      摘要:[目的/意義]以主題特征在中文社交媒體文本作者識別中的使用研究為基本目的,利用Word2vec補(bǔ)充主題模型獲取主題特征的不足,同時進(jìn)一步制定策略對主題特征中的核心主題進(jìn)行識別和篩選,優(yōu)化主題特征的使用方法,從而提高主題特征在作者識別中的使用效果。[方法/過程]首先利用LDA主題模型抽取候選作者的學(xué)術(shù)主題和社交主題,然后利用Word2vec制定合并篩選策略進(jìn)行核心主題的識別和表示,最后結(jié)合N-gram特征和相似度計(jì)算的辦法實(shí)現(xiàn)作者識別。[結(jié)果/結(jié)論]利用核心主題特征對科研人員社交文本進(jìn)行作者識別有一定的積極作用,同時本研究提出的核心主題特征相關(guān)策略和應(yīng)用也能優(yōu)化主題特征的使用效果,將其結(jié)合文體風(fēng)格特征應(yīng)用于作者識別,最高識別率達(dá)到83%。

      關(guān)鍵詞:作者身份識別;主題特征;N-gram;科研作者;社交網(wǎng)絡(luò)文本

      分類號:G206

      引用格式:孟旭, 謝靖, 李春旺. 基于核心主題特征的作者身份識別研究[J/OL]. 知識管理論壇, 2023, 8(5): 351-364[引用日期]. http://www.kmf.ac.cn/p/357/.

      近年來,有關(guān)中文社交媒體文本作者身份識別的研究一直受到關(guān)注,并取得了一些研究成果。這些研究主要實(shí)現(xiàn)不同網(wǎng)絡(luò)平臺、不同社區(qū)、不同話題中同一作者信息的識別,識別方法主要基于文體風(fēng)格特征,而利用文本主題特征的研究不多。在大數(shù)據(jù)時代,針對科研人員的人才評價等工作不僅要利用學(xué)術(shù)論文等數(shù)據(jù),還要利用科研人員相關(guān)的社交媒體信息、學(xué)術(shù)交流信息、教學(xué)信息等多類型數(shù)據(jù),這使得針對科研人員的信息集成成為新的研究課題。

      本研究聚焦于中文文本作者識別領(lǐng)域研究不足的主題特征,以科研人員具有的學(xué)術(shù)文本和社交文本兩類文本為基礎(chǔ),針對其研究領(lǐng)域在一段時間內(nèi)具有穩(wěn)定性和專一性的特征,在已有的利用主題模型獲取主題特征研究的基礎(chǔ)上,利用Word2vec制定核心主題獲取策略,進(jìn)一步優(yōu)化獲取的主題特征并將其應(yīng)用于作者識別任務(wù)中。本研究重點(diǎn)證明在以科研作者作為候選作者的作者識別任務(wù)中主題特征的有效性,同時驗(yàn)證利用筆者提出的核心主題獲取策略獲取的核心主題特征能進(jìn)一步提高利用主題特征的作者識別效率。

      1? 相關(guān)研究

      作者識別是指以文本內(nèi)容和文本屬性為依據(jù),抽取出不同作者在文本中所體現(xiàn)的不同特征,進(jìn)而識別出文本作者[1-3]的研究,而作者特征可以從反映行文風(fēng)格的文體風(fēng)格特征和反映文本內(nèi)容的主題特征兩個方面得以體現(xiàn)。文體風(fēng)格特征表現(xiàn)了作者個人在寫作活動中的言語特征,是作者個人風(fēng)格的不自覺反映,并且這些特征可以在一定程度上通過數(shù)量特征進(jìn)行刻畫[4];主題特征則是作者在文章中通過各種材料所表達(dá)的中心意思,它滲透、貫穿于文章的全部內(nèi)容,體現(xiàn)著作者寫作的主要意圖[5]。

      利用文體風(fēng)格特征進(jìn)行作者識別最早可追溯到1887年T. C. Mendenhall[6]對戲劇作品文體特征的研究,其研究是使用詞匯構(gòu)建詞譜并描繪特征曲線,為莎士比亞戲劇的作者歸屬爭議提供新的論據(jù),D. L. Hoover[7]提出使用功能詞等特殊詞匯,令使用詞匯進(jìn)行作者識別更加精確和有效;O. De Vel等[8]則將標(biāo)點(diǎn)符號等符號特征作為區(qū)分不同郵件作者的有效特征,選取的特征在聚合和多主題作者分類識別上都有很好的效果;V. Keselj等[9]提出一種通過計(jì)算和比較字符N-gram頻率識別作者的方法,研究者同時使用該方法在幾種不同語言中進(jìn)行作者識別驗(yàn)證,證明N-gram的語言無關(guān)性。國內(nèi)具有代表性的是祁瑞華團(tuán)隊(duì)[10-11]的研究,其從綜合利用文本特征進(jìn)行作者識別的角度出發(fā),從字符層面、詞匯層面、句法層面和結(jié)構(gòu)層面選取特征,建立多層面文體風(fēng)格特征模型,不僅實(shí)現(xiàn)社交文本的作者識別,多特征的選取及其在作者識別中的可行性也得到了驗(yàn)證。

      綜合來看,基于文體風(fēng)格特征的作者識別研究較為成熟,而利用主題特征進(jìn)行作者識別的研究在早期很少出現(xiàn),因?yàn)橹黝}特征往往反映的是文本的內(nèi)容,而文本內(nèi)容在不同體裁、不同情景下很難做到統(tǒng)一。但是在國外,有研究證明其在作者識別領(lǐng)域的積極作用[12],最具有代表性的就是J. Savoy[13]進(jìn)行的相關(guān)研究,其利用LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)分別生成每個作者所有文檔的主題模型、待測試文檔主題模型,然后計(jì)算主題相似度來進(jìn)行作者歸屬和識別;與本研究比較相似的研究是W. Anwar等[14]提出實(shí)驗(yàn)驗(yàn)證,其利用余弦相似度和LDA方法來衡量文本文檔向量的相似度,最終達(dá)到作者識別的目的,其在構(gòu)建的包含6 000篇文章文檔的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)得到的結(jié)果表明,該方法優(yōu)于其他用于作者歸屬的算法。

      基于上述研究現(xiàn)狀,筆者考慮從主題特征出發(fā)優(yōu)化中文社交文本作者識別。根據(jù)2014年Y. Nie等[15]提出的核心興趣概念,社交網(wǎng)絡(luò)的使用者圍繞的興趣存在暫時的邊際興趣和較為穩(wěn)定、在短時間內(nèi)不會改變的核心興趣,體現(xiàn)在文本中即是核心主題。核心主題一般有以下兩個特點(diǎn):

      (1)核心主題一般在作者文檔里具有明顯的提及頻率,且有較大的可能區(qū)別于其他作者文本中包含的主題。

      (2)核心主題一般存在作者一段時間內(nèi)的大部分文本中,而非核心主題往往會在各個作者文本里廣泛且較均勻分布[16]。

      文本的作者識別對象為科研人員,而科研人員通常都有自己關(guān)注的科研領(lǐng)域,這些研究領(lǐng)域?qū)τ谀硞€候選作者而言往往在一定的時間段內(nèi)具有穩(wěn)定性和專一性[17](對比圖1與圖2),對于候選作者之間又具有可區(qū)分性和獨(dú)特性(對比圖1和圖3),符合核心主題的特點(diǎn)。同時因?yàn)槭峭蛔髡?,所以筆者認(rèn)為其在社交網(wǎng)站上發(fā)布的社交文本信息會對其科研領(lǐng)域主題有所體現(xiàn)(對比圖1與圖4)。因?yàn)楸狙芯渴菍蒲腥藛T的社交文本進(jìn)行作者識別,所以考慮利用候選作者學(xué)術(shù)文本中的領(lǐng)域主題篩選其社交文本中的主題,得到用于作者識別的核心主題。

      在制定篩選策略時,筆者考慮LDA主題模型的生成過程,即其在詞袋模型的基礎(chǔ)上,認(rèn)為詞匯是單獨(dú)存在的,從全局出發(fā)生成文本主題。這使得詞匯的上下文特征利用不足,且在應(yīng)用中對主題詞的研究不多。而Word2vec通過詞匯的上下文關(guān)系生成詞匯的詞向量形式,應(yīng)用于主題的表示中不僅能彌補(bǔ)LDA主題模型獲取主題的不足,同時能夠從主題詞的粒度分析對比主題之間的關(guān)系,從而篩選出與科研作者學(xué)術(shù)文本主題相似的主題,然后進(jìn)一步得到候選作者社交文本中的核心主題,進(jìn)而表示其核心主題特征?;诖?,本研究筆者以已有的利用LDA主題模型進(jìn)行作者識別的相關(guān)研究作為技術(shù)路線支持[13],首先驗(yàn)證主題特征在中文社交媒體文本作者識別中具有研究意義,同時從提高主題特征質(zhì)量的思路出發(fā),以提高作者識別效率為最終目的,提出使用LDA主題模型結(jié)合基于Word2vec的核心主題篩選策略構(gòu)建候選作者的核心主題識別篩選模型,最終完成科研作者的社交媒體文本的作者識別驗(yàn)證實(shí)驗(yàn)。

      2? 主要技術(shù)路線

      筆者提出利用主題特征進(jìn)行作者識別的方法框架,見圖5。

      需要注意的是,因?yàn)楹蜻x作者的研究領(lǐng)域并不是一成不變的,所以筆者在選擇學(xué)術(shù)文本時,選擇的是與待識別文本發(fā)布時間相近的一段時區(qū)內(nèi)的學(xué)術(shù)文本,同時保證時區(qū)不會過長而導(dǎo)致時間因素影響識別。利用主題特征進(jìn)行作者識別主要包括以下3個主要步驟:

      (1)作者主題特征抽取。分別從兩類數(shù)據(jù)源抽取兩類主題特征,利用科技論文數(shù)據(jù)抽取候選作者的科研主題特征,利用實(shí)名制社交網(wǎng)站數(shù)據(jù)抽取候選作者社交主題特征。利用LDA主題模型分別獲得作者學(xué)術(shù)文本和社交網(wǎng)絡(luò)文本的主題集合。

      (2)生成作者社交文本核心主題特征。基于Word2vec制定核心主題篩選策略,利用科研主題篩選社交主題,并將科研主題的主題詞添加進(jìn)社交主題中,最終表示出候選作者社交文本內(nèi)的核心主題特征。

      (3)計(jì)算待識別文本與作者的相似度。分別計(jì)算待識別文本主題特征與各個候選作者社交文本核心主題特征相似度,得到最相似的作者,將其作為文本最終的作者識別結(jié)果。

      2.1? 作者主題識別與表示

      對文本的作者身份識別,首選需要獲取候選作者的特征,由于LDA模型具有較好的主題抽取效果[18],所以本研究選擇采用LDA主題模型對候選作者的主題特征進(jìn)行識別和表示。

      LDA模型是一種概率主題模型,其基于假設(shè):文檔是由若干個隱含主題構(gòu)成,而這些主題是由文本中若干個特定詞匯構(gòu)成,忽略文檔中的句法結(jié)構(gòu)和詞語出現(xiàn)的先后順序[19]。LDA主題模型由參數(shù)(α,β)確定,α反映文檔集合中隱含主題間的相對強(qiáng)弱,β刻畫所有隱含主題自身的概率分布[20],從Dirichlet分布α中取樣生成文檔—主題分布θ,從Dirichlet分布β中取樣生成主題—詞語分布φ。

      在本研究中,將每個候選作者的文本歸為兩類文檔集,然后分別對這兩個文檔集進(jìn)行主題抽取,能夠得到每個文檔集中每篇文本的文本—主題概率分布和每個文檔集中抽取的主題—詞語分布。在針對主題的研究中,有研究提出主題強(qiáng)度這一概念[21],是指主題的熱門程度,在某一時刻關(guān)于某個主題的文章分布概率越高, 說明該文檔集中該主題的強(qiáng)度越高。筆者選擇文檔集中的主題強(qiáng)度來衡量某個主題能夠代表候選作者特征的程度。θkd為候選作者文本集M中文檔d中主題k的分布概率,則是主題k在M中的主題強(qiáng)度,即主題k能夠表示候選作者的程度,其計(jì)算公式如下所示:

      公式(1)

      基于此,可以得到作者—主題分布和主題—詞匯分布。將這兩個分布結(jié)合,可以表示出作者的主題特征,每個作者可以得到兩類主題特征,分別為科研主題特征(主題集合Hl)和社交主題特征(主題集合Hs),其計(jì)算公式如下所示:

      H={(T1,P1), (T2,P2), ……, (Tk,Pk)}

      公式(2)

      在公式(2)中,H是主題集合,T是主題,其由主題詞和每個主題詞的權(quán)重(對主題的貢獻(xiàn)度)組成,P為主題分布概率,即主題T在候選作者文檔集中的主題強(qiáng)度,也是T能夠表示候選作者的程度,k為主題集合H中的主題個數(shù)。針對T展開可以表示為:

      T=(m1*W1,m2*W2,……,mc*Wc)? 公式(3)

      其中,T為主題元組,由主題詞W和其權(quán)重m乘積組成,在python中存儲為字符串形式,m為主題詞在主題中的分布概率,c為主題中包含的主題詞的個數(shù)。

      2.2? 核心主題特征計(jì)算

      該過程中需要解決的問題主要是:①如何在候選作者的社交主題特征中找到與其科研主題特征相似的主題;②如何將科研主題特征中的主題詞合并到社交主題中;③通過何種手段使主題在作者識別中起更重要的作用。Word2vec利用深度學(xué)習(xí)的思想,可以從大規(guī)模的文本數(shù)據(jù)中自動學(xué)習(xí)數(shù)據(jù)的本質(zhì)信息[22],反應(yīng)詞匯的上下文特征,從而彌補(bǔ)利用LDA主題模型主題獲取過程中的不足,同時通過計(jì)算主題詞匯之間的相似度達(dá)到計(jì)算主題相似度的目的。在這一過程中,筆者主要利用Word2vec表示詞匯詞向量,然后基于此制定利用科研主題篩選社交主題的策略,最終得到候選作者的核心主題特征。

      2.2.1? Word2vec原理

      Word2vec模型在給定的語料庫上訓(xùn)練CBOW和Skip-Gram兩種模型,然后輸出得到所有出現(xiàn)在語料庫上的單詞的詞向量表示[23]?;诘玫降膯卧~詞向量,可以表示詞與詞之間的關(guān)系(如詞語相似性等),從而定義主題的相似度,進(jìn)而利用余弦距離計(jì)算主題集也就是作者和待識別文本主題特征的相似度,最終達(dá)到作者識別的目的。

      2.2.2? 核心主題篩選與合并策略

      利用候選作者科研主題對其社交主題進(jìn)行篩選與合并的具體策略可以分為以下幾個步驟:

      (1)針對有的主題本身的分布概率就很低,能夠代表該文本主要內(nèi)容的概率較低的問題,為了避免主題特征的冗余,首先利用主題在主題矩陣中的分布概率對主題矩陣Hs主題特征進(jìn)行初步篩選。

      (2)初篩過后,利用相似度計(jì)算找到矩陣Hs與矩陣Hl中相似的主題,將其識別出來并賦予更高的識別權(quán)重。因?yàn)閷W(xué)術(shù)文本主題集合由主題組成,主題由主題詞組成,所以此步驟中需要對3個相似度計(jì)算進(jìn)行定義:

      其中,T為主題,由主題詞W組成,P為該主題在矩陣中的分布概率,m為該主題詞在主題中的分布概率,k為主題矩陣H中的主題個數(shù),z為主題中包含的主題詞的個數(shù)。

      定義詞匯相似度,即利用Word2vec轉(zhuǎn)化詞匯為詞向量,進(jìn)一步計(jì)算相似度,計(jì)算公式如下所示:

      Sim(W1, W2)=Word2Vec(W1,W2)? ? ? ?公式(4)

      定義主題之間的相似度sim(T1,T2),計(jì)算詞匯相似度的加權(quán)平均,權(quán)重是詞匯組成主題的概率,計(jì)算公式如下所示:

      公式(5)

      定義主題矩陣(主題集)之間的相似度sim(Hl,Hs),計(jì)算主題相似度的加權(quán)平均,權(quán)重是該主題的分布概率,計(jì)算公式如下所示:

      公式(6)

      (3)合并規(guī)則。篩選合并規(guī)則的整體思想是利用上述定義的加權(quán)相似度計(jì)算的方法,找到每個社交主題特征最相似的科研主題特征,根據(jù)閾值判斷是否增加其權(quán)重將其作為識別過程中的核心主題。同時針對社交主題特征中的主題詞,同樣利用相同的方法判斷其是否相似于科研主題詞,并通過閾值判斷進(jìn)行權(quán)重重新賦值,若主題相似、主題詞不相似,則考慮將科研主題詞匯添加到社交主題中用于補(bǔ)充主題特征。具體篩選合并規(guī)則的代碼形式如下所示:

      設(shè)置閾值θ1、θ2,θ1是主題相似度的衡量閾值,用來判斷兩個主題是否到了可以合并的地步;θ2是詞匯相似度的衡量閾值,用來判斷是否將該詞匯作為新詞匯加入到主題中去;Hl是作者A1的科研主題集合,Hs是其社交主題集合,Hc是最終得到核心主題集合:

      def matrix_merge_rule(Hl, Hs, θ1,θ2,):

      For? T1? in? Hl:

      For? T2? ?in? ?Hs:

      計(jì)算Sim(T1,T2)

      找到與T1 最相似的主題,賦給T

      If? ?Sim(T1,T)> θ1:

      遍歷計(jì)算主題中兩兩主題詞計(jì)算Sim(W1,W2):

      If? Sim(W1,W2)>θ2:

      主題T中的W2不變,給主題詞W2賦予新的權(quán)重=γ1m1+γ2m2,其中m1、m2分別是主題詞W1和W2的權(quán)重。

      Else:

      將主題詞W1添加進(jìn)主題T中,主題詞的權(quán)重不變

      主題T重新賦權(quán)重=ω1P1+ω2P2

      Else:

      保留主題T

      #遍歷完Hs中的所有主題,得到新的主題矩陣Hc。

      return Hc

      其中γ和ω均為合并系數(shù),需要經(jīng)過優(yōu)化迭代,從而選擇最優(yōu)解。

      3? 實(shí)驗(yàn)與結(jié)果分析

      為了驗(yàn)證主題特征在作者識別中的意義,同時證明筆者提出的核心主題策略算法對利用主題特征進(jìn)行作者識別的提高效果,本研究的基線實(shí)驗(yàn)是利用社交網(wǎng)絡(luò)文本抽取的原始主題進(jìn)行作者識別,對比實(shí)驗(yàn)是利用學(xué)術(shù)文本抽取出的主題對社交網(wǎng)絡(luò)文本主題進(jìn)行篩選合并后的核心主題進(jìn)行作者識別;同時因?yàn)槔枚鄬哟翁卣鬟M(jìn)行作者識別任務(wù)是主要的研究發(fā)展方向,所以筆者也進(jìn)行文體風(fēng)格特征結(jié)合核心主題特征進(jìn)行作者識別與僅使用文體風(fēng)格特征進(jìn)行作者識別的對比實(shí)驗(yàn),用以驗(yàn)證核心主題特征對文體風(fēng)格特征的補(bǔ)充作用。

      3.1? 數(shù)據(jù)獲取和預(yù)處理

      選擇計(jì)算機(jī)領(lǐng)域的20位科研人員作為候選作者,利用爬蟲軟件分別獲取其在知網(wǎng)上發(fā)布的論文全文文本及其在科學(xué)網(wǎng)上發(fā)布的博客全文文本作為實(shí)驗(yàn)數(shù)據(jù)集,論文數(shù)據(jù)共730條,博客數(shù)據(jù)共5 980條。利用jieba工具進(jìn)行分詞處理,同時對分詞結(jié)果利用頻次和詞性等進(jìn)行篩選,去除人名、停用詞、動詞、通用詞等影響因素,保證主題的表示更具有代表性,最后得到的學(xué)術(shù)文本的平均文本長度為4 023個字符,社交文本為253個字符。隨機(jī)抽取20%的科學(xué)網(wǎng)文本作為測試集,剩余80%和全部的論文文本作為訓(xùn)練集進(jìn)行作者識別模型訓(xùn)練。候選作者文本內(nèi)容示例如表1所示:

      3.2? 實(shí)驗(yàn)設(shè)置

      3.2.1? 主題特征抽取

      使用LDA主題模型獲取文本主題,采取開源的Gibbs為采樣工具,其參數(shù)設(shè)置如下:模型參數(shù)α、β分別設(shè)為50/T和0.1[24]。對于主題數(shù)的選擇,研究在對每個候選作者的社交網(wǎng)絡(luò)文本和學(xué)術(shù)文本進(jìn)行LDA主題抽取時,首先對訓(xùn)練文本利用困惑度選擇主題T的可取值范圍。困惑度如圖6所示,其中橫坐標(biāo)為主題數(shù),縱坐標(biāo)為對應(yīng)主題數(shù)時的困惑度值。

      因?yàn)椴煌膶?shí)驗(yàn)語料最佳的主題數(shù)是不同的,為了保證實(shí)驗(yàn)主題選擇的一致性,筆者進(jìn)一步計(jì)算在T的取值范圍上對作者的識別效果,最終選擇T=15作為主題數(shù)。表2是候選作者部分科研主題和社交主題。

      對上述數(shù)據(jù)進(jìn)行簡單的分析可以發(fā)現(xiàn),從社交網(wǎng)絡(luò)文本中抽取的主題T4是該作者學(xué)術(shù)文本的主要主題,也就是該作者的研究領(lǐng)域主題,即本研究定義的候選作者社交文本中的核心主題,如果給該主題賦予較高的權(quán)重,使其在作者識別中發(fā)揮更大的作用,那么作者識別的準(zhǔn)確率也有提高的空間。

      3.2.2? Word2vec訓(xùn)練

      筆者采用開源的Word2vec工具,將候選作者的兩類文本結(jié)合騰訊詞向量作為訓(xùn)練數(shù)據(jù),用Skip-gram模型對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到訓(xùn)練數(shù)據(jù)中每個詞的詞向量。表3給出Word2vec的參數(shù)含義及取值,其中cbow非0時對低頻詞敏感,size是輸出詞向量的維數(shù),即神經(jīng)網(wǎng)絡(luò)的隱藏層的單元數(shù),其取值太小會導(dǎo)致詞映射因?yàn)闆_突而影響結(jié)果,值太大則會耗內(nèi)存并使算法計(jì)算變慢,大的size需要更多的訓(xùn)練數(shù)據(jù),但是效果會更好[25]。參數(shù)值的選擇是根據(jù)已有的研究選定的[26]。表4給出按照相似度排列的詞向量訓(xùn)練結(jié)果示例。

      3.2.3? 核心主題篩選策略閾值設(shè)置

      通過計(jì)算候選作者學(xué)術(shù)文本主題矩陣和社交網(wǎng)絡(luò)文本主題矩陣的相似度,得到平均值0.001 8;通過計(jì)算候選作者學(xué)術(shù)文本主題和社交文本主題的相似度,得到平均值0.237 5。以此為基準(zhǔn)設(shè)置閾值和系數(shù)的優(yōu)化實(shí)驗(yàn),通過實(shí)驗(yàn)迭代,選擇θ1=0.001、θ2=0.25作為較優(yōu)閾值。而γ1、γ2、ω1和ω2的取值,本研究做了迭代實(shí)驗(yàn),結(jié)果分別如圖7和圖8所示。

      所以,經(jīng)過實(shí)驗(yàn)優(yōu)化,選擇系數(shù)γ1=γ2=0.5,ω1=0.33,ω2=0.66。

      3.2.4? 評價指標(biāo)

      實(shí)驗(yàn)評估方法采用精確率(P)、召回率(R)和 F1測試值??梢约僭O(shè):A表示判斷為作者S且判別正確的文本個數(shù),B表示判斷為作者S但判別錯誤的文本個數(shù),C表示判斷為不屬于作者S且判別錯誤的文本個數(shù),D表示判斷為不屬于作者S且判別正確的文本個數(shù),則各指標(biāo)的計(jì)算公式具體如下所示:

      公式(7)

      公式(8)

      公式(9)

      3.3? 實(shí)驗(yàn)結(jié)果分析

      3.3.1? 核心主題特征與主題特征的實(shí)驗(yàn)效果對比

      表5展示了部分代表性作者利用主題特征和核心主題特征結(jié)合文體風(fēng)格特征進(jìn)行作者識別的結(jié)果對比。需要注意的是,因?yàn)槭褂脝我惶卣鬟M(jìn)行作者識別的效果并不理想,且應(yīng)用價值不大,所以此處識別結(jié)果是結(jié)合了文體風(fēng)格特征進(jìn)行實(shí)驗(yàn)的結(jié)果。

      通過分析表5可以發(fā)現(xiàn)如下結(jié)論:

      (1)綜合來看,利用核心主題特征進(jìn)行作者識別的3個衡量指標(biāo)都有所提高,這說明利用學(xué)術(shù)主題特征對社交網(wǎng)絡(luò)文本主題特征進(jìn)行篩選合并得到的核心主題特征應(yīng)用于作者識別,能一定程度提高作者識別的準(zhǔn)確率,對識別策略有一定的優(yōu)化作用。

      (2)具體到候選作者,可以看到大部分的作者的識別效果得到一定的提升,但是以作者6為代表的候選作者的P指標(biāo)和F1指標(biāo)均有所下降,分析數(shù)據(jù)可以發(fā)現(xiàn),利用核心主題的方法針對在社交網(wǎng)絡(luò)中主題較為集中且有較大比例涉及到其在學(xué)術(shù)中的研究領(lǐng)域的作者更有效果;而針對在社交網(wǎng)絡(luò)文本中不涉及或者少量涉及學(xué)術(shù)領(lǐng)域的作者,該方法取得的優(yōu)化效果較小。

      3.3.2? 核心主題特征對文體風(fēng)格特征的補(bǔ)充驗(yàn)證實(shí)驗(yàn)

      根據(jù)已有的研究,僅使用一種特征進(jìn)行作者識別的效果是不突出的,多層次特征結(jié)合使用才是作者識別的發(fā)展方向。為了驗(yàn)證本研究的核心主題特征對于文體風(fēng)格特征有補(bǔ)充作用,對于結(jié)合其他特征進(jìn)行作者識別也有進(jìn)一步的研究前景,下面進(jìn)行核心主題特征對文體風(fēng)格特征的補(bǔ)充驗(yàn)證實(shí)驗(yàn)。

      筆者選擇的文體風(fēng)格特征是N-gram特征,它可以捕捉到作者風(fēng)格的細(xì)微差別,包括由詞匯、上下文、標(biāo)點(diǎn)符號以及大小寫變動所帶來的差別[27],表示方便且識別效率較高。筆者利用N-gram特征和主題特征兩種特征分別計(jì)算待識別文本與候選作者的相似度,然后對相似度進(jìn)行加權(quán)分析,相似度最高的作者作為最終的識別結(jié)果。加權(quán)系數(shù)經(jīng)過多次交叉實(shí)驗(yàn),在其他系數(shù)和影響因素不變的情況下,選擇文體風(fēng)格特征系數(shù)為0.82,主題特征系數(shù)為0.18時識別的文本數(shù)最多,效果最好,故以此為特征系數(shù)。另外,通過權(quán)重系數(shù)可以發(fā)現(xiàn),文體風(fēng)格特征在作者識別中的作用要優(yōu)于主題特征。

      本實(shí)驗(yàn)用CountVectorizer方法,設(shè)置閾值為min_df=2,基于此構(gòu)建作者的N-gram特征向量。表6是作者2的部分N-gram特征。

      表7展示了僅使用文體風(fēng)格特征識別的和結(jié)合文體風(fēng)格特征與核心主題特征識別的結(jié)果對比。

      通過分析表7可以得出以下結(jié)論:

      (1)從綜合結(jié)果來看,利用核心主題結(jié)合文體風(fēng)格特征作者識別的效果要優(yōu)于僅使用N-gram特征進(jìn)行識別,這說明在該實(shí)驗(yàn)集上,核心主題特征的使用對作者識別有積極作用。

      (2)具體到每個候選作者,可以看到:多數(shù)作者主題特征的識別效果是積極的,這也充分論證了科研人員的領(lǐng)域主題能一定程度上成為該作者標(biāo)簽特征,這是具有個人性的特征。而針對作者5為代表的作者,其F1值降低,作者6為代表的作者,其召回率和精準(zhǔn)率均降低,則認(rèn)為主題特征未起到積極效果,筆者分析其文本認(rèn)為這與其所關(guān)注的領(lǐng)域較為寬泛,且學(xué)術(shù)領(lǐng)域與科研文本中的主題相差較大相關(guān),以至于本研究的核心主題篩選合并策略未起到較大作用,而添加主題特征作為識別特征相當(dāng)于增加了干擾項(xiàng),導(dǎo)致識別準(zhǔn)確率下降。針對這一現(xiàn)象,后續(xù)可以通過分步式結(jié)合兩種特征的方法進(jìn)行改善,如先利用主題特征進(jìn)行作者識別,給出相似的幾個候選作者,縮小候選作者數(shù)量,然后進(jìn)一步通過N-gram特征得到最相似的候選作者作為識別結(jié)果。

      (3)分析不同候選作者的識別效果,發(fā)現(xiàn)訓(xùn)練語料的體量也會影響主題特征在作者識別上的應(yīng)用效果,在目前實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)越多,抽取出的主題特征越具有代表性,識別的準(zhǔn)確性也越高。后續(xù)針對該影響,可以繼續(xù)通過控制實(shí)驗(yàn)數(shù)據(jù)大小進(jìn)行對比實(shí)驗(yàn)。

      3.3.3? 結(jié)論

      通過對結(jié)果的分析可以看出,在核心主題特征對于主題特征的優(yōu)化方面,使用篩選得到的核心主題進(jìn)行作者特征表示并用于作者識別的效果優(yōu)于僅利用原始抽取出的主題特征,這有效證明:針對科研人員的社交網(wǎng)絡(luò)文本的作者識別,利用其在學(xué)術(shù)文本中所體現(xiàn)的領(lǐng)域主題對其社交網(wǎng)絡(luò)文本主題特征進(jìn)行篩選和合并,能夠進(jìn)一步優(yōu)化主題特征,篩選并給予識別作用更大的特征更高的權(quán)重,從而提高作者識別的準(zhǔn)確率,進(jìn)而優(yōu)化作者識別效果;在核心主題特征結(jié)合其他特征在作者識別中的應(yīng)用效果方面,核心主題特征能夠有效地提高僅利用N-gram特征作者識別的效果,這證明在本研究的實(shí)驗(yàn)語料上,核心主題特征對于結(jié)合文體風(fēng)格特征用于作者識別有一定的積極意義。

      4? 總結(jié)展望

      本研究重點(diǎn)探討結(jié)合學(xué)術(shù)文本對利用主題特征進(jìn)行作者識別的可行性及其優(yōu)化策略。通過實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示優(yōu)化策略是有效的,在此進(jìn)行總結(jié)并討論未來可以繼續(xù)優(yōu)化的內(nèi)容:

      (1)本研究的重心在主題特征的使用優(yōu)化方向,研究發(fā)現(xiàn)利用學(xué)術(shù)文本的領(lǐng)域主題對候選作者的社交網(wǎng)絡(luò)文本主題進(jìn)行篩選得到的核心主題特征有提高利用主題特征作者識別效果的作用;筆者也嘗試結(jié)合N-gram特征和核心主題特征,同時對比僅使用N-gram特征的識別效果,結(jié)合主題特征對作者識別也有一定程度上的提升。進(jìn)一步研究可以考慮從其他文體風(fēng)格特征出發(fā),或者結(jié)合多層次文體風(fēng)格特征進(jìn)行應(yīng)用研究。

      (2)本研究在對待識別文本進(jìn)行作者識別實(shí)驗(yàn)時,使用LDA主題模型作為主題抽取的方法,而隨著相關(guān)研究的發(fā)展,其他主題模型或者其他主題抽取方式或許較LDA主題模型能取得不同的效果。所以針對主題獲取這一步驟,后續(xù)研究可以嘗試采用其他主題獲取方法進(jìn)一步優(yōu)化識別效果。

      (3)本研究旨在提出主題特征的進(jìn)一步應(yīng)用優(yōu)化方向,并選取20位候選作者進(jìn)行實(shí)驗(yàn)驗(yàn)證,但并不能保證在大規(guī)模數(shù)據(jù)集中仍能取得相同實(shí)驗(yàn)效果。未來可以嘗試擴(kuò)大數(shù)據(jù)進(jìn)行實(shí)驗(yàn),同時考慮文本分布不均的問題進(jìn)行細(xì)化研究。

      (4)本研究目前僅考察利用文本的內(nèi)容信息進(jìn)行作者識別,未來隨著網(wǎng)站文本屬性或者用戶屬性的完善,亦可以考慮借助社交網(wǎng)絡(luò)相鄰用戶的文本信息和屬性信息進(jìn)行特征抽取和核心主題選擇,會進(jìn)一步提高作者識別效果。

      參考文獻(xiàn):

      [1] KALGUTKAR V, KAUR R, GONZALEZ H, et al. Code authorship attribution: methods and challenges[J]. ACM computing surveys (CSUR), 2019, 52(1): 1-36.

      [2] ALRABAEE S, DEBBABI M, WANG L. CPA: accurate cross-platform binary authorship characterization using LDA[J]. IEEE transactions on information forensics and security, 2020(15): 3051-3066.

      [3] MAGLOGIANNIS I, ILIADIS L, PIMENIDIS E. Artificial intelligence applications and innovations[J]. IFIP advances in information and communication technology, 2020(583): 55-266.

      [4] 劉穎, 肖天久. 金庸與古龍小說計(jì)量風(fēng)格學(xué)研究[J]. 清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2014, 29(5): 135-147, 179. (LIU Y, XIAO T J. A Study of the stylistics of Jin Yong and Gu Long novels[J]. Journal of Tsinghua University(philosophy and social sciences), 2014, 29(5): 135-147, 179.)

      [5] 百度百科.主題[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主題/2894698. (Baidu Encyclopedia. Topic[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主題/2894698.)

      [6] MENDENHALL T C. The characteristic curves of composition[J]. Science, 1887(214S): 237-246.

      [7] HOOVER D L. Another perspective on vocabulary richness[J]. Computers and the humanities, 2003(37): 151-178.

      [8] DE VEL O, ANDERSON A, CORNEY M, et al. Mining e-mail content for author identification forensics[J]. ACM SIGMOD record, 2001, 30(4): 55-64.

      [9] KESELJ V, PENG FC, CERCONE N, et al. N-gram based author profiles for authorship attribution[EB/OL]. [2023-04-05]. https://core.ac.uk/display/24680735 .

      [10] 祁瑞華, 楊德禮, 郭旭, 等.基于多層面文體特征的博客作者身份識別研究[J]. 情報學(xué)報, 2015, 34(6): 628-634. (QI R H, YANG D L, GUO X, et al. Blogger identification based on multidimensional stylistic features[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 628-634.)

      [11] 祁瑞華, 郭旭, 劉彩虹.中文微博作者身份識別研究[J]. 情報學(xué)報, 2017, 36(1): 72-78. (QI R H, GUO X, LIU C H. Authorship attribution of Chinese Microblog[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(1): 72-78.)

      [12] FINN A, KUSHMERICK N. Learning to classify documents according to genre[J]. Journal of the American Society for Information Science and Technology, 2006, 57(11): 1506-1518.

      [13] SAVOY J. Authorship attribution based on a probabilistic topic model[J]. Information processing & management, 2013, 49(1): 341-354.

      [14] ANWAR W, BAJWA I S, CHOUDHARY M A, et al. An empirical study on forensic analysis of Urdu text using LDA-based authorship attribution[J]. IEEE access, 2019(7): 3224-3234.

      [15] NIE Y, HUANG J, LI A, et al. Identifying users based on behavioral-modeling across social media sites[J]. Web technologies and applications, 2014(8709): 48-55.

      [16] 孫學(xué)剛, 陳群秀, 馬亮.基于主題的Web文檔聚類研究[J]. 中文信息學(xué)報, 2003(3): 21-26. (SUN X G, CHEN Q L, MA L. Study on topic-based web clustering[J]. Journal of Chinese information processing, 2003(3): 21-26.)

      [17] 李湘東, 張嬌, 袁滿. 基于LDA模型的科技期刊主題演化研究[J]. 情報雜志, 2014, 33(7): 115-121. (LI X D, ZHANG J, YUAN M. On topic evolution of a scientific journal based on LDA model[J]. Journal of intelligence, 2014, 33(7): 115-121.)

      [18] 陳思含.基于微博的多特征情感分析方法研究[D]. 長春:吉林大學(xué), 2021. (CHEN S H. Research on multi-feature sentiment analysis method based on microblog[D]. Changchun: Jilin University, 2021.)

      [19] 姚全珠, 宋志理, 彭程.基于LDA模型的文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(13): 150-153. (YAO Q Z, SONG Z L, PENG C. Research on text categorization based on LDA[J]. Computer engineering and applications, 2011, 47(13): 150-153.)

      [20] 王振振, 何明, 杜永萍.基于LDA主題模型的文本相似度計(jì)算[J]. 計(jì)算機(jī)科學(xué), 2013, 40(12): 229-232. (WANG Z Z, HE M, DU Y P. Text similarity computing based on topic model LDA[J]. Computer science, 2013, 40(12): 229-232.)

      [21] 崔凱. 基于LDA的主題演化研究與實(shí)現(xiàn)[D]. 長沙: 國防科學(xué)技術(shù)大學(xué), 2010. (CUI K. The research and implementation of topic evolution based on LDA [D]. Changsha: National University of Defense Technology, 2010.)

      [22] 馬思丹, 劉東蘇. 基于加權(quán)Word2vec的文本分類方法研究[J]. 情報科學(xué), 2019, 37(11): 38-42. (MA S D, LIU D S. Text classification method based on weighted Word2vec [J]. Information science, 2019, 37(11): 38-42.)

      [23] 李曉, 解輝, 李立杰. 基于Word2vec的句子語義相似度計(jì)算研究[J]. 計(jì)算機(jī)科學(xué), 2017, 44(9): 256-260. (LI X, JIE H, LI L J. Research on sentence semantic similarity calculation based on Word2vec[J]. Computer science, 2017, 44(9): 256-260.)

      [24] 唐曉波, 祝黎, 謝力. 基于主題的微博二級好友推薦模型研究[J]. 圖書情報工作, 2014, 58(9): 105-113. (TANG X B, ZHU L, XIE L. Two-level microblog friend recommendation based on topic model[J]. Library and information service, 2014, 58(9): 105-113.)

      [25] 你好星期一. Word2vec參數(shù)[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496. (Hello on Monday. Word2vec parameter[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496.)

      [26] 張謙, 高章敏, 劉嘉勇 .基于Word2vec的微博短文本分類研究[J]. 信息網(wǎng)絡(luò)安全, 2017(1): 57-62. (ZHANG Q, GAO Z M, LIU J Y. Research of Weibo short text classfication based on word2ve[J]. Netinfo security, 2017(1): 57-62.)

      [27] JOHNSON A, WRIGHT D. Identifying idiolect in forensic authorship attribution: an N-gram text bite approach[J]. Language and law, 2014, 1(1): 37-69.

      作者貢獻(xiàn)說明:

      孟? 旭:調(diào)研及撰寫論文;

      謝? 靖:提出論文修改意見及定稿;

      李春旺:提出論文選題和論文技術(shù)路線。

      Research on Author Attribution Based on Core Topic

      Meng Xu1,2? ?Xie Jing1? ?Li Chunwang3

      1National Science Library, Chinese Academy of Science, Beijing 100190

      2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190

      3Institute of Computing Technology, Chinese Academy of Science, Beijing 100190

      Abstract: [Purpose/Significance] The basic purpose of this study is to study the use of topic characteristics in author attribution of Chinese social media texts. Word2vec is used to supplement the topic model to obtain the deficiencies of topic characteristics. At the same time, strategies are further developed to identify and screen the core topics in the topic characteristics and optimize the use of topic characteristics. So as to improve the using effect of subject features in author attribution. [Methods/Process] The research first used the LDA topic model to extract the academic topics and social topics of the candidate authors, and then used Word2vec to develop a merge screening strategy to identify and represent the core topics, and finally used N-gram features and similarity calculation to achieve author attribution. [Results/Conclusion] The experimental results show that the use of core topic characteristics has a positive effect on author attribution of social texts. Meanwhile, the strategy and application of core topic characteristics proposed in this study can also optimize the effect of the use of topic-features, and the highest recognition rate will reach 83% when it is combined with stylistic-features.

      Keywords: author attribution? ? topic characteristics? ? N-gram? ? scientific research author? ? social media text

      西和县| 缙云县| 阿拉善右旗| 习水县| 双江| 建湖县| 安仁县| 桃源县| 襄垣县| 长子县| 潞城市| 盐津县| 尼玛县| 甘南县| 呈贡县| 嵩明县| 广德县| 寻甸| 平武县| 余姚市| 衡阳市| 石景山区| 湖北省| 祥云县| 康乐县| 德保县| 临汾市| 涟源市| 安徽省| 松滋市| 深水埗区| 揭西县| 从化市| 江口县| 普定县| 赫章县| 比如县| 乌兰察布市| 英超| 丹巴县| 文成县|