• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制的文本作者識(shí)別

      2021-07-30 10:33:16江銘虎
      計(jì)算機(jī)應(yīng)用 2021年7期
      關(guān)鍵詞:文檔注意力準(zhǔn)確率

      張 洋,江銘虎

      (清華大學(xué)人文學(xué)院,北京 100084)

      0 引言

      互聯(lián)網(wǎng)時(shí)代,海量數(shù)據(jù)涌現(xiàn),人們?cè)谙硎苄畔⒎?wù)的同時(shí)也飽受信息泛濫的困擾。作者識(shí)別技術(shù)可以準(zhǔn)確而及時(shí)地識(shí)別不良信息,追蹤垃圾信息的源頭并阻止其傳播,對(duì)于維護(hù)互聯(lián)網(wǎng)生態(tài)健康具有重要的意義。作者識(shí)別,又稱為作者身份識(shí)別(authorship identification)或者作者身份歸屬(authorship attribution),是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域里的一個(gè)重要分支。顧名思義,作者識(shí)別是識(shí)別文本作者的一類研究,它最初源自人們深入閱讀的傳統(tǒng)。作者識(shí)別的主要思路是將文本中隱含的作者無(wú)意識(shí)的寫作習(xí)慣通過(guò)某些可以量化的特征表現(xiàn)出來(lái),進(jìn)而凸顯作品的文體學(xué)特征或?qū)懽黠L(fēng)格,以此確定匿名文本的作者[1]。從其發(fā)展歷程來(lái)看,最初的研究是確定散軼文獻(xiàn)的來(lái)源或作者,后面又逐漸發(fā)展至確定某一文學(xué)作品、法律文檔或者電子文本的作者。根據(jù)是否使用數(shù)學(xué)方法量化文本風(fēng)格,可以將作者識(shí)別分為傳統(tǒng)作者識(shí)別和現(xiàn)代作者識(shí)別[2]。傳統(tǒng)作者識(shí)別多基于文學(xué)和語(yǔ)言學(xué)的相關(guān)知識(shí),依靠專家的經(jīng)驗(yàn)進(jìn)行判斷;而現(xiàn)代作者識(shí)別則基于數(shù)學(xué)建模,依靠模型的結(jié)果確定作者歸屬。

      本文主要研究基于中文文本的現(xiàn)代作者識(shí)別,通??梢苑譃樘崛∥谋咎卣骱徒㈩A(yù)測(cè)作者的數(shù)學(xué)模型兩個(gè)步驟。這兩個(gè)步驟分別被研究者稱為作者風(fēng)格分析(authorship style analysis)和作者身份建模(authorship modeling)。具體來(lái)說(shuō),作者風(fēng)格分析是提取能夠量化作者寫作風(fēng)格的文本特征的過(guò)程,比如字符特征、詞匯特征、句法特征、語(yǔ)義特征等。通常需要設(shè)計(jì)一個(gè)特征提取器,生成相應(yīng)的特征向量,以便于在接下來(lái)的步驟中進(jìn)行建模。而作者身份建模則是根據(jù)提取的這些文本特征或者已生成的特征向量建立相應(yīng)的模型,進(jìn)而預(yù)測(cè)文本作者的過(guò)程。有時(shí),作者身份建模也指由文本建立預(yù)測(cè)作者歸屬模型的過(guò)程。通過(guò)構(gòu)建特征集進(jìn)行作者識(shí)別的研究都可以用以上這兩個(gè)步驟來(lái)描述。相比之下,極少數(shù)不需要借助特征集識(shí)別作者的研究則缺少第一個(gè)步驟。此類研究通常直接利用原始文檔進(jìn)行建模,而無(wú)需額外的特征提取,比如基于壓縮方法的作者識(shí)別[3]等。

      從大的層面來(lái)分,作者身份建模主要分為基于輪廓的建模(profile-based modeling)和基于實(shí)例的建模(instance-based modeling)[4]。二者都是由訓(xùn)練文本構(gòu)建作者歸屬模型的過(guò)程,它們的主要區(qū)別在于:在基于輪廓的建模中,每個(gè)作者的所有文本都會(huì)被累計(jì)處理。換句話說(shuō),特定作者的所有文本會(huì)被整合成一個(gè)大文檔,根據(jù)這個(gè)大文檔提取相應(yīng)表示,構(gòu)建該作者的輪廓。這樣,每個(gè)測(cè)試文本只需跟特定作者的輪廓比較一次就能確定與該作者的相似程度。而在基于實(shí)例的建模中,每位作者的所有文本都會(huì)被單獨(dú)處理。換句話說(shuō),每個(gè)文本都有自己的表示。在這種情況下,每個(gè)測(cè)試文本需要跟特定作者的所有文本進(jìn)行比較才能確定與該作者的相似程度。因此,當(dāng)語(yǔ)料相對(duì)比較充足,每個(gè)作者都有足夠數(shù)量的訓(xùn)練文本時(shí),通常采用基于實(shí)例的建模;反之,當(dāng)僅能獲得有限數(shù)量的訓(xùn)練文本時(shí),常常采用基于輪廓的建模[5]?;趯?shí)例的建模通常會(huì)與機(jī)器學(xué)習(xí)算法搭配使用,因此研究者一般認(rèn)為其準(zhǔn)確率要高于基于輪廓的建模方法[6]。

      1 相關(guān)研究

      作者識(shí)別領(lǐng)域里常見(jiàn)的建模主要有基于概率的建模、基于向量空間的建模和基于相似度的建模等,下面簡(jiǎn)要敘述這幾類建模以及它們通常搭配的分類方法。

      1.1 基于概率的建模

      基于概率的建模通過(guò)引入概率模型來(lái)描述不同隨機(jī)變量之間的數(shù)學(xué)關(guān)系。作者識(shí)別領(lǐng)域最早的基于概率的建模是Mosteller 等[7]利用貝葉斯方法研究聯(lián)邦黨人文集的作者歸屬問(wèn)題。貝葉斯方法是一種建立在條件概率基礎(chǔ)上的概率模型。具體來(lái)說(shuō),貝葉斯方法是在類條件概率密度和先驗(yàn)概率已知的情況下,通過(guò)貝葉斯公式比較樣本屬于兩類的后驗(yàn)概率,將類別決策為后驗(yàn)概率大的一類,這樣可以使總體錯(cuò)誤率最小[8]。

      有些研究者利用貝葉斯方法進(jìn)行相關(guān)的研究。Zhao等[9]選擇功能詞和詞性(Part-of-Speech,POS)標(biāo)簽作為特征,使用樸素貝葉斯方法識(shí)別作者;Raghavan 等[10]為每個(gè)作者構(gòu)建概率上下文無(wú)關(guān)文法,并使用該文法作為分類的語(yǔ)言模型進(jìn)行作者歸屬;Boutwell[11]使用樸素貝葉斯分類器,選擇基于字符的n元組合(n-gram)的特征構(gòu)建作者集統(tǒng)計(jì)模型識(shí)別短信的作 者;Savoy[12]利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)把每個(gè)文檔建模為主題分布的混合,每個(gè)主題指定單詞的分布,根據(jù)文本距離確定相應(yīng)的作者歸屬。

      1.2 基于向量空間的建模

      基于向量空間的建模把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,同時(shí)以向量空間中向量的相似度衡量文本中語(yǔ)義的相似度,簡(jiǎn)潔直觀。作者識(shí)別領(lǐng)域的向量空間模型通常搭配支持向量機(jī)(Support Vector Machine,SVM)和神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法,本部分著重介紹這兩種方法。

      1.2.1 支持向量機(jī)

      SVM 是作者識(shí)別領(lǐng)域常見(jiàn)的一種方法,它的基本原理是找到一個(gè)最優(yōu)的分類面,使得兩類中距離這個(gè)分類面最近的點(diǎn)和分類面之間的距離最大[13]。SVM 的復(fù)雜度與樣本維數(shù)無(wú)關(guān),學(xué)習(xí)效率和準(zhǔn)確率較高,適合應(yīng)用于高維文體特征數(shù)據(jù)集,因此受到很多研究者的青睞。Diederich 等[14]利用SVM 研究德國(guó)報(bào)紙文本的作者識(shí)別;Schwartz 等[15]利用SVM 研究微小信息在推特語(yǔ)料上的作者識(shí)別;Mikros 等[16]結(jié)合多級(jí)ngram,利用多類SVM 研究希臘推文中的作者識(shí)別;Posadas-Duran 等[17]選擇句法關(guān)系標(biāo)簽、POS 標(biāo)簽以及詞根的句法ngram等特征刻畫文本風(fēng)格,并利用SVM識(shí)別相關(guān)作者。

      1.2.2 神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)是簡(jiǎn)單處理元件、單元或節(jié)點(diǎn)的互連系統(tǒng),網(wǎng)絡(luò)的處理能力體現(xiàn)在通過(guò)適應(yīng)或?qū)W習(xí)一組訓(xùn)練模式的過(guò)程中獲得的單元間連接強(qiáng)度或權(quán)重上[18]。因此,從本質(zhì)上來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)是模擬動(dòng)物腦中神經(jīng)元網(wǎng)絡(luò)的簡(jiǎn)化模型。從理論上來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)算法能夠逼近任意函數(shù),具有很強(qiáng)的非線性映射,以及分布存儲(chǔ)、并行處理、自學(xué)習(xí)、自組織等優(yōu)點(diǎn)[19]。所以,針對(duì)一些實(shí)際情況復(fù)雜、背景知識(shí)不清楚、規(guī)則不明確的問(wèn)題,神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的處理能力。

      有些研究者利用神經(jīng)網(wǎng)絡(luò)研究作者身份識(shí)別。Bagnall[20]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)同時(shí)對(duì)幾個(gè)作者的語(yǔ)言進(jìn)行建模;Ruder 等[21]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)處理特征級(jí)別信號(hào),并對(duì)大規(guī)模文本進(jìn)行快速預(yù)測(cè);Shrestha 等[22]選擇字符n-gram 作為特征,利用CNN 對(duì)推文進(jìn)行作者識(shí)別;Jafariakinabad 等[23]使用句法循環(huán)神經(jīng)網(wǎng)絡(luò)從詞性標(biāo)簽序列中學(xué)習(xí)句子的句法表示,同時(shí)利用CNN 和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)研究句中詞性標(biāo)簽的短期和長(zhǎng)期依賴性。

      1.3 基于相似度的建模

      基于相似度的建模的主要思想是計(jì)算未知文本和所有文本之間的相似性度量,然后根據(jù)相似程度估計(jì)最可能的作者[24]。這是分類任務(wù)中最直觀的一種思路,該思路的代表算法是K-最近鄰(K-Nearest Neighbor,KNN)算法。KNN 的基本原理為:根據(jù)某個(gè)距離度量找出訓(xùn)練樣本中與測(cè)試樣本最接近的k個(gè)樣本,再根據(jù)它們中的大多數(shù)樣本標(biāo)簽進(jìn)行預(yù)測(cè)。因此,衡量樣本相似程度的距離度量是KNN 或者其他基于相似度的分類方法的關(guān)鍵。KNN 不需要使用訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行分類,可以在測(cè)試階段使用訓(xùn)練數(shù)據(jù)[25]。

      有些研究者利用基于相似度的模型研究作者識(shí)別。Jankowska 等[26]選擇通用n-gram 相異性度量作為距離度量參與網(wǎng)絡(luò)測(cè)評(píng)競(jìng)賽,獲得了較優(yōu)的結(jié)果;Burrows[27]提出了Delta方法,該方法通過(guò)計(jì)算未知文本與語(yǔ)料庫(kù)的Z 分?jǐn)?shù)和Delta值,把文本分配給具有最低Delta 值的作者;Eder[28]使用基于KNN的Delta方法研究文本尺寸對(duì)作者歸屬的影響。

      2 注意力機(jī)制

      近年來(lái),注意力機(jī)制(attention mechanism)被廣泛應(yīng)用在圖像識(shí)別、機(jī)器翻譯、語(yǔ)音識(shí)別等各種深度學(xué)習(xí)任務(wù)中。顧名思義,注意力機(jī)制是模仿人識(shí)別物體時(shí)的注意力焦點(diǎn)的數(shù)學(xué)模型。人在識(shí)別物體時(shí),先通過(guò)視覺(jué)系統(tǒng)獲得物體的圖像信息,而后由大腦對(duì)這些信息進(jìn)行加工和整理,最終分辨物體的類別。大腦在對(duì)這些信息進(jìn)行分析時(shí),會(huì)格外關(guān)注一些局部信息,而忽略或者部分忽略其他信息。這種機(jī)制就被稱為注意力機(jī)制。深度學(xué)習(xí)中的注意力機(jī)制利用Encoder和Decoder模型有效地賦予不同模塊不同的權(quán)重,從而使得整個(gè)模型具有更強(qiáng)的分辨能力。

      本文采用基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行作者識(shí)別,整個(gè)作者識(shí)別流程如圖1 所示。原始文本經(jīng)過(guò)降噪、分詞、詞性標(biāo)注后提取其詞性標(biāo)簽n元組合(POSn-gram)得到特征序列,特征序列經(jīng)過(guò)Embedding 層轉(zhuǎn)化成相應(yīng)的向量,然后在池化層取平均,再經(jīng)過(guò)Attention 層被賦予不同的權(quán)重,最后經(jīng)過(guò)輸出層得到分類結(jié)果。其中,Embedding 層、池化層、Attention層和輸出層構(gòu)成了深度神經(jīng)網(wǎng)絡(luò)。

      圖1 作者識(shí)別流程Fig.1 Flowchart of authorship identification

      2.1 Embedding層

      神經(jīng)網(wǎng)絡(luò)的第一層是Embedding 層,也叫輸入層。它的輸入是batch_size個(gè)POSn-gram 序列,這些序列以數(shù)字編號(hào)(索引)的形式呈現(xiàn),并且每個(gè)序列含有seq_length個(gè)索引。Embedding層將每個(gè)索引映射成emb_dim維的向量,以便于刻畫不同特征之間的相互關(guān)系。

      2.2 池化層

      神經(jīng)網(wǎng)絡(luò)的第二層是池化層,主要用來(lái)對(duì)樣本特征進(jìn)行疊加平均。由于一篇文檔被轉(zhuǎn)化為seq_length個(gè)索引,每個(gè)索引又被映射成emb_dim維的向量,較多的特征數(shù)量會(huì)不可避免地引入很多噪聲。鑒于此,可以利用池化操作對(duì)樣本特征進(jìn)行分組平均,通過(guò)設(shè)置pool_size的值可以控制分組大小。假設(shè)一個(gè)句子平均有N個(gè)詞,設(shè)置pool_size的值為N,意味著每N個(gè)詞進(jìn)行一次疊加平均。這樣,池化操作在降低噪聲的同時(shí)賦予神經(jīng)網(wǎng)絡(luò)快速閱讀的能力——從逐詞閱讀變?yōu)橹鹁溟喿x。

      2.3 Attention層

      神經(jīng)網(wǎng)絡(luò)的第三層是Attention 層。池化層進(jìn)行了特征的平均,這樣能在很大程度上減小噪聲的影響,避免過(guò)擬合,從而提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率;然而處于不同位置的向量組合對(duì)分類的貢獻(xiàn)不同,池化操作對(duì)此無(wú)能為力。因此本文引入注意力機(jī)制來(lái)給不同位置的向量組合分配不同的權(quán)重。注意力機(jī)制的示意圖如圖2所示。

      圖2 注意力機(jī)制示意圖Fig.2 Schematic diagram of attention mechanism

      Score 函數(shù)用于計(jì)算每個(gè)輸入向量和查詢向量之間的相關(guān)性。常見(jiàn)的Score函數(shù)有以下幾種形式:

      根據(jù)注意力權(quán)重可以計(jì)算原序列狀態(tài)的權(quán)重均值,它等于注意力權(quán)重αts與隱藏層狀態(tài)點(diǎn)乘后求和。原序列狀態(tài)的權(quán)重均值也被稱為上下文向量(context vector),計(jì)算公式為:

      最終的注意力向量(attention vector)需要將上下文向量ct和目標(biāo)序列的隱藏層狀態(tài)ht連接后生成。Dense2是激活函數(shù)為tanh 的全連接神經(jīng)網(wǎng)絡(luò),用來(lái)對(duì)拼接后的向量進(jìn)行tanh 變換。注意力向量的計(jì)算公式為:

      2.4 輸出層

      神經(jīng)網(wǎng)絡(luò)的第四層是輸出層,用于最終的分類。本文直接采用激活函數(shù)為softmax 的全連接神經(jīng)網(wǎng)絡(luò)完成分類。輸出層的輸出是樣本屬于不同類別的概率:

      本文沒(méi)有采用快速文本分類(fastText)[29]中的層次softmax,因?yàn)閷?duì)于具有10 位候選作者的作者識(shí)別任務(wù),普通的softmax 即可完成快速而高效的分類。此外,式(5)也可以寫成:

      其中:N表示樣本的個(gè)數(shù);xn表示第n個(gè)樣本歸一化后的特征向量,或者也可以理解為第n個(gè)樣本的特征序列經(jīng)過(guò)Embedding 層生成的向量;yn為第n個(gè)樣本對(duì)應(yīng)的類別標(biāo)簽;權(quán)重矩陣A、B和C分別表示池化層對(duì)應(yīng)的分組平均的權(quán)重矩陣、Attention 層對(duì)應(yīng)的分配權(quán)重的權(quán)重矩陣以及輸出層對(duì)應(yīng)的使用已學(xué)習(xí)的表示正確預(yù)測(cè)標(biāo)簽的權(quán)重矩陣。

      3 實(shí)驗(yàn)及分析

      本文選取莫言、路遙、賈平凹等10 位作家的多部小說(shuō)作品(共48.7 MB)作為語(yǔ)料進(jìn)行研究。不同作者的語(yǔ)料規(guī)模如表1所示。

      表1 作者語(yǔ)料規(guī)模表Tab.1 Scale table of author corpus

      首先把同一位作家的多部作品進(jìn)行合并,然后按照每個(gè)文檔1 000字的長(zhǎng)度進(jìn)行分割。每位作家抽取1 000個(gè)文本進(jìn)行實(shí)驗(yàn),其中實(shí)驗(yàn)集、驗(yàn)證集和測(cè)試集的比例分別為:54%、6%和40%。作者的寫作風(fēng)格主要反映在其遣詞造句的方式上,換句話說(shuō),作者排列詞語(yǔ)、組織句子的方式在很大程度上決定了其寫作風(fēng)格。因此,本文選擇POSn-gram 來(lái)進(jìn)行作者識(shí)別。POSn-gram 在很大程度上反映了作者詞語(yǔ)選用和搭配的方式,進(jìn)而體現(xiàn)作者的寫作風(fēng)格。之前關(guān)于n-gram 的研究大多基于離散的特征,采用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型相結(jié)合的分類方法,這些方法沒(méi)有考慮特征之間的相互關(guān)系。本文采用連續(xù)n-gram特征,構(gòu)建示例:

      1)POS標(biāo)簽序列:pnvnfxdvrnux。

      2)連續(xù)2-gram特征:pn、nv、vn、nf、fx、xd、dv、vr、rn、nu、ux。

      3)連續(xù)3-gram 特征:pnv、nvn、vnf、nfx、fxd、xdv、dvr、vrn、rnu、nux。

      每一篇文檔都會(huì)被轉(zhuǎn)換成這樣一串POSn-gram 序列,然后又被轉(zhuǎn)換成相應(yīng)的數(shù)字序列,從而得到特征序列。特征序列會(huì)通過(guò)Embedding 層轉(zhuǎn)化成相應(yīng)的向量,然后參與訓(xùn)練和分類過(guò)程。由于POSn-gram 被轉(zhuǎn)化成向量后,向量之間的距離可以反映這些POS 組合的相近程度,因此這樣的n-gram 特征被稱為連續(xù)特征[30]。普通n-gram特征可以表征作者詞性搭配的頻繁程度,但卻無(wú)法表征語(yǔ)序信息;而連續(xù)n-gram不僅可以充分表征語(yǔ)序信息,還能通過(guò)向量之間的距離體現(xiàn)不同詞性搭配之間的關(guān)系。換句話說(shuō),本文所采用的連續(xù)n-gram 特征同時(shí)結(jié)合了n-gram 特征和連續(xù)表示的優(yōu)點(diǎn),它既可以反映作者遣詞造句的方式,又能夠捕捉到不同詞性搭配的差別。

      本文實(shí)驗(yàn)以文檔為單位進(jìn)行訓(xùn)練,文檔中的詞匯和標(biāo)點(diǎn)符號(hào)均用POS 標(biāo)簽的形式進(jìn)行呈現(xiàn)。為了更好地訓(xùn)練模型,使用網(wǎng)格搜索來(lái)確定初始化向量維度、小批量大小、周期數(shù)、學(xué)習(xí)率等參數(shù)的最優(yōu)組合。最終設(shè)置初始化向量維度為100,小批量大小為30,周期數(shù)為20,學(xué)習(xí)率為0.001。為了確定何種POSn-gram 更能體現(xiàn)作者的寫作風(fēng)格,令n取1~5。特別地,當(dāng)n=1時(shí),意味著以單獨(dú)的詞性標(biāo)簽作為分類特征。分別使用文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)、文本循環(huán)神經(jīng)網(wǎng)絡(luò)(Text Recurrent Neural Network,TextRNN)、LSTM、fastText 和本文模型對(duì)連續(xù)的POSn-gram 特征進(jìn)行訓(xùn)練和分類。表2 展示了5 種分類模型在不同n值下的實(shí)驗(yàn)結(jié)果,使用準(zhǔn)確率進(jìn)行評(píng)估。

      表2 不同模型的準(zhǔn)確率對(duì) 單位:%Tab.2 Comparison of accuracy of different models unit:%

      從表2 中可以看出,不同模型的預(yù)測(cè)準(zhǔn)確率從低到高排序依次為:LSTM、TextRNN、TextCNN、fastText和本文模型。換句話說(shuō),針對(duì)不同的POSn-gram特征,本文提出的基于注意力機(jī)制的識(shí)別模型均獲得了最高的準(zhǔn)確率。對(duì)于同一模型,不同n值對(duì)應(yīng)的準(zhǔn)確率差別不大,這說(shuō)明對(duì)于采用連續(xù)POSn-gram特征進(jìn)行中文小說(shuō)作者識(shí)別的研究而言,n值的貢獻(xiàn)遠(yuǎn)小于分類器對(duì)作者風(fēng)格的捕捉??梢該Q一個(gè)角度進(jìn)行理解,連續(xù)POSn-gram特征已經(jīng)涵蓋了文檔的全部序列信息和詞語(yǔ)搭配信息,此時(shí)n在1~5 變化,并沒(méi)有帶來(lái)信息結(jié)構(gòu)的變化。在這種情況下,分類器捕捉特征關(guān)聯(lián)的能力主要取決于模型的訓(xùn)練,而并非初始特征組合的建構(gòu)。

      本文的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)分為輸入層、池化層、Attention 層和輸出層四層結(jié)構(gòu)。如果進(jìn)行消融實(shí)驗(yàn),去掉Attention 層,則模型只剩下輸入層、池化層和輸出層三層結(jié)構(gòu)。這是一個(gè)類似fastText的網(wǎng)絡(luò)結(jié)構(gòu),區(qū)別在于該網(wǎng)絡(luò)的輸出層使用了普通的softmax,而fastText的輸出層采用的是層次softmax。這個(gè)差異僅會(huì)對(duì)程序的運(yùn)行時(shí)間產(chǎn)生影響,而不會(huì)影響作者識(shí)別的準(zhǔn)確率,因此可以直接借用fastText的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比分析。與fastText的結(jié)果進(jìn)行對(duì)比可以發(fā)現(xiàn),加入Attention 層后,不同POSn-gram 特征對(duì)應(yīng)的準(zhǔn)確率平均提高了2.14 個(gè)百分點(diǎn)。這是由于Attention 機(jī)制給處于不同位置的向量組合分配了不同的權(quán)重,進(jìn)而使得整個(gè)網(wǎng)絡(luò)能夠捕捉文檔不同部分所反映出的作者風(fēng)格,從而提高了準(zhǔn)確率。因此可以得出這樣的結(jié)論:注意力機(jī)制能夠有效提高中文小說(shuō)作者識(shí)別的準(zhǔn)確率。

      4 結(jié)語(yǔ)

      本文提出一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)在fastText 的池化層和輸出層之間添加Attention 層得到。借助注意力機(jī)制,該網(wǎng)絡(luò)能夠捕捉文檔不同部分所體現(xiàn)的作者風(fēng)格,同時(shí)又保留了fastText快速而高效的特點(diǎn)。在結(jié)合連續(xù)POSn-gram 特征進(jìn)行的10 位作者識(shí)別實(shí)驗(yàn)中,本文模型的準(zhǔn)確率超過(guò)了TextCNN、TextRNN、LSTM 和fastText 這四種常見(jiàn)模型,比不添加注意力機(jī)制的fastText 平均高出2.14 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制能夠有效提高中文小說(shuō)作者識(shí)別的準(zhǔn)確率。以后可以在以下幾個(gè)方面繼續(xù)改進(jìn)原有工作:

      1)嘗試?yán)闷渌谋咎卣鞔钆渥⒁饬C(jī)制神經(jīng)網(wǎng)絡(luò)進(jìn)行研究;

      2)分析影響注意力網(wǎng)絡(luò)的因素,例如文檔長(zhǎng)度、嵌入維度等;

      3)改進(jìn)注意力網(wǎng)絡(luò)模型,比如由基于詞語(yǔ)的Attention 改為基于句子的Attention。

      猜你喜歡
      文檔注意力準(zhǔn)確率
      讓注意力“飛”回來(lái)
      有人一聲不吭向你扔了個(gè)文檔
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      A Beautiful Way Of Looking At Things
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      和林格尔县| 平顺县| 通州区| 钦州市| 澄城县| 南宁市| 商河县| 珲春市| 翁牛特旗| 来安县| 西峡县| 剑阁县| 深圳市| 昭通市| 荃湾区| 隆尧县| 文登市| 巍山| 安阳县| 柘荣县| 平南县| 咸丰县| 图木舒克市| 牡丹江市| 合作市| 东乡县| 武定县| 灵璧县| 仲巴县| 昂仁县| 鞍山市| 临洮县| 博白县| 池州市| 扎兰屯市| 黑龙江省| 伊吾县| 江西省| 温宿县| 铅山县| 巴楚县|