• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于注意力機(jī)制的文本作者識(shí)別

    2021-07-30 10:33:16江銘虎
    計(jì)算機(jī)應(yīng)用 2021年7期
    關(guān)鍵詞:文檔注意力準(zhǔn)確率

    張 洋,江銘虎

    (清華大學(xué)人文學(xué)院,北京 100084)

    0 引言

    互聯(lián)網(wǎng)時(shí)代,海量數(shù)據(jù)涌現(xiàn),人們?cè)谙硎苄畔⒎?wù)的同時(shí)也飽受信息泛濫的困擾。作者識(shí)別技術(shù)可以準(zhǔn)確而及時(shí)地識(shí)別不良信息,追蹤垃圾信息的源頭并阻止其傳播,對(duì)于維護(hù)互聯(lián)網(wǎng)生態(tài)健康具有重要的意義。作者識(shí)別,又稱為作者身份識(shí)別(authorship identification)或者作者身份歸屬(authorship attribution),是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域里的一個(gè)重要分支。顧名思義,作者識(shí)別是識(shí)別文本作者的一類研究,它最初源自人們深入閱讀的傳統(tǒng)。作者識(shí)別的主要思路是將文本中隱含的作者無(wú)意識(shí)的寫作習(xí)慣通過(guò)某些可以量化的特征表現(xiàn)出來(lái),進(jìn)而凸顯作品的文體學(xué)特征或?qū)懽黠L(fēng)格,以此確定匿名文本的作者[1]。從其發(fā)展歷程來(lái)看,最初的研究是確定散軼文獻(xiàn)的來(lái)源或作者,后面又逐漸發(fā)展至確定某一文學(xué)作品、法律文檔或者電子文本的作者。根據(jù)是否使用數(shù)學(xué)方法量化文本風(fēng)格,可以將作者識(shí)別分為傳統(tǒng)作者識(shí)別和現(xiàn)代作者識(shí)別[2]。傳統(tǒng)作者識(shí)別多基于文學(xué)和語(yǔ)言學(xué)的相關(guān)知識(shí),依靠專家的經(jīng)驗(yàn)進(jìn)行判斷;而現(xiàn)代作者識(shí)別則基于數(shù)學(xué)建模,依靠模型的結(jié)果確定作者歸屬。

    本文主要研究基于中文文本的現(xiàn)代作者識(shí)別,通??梢苑譃樘崛∥谋咎卣骱徒㈩A(yù)測(cè)作者的數(shù)學(xué)模型兩個(gè)步驟。這兩個(gè)步驟分別被研究者稱為作者風(fēng)格分析(authorship style analysis)和作者身份建模(authorship modeling)。具體來(lái)說(shuō),作者風(fēng)格分析是提取能夠量化作者寫作風(fēng)格的文本特征的過(guò)程,比如字符特征、詞匯特征、句法特征、語(yǔ)義特征等。通常需要設(shè)計(jì)一個(gè)特征提取器,生成相應(yīng)的特征向量,以便于在接下來(lái)的步驟中進(jìn)行建模。而作者身份建模則是根據(jù)提取的這些文本特征或者已生成的特征向量建立相應(yīng)的模型,進(jìn)而預(yù)測(cè)文本作者的過(guò)程。有時(shí),作者身份建模也指由文本建立預(yù)測(cè)作者歸屬模型的過(guò)程。通過(guò)構(gòu)建特征集進(jìn)行作者識(shí)別的研究都可以用以上這兩個(gè)步驟來(lái)描述。相比之下,極少數(shù)不需要借助特征集識(shí)別作者的研究則缺少第一個(gè)步驟。此類研究通常直接利用原始文檔進(jìn)行建模,而無(wú)需額外的特征提取,比如基于壓縮方法的作者識(shí)別[3]等。

    從大的層面來(lái)分,作者身份建模主要分為基于輪廓的建模(profile-based modeling)和基于實(shí)例的建模(instance-based modeling)[4]。二者都是由訓(xùn)練文本構(gòu)建作者歸屬模型的過(guò)程,它們的主要區(qū)別在于:在基于輪廓的建模中,每個(gè)作者的所有文本都會(huì)被累計(jì)處理。換句話說(shuō),特定作者的所有文本會(huì)被整合成一個(gè)大文檔,根據(jù)這個(gè)大文檔提取相應(yīng)表示,構(gòu)建該作者的輪廓。這樣,每個(gè)測(cè)試文本只需跟特定作者的輪廓比較一次就能確定與該作者的相似程度。而在基于實(shí)例的建模中,每位作者的所有文本都會(huì)被單獨(dú)處理。換句話說(shuō),每個(gè)文本都有自己的表示。在這種情況下,每個(gè)測(cè)試文本需要跟特定作者的所有文本進(jìn)行比較才能確定與該作者的相似程度。因此,當(dāng)語(yǔ)料相對(duì)比較充足,每個(gè)作者都有足夠數(shù)量的訓(xùn)練文本時(shí),通常采用基于實(shí)例的建模;反之,當(dāng)僅能獲得有限數(shù)量的訓(xùn)練文本時(shí),常常采用基于輪廓的建模[5]?;趯?shí)例的建模通常會(huì)與機(jī)器學(xué)習(xí)算法搭配使用,因此研究者一般認(rèn)為其準(zhǔn)確率要高于基于輪廓的建模方法[6]。

    1 相關(guān)研究

    作者識(shí)別領(lǐng)域里常見(jiàn)的建模主要有基于概率的建模、基于向量空間的建模和基于相似度的建模等,下面簡(jiǎn)要敘述這幾類建模以及它們通常搭配的分類方法。

    1.1 基于概率的建模

    基于概率的建模通過(guò)引入概率模型來(lái)描述不同隨機(jī)變量之間的數(shù)學(xué)關(guān)系。作者識(shí)別領(lǐng)域最早的基于概率的建模是Mosteller 等[7]利用貝葉斯方法研究聯(lián)邦黨人文集的作者歸屬問(wèn)題。貝葉斯方法是一種建立在條件概率基礎(chǔ)上的概率模型。具體來(lái)說(shuō),貝葉斯方法是在類條件概率密度和先驗(yàn)概率已知的情況下,通過(guò)貝葉斯公式比較樣本屬于兩類的后驗(yàn)概率,將類別決策為后驗(yàn)概率大的一類,這樣可以使總體錯(cuò)誤率最小[8]。

    有些研究者利用貝葉斯方法進(jìn)行相關(guān)的研究。Zhao等[9]選擇功能詞和詞性(Part-of-Speech,POS)標(biāo)簽作為特征,使用樸素貝葉斯方法識(shí)別作者;Raghavan 等[10]為每個(gè)作者構(gòu)建概率上下文無(wú)關(guān)文法,并使用該文法作為分類的語(yǔ)言模型進(jìn)行作者歸屬;Boutwell[11]使用樸素貝葉斯分類器,選擇基于字符的n元組合(n-gram)的特征構(gòu)建作者集統(tǒng)計(jì)模型識(shí)別短信的作 者;Savoy[12]利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)把每個(gè)文檔建模為主題分布的混合,每個(gè)主題指定單詞的分布,根據(jù)文本距離確定相應(yīng)的作者歸屬。

    1.2 基于向量空間的建模

    基于向量空間的建模把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,同時(shí)以向量空間中向量的相似度衡量文本中語(yǔ)義的相似度,簡(jiǎn)潔直觀。作者識(shí)別領(lǐng)域的向量空間模型通常搭配支持向量機(jī)(Support Vector Machine,SVM)和神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法,本部分著重介紹這兩種方法。

    1.2.1 支持向量機(jī)

    SVM 是作者識(shí)別領(lǐng)域常見(jiàn)的一種方法,它的基本原理是找到一個(gè)最優(yōu)的分類面,使得兩類中距離這個(gè)分類面最近的點(diǎn)和分類面之間的距離最大[13]。SVM 的復(fù)雜度與樣本維數(shù)無(wú)關(guān),學(xué)習(xí)效率和準(zhǔn)確率較高,適合應(yīng)用于高維文體特征數(shù)據(jù)集,因此受到很多研究者的青睞。Diederich 等[14]利用SVM 研究德國(guó)報(bào)紙文本的作者識(shí)別;Schwartz 等[15]利用SVM 研究微小信息在推特語(yǔ)料上的作者識(shí)別;Mikros 等[16]結(jié)合多級(jí)ngram,利用多類SVM 研究希臘推文中的作者識(shí)別;Posadas-Duran 等[17]選擇句法關(guān)系標(biāo)簽、POS 標(biāo)簽以及詞根的句法ngram等特征刻畫文本風(fēng)格,并利用SVM識(shí)別相關(guān)作者。

    1.2.2 神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是簡(jiǎn)單處理元件、單元或節(jié)點(diǎn)的互連系統(tǒng),網(wǎng)絡(luò)的處理能力體現(xiàn)在通過(guò)適應(yīng)或?qū)W習(xí)一組訓(xùn)練模式的過(guò)程中獲得的單元間連接強(qiáng)度或權(quán)重上[18]。因此,從本質(zhì)上來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)是模擬動(dòng)物腦中神經(jīng)元網(wǎng)絡(luò)的簡(jiǎn)化模型。從理論上來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)算法能夠逼近任意函數(shù),具有很強(qiáng)的非線性映射,以及分布存儲(chǔ)、并行處理、自學(xué)習(xí)、自組織等優(yōu)點(diǎn)[19]。所以,針對(duì)一些實(shí)際情況復(fù)雜、背景知識(shí)不清楚、規(guī)則不明確的問(wèn)題,神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的處理能力。

    有些研究者利用神經(jīng)網(wǎng)絡(luò)研究作者身份識(shí)別。Bagnall[20]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)同時(shí)對(duì)幾個(gè)作者的語(yǔ)言進(jìn)行建模;Ruder 等[21]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)處理特征級(jí)別信號(hào),并對(duì)大規(guī)模文本進(jìn)行快速預(yù)測(cè);Shrestha 等[22]選擇字符n-gram 作為特征,利用CNN 對(duì)推文進(jìn)行作者識(shí)別;Jafariakinabad 等[23]使用句法循環(huán)神經(jīng)網(wǎng)絡(luò)從詞性標(biāo)簽序列中學(xué)習(xí)句子的句法表示,同時(shí)利用CNN 和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)研究句中詞性標(biāo)簽的短期和長(zhǎng)期依賴性。

    1.3 基于相似度的建模

    基于相似度的建模的主要思想是計(jì)算未知文本和所有文本之間的相似性度量,然后根據(jù)相似程度估計(jì)最可能的作者[24]。這是分類任務(wù)中最直觀的一種思路,該思路的代表算法是K-最近鄰(K-Nearest Neighbor,KNN)算法。KNN 的基本原理為:根據(jù)某個(gè)距離度量找出訓(xùn)練樣本中與測(cè)試樣本最接近的k個(gè)樣本,再根據(jù)它們中的大多數(shù)樣本標(biāo)簽進(jìn)行預(yù)測(cè)。因此,衡量樣本相似程度的距離度量是KNN 或者其他基于相似度的分類方法的關(guān)鍵。KNN 不需要使用訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行分類,可以在測(cè)試階段使用訓(xùn)練數(shù)據(jù)[25]。

    有些研究者利用基于相似度的模型研究作者識(shí)別。Jankowska 等[26]選擇通用n-gram 相異性度量作為距離度量參與網(wǎng)絡(luò)測(cè)評(píng)競(jìng)賽,獲得了較優(yōu)的結(jié)果;Burrows[27]提出了Delta方法,該方法通過(guò)計(jì)算未知文本與語(yǔ)料庫(kù)的Z 分?jǐn)?shù)和Delta值,把文本分配給具有最低Delta 值的作者;Eder[28]使用基于KNN的Delta方法研究文本尺寸對(duì)作者歸屬的影響。

    2 注意力機(jī)制

    近年來(lái),注意力機(jī)制(attention mechanism)被廣泛應(yīng)用在圖像識(shí)別、機(jī)器翻譯、語(yǔ)音識(shí)別等各種深度學(xué)習(xí)任務(wù)中。顧名思義,注意力機(jī)制是模仿人識(shí)別物體時(shí)的注意力焦點(diǎn)的數(shù)學(xué)模型。人在識(shí)別物體時(shí),先通過(guò)視覺(jué)系統(tǒng)獲得物體的圖像信息,而后由大腦對(duì)這些信息進(jìn)行加工和整理,最終分辨物體的類別。大腦在對(duì)這些信息進(jìn)行分析時(shí),會(huì)格外關(guān)注一些局部信息,而忽略或者部分忽略其他信息。這種機(jī)制就被稱為注意力機(jī)制。深度學(xué)習(xí)中的注意力機(jī)制利用Encoder和Decoder模型有效地賦予不同模塊不同的權(quán)重,從而使得整個(gè)模型具有更強(qiáng)的分辨能力。

    本文采用基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行作者識(shí)別,整個(gè)作者識(shí)別流程如圖1 所示。原始文本經(jīng)過(guò)降噪、分詞、詞性標(biāo)注后提取其詞性標(biāo)簽n元組合(POSn-gram)得到特征序列,特征序列經(jīng)過(guò)Embedding 層轉(zhuǎn)化成相應(yīng)的向量,然后在池化層取平均,再經(jīng)過(guò)Attention 層被賦予不同的權(quán)重,最后經(jīng)過(guò)輸出層得到分類結(jié)果。其中,Embedding 層、池化層、Attention層和輸出層構(gòu)成了深度神經(jīng)網(wǎng)絡(luò)。

    圖1 作者識(shí)別流程Fig.1 Flowchart of authorship identification

    2.1 Embedding層

    神經(jīng)網(wǎng)絡(luò)的第一層是Embedding 層,也叫輸入層。它的輸入是batch_size個(gè)POSn-gram 序列,這些序列以數(shù)字編號(hào)(索引)的形式呈現(xiàn),并且每個(gè)序列含有seq_length個(gè)索引。Embedding層將每個(gè)索引映射成emb_dim維的向量,以便于刻畫不同特征之間的相互關(guān)系。

    2.2 池化層

    神經(jīng)網(wǎng)絡(luò)的第二層是池化層,主要用來(lái)對(duì)樣本特征進(jìn)行疊加平均。由于一篇文檔被轉(zhuǎn)化為seq_length個(gè)索引,每個(gè)索引又被映射成emb_dim維的向量,較多的特征數(shù)量會(huì)不可避免地引入很多噪聲。鑒于此,可以利用池化操作對(duì)樣本特征進(jìn)行分組平均,通過(guò)設(shè)置pool_size的值可以控制分組大小。假設(shè)一個(gè)句子平均有N個(gè)詞,設(shè)置pool_size的值為N,意味著每N個(gè)詞進(jìn)行一次疊加平均。這樣,池化操作在降低噪聲的同時(shí)賦予神經(jīng)網(wǎng)絡(luò)快速閱讀的能力——從逐詞閱讀變?yōu)橹鹁溟喿x。

    2.3 Attention層

    神經(jīng)網(wǎng)絡(luò)的第三層是Attention 層。池化層進(jìn)行了特征的平均,這樣能在很大程度上減小噪聲的影響,避免過(guò)擬合,從而提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率;然而處于不同位置的向量組合對(duì)分類的貢獻(xiàn)不同,池化操作對(duì)此無(wú)能為力。因此本文引入注意力機(jī)制來(lái)給不同位置的向量組合分配不同的權(quán)重。注意力機(jī)制的示意圖如圖2所示。

    圖2 注意力機(jī)制示意圖Fig.2 Schematic diagram of attention mechanism

    Score 函數(shù)用于計(jì)算每個(gè)輸入向量和查詢向量之間的相關(guān)性。常見(jiàn)的Score函數(shù)有以下幾種形式:

    根據(jù)注意力權(quán)重可以計(jì)算原序列狀態(tài)的權(quán)重均值,它等于注意力權(quán)重αts與隱藏層狀態(tài)點(diǎn)乘后求和。原序列狀態(tài)的權(quán)重均值也被稱為上下文向量(context vector),計(jì)算公式為:

    最終的注意力向量(attention vector)需要將上下文向量ct和目標(biāo)序列的隱藏層狀態(tài)ht連接后生成。Dense2是激活函數(shù)為tanh 的全連接神經(jīng)網(wǎng)絡(luò),用來(lái)對(duì)拼接后的向量進(jìn)行tanh 變換。注意力向量的計(jì)算公式為:

    2.4 輸出層

    神經(jīng)網(wǎng)絡(luò)的第四層是輸出層,用于最終的分類。本文直接采用激活函數(shù)為softmax 的全連接神經(jīng)網(wǎng)絡(luò)完成分類。輸出層的輸出是樣本屬于不同類別的概率:

    本文沒(méi)有采用快速文本分類(fastText)[29]中的層次softmax,因?yàn)閷?duì)于具有10 位候選作者的作者識(shí)別任務(wù),普通的softmax 即可完成快速而高效的分類。此外,式(5)也可以寫成:

    其中:N表示樣本的個(gè)數(shù);xn表示第n個(gè)樣本歸一化后的特征向量,或者也可以理解為第n個(gè)樣本的特征序列經(jīng)過(guò)Embedding 層生成的向量;yn為第n個(gè)樣本對(duì)應(yīng)的類別標(biāo)簽;權(quán)重矩陣A、B和C分別表示池化層對(duì)應(yīng)的分組平均的權(quán)重矩陣、Attention 層對(duì)應(yīng)的分配權(quán)重的權(quán)重矩陣以及輸出層對(duì)應(yīng)的使用已學(xué)習(xí)的表示正確預(yù)測(cè)標(biāo)簽的權(quán)重矩陣。

    3 實(shí)驗(yàn)及分析

    本文選取莫言、路遙、賈平凹等10 位作家的多部小說(shuō)作品(共48.7 MB)作為語(yǔ)料進(jìn)行研究。不同作者的語(yǔ)料規(guī)模如表1所示。

    表1 作者語(yǔ)料規(guī)模表Tab.1 Scale table of author corpus

    首先把同一位作家的多部作品進(jìn)行合并,然后按照每個(gè)文檔1 000字的長(zhǎng)度進(jìn)行分割。每位作家抽取1 000個(gè)文本進(jìn)行實(shí)驗(yàn),其中實(shí)驗(yàn)集、驗(yàn)證集和測(cè)試集的比例分別為:54%、6%和40%。作者的寫作風(fēng)格主要反映在其遣詞造句的方式上,換句話說(shuō),作者排列詞語(yǔ)、組織句子的方式在很大程度上決定了其寫作風(fēng)格。因此,本文選擇POSn-gram 來(lái)進(jìn)行作者識(shí)別。POSn-gram 在很大程度上反映了作者詞語(yǔ)選用和搭配的方式,進(jìn)而體現(xiàn)作者的寫作風(fēng)格。之前關(guān)于n-gram 的研究大多基于離散的特征,采用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型相結(jié)合的分類方法,這些方法沒(méi)有考慮特征之間的相互關(guān)系。本文采用連續(xù)n-gram特征,構(gòu)建示例:

    1)POS標(biāo)簽序列:pnvnfxdvrnux。

    2)連續(xù)2-gram特征:pn、nv、vn、nf、fx、xd、dv、vr、rn、nu、ux。

    3)連續(xù)3-gram 特征:pnv、nvn、vnf、nfx、fxd、xdv、dvr、vrn、rnu、nux。

    每一篇文檔都會(huì)被轉(zhuǎn)換成這樣一串POSn-gram 序列,然后又被轉(zhuǎn)換成相應(yīng)的數(shù)字序列,從而得到特征序列。特征序列會(huì)通過(guò)Embedding 層轉(zhuǎn)化成相應(yīng)的向量,然后參與訓(xùn)練和分類過(guò)程。由于POSn-gram 被轉(zhuǎn)化成向量后,向量之間的距離可以反映這些POS 組合的相近程度,因此這樣的n-gram 特征被稱為連續(xù)特征[30]。普通n-gram特征可以表征作者詞性搭配的頻繁程度,但卻無(wú)法表征語(yǔ)序信息;而連續(xù)n-gram不僅可以充分表征語(yǔ)序信息,還能通過(guò)向量之間的距離體現(xiàn)不同詞性搭配之間的關(guān)系。換句話說(shuō),本文所采用的連續(xù)n-gram 特征同時(shí)結(jié)合了n-gram 特征和連續(xù)表示的優(yōu)點(diǎn),它既可以反映作者遣詞造句的方式,又能夠捕捉到不同詞性搭配的差別。

    本文實(shí)驗(yàn)以文檔為單位進(jìn)行訓(xùn)練,文檔中的詞匯和標(biāo)點(diǎn)符號(hào)均用POS 標(biāo)簽的形式進(jìn)行呈現(xiàn)。為了更好地訓(xùn)練模型,使用網(wǎng)格搜索來(lái)確定初始化向量維度、小批量大小、周期數(shù)、學(xué)習(xí)率等參數(shù)的最優(yōu)組合。最終設(shè)置初始化向量維度為100,小批量大小為30,周期數(shù)為20,學(xué)習(xí)率為0.001。為了確定何種POSn-gram 更能體現(xiàn)作者的寫作風(fēng)格,令n取1~5。特別地,當(dāng)n=1時(shí),意味著以單獨(dú)的詞性標(biāo)簽作為分類特征。分別使用文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)、文本循環(huán)神經(jīng)網(wǎng)絡(luò)(Text Recurrent Neural Network,TextRNN)、LSTM、fastText 和本文模型對(duì)連續(xù)的POSn-gram 特征進(jìn)行訓(xùn)練和分類。表2 展示了5 種分類模型在不同n值下的實(shí)驗(yàn)結(jié)果,使用準(zhǔn)確率進(jìn)行評(píng)估。

    表2 不同模型的準(zhǔn)確率對(duì) 單位:%Tab.2 Comparison of accuracy of different models unit:%

    從表2 中可以看出,不同模型的預(yù)測(cè)準(zhǔn)確率從低到高排序依次為:LSTM、TextRNN、TextCNN、fastText和本文模型。換句話說(shuō),針對(duì)不同的POSn-gram特征,本文提出的基于注意力機(jī)制的識(shí)別模型均獲得了最高的準(zhǔn)確率。對(duì)于同一模型,不同n值對(duì)應(yīng)的準(zhǔn)確率差別不大,這說(shuō)明對(duì)于采用連續(xù)POSn-gram特征進(jìn)行中文小說(shuō)作者識(shí)別的研究而言,n值的貢獻(xiàn)遠(yuǎn)小于分類器對(duì)作者風(fēng)格的捕捉??梢該Q一個(gè)角度進(jìn)行理解,連續(xù)POSn-gram特征已經(jīng)涵蓋了文檔的全部序列信息和詞語(yǔ)搭配信息,此時(shí)n在1~5 變化,并沒(méi)有帶來(lái)信息結(jié)構(gòu)的變化。在這種情況下,分類器捕捉特征關(guān)聯(lián)的能力主要取決于模型的訓(xùn)練,而并非初始特征組合的建構(gòu)。

    本文的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)分為輸入層、池化層、Attention 層和輸出層四層結(jié)構(gòu)。如果進(jìn)行消融實(shí)驗(yàn),去掉Attention 層,則模型只剩下輸入層、池化層和輸出層三層結(jié)構(gòu)。這是一個(gè)類似fastText的網(wǎng)絡(luò)結(jié)構(gòu),區(qū)別在于該網(wǎng)絡(luò)的輸出層使用了普通的softmax,而fastText的輸出層采用的是層次softmax。這個(gè)差異僅會(huì)對(duì)程序的運(yùn)行時(shí)間產(chǎn)生影響,而不會(huì)影響作者識(shí)別的準(zhǔn)確率,因此可以直接借用fastText的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比分析。與fastText的結(jié)果進(jìn)行對(duì)比可以發(fā)現(xiàn),加入Attention 層后,不同POSn-gram 特征對(duì)應(yīng)的準(zhǔn)確率平均提高了2.14 個(gè)百分點(diǎn)。這是由于Attention 機(jī)制給處于不同位置的向量組合分配了不同的權(quán)重,進(jìn)而使得整個(gè)網(wǎng)絡(luò)能夠捕捉文檔不同部分所反映出的作者風(fēng)格,從而提高了準(zhǔn)確率。因此可以得出這樣的結(jié)論:注意力機(jī)制能夠有效提高中文小說(shuō)作者識(shí)別的準(zhǔn)確率。

    4 結(jié)語(yǔ)

    本文提出一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)在fastText 的池化層和輸出層之間添加Attention 層得到。借助注意力機(jī)制,該網(wǎng)絡(luò)能夠捕捉文檔不同部分所體現(xiàn)的作者風(fēng)格,同時(shí)又保留了fastText快速而高效的特點(diǎn)。在結(jié)合連續(xù)POSn-gram 特征進(jìn)行的10 位作者識(shí)別實(shí)驗(yàn)中,本文模型的準(zhǔn)確率超過(guò)了TextCNN、TextRNN、LSTM 和fastText 這四種常見(jiàn)模型,比不添加注意力機(jī)制的fastText 平均高出2.14 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制能夠有效提高中文小說(shuō)作者識(shí)別的準(zhǔn)確率。以后可以在以下幾個(gè)方面繼續(xù)改進(jìn)原有工作:

    1)嘗試?yán)闷渌谋咎卣鞔钆渥⒁饬C(jī)制神經(jīng)網(wǎng)絡(luò)進(jìn)行研究;

    2)分析影響注意力網(wǎng)絡(luò)的因素,例如文檔長(zhǎng)度、嵌入維度等;

    3)改進(jìn)注意力網(wǎng)絡(luò)模型,比如由基于詞語(yǔ)的Attention 改為基于句子的Attention。

    猜你喜歡
    文檔注意力準(zhǔn)確率
    讓注意力“飛”回來(lái)
    有人一聲不吭向你扔了個(gè)文檔
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    A Beautiful Way Of Looking At Things
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    亚洲精品456在线播放app| 欧美三级亚洲精品| 国产日韩欧美亚洲二区| 亚洲精品一区蜜桃| 熟妇人妻不卡中文字幕| 如何舔出高潮| 99久久人妻综合| 最近最新中文字幕大全电影3| 69av精品久久久久久| 大片免费播放器 马上看| 一区二区三区乱码不卡18| 国产人妻一区二区三区在| 三级国产精品片| 久久国内精品自在自线图片| 国产淫片久久久久久久久| 亚洲国产色片| 美女视频免费永久观看网站| 亚洲最大成人手机在线| 男人爽女人下面视频在线观看| 在线免费十八禁| 在线免费观看不下载黄p国产| 极品教师在线视频| 国产69精品久久久久777片| 99热这里只有精品一区| 亚洲丝袜综合中文字幕| a级一级毛片免费在线观看| 亚洲精品乱码久久久v下载方式| 丝瓜视频免费看黄片| 国产日韩欧美亚洲二区| 免费看不卡的av| 欧美日韩综合久久久久久| 成年版毛片免费区| 你懂的网址亚洲精品在线观看| 免费看a级黄色片| 七月丁香在线播放| 日本与韩国留学比较| 特级一级黄色大片| 亚洲成人av在线免费| 欧美xxⅹ黑人| 国产午夜福利久久久久久| 美女脱内裤让男人舔精品视频| 亚洲国产高清在线一区二区三| 亚洲激情五月婷婷啪啪| 街头女战士在线观看网站| av免费观看日本| 亚洲真实伦在线观看| 少妇人妻久久综合中文| 黑人高潮一二区| 亚洲国产欧美人成| 一级毛片久久久久久久久女| av女优亚洲男人天堂| 内地一区二区视频在线| 91精品国产九色| 国产在线一区二区三区精| 亚洲美女搞黄在线观看| 日本爱情动作片www.在线观看| 欧美性猛交╳xxx乱大交人| 一二三四中文在线观看免费高清| 国语对白做爰xxxⅹ性视频网站| 99热全是精品| 中文字幕人妻熟人妻熟丝袜美| 精品人妻一区二区三区麻豆| 免费黄频网站在线观看国产| 亚洲av不卡在线观看| 如何舔出高潮| 少妇的逼水好多| 夫妻性生交免费视频一级片| 婷婷色综合大香蕉| 听说在线观看完整版免费高清| 午夜福利视频1000在线观看| 午夜激情福利司机影院| 欧美极品一区二区三区四区| av线在线观看网站| 国产淫语在线视频| 国产毛片a区久久久久| 亚洲第一区二区三区不卡| 精品久久久久久久久亚洲| 少妇的逼好多水| 97热精品久久久久久| 亚洲精品日本国产第一区| 国产91av在线免费观看| 极品少妇高潮喷水抽搐| 亚洲,欧美,日韩| 国产爱豆传媒在线观看| 婷婷色综合大香蕉| 国产av不卡久久| 天美传媒精品一区二区| 国产亚洲精品久久久com| 欧美3d第一页| 伊人久久国产一区二区| 色5月婷婷丁香| 色网站视频免费| 免费看a级黄色片| 七月丁香在线播放| 中国国产av一级| 丰满少妇做爰视频| 国产欧美日韩一区二区三区在线 | 啦啦啦在线观看免费高清www| 女人十人毛片免费观看3o分钟| 久久久久九九精品影院| 在线亚洲精品国产二区图片欧美 | 大话2 男鬼变身卡| 久久久成人免费电影| 免费电影在线观看免费观看| 亚洲av电影在线观看一区二区三区 | 黑人高潮一二区| 男男h啪啪无遮挡| 免费在线观看成人毛片| 国产一区有黄有色的免费视频| 人妻 亚洲 视频| 我的老师免费观看完整版| 日韩人妻高清精品专区| 国产极品天堂在线| 亚洲av男天堂| 色吧在线观看| 久久韩国三级中文字幕| 王馨瑶露胸无遮挡在线观看| 又爽又黄无遮挡网站| 联通29元200g的流量卡| 九九在线视频观看精品| 免费看a级黄色片| av免费在线看不卡| 激情 狠狠 欧美| 最近中文字幕高清免费大全6| 春色校园在线视频观看| 精品人妻熟女av久视频| tube8黄色片| 人人妻人人爽人人添夜夜欢视频 | 我的女老师完整版在线观看| 黑人高潮一二区| 国产成人a∨麻豆精品| 国产黄色视频一区二区在线观看| 在线亚洲精品国产二区图片欧美 | 永久免费av网站大全| 99久久中文字幕三级久久日本| 69人妻影院| 国产 精品1| 啦啦啦啦在线视频资源| 精品久久久久久久人妻蜜臀av| 亚洲电影在线观看av| 久久精品久久久久久噜噜老黄| 欧美少妇被猛烈插入视频| 欧美日韩视频高清一区二区三区二| 日韩免费高清中文字幕av| 免费看av在线观看网站| 老女人水多毛片| 91精品一卡2卡3卡4卡| 全区人妻精品视频| 视频区图区小说| 91久久精品国产一区二区三区| 七月丁香在线播放| 久久久精品94久久精品| 在线 av 中文字幕| 成人二区视频| 又黄又爽又刺激的免费视频.| 欧美潮喷喷水| 国产精品.久久久| 亚洲一区二区三区欧美精品 | 精品久久久久久久人妻蜜臀av| 色网站视频免费| 国产黄频视频在线观看| 国产精品一及| 少妇裸体淫交视频免费看高清| 在线 av 中文字幕| 亚洲精品成人av观看孕妇| 亚洲久久久久久中文字幕| 欧美日本视频| 国产精品不卡视频一区二区| 交换朋友夫妻互换小说| 看非洲黑人一级黄片| 国产亚洲91精品色在线| 国产av国产精品国产| 亚洲欧美日韩另类电影网站 | 日韩亚洲欧美综合| 18禁动态无遮挡网站| 亚洲精品一二三| 天堂中文最新版在线下载 | 亚洲最大成人av| 亚洲国产最新在线播放| 国产一级毛片在线| 免费看不卡的av| 亚洲真实伦在线观看| 日本wwww免费看| 黄色怎么调成土黄色| 少妇熟女欧美另类| 午夜精品一区二区三区免费看| 纵有疾风起免费观看全集完整版| 亚洲av免费在线观看| 女人十人毛片免费观看3o分钟| a级毛色黄片| 中文在线观看免费www的网站| www.av在线官网国产| 欧美日韩在线观看h| 激情 狠狠 欧美| 色婷婷久久久亚洲欧美| 在线观看人妻少妇| 波野结衣二区三区在线| 亚洲欧洲国产日韩| 亚洲精品影视一区二区三区av| 免费黄网站久久成人精品| 亚洲在久久综合| 国产精品无大码| 久久综合国产亚洲精品| 最近的中文字幕免费完整| 欧美97在线视频| 国产有黄有色有爽视频| av免费在线看不卡| 啦啦啦中文免费视频观看日本| 美女内射精品一级片tv| 亚洲国产精品国产精品| 五月开心婷婷网| 九九久久精品国产亚洲av麻豆| 王馨瑶露胸无遮挡在线观看| 亚洲图色成人| 搞女人的毛片| 日日啪夜夜撸| 久久久久久久午夜电影| 亚洲高清免费不卡视频| 特大巨黑吊av在线直播| 波多野结衣巨乳人妻| 国产精品久久久久久久电影| 久久国产乱子免费精品| 亚洲最大成人av| 久久久久国产精品人妻一区二区| 男人添女人高潮全过程视频| 99视频精品全部免费 在线| 看非洲黑人一级黄片| 久久ye,这里只有精品| 国内精品宾馆在线| 老女人水多毛片| 你懂的网址亚洲精品在线观看| 亚洲精品乱久久久久久| 色视频在线一区二区三区| 色婷婷久久久亚洲欧美| 国产一区有黄有色的免费视频| 国产白丝娇喘喷水9色精品| 少妇人妻一区二区三区视频| 国精品久久久久久国模美| 欧美97在线视频| 日产精品乱码卡一卡2卡三| 国产高清国产精品国产三级 | 午夜福利视频精品| 欧美成人午夜免费资源| 国产男女超爽视频在线观看| 国产一区二区在线观看日韩| 嫩草影院入口| 国产69精品久久久久777片| 亚洲精品乱码久久久v下载方式| 三级经典国产精品| 婷婷色综合大香蕉| 久久久国产一区二区| 69人妻影院| av女优亚洲男人天堂| 麻豆精品久久久久久蜜桃| 国产免费又黄又爽又色| 波野结衣二区三区在线| 久久精品国产自在天天线| 精品少妇久久久久久888优播| 国产精品熟女久久久久浪| 欧美日本视频| 看非洲黑人一级黄片| 亚洲婷婷狠狠爱综合网| av黄色大香蕉| 我的老师免费观看完整版| 男女边吃奶边做爰视频| 欧美成人精品欧美一级黄| 人人妻人人看人人澡| 亚洲av中文av极速乱| 国产精品爽爽va在线观看网站| 在线 av 中文字幕| 久久精品熟女亚洲av麻豆精品| 成年女人看的毛片在线观看| 我的女老师完整版在线观看| 日韩欧美精品免费久久| 尤物成人国产欧美一区二区三区| 看十八女毛片水多多多| 国内揄拍国产精品人妻在线| 免费观看性生交大片5| 极品教师在线视频| 一区二区av电影网| 卡戴珊不雅视频在线播放| 欧美成人午夜免费资源| av在线蜜桃| xxx大片免费视频| 国产精品99久久99久久久不卡 | 亚洲欧美一区二区三区国产| 国产精品不卡视频一区二区| 人妻夜夜爽99麻豆av| 一边亲一边摸免费视频| av女优亚洲男人天堂| 成年av动漫网址| 精品久久久久久久人妻蜜臀av| 国产一区二区在线观看日韩| 欧美性猛交╳xxx乱大交人| 超碰97精品在线观看| 国产熟女欧美一区二区| 各种免费的搞黄视频| 热re99久久精品国产66热6| 九九在线视频观看精品| 亚洲av电影在线观看一区二区三区 | 日本黄色片子视频| 久久久久国产网址| 高清日韩中文字幕在线| 秋霞在线观看毛片| 久久久久久久久久久免费av| 国产国拍精品亚洲av在线观看| 日本黄色片子视频| 三级经典国产精品| 日本wwww免费看| 最近中文字幕高清免费大全6| 精品一区二区三区视频在线| 久久久久性生活片| 亚洲天堂国产精品一区在线| 亚洲欧美成人精品一区二区| 天堂中文最新版在线下载 | av在线观看视频网站免费| 精品一区二区免费观看| 日韩大片免费观看网站| 亚洲精品456在线播放app| 国产欧美日韩一区二区三区在线 | 国产高清不卡午夜福利| 亚洲欧美日韩卡通动漫| 国产免费一区二区三区四区乱码| 国产精品蜜桃在线观看| 国产精品99久久久久久久久| 亚洲真实伦在线观看| 五月玫瑰六月丁香| 亚洲四区av| 国产伦在线观看视频一区| 精品国产三级普通话版| 69人妻影院| 麻豆精品久久久久久蜜桃| 国产男女超爽视频在线观看| 综合色av麻豆| 97在线人人人人妻| 男人舔奶头视频| 国模一区二区三区四区视频| 一级爰片在线观看| 欧美人与善性xxx| 亚洲怡红院男人天堂| 欧美成人a在线观看| videos熟女内射| 国产精品国产三级专区第一集| 欧美成人a在线观看| 国产免费又黄又爽又色| 免费看a级黄色片| 好男人视频免费观看在线| 成人欧美大片| 日日啪夜夜撸| 91在线精品国自产拍蜜月| 中文字幕久久专区| 自拍偷自拍亚洲精品老妇| 嫩草影院入口| 日韩一区二区视频免费看| av国产免费在线观看| 一区二区三区乱码不卡18| 成人欧美大片| 免费观看a级毛片全部| 国模一区二区三区四区视频| 亚洲人成网站在线观看播放| 久久久久精品久久久久真实原创| 男人和女人高潮做爰伦理| 亚洲精品一二三| 久久99热这里只有精品18| 在线 av 中文字幕| 欧美97在线视频| 婷婷色麻豆天堂久久| 国产精品久久久久久av不卡| 日韩视频在线欧美| 黄片无遮挡物在线观看| 丰满少妇做爰视频| 少妇的逼水好多| 免费av毛片视频| 青春草国产在线视频| 久久久久久久久久人人人人人人| 有码 亚洲区| 青春草国产在线视频| 成年版毛片免费区| 亚州av有码| 狂野欧美激情性bbbbbb| 成年版毛片免费区| 男女边吃奶边做爰视频| 久久久久九九精品影院| 激情 狠狠 欧美| 国产黄色视频一区二区在线观看| www.av在线官网国产| 欧美精品一区二区大全| 欧美激情国产日韩精品一区| 午夜日本视频在线| 国产精品女同一区二区软件| 新久久久久国产一级毛片| 成人毛片a级毛片在线播放| 观看美女的网站| 国产大屁股一区二区在线视频| 麻豆久久精品国产亚洲av| 夫妻午夜视频| 久久久久久久大尺度免费视频| 国产女主播在线喷水免费视频网站| 亚洲国产精品成人综合色| 欧美潮喷喷水| 久久久久国产网址| 日韩欧美 国产精品| 日韩伦理黄色片| 国产亚洲91精品色在线| 少妇熟女欧美另类| 国产精品国产av在线观看| 纵有疾风起免费观看全集完整版| 五月玫瑰六月丁香| 国产精品久久久久久精品电影小说 | 久久鲁丝午夜福利片| 中文欧美无线码| 偷拍熟女少妇极品色| 天堂俺去俺来也www色官网| 伦精品一区二区三区| 日本色播在线视频| 国产高清有码在线观看视频| 国产v大片淫在线免费观看| 岛国毛片在线播放| 看非洲黑人一级黄片| 亚洲四区av| 伦理电影大哥的女人| 日韩强制内射视频| 午夜精品一区二区三区免费看| 又大又黄又爽视频免费| 啦啦啦啦在线视频资源| 男女边摸边吃奶| 国产老妇伦熟女老妇高清| 在线a可以看的网站| 嫩草影院精品99| 亚洲性久久影院| 欧美性猛交╳xxx乱大交人| 国产成人freesex在线| 国产精品久久久久久av不卡| 亚洲第一区二区三区不卡| 简卡轻食公司| 亚洲真实伦在线观看| 国产v大片淫在线免费观看| 一区二区av电影网| 久久久久久久亚洲中文字幕| 久久久精品94久久精品| 国产一区二区三区综合在线观看 | 久久精品国产a三级三级三级| 亚洲国产精品专区欧美| 男人添女人高潮全过程视频| 欧美性猛交╳xxx乱大交人| 亚洲最大成人中文| av国产久精品久网站免费入址| 免费观看在线日韩| 秋霞在线观看毛片| 久久精品国产自在天天线| 极品少妇高潮喷水抽搐| 国产精品三级大全| 人妻一区二区av| 久久韩国三级中文字幕| 天堂中文最新版在线下载 | 免费观看av网站的网址| 久久精品夜色国产| 日韩中字成人| 亚洲天堂国产精品一区在线| 男女边吃奶边做爰视频| 国产成人freesex在线| 欧美xxxx黑人xx丫x性爽| 国产美女午夜福利| 黄色日韩在线| 国产片特级美女逼逼视频| 午夜福利在线在线| 亚洲美女搞黄在线观看| 午夜激情久久久久久久| 伦精品一区二区三区| 国产精品久久久久久av不卡| 人妻夜夜爽99麻豆av| 三级国产精品片| 看非洲黑人一级黄片| av在线老鸭窝| 激情 狠狠 欧美| 国产毛片a区久久久久| 春色校园在线视频观看| 神马国产精品三级电影在线观看| 精品99又大又爽又粗少妇毛片| 亚洲一级一片aⅴ在线观看| 成年女人在线观看亚洲视频 | 夫妻性生交免费视频一级片| 国产欧美日韩一区二区三区在线 | 色婷婷久久久亚洲欧美| 蜜臀久久99精品久久宅男| 亚洲av不卡在线观看| 国产精品国产三级国产av玫瑰| 国产在线男女| 成人漫画全彩无遮挡| 久久精品熟女亚洲av麻豆精品| 国产欧美另类精品又又久久亚洲欧美| 亚洲国产精品专区欧美| 久久精品国产亚洲网站| av在线蜜桃| 婷婷色综合www| 免费av不卡在线播放| 自拍偷自拍亚洲精品老妇| 91狼人影院| 搞女人的毛片| 我要看日韩黄色一级片| 麻豆成人av视频| av在线天堂中文字幕| 日韩在线高清观看一区二区三区| 国产亚洲午夜精品一区二区久久 | 汤姆久久久久久久影院中文字幕| 亚洲欧美一区二区三区国产| 九草在线视频观看| 一级毛片黄色毛片免费观看视频| 国产黄片视频在线免费观看| 岛国毛片在线播放| 日本爱情动作片www.在线观看| 欧美潮喷喷水| 2018国产大陆天天弄谢| 国产高清三级在线| 高清日韩中文字幕在线| 极品少妇高潮喷水抽搐| 欧美高清成人免费视频www| 大码成人一级视频| 亚洲av成人精品一区久久| 亚洲精品乱久久久久久| 观看免费一级毛片| 色吧在线观看| 国产精品麻豆人妻色哟哟久久| 97超视频在线观看视频| 中文在线观看免费www的网站| 亚洲av.av天堂| 97在线人人人人妻| 日日撸夜夜添| 久久久a久久爽久久v久久| 各种免费的搞黄视频| 国产久久久一区二区三区| 亚洲国产av新网站| 亚洲久久久久久中文字幕| 亚洲美女视频黄频| 亚洲人成网站在线播| 精品人妻视频免费看| 性色av一级| 91aial.com中文字幕在线观看| 一级黄片播放器| 3wmmmm亚洲av在线观看| 免费黄网站久久成人精品| 久久久久久久久大av| 真实男女啪啪啪动态图| xxx大片免费视频| 国产成人a区在线观看| 国产国拍精品亚洲av在线观看| 午夜免费观看性视频| 国产男人的电影天堂91| 一级爰片在线观看| 国产精品人妻久久久影院| tube8黄色片| 各种免费的搞黄视频| 国产色婷婷99| 欧美少妇被猛烈插入视频| 国产在线男女| 美女xxoo啪啪120秒动态图| 日韩国内少妇激情av| 色播亚洲综合网| 亚洲av二区三区四区| 能在线免费看毛片的网站| 永久网站在线| 国产美女午夜福利| av在线观看视频网站免费| 成人二区视频| 国内揄拍国产精品人妻在线| 日日啪夜夜爽| 亚洲自偷自拍三级| 久热这里只有精品99| 综合色av麻豆| 十八禁网站网址无遮挡 | 欧美激情久久久久久爽电影| 一区二区三区免费毛片| 久久99精品国语久久久| 国产成人a区在线观看| av在线播放精品| 男的添女的下面高潮视频| 日本三级黄在线观看| 我要看日韩黄色一级片| 亚洲电影在线观看av| 香蕉精品网在线| 高清av免费在线| 一个人看的www免费观看视频| 亚洲欧美日韩另类电影网站 | 亚洲精品国产色婷婷电影| 夫妻性生交免费视频一级片| 久久精品久久久久久久性| 亚洲精品色激情综合| 亚洲最大成人中文| 日韩 亚洲 欧美在线| 七月丁香在线播放| 久久精品国产亚洲av涩爱| 亚洲精品日本国产第一区| 男女下面进入的视频免费午夜| 午夜免费男女啪啪视频观看| 国语对白做爰xxxⅹ性视频网站| 久久国产乱子免费精品| av专区在线播放| 97热精品久久久久久| 国产一区二区三区av在线| 成人欧美大片| 一级毛片我不卡| 97人妻精品一区二区三区麻豆| 成人一区二区视频在线观看| 欧美xxxx黑人xx丫x性爽| 欧美日韩在线观看h| 男女无遮挡免费网站观看| 一个人观看的视频www高清免费观看| 国产极品天堂在线| 免费黄频网站在线观看国产| 久久6这里有精品| 国产极品天堂在线| 夜夜爽夜夜爽视频| 精品久久久久久久末码| 一区二区三区精品91| 一级毛片aaaaaa免费看小|