• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    作者識(shí)別研究綜述

    2022-01-09 10:22:38江銘虎
    自動(dòng)化學(xué)報(bào) 2021年11期
    關(guān)鍵詞:句法單詞特征

    張 洋 江銘虎

    大數(shù)據(jù)時(shí)代,各種信息服務(wù)給人們的生活帶來很多便捷,人們足不出戶就能知曉天下事.然而,人們在獲取信息的同時(shí)也飽受信息泛濫的困擾.垃圾短信、虛假信息、網(wǎng)絡(luò)詐騙等嚴(yán)重影響人們的日常生活.因此,準(zhǔn)確而及時(shí)地識(shí)別垃圾信息、阻止虛假信息或低俗作品的傳播,對于維護(hù)互聯(lián)網(wǎng)生態(tài)健康以及保障人們的正常生產(chǎn)生活具有非常重要的意義.作者身份識(shí)別(Authorship identification)又簡稱作者識(shí)別,是通過分析未知文本的文體學(xué)特征或?qū)懽黠L(fēng)格,推斷作者歸屬的一類研究.有些研究者也稱其為作者身份歸屬(Authorship attribution),其主要思路是將文本中隱含的作者無意識(shí)的寫作習(xí)慣通過某些可以量化的特征表現(xiàn)出來,進(jìn)而凸顯作品的文體學(xué)特征或?qū)懽黠L(fēng)格,以此確定匿名文本的作者[1].

    19 世紀(jì)以前,科學(xué)研究的社會(huì)化程度較差,數(shù)學(xué)等相關(guān)工具的應(yīng)用不普及,作者識(shí)別尚處于傳統(tǒng)研究的歷史階段.在這一時(shí)期,西方研究者通過韻律節(jié)奏的變換推斷未知十四行詩的作者歸屬.其判別標(biāo)準(zhǔn)多基于研究者的主觀經(jīng)驗(yàn),而缺乏客觀參數(shù)衡量.進(jìn)入19 世紀(jì),隨著生產(chǎn)力的不斷發(fā)展,科學(xué)研究的社會(huì)化程度不斷增強(qiáng),數(shù)學(xué)等相關(guān)工具也逐漸被應(yīng)用到作者識(shí)別研究中.最早嘗試用數(shù)學(xué)工具去量化作者寫作風(fēng)格的是Mendenhall[2],他利用詞譜和特征曲線對莎士比亞的戲劇等不同作品進(jìn)行作者歸屬研究,標(biāo)志著作者識(shí)別現(xiàn)代研究的開端.Yule[3]在Mendenhall 基礎(chǔ)上進(jìn)行了改進(jìn),他利用文本句子長度作為識(shí)別散文等文學(xué)作品作者的有效特征.最有影響力的早期研究是Mosteller 和Wallace[4]合作完成的,他們首次提出利用少數(shù)特殊詞出現(xiàn)的頻率以及分布作為特征,識(shí)別聯(lián)邦主義者論文的作者.Damerau[5]在分析前人方法的基礎(chǔ)上,首次提出基于功能詞(Function words)頻率的作者識(shí)別方法,有效地拓展了詞匯特征.Efron 和Thisted[6]通過作品的詞匯量推斷未知文本是否為莎士比亞所作.從此,詞匯成為作者識(shí)別以及作者風(fēng)格分析一個(gè)重要的研究方向.隨后研究者不斷嘗試新的文本特征,字符、句法、語義等特征均被研究者用于作者識(shí)別研究中,取得了一些進(jìn)展.20 世紀(jì)90 年代隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)應(yīng)用的發(fā)展,大量電子文本產(chǎn)生,于是便有了處理這些信息的需求.這使得作者識(shí)別在情報(bào)分析和計(jì)算機(jī)取證等領(lǐng)域的地位越來越重要.作者識(shí)別的意義主要體現(xiàn)在相關(guān)技術(shù)的應(yīng)用上.在法醫(yī)學(xué)中,作者識(shí)別技術(shù)可以對關(guān)鍵文字證據(jù)進(jìn)行識(shí)別,從而確定當(dāng)事人的身份,這對進(jìn)一步偵破案件有著重要的作用[7].在文學(xué)研究中,作者識(shí)別技術(shù)可以用來識(shí)別匿名作品的作者,或者推斷爭議文本的作者,給作者身份的確定帶來新思路[8].在互聯(lián)網(wǎng)領(lǐng)域,作者識(shí)別技術(shù)可以追溯垃圾郵件、謠言以及計(jì)算機(jī)病毒等非法程序源代碼的作者,對于打擊網(wǎng)絡(luò)違法行為和維護(hù)網(wǎng)絡(luò)安全具有重要的意義[9].

    作者識(shí)別是一個(gè)涉及眾多學(xué)科的交叉學(xué)科,為了簡化問題和便于研究,研究者常常提出一些假設(shè).首先,第一個(gè)假設(shè)就是,作者的寫作風(fēng)格會(huì)受到作者自身特征的影響,比如作者的身份地位、性別、性格、年齡和受教育程度等[10].這個(gè)是作者識(shí)別研究的首要假設(shè).第二個(gè)假設(shè)就是作者的這些特征能夠從他的寫作風(fēng)格中看出來[11].這個(gè)假設(shè)是作者識(shí)別研究中最重要的一個(gè)假設(shè).在現(xiàn)代研究中,研究者常常需要量化作者寫作風(fēng)格.這個(gè)假設(shè)為量化作者寫作風(fēng)格提供了理論依據(jù).然而,在一般情況下,作者的寫作風(fēng)格并非一成不變,它會(huì)受到很多外部條件的影響,比如社會(huì)背景、時(shí)間、文本主題、傳播媒介、受眾等因素.但研究者也一致認(rèn)為作者寫作風(fēng)格的某些特征元素始終存在,無論這些因素是什么,它們都能夠被研究者通過特定手段進(jìn)行量化.研究者所要做的是盡可能多地保持潛在的相互作用因素恒定,而并非將它們剝離出來,因?yàn)檫@會(huì)損失更多的信息[12].

    作者識(shí)別領(lǐng)域有兩個(gè)大的研究方向,大多數(shù)作者識(shí)別研究都是從這兩個(gè)方向進(jìn)行的,其中一個(gè)方向是數(shù)字人文(Digital humanities)方向,而另一個(gè)方向則是計(jì)算語言學(xué)(Computational linguistics)方向[13].這兩個(gè)方向的研究內(nèi)容并無太多差異,但在目的和側(cè)重點(diǎn)上則有顯著不同.在數(shù)字人文研究中,重點(diǎn)主要放在實(shí)際有爭議的作者身份或文學(xué)風(fēng)格分析的案例上;而在計(jì)算語言學(xué)研究中,研究者則更多地關(guān)注已知作者身份的數(shù)據(jù)集的表現(xiàn)以及確定最可靠的技術(shù)[13].計(jì)算語言學(xué)中更系統(tǒng)的方法允許嚴(yán)格控制與作者身份相互作用的因素,比如主題和流派,這種設(shè)置通常在有爭議的作者身份的情況下無法實(shí)現(xiàn).一些模擬大規(guī)模作者身份歸屬的研究,比如增加作者集合大小或減少訓(xùn)練數(shù)據(jù)大小,允許系統(tǒng)地評估在各種情況下的技術(shù)水平.以數(shù)字人文為導(dǎo)向的研究的主要優(yōu)點(diǎn)之一是注重結(jié)果的解釋以及對作者寫作風(fēng)格的分析.這種類型的分析目前缺乏以計(jì)算語言學(xué)為導(dǎo)向的研究.用一句話來概括數(shù)字人文和計(jì)算語言學(xué)這兩個(gè)大方向的不同點(diǎn):數(shù)字人文學(xué)科更注重可解釋性,研究者常常希望通過模型解釋作者識(shí)別結(jié)果或者分析作者風(fēng)格特點(diǎn);而計(jì)算語言學(xué)更關(guān)注算法本身的正確率、魯棒性、運(yùn)行效率等性能,而并非可解釋性.

    如果進(jìn)一步細(xì)分,作者身份識(shí)別任務(wù)通常有如下3 種不同的形式:閉集歸屬(Closed-set attribution)、開集歸屬(Open-set attribution)和作者身份驗(yàn)證(Authorship verification)[14].也有研究者給出了不同的分類標(biāo)準(zhǔn),他們把作者身份識(shí)別任務(wù)分為閉集歸屬、開集歸屬以及作者身份概述(Authorship profiling),而把作者身份驗(yàn)證視為開集歸屬的一種[12].一般而言,閉集歸屬指的是未知文檔的作者包含在候選作者集中的一類問題.這是相對比較簡單的一種情況,也是學(xué)者們研究得最多的一類問題.而開集歸屬則是未知文檔的作者不一定包含在候選作者集中的一類問題.這是比閉集歸屬更加困難的情況,在很多與互聯(lián)網(wǎng)相關(guān)的作者歸屬研究中,研究者常常會(huì)面臨龐大的候選作者集合以及未知文本不包含在候選作者集合中的情況.作者身份驗(yàn)證是確定給定的文本是否由某位作者撰寫的任務(wù).它與開集歸屬的主要區(qū)別在于,作者身份驗(yàn)證樣本數(shù)量少、候選作者集合單一.所有作者身份歸屬問題都可以轉(zhuǎn)換為一組單獨(dú)的作者身份驗(yàn)證問題[14].因此,作者身份驗(yàn)證問題是作者識(shí)別中的基本問題,研究有效處理此類問題的方法對于作者識(shí)別研究至關(guān)重要.

    本文后續(xù)章節(jié)的具體內(nèi)容如下:第1 節(jié)介紹了作者識(shí)別中的文體風(fēng)格特征,主要包括字符特征、詞匯特征、句法特征和語義特征在內(nèi)的多元文體特征;第2 節(jié)闡述了常見的作者識(shí)別方法,主要分為無監(jiān)督的方法和有監(jiān)督的方法;第3 節(jié)總結(jié)了作者識(shí)別中的一些多層面的研究,主要包括數(shù)據(jù)規(guī)模、跨域研究和特殊方法;第4 節(jié)介紹了與作者識(shí)別相關(guān)的一些評測;第5 節(jié)綜述了作者識(shí)別領(lǐng)域的一些公開數(shù)據(jù)集以及各種評價(jià)指標(biāo);第6 節(jié)指出作者識(shí)別領(lǐng)域存在的一些問題;第7 節(jié)針對作者識(shí)別領(lǐng)域存在的問題,分析并展望了該領(lǐng)域未來可能的發(fā)展趨勢.

    1 文體風(fēng)格特征

    文體風(fēng)格是指作者在創(chuàng)作過程中表現(xiàn)出的一切行文方式的總和.作者的寫作風(fēng)格來源于作者思想表達(dá)的方式.在表達(dá)過程中,作者會(huì)無意識(shí)地將其個(gè)性及社會(huì)背景融入進(jìn)去.雖然作者的寫作風(fēng)格會(huì)隨著時(shí)間的推移而慢慢改變,但研究者通常都假定衡量作者寫作風(fēng)格的特征元素始終存在,并且可以通過某種技術(shù)手段進(jìn)行量化.文體風(fēng)格特征主要分為一元文體特征和多元文體特征.一元文體特征主要包括單詞長度、句子長度、段落數(shù)、總詞匯量等,具有簡單、便于統(tǒng)計(jì)等特點(diǎn),因此早期的作者識(shí)別采用的都是一元文體特征.然而,一元文體特征過于簡單,無法進(jìn)行更深入的分析,因此研究者又提出多元文體特征.多元文體特征往往是一些簡單特征的進(jìn)一步組合,研究表明多層面的文本特征能夠有效提高作者識(shí)別的準(zhǔn)確率[15].根據(jù)文體風(fēng)格特征對語言學(xué)計(jì)算的需求和復(fù)雜度,可以將多元文體特征分成字符特征、詞匯特征、句法特征和語義特征等[1].有關(guān)一元文體特征的研究在上一部分已經(jīng)簡單敘述,本部分主要針對幾類典型的多元文體特征進(jìn)行闡述.

    1.1 字符特征

    字符是指文本中使用的字母、數(shù)字、字和符號(hào).根據(jù)字符的種類可以定義各種字符級別的度量:字母字符數(shù)、數(shù)字字符數(shù)、大寫和小寫字符數(shù)、字母頻率、標(biāo)點(diǎn)符號(hào)數(shù)等.這種類型的度量很容易用于任何自然語言和語料庫,并且已被證明對量化寫作風(fēng)格非常有效[13].更高階的字符特征是基于字符組合的特征,研究者稱其為字符n-gram.字符n-gram即為n個(gè)連續(xù)字符的組合,這種高階字符特征具有很多優(yōu)秀的性質(zhì).它可以捕捉到作者風(fēng)格的細(xì)微差別,包括由詞匯、上下文、標(biāo)點(diǎn)符號(hào)以及大小寫變動(dòng)所帶來的差別[16].而且,字符n-gram 比單一字符抗干擾能力強(qiáng),特別適合短文以及風(fēng)格多變的網(wǎng)絡(luò)文章、電子郵件等.

    很多研究者嘗試使用字符n-gram 來進(jìn)行作者識(shí)別研究.Keselj 等[17]提出一種通過計(jì)算和比較字符n-gram 頻率識(shí)別作者的方法.該方法由1976 年的開創(chuàng)性方法衍生,首先選擇少量頻繁出現(xiàn)的字符n-gram 構(gòu)建文檔輪廓,然后選擇包含在輪廓中的最佳n元組計(jì)算文檔的相似度.在對英語、希臘語和中文數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)中證明了該方法的有效性和語言獨(dú)立性.Houvardas 和Stamatatos[18]在Keselj 研究的基礎(chǔ)上做了改進(jìn),他提出了一種可變長度的ngram 方法,用于選擇可變長度的單詞序列.研究結(jié)果表明該方法至少與選擇最重要的n-gram 的信息增益一樣有效.

    Keselj 等的研究是作者識(shí)別領(lǐng)域中n-gram 特征與作者輪廓相結(jié)合的早期研究,最初的作者輪廓只包含單一類型的特征,比如只包含字符n-gram或者詞匯頻率,后面也逐漸發(fā)展出包含不同類型特征的作者輪廓.Stamatatos[19]提出一種基于特征集子空間的作者識(shí)別方法,把每個(gè)文本表示為字符ngram 的頻率向量,產(chǎn)生了具有高準(zhǔn)確率的分類模型.這是基于字符n-gram 的集合模型,給后續(xù)研究提供了新的思路.

    除了由字符組成的n-gram 之外,一些研究者也會(huì)探究由單詞、詞性(Part of speech,POS)標(biāo)簽、標(biāo)點(diǎn)符號(hào)、詞綴等元素組成的n-gram 在作者識(shí)別中的應(yīng)用.Sapkota 等[20]研究了與不同語言特征相對應(yīng)的字符n-gram 子組,結(jié)果表明關(guān)于詞綴和標(biāo)點(diǎn)符號(hào)的n-gram 幾乎占據(jù)了字符n-gram 的所有功能,為將來的作者識(shí)別工作和其他分類任務(wù)使用n-gram 提供了新的見解.Sari 等[21]使用連續(xù)的字符和單詞n-gram 表示研究作者身份歸屬,與使用離散特征表示的工作相比,模型可以通過神經(jīng)網(wǎng)絡(luò)與分類層一起學(xué)習(xí)n-gram 特征的連續(xù)表示,進(jìn)而產(chǎn)生較優(yōu)的的結(jié)果.Gomez-Adorno 等[22]利用字符、單詞和POS 標(biāo)簽的n-gram去學(xué)習(xí)文檔段落向量,獲得了優(yōu)于基于單詞嵌入和基于字符n-gram 線性模型的結(jié)果.

    1.2 詞匯特征

    詞匯是一種語言里所有詞語和固定短語的總和.最初的作者識(shí)別研究就是對詞匯進(jìn)行簡單地統(tǒng)計(jì)分析,這種方法簡單易行,適用于任何語言和任何語料庫.然而,對于某些自然語言,還需要一些其他輔助手段.比如,漢語需要首先進(jìn)行分詞,然后才能進(jìn)行詞匯的統(tǒng)計(jì)分析.某些大量使用縮寫或首字母縮寫的文本,應(yīng)當(dāng)加入相應(yīng)的識(shí)別規(guī)則,盡管在這一過程中可能引入相當(dāng)大的噪聲.

    詞匯的豐富程度被認(rèn)為是衡量作者寫作風(fēng)格的一個(gè)重要因素,有些研究者提出了各種各樣函數(shù)來衡量詞匯豐富度.后續(xù)研究者更多的是通過實(shí)驗(yàn)驗(yàn)證不同組合的有效性.Burrows[23]概述了使用常用詞的相對頻率來比較書面文本和測試其可能的作者身份的方法,其中涉及的程序?yàn)閰^(qū)分超過1500 字長的文本作者提供了一個(gè)簡單但相對準(zhǔn)確的補(bǔ)充.Hoover[24]探討了使用詞匯豐富度進(jìn)行作者識(shí)別的效果,并測試了詞匯豐富度的適當(dāng)度量可以捕捉作者寫作風(fēng)格或身份的假設(shè).實(shí)驗(yàn)表明,詞匯豐富度在文體和作者研究中具有邊際價(jià)值,而它對于大型文本群體是無效的,因?yàn)椴煌谋局g存在極大的可變性.Garcia 和Martin[25]根據(jù)前人在詞匯領(lǐng)域里提出的諸多參數(shù),研究它們實(shí)際表征的文本特定特征,以尋求一種可靠的表達(dá)方式來衡量作者的詞匯豐富度.實(shí)驗(yàn)證實(shí),不同參數(shù)可以互相補(bǔ)充,富文本往往通過其低功能來表征密度,反之亦然.

    然而,詞匯豐富度往往與很多因素密切相關(guān),比如文本的主題、內(nèi)容、類別等因素.因此研究者需要進(jìn)一步考慮根據(jù)何種詞匯特征來衡量特定作者的寫作風(fēng)格.功能詞被認(rèn)為是區(qū)分作者的有效特征之一.由于功能詞不攜帶任何語義信息,與文本主題無關(guān),作者很大程度上是在無意識(shí)的情況下使用它們,因此功能詞能夠捕捉不同作者的寫作風(fēng)格.Zhao和Zobel[26]研究功能詞在新聞專線文章作者歸屬中的性能,并通過增大數(shù)據(jù)量進(jìn)一步觀察其表現(xiàn).實(shí)驗(yàn)證實(shí)基于功能詞特征的方法具有較好的可擴(kuò)展性,隨著問題規(guī)模的增加,其性能只有適度的下降.Coyotl-Morales 等[27]通過組合功能詞和內(nèi)容詞的一組詞序列來表征文檔,并用詩歌進(jìn)行分類實(shí)驗(yàn),得到了優(yōu)于大多數(shù)方法的結(jié)果.

    還有一種與功能詞類似的思路,就是為特定作者定義詞匯特征集.一種簡單且常見的方法是在語料庫中提取常用詞,然后再?zèng)Q定用作特征的頻繁單詞的數(shù)量.不同研究者所定義的詞匯特征集大小不同,除了他們個(gè)人對衡量作者文本風(fēng)格的因素的把握之外,所使用的分類算法也會(huì)在很大程度上限制特征集的規(guī)模.因?yàn)楫?dāng)問題的維度增加時(shí),許多分類器會(huì)出現(xiàn)過擬合.并且,特征集維度增加時(shí),一些特定于內(nèi)容的單詞也會(huì)包括在該特征集中.

    Stamatatos[28]提取1000 個(gè)最常用的單詞構(gòu)建特征集,研究基于特征集子空間的分類器集合.結(jié)果表明,使用窮舉的不相交子空間構(gòu)造的集合在兩個(gè)基準(zhǔn)語料庫上得到了較優(yōu)的結(jié)果.Koppel 等[29]使用250 個(gè)最常用的單詞構(gòu)建特征集,利用基于學(xué)習(xí)的方法表征兩個(gè)示例集之間的 “差異深度”,并證明了該方法以非常高的準(zhǔn)確率解決了作者身份驗(yàn)證問題.Savoy[30]提出一種計(jì)算標(biāo)準(zhǔn)化Z分?jǐn)?shù)的技術(shù),該分?jǐn)?shù)能夠定義未知文本中的特定詞匯.與其他方法相比較,該方法優(yōu)于基于最常用詞的Delta 方法、基于詞匯和標(biāo)點(diǎn)符號(hào)的卡方距離以及基于預(yù)定義的方法.Akimushkin 等[31]引入一種通用的相似性度量來比較文本,通過考慮對應(yīng)于節(jié)點(diǎn)的單詞來增強(qiáng)復(fù)雜網(wǎng)絡(luò)中文本的表示.在3 個(gè)書集上的實(shí)驗(yàn)表明,該方法獲得了超過90 %的準(zhǔn)確率,比基于詞頻?逆文本頻率指數(shù)(Term frequency-inverse document frequency,TF-IDF)的傳統(tǒng)方法要高得多,也比不考慮節(jié)點(diǎn)標(biāo)簽的其他網(wǎng)絡(luò)方法要高.

    1.3 句法特征

    句法是句子各個(gè)組成部分排列規(guī)則的統(tǒng)稱.研究者一般認(rèn)為作者的寫作風(fēng)格在很大程度上由其遣詞造句的模式?jīng)Q定.因此,句法特征在很長一段時(shí)間內(nèi)都受到研究者的重視.句法特征分為淺層句法特征和深層句法特征.淺層句法特征是指不需要經(jīng)過句法解析就能提取的特征,比如詞匯n-gram;而深層句法特征則是必須要經(jīng)過句法解析才能提取的特征,比如依存句法.淺層句法特征多是一些詞匯特征組合,在之前的章節(jié)中已有敘述,本節(jié)著重?cái)⑹錾顚泳浞ㄌ卣?

    深層句法特征能夠表達(dá)隱含的文本結(jié)構(gòu),并且在更高維度上刻畫作者寫作風(fēng)格.因此,與詞匯特征和淺層句法特征相比,深層句法特征被認(rèn)為是更可靠的作者指紋.Raghavan 等[32]為每個(gè)作者構(gòu)建概率上下文無關(guān)文法,并使用該文法作為分類的語言模型進(jìn)行作者歸屬.該方法在幾個(gè)數(shù)據(jù)集上的性能優(yōu)于基線模型,并且還具有一定的擴(kuò)展性.

    句法樹是描述句子中各種不同成分之間相互關(guān)系的樹狀結(jié)構(gòu),在句法特征的研究中有著重要的應(yīng)用.常見的兩種句法樹是短語結(jié)構(gòu)樹(Constituent tree)和依存句法樹(Dependency tree),二者的主要區(qū)別在于短語結(jié)構(gòu)樹用來描述句子的句法結(jié)構(gòu),葉子結(jié)點(diǎn)與輸入句子中的詞語相關(guān)聯(lián),中間結(jié)點(diǎn)都是標(biāo)記短語成分;而依存樹用來表達(dá)句子中詞與詞的依存關(guān)系,其每個(gè)結(jié)點(diǎn)都是一個(gè)詞語,詞語之間通過有向依存弧連接,依存弧上標(biāo)有相應(yīng)的依存關(guān)系.

    有些研究者嘗試使用短語結(jié)構(gòu)樹研究作者識(shí)別.Tschuggnall 和Specht[33]提出一種通過分析作者的句法來增強(qiáng)作者識(shí)別的方法.該方法先計(jì)算文本中每個(gè)句子的短語結(jié)構(gòu)樹,再使用pq-gram 將其分成長度無關(guān)的模式,然后使用最常用的pq-gram來組成作者的樣本,再利用各種距離度量和相似性得分進(jìn)行作者識(shí)別.使用三個(gè)不同且獨(dú)立的數(shù)據(jù)集進(jìn)行的評估得到了有希望的結(jié)果.Patchala 和Bhatnagar 等[34]提出了一種有效的基于模板的方法,用于組合文檔的各種句法特征以進(jìn)行作者分析.基于短語結(jié)構(gòu)樹的特征獨(dú)立于文檔主題,能夠反映作者固有的寫作風(fēng)格.結(jié)果表明,使用包括解析樹子樹的模板以及其他句法特征可以提高作者識(shí)別正確率.Zhang 等[35]提出一種將句子的短語結(jié)構(gòu)樹編碼為可學(xué)習(xí)的分布式表示形式的方法.該方法為句子中的每個(gè)單詞構(gòu)造一個(gè)嵌入向量,在對應(yīng)于該單詞的句法樹中對路徑進(jìn)行編碼.此方法在五個(gè)數(shù)據(jù)集上獲得了更高的準(zhǔn)確率.

    Sidorov 帶領(lǐng)的研究團(tuán)隊(duì)提出句法n-gram 的概念.傳統(tǒng)的n-gram 是文本中若干同類元素的順序組合,這些元素可以是字符、單詞、POS 標(biāo)簽等.而句法n-gram 則是句法樹中若干同類元素在句法路徑上的順序組合.換句話說,句法n-gram 是根據(jù)句法樹中的路徑構(gòu)造的n-gram,而不是在文本的表面表示中獲取的.從本質(zhì)上來說,傳統(tǒng)的n-gram 是對文本局部信息的描述;而句法n-gram 則是對句法樹或句法結(jié)構(gòu)局部信息的描述.因此,與傳統(tǒng)ngram 相比,句法n-gram 將句法知識(shí)引入機(jī)器學(xué)習(xí)方法中.

    Sidorov 等[36]利用基于句法關(guān)系(Syntactic relation,SR)標(biāo)簽的句法n-gram 特征搭配支持向量機(jī)(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes,NB)和樹分類器J48 進(jìn)行作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,與多種傳統(tǒng)的n-gram 相比,基于SR 標(biāo)簽的句法n-gram 獲得了更好的結(jié)果.并且在絕大多數(shù)情況下,SVM 要優(yōu)于NB 和J48.句法ngram 把特征組合的思想從鏈?zhǔn)浇Y(jié)構(gòu)拓展到樹形結(jié)構(gòu)上,擴(kuò)展了n-gram 特征的維度.同時(shí)為研究者提供了一種衡量句法樹相似程度的思路,研究者可以通過衡量句法樹之間的距離間接判斷不同文本的相似程度.

    受此思想的影響,學(xué)者們進(jìn)一步探究了不同的句法n-gram 特征在作者識(shí)別中的應(yīng)用.Posadas-Duran 等[37]提出了一種基于完整的句法n-gram 作為風(fēng)格標(biāo)記的作者身份歸屬方法.該方法利用SR標(biāo)簽、POS 標(biāo)簽以及詞根的句法n-gram 等特征刻畫作者的寫作風(fēng)格,并利用SVM 進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,完整的句法n-gram 是比字符n-gram 更有效的識(shí)別作者的特征,使用該方法可以在較小的樣本集中獲得更準(zhǔn)確的結(jié)果.在另外兩篇文章中,Posadas-Duran 等又把多種基于句法的n-gram 特征用于PAN 2015 作者身份驗(yàn)證任務(wù)[38]和作者身份概述任務(wù)[39]上.結(jié)果表明,在作者身份驗(yàn)證任務(wù)中,荷蘭語獲得了較低的分?jǐn)?shù),而英語和西班牙語獲得了適中的分?jǐn)?shù);而在作者身份概述任務(wù)中,在預(yù)測個(gè)人特征時(shí),將句法n-gram 與其他特定的推文特征結(jié)合使用可以獲得良好的結(jié)果;但在預(yù)測年齡和性別特征時(shí),它們的使用則并不成功.

    1.4 語義特征

    語義特征是根據(jù)文本語言所蘊(yùn)含的意義而提取的特征.由于語義特征與文本的內(nèi)容和主題相關(guān)性強(qiáng),并不容易借助它捕捉作者自然流露出的寫作風(fēng)格,因此語義特征在作者識(shí)別領(lǐng)域內(nèi)的應(yīng)用較少.應(yīng)用語義特征進(jìn)行作者識(shí)別的研究者往往也會(huì)把語義特征和字符、詞匯、句法等特征結(jié)合起來使用,以提高作者識(shí)別的準(zhǔn)確率.

    Gamon[40]提出了一些特征集和分類方法,并使用了一種能夠生成語義依賴圖的工具,實(shí)驗(yàn)結(jié)果表明深度語言分析特征可以在更常用的淺層特征上實(shí)現(xiàn)顯著的誤差減少.武曉春等[41]依據(jù)文體學(xué)理論,利用HowNet 知識(shí)庫,提出一種基于詞匯語義分析的相似度評估方法,利用功能詞以外的其他詞匯,達(dá)到了較好的作者識(shí)別效果.Argamon 等[42]基于確定的詞或短語的各種語義功能,提出一種詞匯特征用于文體分類.實(shí)驗(yàn)證明,這些特征對于確定作者身份和國籍的分類任務(wù)具有重要作用.Hedegaard和Simonsen[43]使用基于框架語義的分類器研究作者身份歸屬,并測試它們對翻譯文本的適用性.結(jié)果表明,對于翻譯文本而言,框架是有用的,并且頻繁詞和框架的組合方法可以勝過僅基于傳統(tǒng)標(biāo)記的方法.而對于未翻譯文本,頻繁詞和n-gram 則是首選.

    1.5 對比分析

    本節(jié)從特征細(xì)分、獲取難易度、應(yīng)用廣泛度等其他方面來比較不同的文本特征.表1 給出了這些方面的比較.作者識(shí)別與文本分類、情感分析、關(guān)系抽取等自然語言處理任務(wù)均屬于文本理解范疇,而它們所關(guān)注的文本知識(shí)類型不同.Daelemans 區(qū)分了可以從文本中提取的三種知識(shí)類型:客觀知識(shí)、主觀知識(shí)和元知識(shí).客觀知識(shí)主要是回答誰、什么、什么地方、什么時(shí)候等問題的知識(shí);主觀知識(shí)是回答誰對什么有何看法等問題的知識(shí);而元知識(shí)是除了內(nèi)容本身以外,能從文本中提取到的關(guān)于作者個(gè)人信息或者個(gè)人寫作風(fēng)格等方面的知識(shí)[44].按照這個(gè)分類標(biāo)準(zhǔn),文本分類和關(guān)系抽取提取的是客觀知識(shí),情感分析提取的是主觀知識(shí),而作者識(shí)別提取的是元知識(shí).因此,研究者傾向于選擇與文本內(nèi)容無關(guān)的特征來進(jìn)行作者識(shí)別,而其他自然語言處理任務(wù)通常與文本內(nèi)容相關(guān).具體來說,文本分類需要根據(jù)文本內(nèi)容將文本分配給一個(gè)或多個(gè)類,因此文本分類的特征通常是文檔中的單詞[45];情感分析需要識(shí)別文本中帶有意見和情感的句子,因此情感分析的特征常常是評論性短語或單詞[46];關(guān)系抽取是從文本中識(shí)別實(shí)體并對這些實(shí)體進(jìn)行關(guān)系分類的任務(wù),它的特征通常是單詞、字符串以及各種關(guān)系短語[47]

    表1 文體風(fēng)格特征對比表Table 1 Comparative table of stylometry

    2 作者識(shí)別方法

    一般情況下,作者識(shí)別的過程可以分為兩個(gè)步驟,第一個(gè)步驟就是提取能夠衡量特定作者寫作風(fēng)格的文本特征集,第二個(gè)步驟就是建立由特征集預(yù)測作者歸屬的模型.研究者通常稱第一個(gè)步驟為作者風(fēng)格分析(Authorship style analysis),第二個(gè)步驟為作者身份建模(Authorship modeling).有些時(shí)候,作者身份建模也指由文本建立預(yù)測作者歸屬模型的過程.圖1 展示了一般的作者識(shí)別流程:將已知作者的文本經(jīng)過特征提取器生成特征向量,這些特征向量結(jié)合特定的作者分類算法經(jīng)過訓(xùn)練得到作者識(shí)別模型,該模型可以識(shí)別未知作者的文本.將未知作者的文本也通過一個(gè)特征提取器得到特征向量,再利用之前生成的作者識(shí)別模型分類這些向量,即可得到作者識(shí)別結(jié)果.在這里,已知文本經(jīng)過的特征提取器與未知文本經(jīng)過的特征提取器對應(yīng)同一個(gè)特征集.該流程幾乎涵蓋了絕大多數(shù)作者識(shí)別研究,可以說通過建立特征集來識(shí)別作者的研究都可以用該流程來描述.后面會(huì)敘述一些不通過構(gòu)建特征集實(shí)現(xiàn)作者識(shí)別的特殊方法,這些方法不能用該流程表述.

    圖1 作者識(shí)別流程圖Fig.1 Flow diagram of authorship identification

    在傳統(tǒng)的作者識(shí)別研究中,作者身份建模主要依靠相關(guān)專家的經(jīng)驗(yàn).隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與進(jìn)步,研究者提出了很多建模方法.從大的層面來分,作者身份建模主要分為基于輪廓的建模(Profilebased modeling) 和基于實(shí)例的建模(Instancebased modeling).二者都是基于訓(xùn)練文本構(gòu)建作者歸屬模型的過程,不同的是在基于輪廓的建模中,每位作者的所有文本會(huì)被累計(jì)處理,即它們會(huì)在一個(gè)大文檔中連接,然后提取單個(gè)表示作為作者的輪廓;而在基于實(shí)例的建模中,每位作者的所有文本將單獨(dú)處理,每個(gè)文本樣本都有自己的表示[14].通常情況下,基于實(shí)例的建模要與機(jī)器學(xué)習(xí)算法相結(jié)合,每個(gè)類常常需要多個(gè)實(shí)例.因此,當(dāng)每個(gè)作者有多個(gè)文本可用或者可以將長文本拆分成多個(gè)樣本時(shí),基于實(shí)例的建模會(huì)更有效.另一方面,當(dāng)每個(gè)作者僅有較短或有限的文本樣本時(shí),基于輪廓的建模會(huì)更有效[48].

    除此之外,還可以根據(jù)使用的數(shù)據(jù)是否有標(biāo)注而把作者識(shí)別方法分為無監(jiān)督的方法(Unsupervised method)和有監(jiān)督的方法(Supervised method).其中,無監(jiān)督的方法使用的是無標(biāo)注的數(shù)據(jù),比如聚類、主題建模等;而有監(jiān)督的方法使用的則是有標(biāo)注的數(shù)據(jù),比如樸素貝葉斯、支持向量機(jī)、決策樹、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等.有監(jiān)督的方法還可以進(jìn)一步細(xì)分為生成方法和判別方法.首先學(xué)習(xí)聯(lián)合概率分布,進(jìn)而求得條件概率分布的方法是生成方法,對應(yīng)的模型是生成模型;直接學(xué)習(xí)條件概率分布或決策函數(shù)的方法為判別方法,對應(yīng)的模型是判別模型[49].樸素貝葉斯屬于生成方法,而支持向量機(jī)、決策樹、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等屬于判別方法.本節(jié)采用這種分類方式論述作者識(shí)別方法.

    2.1 無監(jiān)督的方法

    無監(jiān)督的方法是從無標(biāo)注的數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)規(guī)律或內(nèi)在結(jié)構(gòu)的方法,它的基本思想是對給定數(shù)據(jù)進(jìn)行某種 “壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu),假定損失最小的壓縮得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)[49].無監(jiān)督的方法不借助先驗(yàn)的類別知識(shí),機(jī)器自己尋找數(shù)據(jù)中的規(guī)律.與有監(jiān)督的方法相比,無監(jiān)督的方法通常需要更多的訓(xùn)練數(shù)據(jù)才能發(fā)現(xiàn)其規(guī)律.在作者識(shí)別領(lǐng)域,研究者大多基于標(biāo)記的文本進(jìn)行研究,因此多選用有監(jiān)督的方法,無監(jiān)督的方法很少,本部分主要介紹聚類和主題建模等方法.

    2.1.1 聚類方法

    聚類是根據(jù)樣本的相似程度將其劃分為若干子集的數(shù)據(jù)分析方法.這些子集被稱為 “類”或 “簇”,它們通常是不相交的.與分類算法不同的是,聚類算法不借助事先定義的類別,而讓機(jī)器自己進(jìn)行劃分,使得每一類或簇中的樣本相似,而不同類或簇中的樣本相異.聚類主要包括k均值聚類、層次聚類、高斯混合聚類等方法.有些研究者利用聚類來研究作者識(shí)別.

    Jin 和Jiang[50]使用基于標(biāo)點(diǎn)符號(hào)特征的文本聚類方法研究現(xiàn)代作家的身份識(shí)別問題.該方法融合了句子節(jié)奏特征的信息,同時(shí)具有低維的特性.實(shí)驗(yàn)結(jié)果表明,Kullback-Leibler 散度優(yōu)于歐氏距離和余弦距離,Ward 層次聚類優(yōu)于k均值聚類.基于Kullback-Leibler 散度的Ward 層次聚類可以達(dá)到96 %的準(zhǔn)確率.Hacohen-Kerner 和Margaliot[51]使用最頻繁詞(含功能詞)、最頻繁過濾詞(不含功能詞)和方差值最高的詞以及k均值聚類和期望最大化算法研究猶太文本的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,最頻繁詞(含功能詞)是效果最好的單詞列表,期望最大化算法優(yōu)于k均值聚類,最佳結(jié)果獲得98 %的精度,并且改善率超過40 %.Fifield 等[52]提出一種利用多個(gè)聚類組合識(shí)別文本作者的方法,并展示了其在具有多種風(fēng)格的文本上的應(yīng)用.該方法重復(fù)進(jìn)行m次聚類,每次都使用相對于上次偏移的片段,在群集內(nèi)重新分配標(biāo)簽,以使群集盡可能一致,把m個(gè)重新標(biāo)記的聚類的平均值作為結(jié)果.所提出的方法在少量作者的情況下表現(xiàn)出較低的一致性,有待后續(xù)改進(jìn).

    Mansoorizadeh 等[53]選擇單詞n-gram、詞性標(biāo)簽n-gram、句長、標(biāo)點(diǎn)符號(hào)n-gram 等作為特征,組合不同的特征構(gòu)成特征空間,并將其用于文檔聚類.實(shí)驗(yàn)結(jié)果表明,所提出的方法精度較低,問題可能出在群集編號(hào)選擇或特征空間上.因此,未來的工作可以使用更復(fù)雜的聚類方法以及更優(yōu)的群集參數(shù)選擇方法.Bagnall[54]使用多頭循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)作者身份聚類,該方法使用由多個(gè)語言模型共享的循環(huán)狀態(tài),以相對熵的形式生成分?jǐn)?shù),將神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)換為聚類決策.實(shí)驗(yàn)結(jié)果表明,所提出的方法時(shí)間成本較高,在一些困難問題上似乎表現(xiàn)良好,但很難與其他方法進(jìn)行比較.Agarwal 等[55]將文檔表示為對應(yīng)于每個(gè)單詞的嵌入向量的TF-IDF 加權(quán)總和,并使用層次聚類進(jìn)行作者歸屬.結(jié)果表明,所提出的方法在作者聚類和作者身份鏈接排名任務(wù)上具有良好的性能,超過PAN 2017 作者聚類任務(wù)的最佳結(jié)果.

    2.1.2 主題建模方法

    主題建模(Topic modeling)是通過對語料進(jìn)行分析,學(xué)習(xí)、識(shí)別和提取文檔主題的過程.在文本信息處理領(lǐng)域,傳統(tǒng)方法是以單詞向量表示文本內(nèi)容,以單詞向量空間中的度量衡量文本之間的相似度;而主題建模的基本思想是以主題向量表示文本內(nèi)容,以主題向量空間中的度量更準(zhǔn)確地衡量文本之間的相似度[49].本部分主要介紹潛在語義分析(Latent semantic analysis,LSA)和潛在狄利克雷分配(Latent Dirichlet allocation,LDA)等主題建模方法以及它們在作者識(shí)別中的應(yīng)用.

    1) LSA

    LSA 將文本集合表示為單詞?文本矩陣,通過對其進(jìn)行奇異值分解,把單詞和文本映射到一個(gè)低維的語義空間,從而實(shí)現(xiàn)對單詞和文本更本質(zhì)的表達(dá).有的研究者把LSA 用于作者識(shí)別研究.Nakov[56]使用LSA 來研究德國文學(xué)作品,并驗(yàn)證該方法能否區(qū)分作者以及自動(dòng)發(fā)現(xiàn)散文和詩歌.結(jié)果表明,在一般情況下,使用LSA 可以區(qū)分所選的德國作者,但對于某些作者來說似乎很難.同時(shí),實(shí)驗(yàn)結(jié)果為自動(dòng)發(fā)現(xiàn)散文和詩歌的假設(shè)提供了有力的支持.Satyam 等[57]在基于字符n-gram 的統(tǒng)計(jì)模型上應(yīng)用LSA,以獲得文檔對之間的相似性,并使用文檔相似性的統(tǒng)計(jì)分析來確定閾值.該方法運(yùn)行時(shí)間很短,整體性能與大多數(shù)其他方法相當(dāng),在英文小說文本中達(dá)到了最好的效果,而在西班牙文和希臘文中效果欠佳.

    2) LDA

    LDA 是基于貝葉斯理論的主題模型,它假設(shè)每個(gè)文檔都可以表示為潛在主題的概率分布,并且所有文檔的主題分布都具有相同的狄利克雷優(yōu)先級;同時(shí)每個(gè)潛在主題可以表示為單詞的概率分布,并且主題的單詞分布也具有相同的狄利克雷優(yōu)先級[58].有的研究者使用LDA 研究作者識(shí)別.Seroussi 等[59]利用LDA 對文本和作者進(jìn)行建模,并使用基于LDA表示形式的文本距離對測試文本進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,當(dāng)訓(xùn)練文本足夠多且存在有效作者時(shí),該方法的準(zhǔn)確率超過基準(zhǔn)方法,而運(yùn)行時(shí)間大大降低.Savoy[60]利用LDA 把每個(gè)文檔建模為主題分布的混合,每個(gè)主題指定單詞的分布,根據(jù)爭議文本距離確定可能的作者歸屬.實(shí)驗(yàn)結(jié)果表明,基于LDA的分類方案優(yōu)于基于Delta 規(guī)則的分類方案,同時(shí),基于LDA 的方案在考慮更多術(shù)語時(shí)可以提供更好的有效性.Anwar 等[61]使用LDA 與n-gram 結(jié)合的方法生成烏爾都語語料庫的降維主題表示,并使用該主題表示與改進(jìn)的平方根余弦距離度量對測試文檔進(jìn)行分類.結(jié)果表明,所提出的方法具有很高的精度,在由6000 個(gè)文檔組成的數(shù)據(jù)集上達(dá)到了92 %的F1 測量值.

    2.2 有監(jiān)督的方法

    有監(jiān)督的方法是從標(biāo)注的數(shù)據(jù)中學(xué)習(xí)模型預(yù)測的方法,其中標(biāo)注數(shù)據(jù)表示輸入和輸出的對應(yīng)關(guān)系,預(yù)測模型對給定的輸入產(chǎn)生相應(yīng)的輸出,因此從本質(zhì)上來說,有監(jiān)督的方法學(xué)習(xí)的是輸入到輸出映射的統(tǒng)計(jì)規(guī)律[49].與無監(jiān)督的方法相比,有監(jiān)督的方法可以利用先驗(yàn)的類別知識(shí),因此準(zhǔn)確率通常較高,這使其成為作者識(shí)別研究中的主流方法.有監(jiān)督的方法可以按照模型類型進(jìn)一步細(xì)分,比如可以分為概率模型與非概率模型、線性模型與非線性模型、參數(shù)化模型與非參數(shù)化模型、生成模型與判別模型等.本小節(jié)把有監(jiān)督的方法分為生成方法和判別方法,并著重介紹一些作者識(shí)別中常用的方法.

    2.2.1 生成方法

    生成方法是先學(xué)習(xí)聯(lián)合概率分布,進(jìn)而求得條件概率分布的方法,在監(jiān)督學(xué)習(xí)中,概率模型是生成模型[49].本部分主要介紹樸素貝葉斯方法.

    樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法[49].具體來說,它是在類條件概率密度和先驗(yàn)概率已知的情況下,通過貝葉斯公式比較樣本屬于兩類的后驗(yàn)概率,將類別歸為后驗(yàn)概率較大的一類,這樣可以使總體錯(cuò)誤率最小[62].有些學(xué)者利用樸素貝葉斯研究作者身份識(shí)別.Zhao 和Zobel[63]選取55 位作者的634 篇文章,采用功能詞和POS 標(biāo)簽作為特征,使用樸素貝葉斯方法進(jìn)行作者識(shí)別.結(jié)果表明,以功能詞為特征的分類效果高于POS 標(biāo)簽以及二者混合的結(jié)果.同時(shí)也證實(shí),作者具有可識(shí)別的寫作風(fēng)格,并且簡單的標(biāo)記就足以識(shí)別特定的作者.Boutwell[64]使用樸素貝葉斯分類器,利用基于字符n-gram 的特征構(gòu)建作者集統(tǒng)計(jì)模型識(shí)別短信的作者歸屬.研究表明,把推文或者短信息聚在一起容易提取文本特征,更有利于作者識(shí)別.在最差的情況下,連接多個(gè)文本到一個(gè)文檔比起單獨(dú)檢測準(zhǔn)確率提高了50 %.Altheneyan和Menai[65]使用簡單樸素貝葉斯、多項(xiàng)式樸素貝葉斯、多變量伯努利樸素貝葉斯和多變量泊松樸素貝葉斯等4 種方法研究阿拉伯文本的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,多變量伯努利樸素貝葉斯達(dá)到了最高的準(zhǔn)確率97.43 %,它與多項(xiàng)式樸素貝葉斯適合用來研究作者身份歸屬.Howedi 和Mohd[66]選擇字符ngram 和單詞n-gram 作為文本特征,使用樸素貝葉斯分類器進(jìn)行阿拉伯文本的作者識(shí)別,并與支持向量機(jī)進(jìn)行對比.實(shí)驗(yàn)結(jié)果表明,樸素貝葉斯整體優(yōu)于支持向量機(jī),基于單詞1-gram 的樸素貝葉斯達(dá)到了最高的準(zhǔn)確率96.67 %.

    2.2.2 判別方法

    判別方法是直接學(xué)習(xí)條件概率分布或決策函數(shù)的方法,在監(jiān)督學(xué)習(xí)中,非概率模型是判別模型[49].本部分主要介紹支持向量機(jī)、決策樹、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等判別方法.

    1)支持向量機(jī)

    支持向量機(jī)的基本原理是找到一個(gè)最優(yōu)的分類面,使得兩類中距離這個(gè)分類面最近的點(diǎn)和分類面之間的距離最大[67].Diederich 等[68]利用支持向量機(jī)對德國報(bào)紙文本進(jìn)行作者歸屬,實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)在識(shí)別任務(wù)中始終具有良好的性能,不需要特征選擇,并且可以處理文本所有單詞的頻率向量.Schwartz 等[69]利用支持向量機(jī)研究微小信息在推特語料上的作者識(shí)別.結(jié)果表明,微小信息能夠取得好的識(shí)別效果,單個(gè)推文的作者可以在一系列短文本作者識(shí)別任務(wù)中被準(zhǔn)確識(shí)別.Mikros 和Perifanos[70]提取多級n-gram 輪廓,利用多類支持向量分類算法進(jìn)行分類,并使用10 次交叉驗(yàn)證和500 條實(shí)際推文的外部數(shù)據(jù)集評估分類性能.結(jié)果表明,與單個(gè)n-gram 特征組相比,該方法獲得了更好的準(zhǔn)確性.Li 等[71]采用支持向量機(jī)方法研究了Facebook 的短社交網(wǎng)絡(luò)帖子的作者身份驗(yàn)證問題.測試結(jié)果顯示,樣本大小、特征和用戶書寫風(fēng)格對作者身份驗(yàn)證有較大影響,帶有線性內(nèi)核的支持向量機(jī)方法可以達(dá)到79.6 %的準(zhǔn)確率,超過k近鄰方法.Martin-del-Campo-Rodriguez 等[72]結(jié)合傳統(tǒng)字符n-gram 引入標(biāo)點(diǎn)符號(hào)n-gram 作為文檔特征表示,從不同文本特征開始對多個(gè)SVM 進(jìn)行訓(xùn)練,并用所有SVM 結(jié)果的平均值作為基準(zhǔn)確定作者歸屬.在針對開集跨域作者識(shí)別的PAN 2019 競賽中,此方法獲得了0.642 的F1 分?jǐn)?shù).Soler-Company 和Wanner[73]使用面向表面的、句法依賴的以及包含話語結(jié)構(gòu)特征的188 個(gè)特征構(gòu)建特征集,并利用帶內(nèi)核的支持向量機(jī)進(jìn)行作者識(shí)別.結(jié)果表明,句法依賴和話語特征的使用可以使總特征數(shù)量減少到小于200 個(gè),而識(shí)別結(jié)果仍然能達(dá)到較高水平.

    2)決策樹

    決策樹(Decision tree,DT)是機(jī)器學(xué)習(xí)中廣泛研究的方法之一,它是一種以實(shí)例為基礎(chǔ)的逼近離散函數(shù)的歸納學(xué)習(xí)方法[74].決策樹本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中歸納出一組分類規(guī)則,它的模型是非參數(shù)的、無分布的,并且對于異常值和不相關(guān)屬性具有魯棒性[75].有些研究者利用決策樹分類方法研究文本作者識(shí)別.Frery 等[76]采用基于文本的幾種表示和優(yōu)化決策樹的機(jī)器學(xué)習(xí)方法進(jìn)行PAN 2014 作者身份識(shí)別任務(wù).該方法綜合性能排名第二,實(shí)驗(yàn)表明,構(gòu)建有效的屬性會(huì)大大提高算法在某些語料庫上的準(zhǔn)確性.Digamberrao 和Prasad[77]使用序貫最小優(yōu)化與基于規(guī)則的決策樹相結(jié)合,在五位作者撰寫的馬拉地語文章中進(jìn)行作者識(shí)別,并基于不同標(biāo)準(zhǔn)評估了該方法的性能.結(jié)果表明,雖然在訓(xùn)練集減小時(shí)精度會(huì)降低,但該方法可以適用于英語、馬拉地語、孟加拉語等多種語言.也有的研究者利用隨機(jī)森林(Random forest,RF)研究作者身份歸屬問題.隨機(jī)森林是包含多棵決策樹的分類器,它通過集成學(xué)習(xí)把若干棵決策樹的輸出集合起來,綜合評定產(chǎn)生最終輸出.因此,隨機(jī)森林在處理缺少變量的不均勻數(shù)據(jù)集時(shí)表現(xiàn)會(huì)非常好,它往往比決策樹具有更低的分類誤差和更好的F分?jǐn)?shù).Maitra 等[78]利用隨機(jī)森林分類器根據(jù)基于單詞和風(fēng)格的特征對未知文檔進(jìn)行分類,得到了較優(yōu)的結(jié)果.

    3)k近鄰方法

    k近鄰(k-nearest neighbor,KNN)算法的目標(biāo)是將對象分類為由機(jī)器學(xué)習(xí)創(chuàng)建的樣本組的預(yù)定義類之一,具體來說,算法基于某種距離度量找出訓(xùn)練樣本中與測試樣本最接近的k個(gè)樣本,然后再基于這k個(gè)訓(xùn)練樣本進(jìn)行預(yù)測.通常而言,會(huì)根據(jù)k個(gè)樣本中的大多數(shù)樣本的類別來預(yù)測結(jié)果.該算法不需要使用訓(xùn)練數(shù)據(jù)來執(zhí)行分類,可以在測試階段使用訓(xùn)練數(shù)據(jù)[79].有些研究者采用k近鄰方法進(jìn)行作者識(shí)別研究.Halvani 等[80]利用基于k近鄰的方法研究PAN 2013 作者識(shí)別任務(wù).該方法利用k近鄰分類器計(jì)算真實(shí)作者的訓(xùn)練文檔與未知文檔之間的風(fēng)格偏差分?jǐn)?shù),根據(jù)分?jǐn)?shù)以及給定的閾值確定作者歸屬.該方法具有語言獨(dú)立、運(yùn)行時(shí)間短、易于擴(kuò)展和修改等優(yōu)點(diǎn),在PAN 2013 作者識(shí)別任務(wù)上得到了80 %的總體準(zhǔn)確率,在個(gè)人數(shù)據(jù)集上的準(zhǔn)確率是77.50 %.Anwar 等[81]利用LDA 模型在文本ngram 上生成文檔的主題表示,然后使用余弦相似度和KNN 分類器進(jìn)行分類.在不使用任何標(biāo)簽的情況下,即可在英語和烏爾都語新聞?wù)Z料中獲得令人滿意的結(jié)果.Sarwar 等[82]基于詞匯、句法和結(jié)構(gòu)等特征,使用概率k近鄰分類器研究泰語文檔的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,將所有特征類別組合在一起可以提高作者識(shí)別過程的準(zhǔn)確率.

    4)神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)(Neural networks,NN)是簡單處理元件、單元或節(jié)點(diǎn)的互連系統(tǒng),其網(wǎng)絡(luò)的處理能力體現(xiàn)在通過適應(yīng)或?qū)W習(xí)一組訓(xùn)練模式的過程中獲得的單元間連接強(qiáng)度或權(quán)重上[83].針對一些實(shí)際情況復(fù)雜、背景知識(shí)不清楚、規(guī)則不明確的問題,神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的處理能力.有些學(xué)者利用神經(jīng)網(wǎng)絡(luò)方法研究文本作者識(shí)別.Bagnall[84]使用循環(huán)神經(jīng)網(wǎng)絡(luò)同時(shí)對幾個(gè)作者的語言進(jìn)行建模,每個(gè)作者的文本由依賴于共享循環(huán)狀態(tài)的單獨(dú)輸出表示.實(shí)驗(yàn)結(jié)果表明,循環(huán)神經(jīng)網(wǎng)絡(luò)可以成為作者身份識(shí)別中的有用工具.該方法更多地基于信息理論而不是傳統(tǒng)的聚類,并且能夠避免特征選擇和過擬合的泥潭.Ruder 等[85]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行大規(guī)模作者身份歸屬,以處理特征級別信號(hào)并進(jìn)行快速預(yù)測.該方法結(jié)合了字符和單詞通道,利用了文本風(fēng)格和主題信息,獲得了較優(yōu)的結(jié)果.Qian 等[86]使用門控循環(huán)單元、長短期記憶網(wǎng)絡(luò)和孿生網(wǎng)絡(luò)等三種深度學(xué)習(xí)模型識(shí)別作者身份,并使用孿生網(wǎng)絡(luò)驗(yàn)證作者身份.結(jié)果表明,文檔級別的門控循環(huán)單元在作者身份識(shí)別方面表現(xiàn)最好,孿生網(wǎng)絡(luò)在作者身份驗(yàn)證上達(dá)到很高的準(zhǔn)確率.Shrestha 等[87]使用基于字符ngram 的卷積神經(jīng)網(wǎng)絡(luò)對推文進(jìn)行作者識(shí)別,并通過估計(jì)輸入文本片段在預(yù)測分類中的重要性來提高模型的可解釋性.實(shí)驗(yàn)結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)在推文的作者識(shí)別方面具有很好的性能,使用字符ngram 而不僅僅是字符序列也可以提高作者識(shí)別的性能.Jafariakinabad 等[88]引入句法循環(huán)神經(jīng)網(wǎng)絡(luò)來編碼層次結(jié)構(gòu)中文檔的句法模式.該模型首先從詞性標(biāo)簽序列中學(xué)習(xí)句子的句法表示.隨后,使用循環(huán)神經(jīng)網(wǎng)絡(luò)將句子的句法表示聚合成文檔表示.實(shí)驗(yàn)結(jié)果表明,句法循環(huán)神經(jīng)網(wǎng)絡(luò)在精度方面優(yōu)于具有相同架構(gòu)的詞匯模型.

    2.3 對比分析

    識(shí)別方法在自然語言處理任務(wù)中具有通用性.換句話說,本節(jié)所述的方法可以應(yīng)用到文本分類、情感分析、關(guān)系抽取等其他自然語言處理任務(wù)中.本小節(jié)對比分析無監(jiān)督的方法和有監(jiān)督的方法.其中,表2 給出了無監(jiān)督方法之間的對比,表3 給出了有監(jiān)督方法之間的對比[49].

    表2 無監(jiān)督方法對比表Table 2 Comparative table of unsupervised method

    表3 有監(jiān)督方法對比表Table 3 Comparative table of supervised method

    3 多層面研究

    從19 世紀(jì)后期研究者開始使用統(tǒng)計(jì)等數(shù)學(xué)工具研究作者識(shí)別以來,作者識(shí)別已經(jīng)經(jīng)過一百多年的發(fā)展.在漫長的發(fā)展過程中,作者識(shí)別研究呈現(xiàn)出兩個(gè)明顯的趨勢:文本特征豐富化以及方法和思想多元化.文體特征從最初的一元單一特征逐漸發(fā)展為多元混合特征,分類方法也從簡單數(shù)學(xué)公式的應(yīng)用而逐漸發(fā)展出復(fù)雜的神經(jīng)網(wǎng)絡(luò).研究者越來越傾向于多特征組合的研究方式,比如Khomytska 和Teslyuk[89]使用不同音素特征搭配統(tǒng)計(jì)模型進(jìn)行作者識(shí)別,Grabchak 等[90]提出基于廣義Simpson 索引的輪廓來判斷兩個(gè)樣本是否由同一作者所撰寫.Srinivasan 和Nalini[91]選擇句法、結(jié)構(gòu)和n-gram 作為特征,使用4 種不同的機(jī)器學(xué)習(xí)分類器研究亞馬遜評論的作者識(shí)別.針對目前作者識(shí)別領(lǐng)域的發(fā)展?fàn)顩r,下面主要從數(shù)據(jù)規(guī)模、跨域研究、特殊方法等三個(gè)方面闡述作者識(shí)別的多層面研究.

    3.1 數(shù)據(jù)規(guī)模

    作者識(shí)別的研究結(jié)果常常受到數(shù)據(jù)集規(guī)?;蜃髡邤?shù)量的影響.研究者提出的方法在小數(shù)據(jù)集以及少數(shù)幾個(gè)作者的情況下表現(xiàn)良好,而一旦擴(kuò)大數(shù)據(jù)集規(guī)?;蛘咴黾幼髡邤?shù)量,其執(zhí)行結(jié)果往往不確定.換句話說,利用小數(shù)據(jù)集以及少數(shù)作者驗(yàn)證方法的研究者可能高估了其方法的準(zhǔn)確性,甚至高估了他們所選擇的文本特征的重要程度[92].鑒于此,一些研究者專門研究數(shù)據(jù)集大小以及作者數(shù)量對作者識(shí)別實(shí)驗(yàn)結(jié)果的影響.

    Luyckx 和Daelemans[93]在一個(gè)有145 位作者的語料庫上針對特征選擇進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明,當(dāng)增加作者數(shù)量時(shí),系統(tǒng)性能顯著下降.功能詞和句法特征的組合可以使系統(tǒng)性能顯著提高,部分作者高估了他們方法的準(zhǔn)確率以及所選特征的重要性.Eder[94]使用基于k近鄰的Delta 方法研究文本尺寸對作者歸屬的影響,以希望找到可以用于作者歸屬的文本樣本的最小尺寸.實(shí)驗(yàn)結(jié)果表明,對于現(xiàn)代英語,最小穩(wěn)定樣本為5000 個(gè)單詞,使用2500詞的樣本幾乎不能提供可靠的作者識(shí)別結(jié)果.Koppel 等[95]使用訓(xùn)練文本的各種子集進(jìn)行實(shí)驗(yàn),以研究大數(shù)據(jù)集和大作者集上的作者歸屬問題,同時(shí)確定樣本尺寸對候選作者數(shù)量、每個(gè)候選作者的已知文本量以及未知文本長度的影響.結(jié)果表明,基于相似性的方法以及多個(gè)隨機(jī)特征集可以在大數(shù)據(jù)集和大作者集上實(shí)現(xiàn)較高的精度.Luyckx 和Daelemans[96]系統(tǒng)地研究了作者集規(guī)模和數(shù)據(jù)集規(guī)模對作者識(shí)別性能和特征選擇的影響.實(shí)驗(yàn)結(jié)果表明,在小數(shù)據(jù)集上實(shí)現(xiàn)95 %準(zhǔn)確率的方法無法在大數(shù)據(jù)集上達(dá)到相同或者類似的性能,并且隨著作者數(shù)量的增加,方法的準(zhǔn)確率降低到不具有實(shí)際意義的程度.在大多數(shù)情況下,字符n-gram 的識(shí)別結(jié)果要優(yōu)于其他文本特征.

    3.2 跨域研究

    作者識(shí)別研究常常關(guān)注特定作者在無意識(shí)的情況下表現(xiàn)出的寫作風(fēng)格,這種風(fēng)格往往與文章的內(nèi)容無關(guān).然而,一個(gè)不可否認(rèn)的事實(shí)是,文章的類型、主題甚至所用的語言會(huì)在更高維度上影響作者的表達(dá)方式.換句話說,同一位作者在不同類型或者不同主題的文本中可能表現(xiàn)出不同的行文風(fēng)格.因此,一些研究者在跨主題作者識(shí)別方面進(jìn)行研究,希望發(fā)現(xiàn)更一般的規(guī)律.Stamatatos[97]研究字符ngram 在跨類型和跨主題條件下的作者識(shí)別,并與基于單詞的方法進(jìn)行比較.結(jié)果表明,當(dāng)訓(xùn)練和測試語料庫之間存在顯著差異時(shí),字符n-gram 能夠更好地捕獲文本的風(fēng)格屬性.Markov 等[98]提出一個(gè)改進(jìn)的跨主題作者歸屬算法,以研究字符ngram 在跨主題作者歸屬中的性能.結(jié)果表明,通過執(zhí)行簡單的預(yù)處理步驟和適當(dāng)調(diào)整特征數(shù)量,可以顯著提高字符n-gram 在跨主題條件下的性能.高頻閾值能夠有效排除與主題特定信息相關(guān)聯(lián)的最不頻繁的n-gram,進(jìn)而提高準(zhǔn)確率.Rahgouy 等[99]基于文檔不同表示形式的模型組合研究跨領(lǐng)域的作者識(shí)別.該方法使用文檔的TF-IDF、Word2Vec 和ngram 表示來訓(xùn)練三種類型的模型并使用整體進(jìn)行預(yù)測.文中還使用臨時(shí)網(wǎng)格搜索對模型和集合參數(shù)進(jìn)行調(diào)整,以達(dá)到最優(yōu)效果.實(shí)驗(yàn)結(jié)果表明,該方法非常有能力區(qū)分不同作者.

    以上這幾篇文章是n-gram 特征與文本主題相結(jié)合的研究.可以看出,在跨主題的研究中,n-gram特征仍然能夠充分捕捉文本特征,進(jìn)而獲得較好的識(shí)別結(jié)果.也有研究者選擇詞匯或者多種混合特征研究跨主題的作者識(shí)別.Mikros 和Argiri[100]創(chuàng)建了由兩位作者在兩個(gè)不同主題中撰寫的200 篇現(xiàn)代希臘新聞專線文章組成的特殊語料庫,研究了作者身份歸屬中一些廣泛使用的風(fēng)格變量的主題中性特征,以探討文本主題對作者歸屬的影響.實(shí)驗(yàn)結(jié)果表明,大多數(shù)變量與文本主題具有很大的相關(guān)性,在作者分析中應(yīng)該謹(jǐn)慎使用.Sari 等[101]對4 個(gè)數(shù)據(jù)集進(jìn)行分析,以探討不同類型的特征如何通過影響主題或風(fēng)格影響作者歸屬的準(zhǔn)確性.隨后他們將分析得出的結(jié)論應(yīng)用到作者識(shí)別方法上,在4 個(gè)數(shù)據(jù)集中的兩個(gè)數(shù)據(jù)集上,得到了更好的結(jié)果.有些研究者會(huì)借助主題模型進(jìn)行研究.Seroussi 等[102]對比分析了SVM、LDA、作者感知主題模型以及不連貫的作者文檔主題模型等4 種作者識(shí)別模型,發(fā)現(xiàn)作者感知主題模型勝過LDA,而該文提出的不連貫的作者文檔主題模型勝過以上3 種方法.Seroussi 等又在另一篇文章[103]中進(jìn)一步發(fā)展并完善了該方法.Yang 等[104]提出了主題漂移模型,用來描述個(gè)人作者的興趣和寫作風(fēng)格的變化.與之前的作者歸屬方法不同的是,該模型對時(shí)間信息和單詞順序敏感,因而能從文本中獲取更多的信息.實(shí)驗(yàn)結(jié)果表明,與其他模型相比,該方法獲得了更高的準(zhǔn)確率.

    一些學(xué)者研究跨語言下的作者識(shí)別.Halvani等[105]提出一種作者驗(yàn)證方法,該方法為每種語言提供一個(gè)通用閾值,用于接受或拒絕所謂的文檔作者身份.在荷蘭語、英語、希臘語、西班牙語和德語等5 種語言16 種類型和混合主題上的28 個(gè)語料庫上的實(shí)驗(yàn)獲得了接近75 %的中位數(shù)準(zhǔn)確率.由于該方法不涉及自然語言處理技術(shù)以及機(jī)器學(xué)習(xí)庫,它可以靈活地?cái)U(kuò)展到新語言或者新類型上.Bacciu 等[106]利用基于字符、單詞、詞干和失真文本的n-gram 作為文本特征,并使用組合的單分類器對不同語種的文檔進(jìn)行識(shí)別.實(shí)驗(yàn)結(jié)果表明,所提出的方法在幾乎所有問題中都優(yōu)于基線模型.使用此模型,在PAN 2019 作者識(shí)別競賽中獲得了0.68 的F1 分?jǐn)?shù).

    也有研究者利用文本失真掩蓋主題相關(guān)信息的方法進(jìn)行作者識(shí)別.Stamatatos[107]提出一種基于文本失真來壓縮主題相關(guān)信息的方法.該方法將輸入文本轉(zhuǎn)換為適當(dāng)?shù)男问?并保持與作者個(gè)人風(fēng)格相關(guān)的文本結(jié)構(gòu),同時(shí)掩蓋與主題信息相對應(yīng)的最不頻繁的單詞的出現(xiàn).實(shí)驗(yàn)結(jié)果表明,與其他作者身份歸屬方法相結(jié)合時(shí),該方法可以顯著提高其在閉集歸屬和作者身份驗(yàn)證中跨主題條件下的效果.而在另一篇文章中,Stamatatos[108]再次利用基于文本失真的方法掩蓋與主題相關(guān)的信息,通過將輸入文本轉(zhuǎn)換為更加主題中立的形式,盡量多地保持與作者個(gè)人風(fēng)格相關(guān)聯(lián)的文本結(jié)構(gòu).使用包含細(xì)粒度主題和類型的受控語料庫將文本失真方法用于跨領(lǐng)域的作者識(shí)別任務(wù)上.實(shí)驗(yàn)結(jié)果表明,在跨主題的作者身份歸屬中,該方法顯著提高了作者識(shí)別的性能;而在跨類型的作者身份歸屬中,該方法僅增強(qiáng)了一類方法的性能.在以上二者結(jié)合的作者身份歸屬中,結(jié)果與跨類型實(shí)驗(yàn)相近,這表明類型是作者身份歸屬中比主題更重要的因素.

    3.3 特殊方法

    作者識(shí)別的交叉特點(diǎn)使得其他領(lǐng)域的思想和方法能夠應(yīng)用到該領(lǐng)域的研究中來,從而產(chǎn)生一些比較特殊的研究方法.一般的作者識(shí)別研究會(huì)選擇某個(gè)或者某些文本特征來刻畫作者的行文風(fēng)格,本部分介紹兩種特殊的方法——壓縮方法和頻率混沌游戲表示方法,它們不借助文本特征就能實(shí)現(xiàn)作者識(shí)別.

    1)壓縮方法

    壓縮方法是作者識(shí)別領(lǐng)域中的一種比較特殊的方法.一般情況下,作者識(shí)別研究需要根據(jù)文本特征確定作者歸屬.而壓縮方法避免了定義特征,甚至在有些情況下僅依賴壓縮算法、相異度度量和閾值就能完成整個(gè)識(shí)別過程.利用壓縮方法進(jìn)行作者識(shí)別的一般步驟為:使用壓縮算法構(gòu)建處理文檔的模型或字典,經(jīng)過多次壓縮產(chǎn)生較高的壓縮率,利用壓縮率衡量訓(xùn)練文本和新文檔之間的交叉熵,新文檔則被分配給訓(xùn)練文本中使交叉熵最小的類[109].壓縮方法的思想可以簡述為,如果在一個(gè)文檔中可以顯著地壓縮另一個(gè)文檔,那么這兩個(gè)文檔被認(rèn)為是接近的.換句話說,如果兩個(gè)文檔很相似,則可以用一個(gè)文檔來更簡潔地描述另一個(gè)文檔.壓縮方法不使用關(guān)于數(shù)據(jù)的任何特征或背景知識(shí),因而其無參數(shù)、簡單易用,可以避免由于人為選擇特征而引入的噪聲以及信息丟失等問題[110].

    一些學(xué)者利用壓縮方法來研究文本的作者識(shí)別.Cerra 等[111]使用快速壓縮距離(Fast compression distance,FCD)研究基于壓縮的相似性度量在文本作者分析方面的表現(xiàn).FCD 能夠捕獲字典中單詞的重復(fù)組合,描述文本規(guī)則,以及比較任何兩個(gè)文檔之間的共享信息.實(shí)驗(yàn)結(jié)果表明,該方法具有普適性,可以在英語、意大利語、希臘語、西班牙語和德語文檔中直接使用.相對于傳統(tǒng)的基于壓縮的方法,FCD 計(jì)算復(fù)雜性低,而準(zhǔn)確率更高.Halvani 等[112]提出一種基于壓縮模型的簡單且高效的作者身份驗(yàn)證方法.實(shí)驗(yàn)結(jié)果表明,部分匹配預(yù)測勝過所有其他測試壓縮機(jī),基于壓縮的余弦測量產(chǎn)生了最高的結(jié)果,在針對所有訓(xùn)練語料庫測試的5個(gè)壓縮機(jī)中表現(xiàn)穩(wěn)定.基于壓縮模型的方法超過基于支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)的許多方法,并且可以很容易地應(yīng)用到其他語言上.

    2)頻率混沌游戲表示方法

    混沌游戲表示是一種從核苷酸序列創(chuàng)建圖像的方法,它被用來從大量文本文檔中制作圖像.Lichtblau 等用經(jīng)過特殊處理過的圖像特征代替?zhèn)鹘y(tǒng)的文本風(fēng)格特征進(jìn)行作者識(shí)別.從結(jié)果上來看,這種特征可以成為作者識(shí)別領(lǐng)域新的分類特征,為后續(xù)作者識(shí)別研究提供了一種新思路.具體來說,Lichtblau 和Stoean[113]使用頻率混沌游戲表示從文本產(chǎn)生灰度圖像,然后用圖像訓(xùn)練機(jī)器學(xué)習(xí)分類器,利用所學(xué)的模型識(shí)別這些灰度圖像,以區(qū)分不同文本的作者.實(shí)驗(yàn)結(jié)果表明,該方法在英語和葡萄牙語語料庫上獲得了令人信服的結(jié)果.聯(lián)邦主義文檔和葡萄牙語數(shù)據(jù)集上的驗(yàn)證結(jié)果與文獻(xiàn)中的最佳結(jié)果相當(dāng).此外,該方法對少于1000 字符的文本也有較好的識(shí)別結(jié)果,因此可以用于識(shí)別匿名電子郵件或博客文本的作者.而在另一篇文章中,Lichtblau 和Stoean[114]再次利用混沌游戲表示將文本轉(zhuǎn)換為圖像,再將圖像壓成向量,通過奇異值分解進(jìn)一步減小尺寸.再用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)與每個(gè)作者相關(guān)的特征,并建立模型對樣本進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,在3個(gè)基準(zhǔn)數(shù)據(jù)集上,所提出的方法明顯優(yōu)于頻率混沌游戲表示的線性回歸方法.與其他成熟的作者識(shí)別方法相比,該方法可以獲得更好或者相似的結(jié)果.

    4 相關(guān)評測介紹

    隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本大量增加,作者識(shí)別的研究重點(diǎn)逐漸從傳統(tǒng)文學(xué)作品轉(zhuǎn)向人們接觸更多的網(wǎng)絡(luò)文本.評測是采用統(tǒng)一數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn)進(jìn)行測試和評價(jià)的活動(dòng).由于數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn)都是統(tǒng)一的,其結(jié)果對衡量算法的真實(shí)性能具有很強(qiáng)的說服力.最近幾年,越來越多的研究者開始參與到網(wǎng)絡(luò)評測中,進(jìn)而產(chǎn)生了一些持續(xù)多年的、受到學(xué)者們廣泛關(guān)注的評測.這些評測因其高質(zhì)量的數(shù)據(jù)、評價(jià)和算法總結(jié)而在相關(guān)領(lǐng)域的影響較大.本節(jié)主要介紹作者身份驗(yàn)證、作者身份概述、作者身份混淆等與作者識(shí)別相關(guān)的評測,以期望為作者識(shí)別的研究帶來新的方法和思想.

    4.1 作者身份驗(yàn)證評測

    作者身份驗(yàn)證又簡稱作者驗(yàn)證,是數(shù)字文本取證研究的一個(gè)分支,旨在確定兩個(gè)文檔是否由同一作者撰寫.評估論壇實(shí)驗(yàn)室大會(huì)(Conference and Labs of the Evaluation Forum,CLEF) 在2013~2015、2020 年組織過作者身份驗(yàn)證評測,本小節(jié)主要關(guān)注2020 年的評測.在2020 年的評測中,有10 個(gè)團(tuán)隊(duì)提交了13 個(gè)系統(tǒng),下面介紹其中性能最優(yōu)的幾個(gè).

    Boenninghoff 等[115]提出一種將神經(jīng)特征提取與統(tǒng)計(jì)建模相結(jié)合的方法,該方法采用具有孿生網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)框架生成特征,然后在概率線性判別分析層執(zhí)行貝葉斯因子評分,以衡量兩個(gè)文檔之間的相似性.評測結(jié)果表明,所提出的方法在小型數(shù)據(jù)集和大型數(shù)據(jù)集上均取得了優(yōu)異的總體性能評分.Halvani 等[116]選擇標(biāo)點(diǎn)符號(hào)、功能詞、縮寫詞、過渡短語等與主題無關(guān)的項(xiàng)作為文本特征,并使用基于曼哈頓度量的距離函數(shù)以及基于相等錯(cuò)誤率的閾值處理程序作為分類器.結(jié)果表明,該方法具有出色的性能,在所有提交的方法中排名第三.Kipnis[117]提出一種無監(jiān)督的分類方法,該方法利用兩個(gè)文檔之間的單詞二項(xiàng)式分配模型逐個(gè)計(jì)算單詞的p值,并使用較高的批評度將它們組合為一個(gè)分?jǐn)?shù)統(tǒng)計(jì).通過評估與文檔對相關(guān)的高級批評的經(jīng)驗(yàn)分布,將產(chǎn)生的分?jǐn)?shù)轉(zhuǎn)換為相似性得分.該方法比較簡單,在跨域作者身份驗(yàn)證中取得了有競爭力的結(jié)果.

    4.2 作者身份概述評測

    作者身份概述又簡稱作者概述,是通過對文本的分析來找出其作者盡可能多的個(gè)人信息的任務(wù),包括但不限于年齡、性別、母語、教育水平、社會(huì)地位等,它在取證、市場營銷和網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用[118].與作者識(shí)別類似,作者概述也需要對作者風(fēng)格進(jìn)行分析.因此,作者識(shí)別上的風(fēng)格分析方法可以應(yīng)用到作者概述上.最近幾年,作者概述發(fā)展非常迅速,這得益于作者分析方法的大量提出以及各種網(wǎng)絡(luò)評測的開展,特別是CLEF 和信息檢索評估論壇(Forum for Information Retrieval Evaluation,FIRE)組織的評測.CLEF 在2013~2020 年連續(xù)8 年組織了作者概述評測,而FIRE 則在2018~ 2019 年組織了相關(guān)的評測.由于相關(guān)研究眾多,無法一一列舉,本小節(jié)只介紹最近4 年評測中排名相對靠前的作者概述方法.

    CLEF 在2017 年組織了確定推特作者的性別和語言種類的評測,有3 種方法獲得了整體最佳結(jié)果,它們之間沒有顯著的差異[119],分別是Basile 等使用字符和TF-IDFn-gram 組合訓(xùn)練支持向量機(jī),Martinc 等[120]使用字符、單詞和詞性n-gram 組合訓(xùn)練邏輯回歸分類器以及Tellez 等[121]使用表情符號(hào)、情感、字符流和每個(gè)變體的單詞列表訓(xùn)練支持向量機(jī)來完成任務(wù).CLEF 在2018 年組織了根據(jù)推特的文本或圖像確定作者性別的評測.3 個(gè)最佳結(jié)果分別來自:Takahashi 等[122]利用單詞嵌入和循環(huán)神經(jīng)網(wǎng)絡(luò)識(shí)別文本,同時(shí)利用基于ImageNet 的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像;Daneshvar 和Inkpen[123]基于單詞和字符n-gram 組合訓(xùn)練支持向量機(jī);Tellez 等[124]使用不同類型的n-gram 訓(xùn)練支持向量機(jī),同時(shí)結(jié)合使用DAISY 特征描述符的視覺詞袋模型進(jìn)行分類.總體而言,傳統(tǒng)方法仍然保持競爭力,而一些基于深度學(xué)習(xí)的新方法正在獲得優(yōu)勢[125].CLEF 在2019 年組織了判斷給定推特的作者是人還是機(jī)器(如果是人的話,確定其性別)以及根據(jù)名人的推特,確定其主人的年齡、名望、性別和職業(yè)的評測.在第一個(gè)任務(wù)中,性能最高的4 個(gè)團(tuán)隊(duì)均使用了單詞和字符n-gram 與支持向量機(jī)的組合.評測結(jié)果表明,傳統(tǒng)方法比深度學(xué)習(xí)方法獲得了更高的準(zhǔn)確率,深度學(xué)習(xí)方法首次出現(xiàn)在排名中,具體來說是卷積神經(jīng)網(wǎng)絡(luò),排在第11 位[126].至于第二個(gè)任務(wù),CLEF 在2020 年也組織過.這兩年一共收到研究者提交的10 種方法,其中2019 年的最佳方法和2020 年的最佳方法分別是:Radivchev 等[127]選擇單詞2-gram 作為特征,用TF-IDF 進(jìn)行向量化,然后使用邏輯回歸和支持向量機(jī)進(jìn)行分類;Hodge和Price[128]選擇POS 標(biāo)簽、停用詞數(shù)、命名實(shí)體類型等特征并使用邏輯回歸、隨機(jī)森林和支持向量機(jī)進(jìn)行分類.

    FIRE 在2018 年組織了識(shí)別烏爾都語和英語文本作者的性別和年齡的評測,2019 年組織了確定阿拉伯語推特用戶的年齡、性別和語言種類以及兩種不同類型的阿拉伯語欺騙檢測的評測.這里主要關(guān)注阿拉伯語推特的作者概述.Siagian 和Aritsugi[129]選擇單詞n-gram、字符n-gram、二者的組合以及功能詞作為特征,并使用支持向量機(jī)進(jìn)行分類.該方法性能優(yōu)越,在性別、年齡和語言類別等三個(gè)方面的綜合排名中位列第一.Nayel[130]利用基于ngram 的詞袋模型提取文本特征,并使用線性分類器、支持向量機(jī)和多層感知器進(jìn)行分類.結(jié)果表明,在絕大多數(shù)情況下,線性分類器獲得了最高的準(zhǔn)確率.這說明與作者身份相比,其性別、年齡和語言類別等信息通常隱藏在更低維度的文本特征中.Sharmila 等[131]分別使用單詞和字符的n-gram 以及單詞嵌入,經(jīng)過TF-IDF 加權(quán),再使用支持向量機(jī)和fastText 進(jìn)行分類.該方法具有較好的性能,在欺騙檢測中排名第二,而在作者概述中排名第三.與傳統(tǒng)模型相比,加權(quán)嵌入獲得的準(zhǔn)確性較低,其原因可能是給定數(shù)據(jù)集中的某些單詞在預(yù)訓(xùn)練模型中不存在.

    4.3 作者身份混淆評測

    作者身份混淆 (Authorship obfuscation)又簡稱作者混淆,是作者識(shí)別的對抗性任務(wù),其目的是使基于作者寫作風(fēng)格的身份識(shí)別變得不可能或至少難以進(jìn)行[132].由于作者識(shí)別和作者混淆互為對抗任務(wù),因此對于其中一項(xiàng)任務(wù)而言,某種方法的成功與否取決于其對另一項(xiàng)任務(wù)中最有效方法的 “免疫力”[133].與作者識(shí)別相比,作者混淆很少受到研究者的關(guān)注,造成這種情況的原因很可能是作者混淆需要釋義作為子任務(wù),從而給研究者進(jìn)入該領(lǐng)域帶來很大的障礙[133].從評價(jià)標(biāo)準(zhǔn)上來看,作者混淆比作者識(shí)別更復(fù)雜.作者識(shí)別一般通過準(zhǔn)確率等指標(biāo)評估算法的優(yōu)劣,而作者混淆除了要評估安全性以外,還需要對合理性和完整性進(jìn)行評估,甚至很多時(shí)候需要人工進(jìn)行審核.2016~ 2018 年,CLEF 連續(xù)組織了作者混淆評測任務(wù),產(chǎn)生了7 種混淆方法,促進(jìn)了該領(lǐng)域的研究進(jìn)展.本部分主要介紹一些比較成功的方法,以期望能為作者識(shí)別提供一些可以借鑒的思路.

    Mihaylova 等[134]對文本中可以表明作者身份的不同特征(句長、標(biāo)點(diǎn)、停用詞、詞性等)進(jìn)行評估,然后使用多種基于規(guī)則和隨機(jī)的文本操作,將目標(biāo)文本的這些特征的度量調(diào)整到平均水平,同時(shí)保持文本的含義和完整性.此外,他們還嘗試將隨機(jī)噪聲添加到文本中.使用該方法的混淆器獲得了當(dāng)年的最佳性能,在2016~ 2018 提交的7 種混淆器中排名第二,與第一名評分很接近.該方法的成功說明基于簡單特征捕獲作者寫作風(fēng)格的識(shí)別方法容易被混淆器擊敗,要想對抗這種混淆方法,必須考慮不容易改變的、更深層次的文本特征.Mansoorizadeh 等[135]從WordNet 上獲得同義詞來替換原始文本中的200 個(gè)最常見單詞.他們通過詞義和語義兩個(gè)方面來衡量原始詞和被替換詞的相似度,以便選擇最佳同義詞,每個(gè)句子最多替換一個(gè)同義詞.從整體上來說,該方法專注于改變文檔的詞頻特征,較少的改動(dòng)能夠保證很高的文本質(zhì)量,同時(shí)可以使基于詞匯特征的作者識(shí)別方法失效.Keswani 等[136]采用基于往返翻譯的方法,將英語譯為中間語言,再將中間語言譯回英語,以此來實(shí)現(xiàn)作者混淆.在翻譯的過程中,由于翻譯模型的差異以及翻譯過程中的各種懲罰,詞匯、平均句長以及語言結(jié)構(gòu)都會(huì)發(fā)生變化.雖然該方法在評測中表現(xiàn)一般,但是仍然具有相當(dāng)?shù)臐摿?結(jié)合成熟的商業(yè)引擎能夠保證在較高文本質(zhì)量的前提下達(dá)到混淆作者的目的.

    Castro-Castro 等[137]提出一種在無監(jiān)督的情況下執(zhí)行句子轉(zhuǎn)換的方法,同時(shí)使用字典和語義資源以及句法簡化規(guī)則進(jìn)行句法和語義更改.具體操作是根據(jù)字典或更長的版本替換縮略語,使用FreeLing 替換同義詞,并通過省略括號(hào)中的部分、語篇標(biāo)記以及并列成分來縮短句子.該方法獲得了很高的混淆性能,在CLEF 連續(xù)組織的評測中排名第一.Kocher 和Savoy[138]的方法基于20 條規(guī)則,這些規(guī)則將緊縮詞與普通單詞互換、替換了一些形容詞和連詞,還通過重復(fù)拼寫來引入錯(cuò)誤.總體來說,該方法基于搜索和替換,通過改變頻率特征以欺騙識(shí)別器,在保證原始文本質(zhì)量的前提下,可以達(dá)到一定的混淆度.Rahgouy 等[139]從作者已知的文檔中學(xué)習(xí)作者指紋,然后利用相關(guān)統(tǒng)計(jì)信息有針對性地對原始文本進(jìn)行定向轉(zhuǎn)換和變形.該方法主要改變句子長度、緊縮詞和一般單詞的使用,并根據(jù)與原始單詞的相似性、單詞出現(xiàn)的可能性以及句子變體的單詞移動(dòng)距離對可能的替換術(shù)語進(jìn)行評分.對混淆文本進(jìn)行的自動(dòng)和手動(dòng)評估顯示了該方法的有效性.

    5 數(shù)據(jù)集和評價(jià)指標(biāo)

    5.1 數(shù)據(jù)集

    語料,即語言材料,是若干語言樣本的統(tǒng)稱.在計(jì)算語言學(xué)中,語料通常指研究者搜集的大規(guī)模語言實(shí)例.語料經(jīng)過進(jìn)一步集合和加工可以形成語料庫,換句話說,語料庫是大量經(jīng)過整理的、具有既定格式和標(biāo)準(zhǔn)的語料集合.國內(nèi)的作者識(shí)別起步較晚,研究者數(shù)量少,研究相對落后.目前,在作者識(shí)別領(lǐng)域,尚無公開的漢語數(shù)據(jù)集.國外的作者識(shí)別研究起步較早,最近幾年發(fā)展較快,有一些公開的數(shù)據(jù)集.下面簡單介紹這些公開的數(shù)據(jù)集.

    1) IMDb62 數(shù)據(jù)集1https://umlt.infotech.monash.edu/?page_id=266

    包含互聯(lián)網(wǎng)電影資料庫中62 位超級用戶的62000 條電影評論和17550 個(gè)留言板帖子,其中每個(gè)用戶撰寫了1000 條電影評論以及不同數(shù)量的留言板帖子.

    2)博客數(shù)據(jù)集2http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

    包含19320 位作者的681288 篇博客文章,總共超過1.4 億個(gè)單詞,平均每人35 篇文章和7250個(gè)單詞.

    3)判決數(shù)據(jù)集3https://umlt.infotech.monash.edu/?page_id=152

    包含Dixon、McTiernan 和Rich 等三名澳大利亞高等法院法官的判決,其中有來自Dixon 的902個(gè)文檔,來自McTiernan 的253 個(gè)文檔和來自Rich 的187 個(gè)文檔.

    4)電子郵件數(shù)據(jù)集4https://www.cs.cmu.edu/~./enron/

    包含大約150 個(gè)用戶的50 萬封電子郵件,其中大多數(shù)用戶都是Enron 的高級管理人員.

    5) CCAT10 數(shù)據(jù)集5https://drive.google.com/drive/folders/1hlIWVSt0dfy8fz8d4w RzZItl-LCo5BH1?usp=sharing

    路透社語料庫第1 卷的子集,包含10 位作者的新聞專線報(bào)道,其中每位作者有100 篇文檔,總共1000 篇文檔.

    6) CCAT50 數(shù)據(jù)集6https://archive.ics.uci.edu/ml/datasets/Reuter_50_50

    路透社語料庫第1 卷的子集,包含50 位作者的新聞專線報(bào)道,其中每位作者有100 篇文檔,總共5000 篇文檔.

    7) PAN 數(shù)據(jù)集7https://pan.webis.de

    包含各種有關(guān)數(shù)字文本取證和文體學(xué)評測任務(wù)的數(shù)據(jù)集.

    5.2 評價(jià)指標(biāo)

    評價(jià)指標(biāo)(Evaluation index)是衡量作者識(shí)別分類器或作者識(shí)別模型性能優(yōu)劣的評價(jià)標(biāo)準(zhǔn).評價(jià)指標(biāo)在自然語言處理任務(wù)中具有通用性.換句話說,用于作者識(shí)別的評價(jià)指標(biāo)也可以用于文本分類、情感分析等其他自然語言處理任務(wù).評價(jià)指標(biāo)分為很多種,比如正確率(Accuracy)、查全率(Recall)、查準(zhǔn)率(Precision)、F測量值(F-measure)、宏平均(Macro-average)、微平均(Micro-average)、受試者工作特征(Receiver operating characteristic,ROC) 曲線下的面積(Area under ROC curve,AUC)等.下面逐一來介紹這些評價(jià)指標(biāo).

    正確率,也稱為準(zhǔn)確率或者精度,是最常用的評價(jià)指標(biāo),它被定義為測試集中正確預(yù)測的樣本數(shù)量占整個(gè)測試集的百分比.正確率A的公式表示為:

    其中TP、FP、TN和FN分別代表真正類(True positive)、假正類(False positive)、真負(fù)類(True negative)和假負(fù)類(False negative).為了進(jìn)一步細(xì)化分類器在某個(gè)特定類別上的分類性能,查全率、查準(zhǔn)率等評價(jià)指標(biāo)被應(yīng)用于作者識(shí)別研究中.一般而言,查全率(又稱為召回率)被定義為某一特定類別中預(yù)測正確的樣本數(shù)量占該類別樣本數(shù)量的百分比,而查準(zhǔn)率則被定義為某一特定類別中預(yù)測正確的樣本數(shù)量占實(shí)際預(yù)測為該類別樣本數(shù)量的百分比.查全率R和查準(zhǔn)率P的公式表示為:

    查全率和查準(zhǔn)率是從不同的角度衡量分類器性能的,為了綜合二者的整體效果,學(xué)者提出F1 測量值.F1 測量值被定義為查全率和查準(zhǔn)率的調(diào)和平均值,用公式表示為:

    查全率、查準(zhǔn)率和F1 測量值在正確率的基礎(chǔ)上進(jìn)一步細(xì)化了評價(jià)標(biāo)準(zhǔn).然而,這3 個(gè)評價(jià)指標(biāo)只能針對特定的類別.為了克服這一缺點(diǎn),學(xué)者們提出宏平均和微平均指標(biāo).這兩個(gè)指標(biāo)可以給出平均意義下的查全率、查準(zhǔn)率或者F1 測量值,能夠反映分類器對不同類別的整體分辨能力.宏平均和微平均的差別在于,宏平均先分別計(jì)算不同混淆矩陣的查全率和查準(zhǔn)率,然后通過取平均的方式得到宏查全率和宏查準(zhǔn)率,再根據(jù)宏查全率和宏查準(zhǔn)率計(jì)算出宏F1 測量值;而微平均先針對所有混淆矩陣求平均,然后再計(jì)算微查全率、微查準(zhǔn)率和微F1 測量值.

    與查全率、查準(zhǔn)率和F1 測量值相比,宏平均和微平均在綜合不同類別預(yù)測結(jié)果的基礎(chǔ)上給出分類器的整體性能評價(jià).由于其計(jì)算比較復(fù)雜,因此在作者識(shí)別研究中應(yīng)用得并不多.作者識(shí)別研究需要根據(jù)語料的特點(diǎn)選擇相應(yīng)的分類算法和評價(jià)指標(biāo).通常情況下,研究者所選擇的語料,其每個(gè)類別的樣本數(shù)量相等,或者即便不相等也差別不大.此時(shí),選擇宏平均或者微平均得到的結(jié)果差異并不大.但是,有些時(shí)候研究者需要利用一些不同類別樣本數(shù)量差距較大的語料進(jìn)行作者識(shí)別研究.此時(shí),選擇宏平均還是微平均得到的結(jié)果差異較大,用它們就不容易反映分類器的整體性能了.為了克服由于樣本數(shù)量差異帶來的影響,研究者提出AUC 指標(biāo).ROC 曲線是以假正類率為橫坐標(biāo),真正類率為縱坐標(biāo)的曲線,它反映了不同閾值對分類器泛化性能的影響[67].ROC 曲線下的面積即為AUC,該指標(biāo)同時(shí)考慮了分類器對正類和負(fù)類的分類能力,因此在樣本不平衡的情況下,仍然能夠?qū)Ψ诸惼鞯男阅苓M(jìn)行合理的評價(jià).

    6 存在的問題

    計(jì)算機(jī)的出現(xiàn)和廣泛應(yīng)用使得作者識(shí)別在最近幾十年中快速發(fā)展.到目前為止,作者識(shí)別已經(jīng)發(fā)展成為一個(gè)涉及眾多學(xué)科的交叉學(xué)科.多學(xué)科交叉使得作者識(shí)別研究能夠借鑒其他學(xué)科優(yōu)秀的方法和思想.與其他自然語言處理任務(wù)相比,作者識(shí)別缺少一些應(yīng)用場景,從事作者識(shí)別的研究者數(shù)量相對較少,相應(yīng)的研究多基于理論探究.目前的作者識(shí)別主要面臨一個(gè)寬領(lǐng)域、缺乏應(yīng)用、小眾研究的局面.在這個(gè)大背景下,作者識(shí)別研究主要存在以下幾個(gè)方面的問題.

    1)數(shù)據(jù)集的差異使得不同研究之間很難橫向比較.在計(jì)算語言學(xué)領(lǐng)域的研究中,基準(zhǔn)數(shù)據(jù)集和評價(jià)指標(biāo)是評估和分析算法性能的關(guān)鍵.然而,在作者識(shí)別領(lǐng)域缺乏基準(zhǔn)數(shù)據(jù)集.除了一些競賽會(huì)采用統(tǒng)一的數(shù)據(jù)集外,其他研究很少基于統(tǒng)一數(shù)據(jù)集,多數(shù)研究者會(huì)選擇自己感興趣的數(shù)據(jù)集完成研究.數(shù)據(jù)集的差異會(huì)導(dǎo)致很多問題,常見的是其他的研究者無法重復(fù)論文的工作,更無法在原有的基礎(chǔ)上進(jìn)行改進(jìn).很多研究者都強(qiáng)調(diào)自己的方法更先進(jìn),而由于無法排除數(shù)據(jù)集差異所帶來的影響,算法的實(shí)際改進(jìn)效果無法確定.

    2)實(shí)驗(yàn)結(jié)果通常受很多因素的影響,而多數(shù)文章未對這些因素進(jìn)行詳細(xì)敘述.作者識(shí)別領(lǐng)域的實(shí)驗(yàn)會(huì)同時(shí)受到多種因素的影響,比如語料的選擇、預(yù)處理、特征提取、分類算法的選擇及參數(shù)設(shè)置等.目前該領(lǐng)域的一種常見情況是,研究者對實(shí)驗(yàn)設(shè)計(jì)的描述不夠清晰.有的是對新提出的分類算法描述不清,更多的則是缺乏分類算法之外的實(shí)驗(yàn)細(xì)節(jié).這樣在不公布代碼的情況下,其他研究者很難了解具體的實(shí)驗(yàn)方案.算法描述不清晰或者其他實(shí)驗(yàn)細(xì)節(jié)的缺乏會(huì)導(dǎo)致已有的工作很難被復(fù)現(xiàn)或評價(jià).

    3)目前的大多數(shù)研究都側(cè)重于對結(jié)果進(jìn)行定量評估,而缺乏對文本特征的進(jìn)一步分析.文體風(fēng)格是一個(gè)很復(fù)雜的組合,理論上可能有數(shù)千個(gè)特征組成.研究特定的作者識(shí)別問題意味著只能選擇有限數(shù)量的文本特征.對文本特征的分析有利于研究者從龐大的特征組合中選出最有效的特征,進(jìn)而提高作者識(shí)別的正確率.反之,則不利于特征的篩選,正確率的提升可能僅依賴算法的改進(jìn).從另一個(gè)角度來講,文本特征直接和可解釋性相關(guān),而可解釋性又和法醫(yī)學(xué)、文體學(xué)、心理學(xué)上的一些應(yīng)用相關(guān).只進(jìn)行結(jié)果評估而不詳細(xì)討論用于識(shí)別作者的文本特征,既不利于作者識(shí)別研究的改進(jìn),也不利于相關(guān)應(yīng)用的發(fā)展.

    7 未來發(fā)展趨勢

    作者識(shí)別研究經(jīng)歷了由 “文體學(xué)知識(shí)”到 “規(guī)則和統(tǒng)計(jì)”再到 “機(jī)器學(xué)習(xí)”的發(fā)展過程,其主要的推動(dòng)力來源于計(jì)算機(jī)技術(shù)的發(fā)展.目前,借助計(jì)算機(jī)強(qiáng)大的算力,研究者可以處理大規(guī)模文本,作者識(shí)別進(jìn)入快速發(fā)展的時(shí)期.從現(xiàn)有狀況來看,作者識(shí)別研究主要有以下幾個(gè)可能的發(fā)展趨勢.

    1)作者識(shí)別研究體系的建立和完善.作者識(shí)別研究雖然已經(jīng)取得了很多成果,但從整體上來看,該領(lǐng)域內(nèi)的研究比較分散、缺乏對比、尚未形成體系.主要表現(xiàn)在以下兩個(gè)方面:一是該領(lǐng)域缺乏基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集的差異使得不同研究之間很難橫向比較;二是該領(lǐng)域的很多學(xué)者不斷嘗試提出新方法,很少有人去檢驗(yàn)或者規(guī)范舊方法,而這個(gè)是建立完整學(xué)科體系所必不可少的工作.因此,未來首要的工作就是建立并推廣使用基準(zhǔn)數(shù)據(jù)集,進(jìn)一步完善評測標(biāo)準(zhǔn),使得同類型的研究能夠放在一起進(jìn)行比較.然后再逐漸細(xì)化研究分支,檢驗(yàn)并規(guī)范已有方法,通過公布成熟算法框架等方式使得該領(lǐng)域的研究進(jìn)一步規(guī)范化和體系化.

    2)開發(fā)針對網(wǎng)絡(luò)文本和大數(shù)據(jù)的作者識(shí)別模型.隨著互聯(lián)網(wǎng)的不斷發(fā)展和計(jì)算機(jī)的廣泛應(yīng)用,數(shù)據(jù)量呈現(xiàn)爆炸式增長,海量網(wǎng)絡(luò)文本給作者識(shí)別研究帶來一系列新的挑戰(zhàn).與傳統(tǒng)的文學(xué)作品相比,網(wǎng)絡(luò)文本通常具有創(chuàng)作周期短、文本短小、內(nèi)容隨意性強(qiáng)等特點(diǎn).這些特點(diǎn)意味著作者在創(chuàng)作文本時(shí)往往注重讀寫效率,而忽略語句的準(zhǔn)確性甚至語法規(guī)則.因此,網(wǎng)絡(luò)文本的作者寫作風(fēng)格更難把握,研究者們必須針對網(wǎng)絡(luò)文本的具體特點(diǎn)尋找新的文本特征.

    除此之外,文本和潛在作者數(shù)量巨大也是需要解決的另一個(gè)難題.由于互聯(lián)網(wǎng)人數(shù)眾多,未知文本所面臨的潛在作者集合巨大,這給作者識(shí)別帶來很大難度.現(xiàn)有的作者識(shí)別方法大多適用于較小規(guī)模的數(shù)據(jù)集和少數(shù)幾個(gè)候選作者的情況.如果增大數(shù)據(jù)集規(guī)模或者潛在作者數(shù)量,這些方法的準(zhǔn)確率會(huì)大幅度下降.因此,研究者亟待開發(fā)新的作者識(shí)別技術(shù),以應(yīng)對文本集合或作者集合過大等問題.

    3)對文本風(fēng)格進(jìn)行更深入的分析,拓展跨學(xué)科應(yīng)用.現(xiàn)階段研究者主要依靠機(jī)器學(xué)習(xí)提升模型的性能,而忽視針對文本風(fēng)格的進(jìn)一步分析,這一點(diǎn)在上一節(jié)也提到過.計(jì)算機(jī)的發(fā)展加速了不同學(xué)科之間的交叉融合,很多學(xué)科都嘗試?yán)糜?jì)算機(jī)技術(shù)改進(jìn)本學(xué)科的研究模式.在這一大背景下,作者識(shí)別研究實(shí)際上承擔(dān)著連接計(jì)算機(jī)科學(xué)與文體學(xué)、認(rèn)知心理學(xué)等學(xué)科的橋梁作用.因此,對文本風(fēng)格進(jìn)行更深入的分析,或者說對可解釋性進(jìn)一步探究,有助于發(fā)展一些跨學(xué)科應(yīng)用,同時(shí)也會(huì)為相關(guān)領(lǐng)域提供很好的方法和思路.由于可解釋性問題一直都是作者識(shí)別中的一個(gè)難題,因此該方向會(huì)在多學(xué)科交叉融合的基礎(chǔ)上面臨更多的挑戰(zhàn).

    猜你喜歡
    句法單詞特征
    句法與句意(外一篇)
    中華詩詞(2021年3期)2021-12-31 08:07:22
    述謂結(jié)構(gòu)與英語句法配置
    單詞連一連
    如何表達(dá)“特征”
    不忠誠的四個(gè)特征
    句法二題
    中華詩詞(2018年3期)2018-08-01 06:40:40
    看圖填單詞
    詩詞聯(lián)句句法梳理
    中華詩詞(2018年11期)2018-03-26 06:41:32
    抓住特征巧觀察
    看完這些單詞的翻譯,整個(gè)人都不好了
    97在线人人人人妻| 国产亚洲欧美精品永久| 高清黄色对白视频在线免费看 | 韩国高清视频一区二区三区| 久久6这里有精品| 国产国拍精品亚洲av在线观看| 日韩伦理黄色片| 91久久精品电影网| 国产男女超爽视频在线观看| 国产成人午夜福利电影在线观看| 国产91av在线免费观看| 精品人妻熟女av久视频| 性色avwww在线观看| 一二三四中文在线观看免费高清| 有码 亚洲区| 久久99热这里只有精品18| 日本av免费视频播放| 欧美精品一区二区大全| 亚洲成色77777| 人妻制服诱惑在线中文字幕| 青春草视频在线免费观看| 欧美变态另类bdsm刘玥| 国产精品麻豆人妻色哟哟久久| 久久人人爽人人片av| 久久久色成人| 六月丁香七月| 国产精品精品国产色婷婷| 国产男人的电影天堂91| 又大又黄又爽视频免费| 男的添女的下面高潮视频| 成人亚洲欧美一区二区av| 人妻一区二区av| 青春草视频在线免费观看| av在线app专区| 中文字幕制服av| 直男gayav资源| 免费在线观看成人毛片| 亚洲欧美清纯卡通| 97热精品久久久久久| 久久久久久久精品精品| 国产精品女同一区二区软件| 精品久久久久久久久av| 国产成人免费观看mmmm| 草草在线视频免费看| 一区在线观看完整版| av播播在线观看一区| 纵有疾风起免费观看全集完整版| 我的老师免费观看完整版| 制服丝袜香蕉在线| 黑丝袜美女国产一区| 精品酒店卫生间| 麻豆成人av视频| 日韩电影二区| 亚洲国产毛片av蜜桃av| 亚洲国产成人一精品久久久| 免费在线观看成人毛片| 下体分泌物呈黄色| 亚洲va在线va天堂va国产| 黄色怎么调成土黄色| 少妇人妻 视频| 少妇丰满av| 交换朋友夫妻互换小说| 久久鲁丝午夜福利片| 中文在线观看免费www的网站| 18禁动态无遮挡网站| 日本黄色片子视频| 欧美精品亚洲一区二区| 国产精品一区www在线观看| 夜夜骑夜夜射夜夜干| 久久6这里有精品| 亚洲精品久久午夜乱码| 免费久久久久久久精品成人欧美视频 | 国产黄色免费在线视频| 女人久久www免费人成看片| 亚洲欧美成人精品一区二区| 蜜桃亚洲精品一区二区三区| 亚洲四区av| 国产成人a∨麻豆精品| 深爱激情五月婷婷| 色吧在线观看| 一区在线观看完整版| 日产精品乱码卡一卡2卡三| 国产精品久久久久久久电影| 不卡视频在线观看欧美| 日本欧美视频一区| 黄色欧美视频在线观看| 热re99久久精品国产66热6| 一区在线观看完整版| 午夜福利网站1000一区二区三区| 大话2 男鬼变身卡| av在线蜜桃| 天堂中文最新版在线下载| 亚洲电影在线观看av| 你懂的网址亚洲精品在线观看| 嫩草影院新地址| 亚洲综合色惰| 最新中文字幕久久久久| 精品久久久久久久久亚洲| 国产精品av视频在线免费观看| 亚洲欧洲国产日韩| 成人国产av品久久久| 久久久久精品性色| 能在线免费看毛片的网站| 欧美xxxx黑人xx丫x性爽| 毛片一级片免费看久久久久| 欧美另类一区| 国国产精品蜜臀av免费| 亚州av有码| 国产伦精品一区二区三区视频9| 一级毛片 在线播放| 日韩三级伦理在线观看| 国产欧美另类精品又又久久亚洲欧美| 精品久久久久久电影网| www.色视频.com| 亚州av有码| 麻豆国产97在线/欧美| 777米奇影视久久| xxx大片免费视频| 多毛熟女@视频| 超碰av人人做人人爽久久| 国产高清国产精品国产三级 | 欧美成人午夜免费资源| 婷婷色av中文字幕| 亚洲国产色片| av不卡在线播放| 一区二区三区免费毛片| 91精品伊人久久大香线蕉| 99久久精品国产国产毛片| 毛片女人毛片| 男人和女人高潮做爰伦理| 一本一本综合久久| 亚洲国产色片| 少妇人妻精品综合一区二区| 精品久久久精品久久久| 色婷婷av一区二区三区视频| 搡女人真爽免费视频火全软件| 国产精品国产三级国产av玫瑰| 18禁裸乳无遮挡动漫免费视频| 中文精品一卡2卡3卡4更新| 国产男女内射视频| 欧美国产精品一级二级三级 | 国产精品国产三级国产av玫瑰| 一本色道久久久久久精品综合| 日本wwww免费看| 亚洲国产欧美在线一区| 国产亚洲欧美精品永久| 欧美国产精品一级二级三级 | 国产成人精品婷婷| 色哟哟·www| 18禁在线播放成人免费| av卡一久久| 午夜福利影视在线免费观看| 亚洲四区av| 久久精品夜色国产| 久久99热6这里只有精品| 中文字幕制服av| 亚洲丝袜综合中文字幕| 黑丝袜美女国产一区| 午夜福利网站1000一区二区三区| 国产爱豆传媒在线观看| 中文欧美无线码| 国产成人91sexporn| 菩萨蛮人人尽说江南好唐韦庄| 亚洲国产精品专区欧美| 欧美另类一区| 王馨瑶露胸无遮挡在线观看| 老司机影院成人| 如何舔出高潮| 精品亚洲成a人片在线观看 | 亚洲一级一片aⅴ在线观看| 少妇的逼好多水| 国产黄片视频在线免费观看| 最后的刺客免费高清国语| 久久久久国产精品人妻一区二区| 晚上一个人看的免费电影| 亚洲成人av在线免费| 亚洲av欧美aⅴ国产| 欧美日韩在线观看h| 中文精品一卡2卡3卡4更新| 久久99热这里只频精品6学生| 国产在视频线精品| 亚洲精品成人av观看孕妇| 日日啪夜夜爽| 国产精品国产av在线观看| 黄色一级大片看看| 天堂中文最新版在线下载| 精华霜和精华液先用哪个| 各种免费的搞黄视频| 免费大片18禁| 国产亚洲精品久久久com| 亚洲欧美日韩另类电影网站 | 国产欧美日韩精品一区二区| 不卡视频在线观看欧美| 欧美最新免费一区二区三区| 22中文网久久字幕| 男人舔奶头视频| 少妇人妻 视频| 国产亚洲欧美精品永久| 最近中文字幕高清免费大全6| 午夜福利影视在线免费观看| 性色av一级| av黄色大香蕉| 91狼人影院| 成人毛片60女人毛片免费| 精品国产三级普通话版| 免费久久久久久久精品成人欧美视频 | 国产91av在线免费观看| 中文字幕免费在线视频6| 国产亚洲av片在线观看秒播厂| 久久久欧美国产精品| 亚洲av二区三区四区| 男的添女的下面高潮视频| 日韩中字成人| 少妇的逼好多水| 国产免费视频播放在线视频| a 毛片基地| 国产欧美日韩一区二区三区在线 | 最新中文字幕久久久久| 在线观看三级黄色| a级毛片免费高清观看在线播放| 插逼视频在线观看| 国产国拍精品亚洲av在线观看| 欧美+日韩+精品| 麻豆成人午夜福利视频| 久久鲁丝午夜福利片| 熟女av电影| 人妻夜夜爽99麻豆av| 视频区图区小说| 偷拍熟女少妇极品色| 视频区图区小说| 黑人高潮一二区| 国产综合精华液| 午夜福利影视在线免费观看| 国产精品一二三区在线看| 久久久久久久亚洲中文字幕| www.av在线官网国产| 国产免费一级a男人的天堂| 看非洲黑人一级黄片| av免费在线看不卡| 我要看日韩黄色一级片| 国模一区二区三区四区视频| 热re99久久精品国产66热6| av在线app专区| 高清视频免费观看一区二区| 我的老师免费观看完整版| 精品一区二区免费观看| 青春草亚洲视频在线观看| 男男h啪啪无遮挡| 日本欧美国产在线视频| 99热这里只有精品一区| 午夜免费观看性视频| 人体艺术视频欧美日本| av免费观看日本| 国国产精品蜜臀av免费| 18禁在线无遮挡免费观看视频| 欧美精品亚洲一区二区| 亚洲美女搞黄在线观看| 赤兔流量卡办理| 亚洲国产高清在线一区二区三| 少妇人妻 视频| 亚洲成人手机| 国产视频内射| 人妻 亚洲 视频| 熟女电影av网| 久久久久精品久久久久真实原创| 成人影院久久| 精品人妻熟女av久视频| 久久精品国产亚洲av天美| 国产成人一区二区在线| 午夜福利高清视频| 美女国产视频在线观看| 久久99热这里只频精品6学生| 国产精品熟女久久久久浪| 亚洲精品乱码久久久v下载方式| 国产精品99久久久久久久久| 久久久午夜欧美精品| 爱豆传媒免费全集在线观看| 亚洲欧美日韩卡通动漫| 欧美丝袜亚洲另类| 国产色婷婷99| 全区人妻精品视频| 国产精品秋霞免费鲁丝片| 91精品国产国语对白视频| 国产乱来视频区| 国产伦精品一区二区三区四那| 三级国产精品欧美在线观看| 久久久久久久久大av| 国精品久久久久久国模美| 人妻系列 视频| 中国美白少妇内射xxxbb| 国内少妇人妻偷人精品xxx网站| 黑人高潮一二区| 一本久久精品| 涩涩av久久男人的天堂| 久久久久久久久久人人人人人人| 日韩伦理黄色片| 99九九线精品视频在线观看视频| 国产成人aa在线观看| 久久国产精品男人的天堂亚洲 | 欧美激情极品国产一区二区三区 | 91午夜精品亚洲一区二区三区| 亚州av有码| 丰满少妇做爰视频| 老熟女久久久| 成人免费观看视频高清| 成人黄色视频免费在线看| 搡老乐熟女国产| 国产黄色视频一区二区在线观看| 日韩视频在线欧美| 人妻夜夜爽99麻豆av| 国产成人免费观看mmmm| 国模一区二区三区四区视频| 亚洲精品乱码久久久v下载方式| 亚洲成色77777| 久久久久精品久久久久真实原创| 日日摸夜夜添夜夜爱| 女的被弄到高潮叫床怎么办| 亚洲精华国产精华液的使用体验| 亚洲av中文av极速乱| 黑人猛操日本美女一级片| 在线免费十八禁| 在线观看免费视频网站a站| 日韩一本色道免费dvd| 激情五月婷婷亚洲| 秋霞在线观看毛片| 久久亚洲国产成人精品v| 亚洲激情五月婷婷啪啪| av一本久久久久| 免费黄色在线免费观看| 亚洲精华国产精华液的使用体验| 国产黄色免费在线视频| 丰满迷人的少妇在线观看| 国产69精品久久久久777片| 在线精品无人区一区二区三 | 日韩 亚洲 欧美在线| a级一级毛片免费在线观看| 亚洲av中文av极速乱| 免费大片18禁| 免费看av在线观看网站| 免费大片黄手机在线观看| 日本与韩国留学比较| 人人妻人人添人人爽欧美一区卜 | 80岁老熟妇乱子伦牲交| 亚洲精品亚洲一区二区| 欧美国产精品一级二级三级 | 免费观看的影片在线观看| 新久久久久国产一级毛片| 国产有黄有色有爽视频| 人妻 亚洲 视频| 欧美xxⅹ黑人| 国产成人精品婷婷| 下体分泌物呈黄色| 在线播放无遮挡| 只有这里有精品99| 国产免费视频播放在线视频| 国产久久久一区二区三区| 国产av精品麻豆| 啦啦啦在线观看免费高清www| 毛片女人毛片| 男人添女人高潮全过程视频| 日韩一本色道免费dvd| 91久久精品国产一区二区三区| 免费在线观看成人毛片| 国产成人一区二区在线| 久久国产乱子免费精品| 一区二区三区免费毛片| 日本欧美视频一区| 久久热精品热| 97在线视频观看| 国产69精品久久久久777片| 大香蕉久久网| 国产成人91sexporn| 日本一二三区视频观看| 精品视频人人做人人爽| 国内少妇人妻偷人精品xxx网站| 中国国产av一级| 国产精品蜜桃在线观看| 女人久久www免费人成看片| 国产精品国产三级国产av玫瑰| 日韩亚洲欧美综合| 午夜免费观看性视频| 婷婷色麻豆天堂久久| 91精品伊人久久大香线蕉| 久久精品国产a三级三级三级| 你懂的网址亚洲精品在线观看| 噜噜噜噜噜久久久久久91| 老熟女久久久| 黑丝袜美女国产一区| 亚洲自偷自拍三级| 少妇 在线观看| 国产探花极品一区二区| 精品久久久久久久久亚洲| 少妇猛男粗大的猛烈进出视频| 国产在线一区二区三区精| 免费观看av网站的网址| 亚州av有码| 最近2019中文字幕mv第一页| 亚洲国产精品999| 亚洲美女视频黄频| 久久久久精品性色| 久久久久久久久久成人| 高清日韩中文字幕在线| 国产精品一区www在线观看| 亚洲欧美成人精品一区二区| 日韩伦理黄色片| 热99国产精品久久久久久7| 欧美日本视频| 国产精品av视频在线免费观看| 亚洲av免费高清在线观看| 欧美日本视频| 日韩中字成人| 亚洲av免费高清在线观看| 亚洲欧美成人精品一区二区| 欧美bdsm另类| 亚洲av免费高清在线观看| 国产精品不卡视频一区二区| 草草在线视频免费看| 在线免费十八禁| 不卡视频在线观看欧美| 亚洲av成人精品一二三区| 简卡轻食公司| 大香蕉久久网| 一本—道久久a久久精品蜜桃钙片| 国产精品99久久99久久久不卡 | h日本视频在线播放| 日韩三级伦理在线观看| 欧美丝袜亚洲另类| 欧美最新免费一区二区三区| 一级片'在线观看视频| 韩国高清视频一区二区三区| 一级毛片黄色毛片免费观看视频| 亚洲精品国产成人久久av| 免费黄网站久久成人精品| 边亲边吃奶的免费视频| 少妇猛男粗大的猛烈进出视频| 午夜免费观看性视频| 国产一区二区在线观看日韩| 在线免费十八禁| 黄色一级大片看看| 国产亚洲欧美精品永久| 亚洲av综合色区一区| 大香蕉久久网| 一级毛片电影观看| 久久精品国产亚洲av天美| av网站免费在线观看视频| 国精品久久久久久国模美| 久久精品熟女亚洲av麻豆精品| 久久国产乱子免费精品| 美女cb高潮喷水在线观看| 欧美+日韩+精品| 一级片'在线观看视频| 国产一级毛片在线| 永久网站在线| 免费观看无遮挡的男女| 成人一区二区视频在线观看| 亚洲熟女精品中文字幕| 插阴视频在线观看视频| 亚洲av成人精品一区久久| 人体艺术视频欧美日本| 欧美性感艳星| 在线亚洲精品国产二区图片欧美 | 成人漫画全彩无遮挡| 国产高清三级在线| 亚洲精品日韩av片在线观看| 久热这里只有精品99| av视频免费观看在线观看| 久久精品国产自在天天线| 精品一区二区三区视频在线| 99re6热这里在线精品视频| 777米奇影视久久| 久热久热在线精品观看| 日本黄大片高清| 美女xxoo啪啪120秒动态图| 欧美三级亚洲精品| 亚洲精品国产成人久久av| 欧美成人午夜免费资源| 纵有疾风起免费观看全集完整版| 国产成人免费无遮挡视频| kizo精华| 国产一区亚洲一区在线观看| 91精品国产九色| 亚洲精品亚洲一区二区| 免费观看的影片在线观看| 精品酒店卫生间| 激情 狠狠 欧美| 国产成人精品一,二区| 欧美bdsm另类| 成年免费大片在线观看| 寂寞人妻少妇视频99o| 欧美成人a在线观看| 日日摸夜夜添夜夜添av毛片| 777米奇影视久久| 熟妇人妻不卡中文字幕| 亚洲精品自拍成人| 亚洲四区av| .国产精品久久| 久久99热这里只频精品6学生| 亚洲人成网站在线观看播放| 亚洲美女视频黄频| 国产v大片淫在线免费观看| 精品人妻偷拍中文字幕| 99久久精品国产国产毛片| 老司机影院毛片| 少妇猛男粗大的猛烈进出视频| 亚洲在久久综合| 国产精品爽爽va在线观看网站| 夜夜爽夜夜爽视频| www.色视频.com| 成人二区视频| 欧美亚洲 丝袜 人妻 在线| 黄色视频在线播放观看不卡| 成人亚洲欧美一区二区av| 久久97久久精品| 日韩成人伦理影院| 国产精品免费大片| 精品亚洲成国产av| 国产精品av视频在线免费观看| 久热久热在线精品观看| 91aial.com中文字幕在线观看| 韩国高清视频一区二区三区| 国产免费一级a男人的天堂| 亚洲va在线va天堂va国产| 看十八女毛片水多多多| 观看美女的网站| 国产伦理片在线播放av一区| 多毛熟女@视频| 美女中出高潮动态图| 日韩制服骚丝袜av| 亚洲国产成人一精品久久久| 黄片无遮挡物在线观看| 韩国高清视频一区二区三区| 男女边摸边吃奶| 下体分泌物呈黄色| 亚洲欧美一区二区三区黑人 | 精品国产露脸久久av麻豆| 嫩草影院新地址| 日日摸夜夜添夜夜添av毛片| 多毛熟女@视频| 日韩电影二区| 18禁裸乳无遮挡动漫免费视频| 精品人妻一区二区三区麻豆| 国产伦精品一区二区三区视频9| 免费黄网站久久成人精品| 欧美bdsm另类| 香蕉精品网在线| 亚洲欧美日韩无卡精品| 男人狂女人下面高潮的视频| 婷婷色麻豆天堂久久| 国产黄色视频一区二区在线观看| 亚洲av日韩在线播放| 午夜福利影视在线免费观看| 最近中文字幕2019免费版| 欧美日韩国产mv在线观看视频 | 亚洲精品久久午夜乱码| 在线精品无人区一区二区三 | 精品视频人人做人人爽| 日韩中文字幕视频在线看片 | 搡女人真爽免费视频火全软件| 中文字幕亚洲精品专区| 日韩伦理黄色片| 纯流量卡能插随身wifi吗| 26uuu在线亚洲综合色| 亚洲精品国产av蜜桃| 亚洲熟女精品中文字幕| 亚洲精品456在线播放app| 久久国产乱子免费精品| 国产精品伦人一区二区| 国产真实伦视频高清在线观看| 国产乱来视频区| 亚洲精品,欧美精品| 最近2019中文字幕mv第一页| 22中文网久久字幕| 乱系列少妇在线播放| 男女啪啪激烈高潮av片| 99热6这里只有精品| 日韩一本色道免费dvd| 少妇人妻精品综合一区二区| 久久热精品热| 久久久久网色| 国产女主播在线喷水免费视频网站| 国产淫片久久久久久久久| 国内少妇人妻偷人精品xxx网站| 丝袜脚勾引网站| 亚洲精品aⅴ在线观看| 久久久久国产精品人妻一区二区| 在线观看av片永久免费下载| 亚洲精品成人av观看孕妇| 午夜福利在线在线| 人妻系列 视频| 欧美日韩视频精品一区| 热re99久久精品国产66热6| 一区在线观看完整版| 亚洲av不卡在线观看| 99热国产这里只有精品6| 国产久久久一区二区三区| 精品久久久久久电影网| 少妇精品久久久久久久| 日韩中文字幕视频在线看片 | 久久久成人免费电影| 国产乱人偷精品视频| 高清日韩中文字幕在线| 日本欧美视频一区| 激情五月婷婷亚洲| 在线精品无人区一区二区三 | 国产毛片在线视频| 久久99热这里只频精品6学生| 久久久久国产网址| 好男人视频免费观看在线| 亚洲电影在线观看av| a 毛片基地| 国产亚洲5aaaaa淫片| 欧美3d第一页| 一区二区av电影网| tube8黄色片| 色哟哟·www|