• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于注意力網(wǎng)絡(luò)的語(yǔ)體多元特征挖掘

    2020-09-04 10:00:20吳海燕
    計(jì)算機(jī)應(yīng)用 2020年8期
    關(guān)鍵詞:句法結(jié)構(gòu)詞類語(yǔ)體

    吳海燕,劉 穎

    (清華大學(xué)人文學(xué)院,北京100084)

    0 引言

    語(yǔ)體是當(dāng)代語(yǔ)言學(xué)的重要范疇,是語(yǔ)言研究的一個(gè)不可忽視的領(lǐng)域,它是人們?cè)谑褂谜Z(yǔ)言時(shí)受到交際對(duì)象、目的、內(nèi)容、環(huán)境等交際條件的限制而形成的一些綜合的語(yǔ)言特點(diǎn)?;粜×ⅲ?]指出,語(yǔ)體特征是語(yǔ)體在受交際環(huán)境、目的和內(nèi)容影響而間接體現(xiàn)語(yǔ)體本質(zhì)的屬性集合。顧名思義,語(yǔ)體特征區(qū)分度是指特征能區(qū)分不同語(yǔ)體的能力。

    語(yǔ)體特征作為語(yǔ)體的本質(zhì)屬性,具有一定的語(yǔ)體區(qū)分度。在之前的文獻(xiàn)中主要從兩方面進(jìn)行語(yǔ)體區(qū)分度的研究:一是根據(jù)語(yǔ)言學(xué)知識(shí)分析哪些特征具有語(yǔ)體區(qū)分度;二是借助計(jì)算機(jī)模型,通過分析分類準(zhǔn)確率或聚類離散程度等來說明哪些特征具有顯著語(yǔ)體區(qū)分度。根據(jù)以往研究方法的不同,本文將它們分為三類:語(yǔ)言學(xué)方法、統(tǒng)計(jì)學(xué)方法及神經(jīng)網(wǎng)絡(luò)方法。

    1)語(yǔ)言學(xué)方法。很多語(yǔ)言學(xué)者對(duì)不同語(yǔ)體中具體的字、詞、特定短語(yǔ)、句法結(jié)構(gòu)、句類等都做了詳細(xì)的分析研究,并給出了哪些特征具有語(yǔ)體區(qū)分度。例如:2010 年陶紅印等[2]提出“把”字句和“被”字句在不同的語(yǔ)體中具有明顯的差異。馮勝利[3]通過對(duì)比研究口語(yǔ)和書面語(yǔ)的語(yǔ)體特征,最后指出單、雙音節(jié)是區(qū)別口語(yǔ)和書面語(yǔ)的基本單位。張?jiān)シ澹?]指出“得”在文藝語(yǔ)體、政論語(yǔ)體、科技語(yǔ)體和公文語(yǔ)體中頻率呈遞減趨勢(shì)。錢小飛[5]認(rèn)為“地”字結(jié)構(gòu)可用來區(qū)分不同的語(yǔ)體。句法作為漢語(yǔ)的語(yǔ)言結(jié)構(gòu)組成之一,方梅[6]認(rèn)為句法特征在不同語(yǔ)體的分布存在差異,它在宏觀上規(guī)定的句子語(yǔ)氣類型和功能類型也存在差異。此外,標(biāo)點(diǎn)符號(hào)也具有語(yǔ)體區(qū)分性,林毓霞[7]曾指出標(biāo)點(diǎn)符號(hào)的運(yùn)用同語(yǔ)體有著密切的關(guān)系,標(biāo)點(diǎn)符號(hào)種類的多寡、頻率的高低取決于語(yǔ)體的形式。

    這些研究的共同點(diǎn)是通過語(yǔ)言學(xué)分析和基本的計(jì)量找出哪些字、詞、短語(yǔ)或句法結(jié)構(gòu)等特征具有語(yǔ)體區(qū)分度,并對(duì)其重要性進(jìn)行解釋說明。這些語(yǔ)言學(xué)家細(xì)致入微的語(yǔ)言學(xué)分析為后續(xù)學(xué)者的研究提供了重要的理論依據(jù),但這些分析說明是從語(yǔ)體內(nèi)在的含義出發(fā),需要逐詞逐句地分析和篩選例句,工作量大,耗時(shí)費(fèi)力,并且缺乏大規(guī)模數(shù)據(jù)上的統(tǒng)計(jì)驗(yàn)證。

    2)統(tǒng)計(jì)學(xué)方法。隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者們逐漸開始借助統(tǒng)計(jì)學(xué)方法來提取語(yǔ)體特征并將其數(shù)字化表示,例如:頻率、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)等形式,并在此基礎(chǔ)上進(jìn)行分類和聚類,通過分析分類和聚類的準(zhǔn)確率來說明所選語(yǔ)體特征的重要性。胡駿飛等[8]借助詞頻來分析“弄”字句在會(huì)話口語(yǔ)、影視口語(yǔ)及書面語(yǔ)體中的分布,并得出詞類在一定程度上可以反映語(yǔ)體的重要程度,同時(shí)從語(yǔ)用功能的角度加以解釋說明。肖天久等[9]利用詞和詞的N 元文法相結(jié)合研究《紅樓夢(mèng)》前八十回與后四十回的關(guān)系,結(jié)論是前八十回與后四十回有差異,這說明詞和詞的N 元文法對(duì)判定語(yǔ)體有重要的作用,即詞和N 元文法具有語(yǔ)體區(qū)分度;但是該文作者并未直接給出這個(gè)區(qū)分語(yǔ)體能力的大小,而是通過使用聚類的離散程度來間接說明的。

    這些方法的共同點(diǎn)是對(duì)所提取的特征都采用了數(shù)值量化表示,與語(yǔ)言學(xué)方法相比,特征的形式化表示很容易被計(jì)算機(jī)處理,并且也取得了很好的效果。事實(shí)上,從這些研究所選擇的特征類型來看,學(xué)者們已經(jīng)開始嘗試從更多的角度考慮特征的選擇,唯一不足的是這些特征需要人為選取,這就對(duì)研究人員的語(yǔ)言學(xué)知識(shí)有較高的要求。

    3)神經(jīng)網(wǎng)絡(luò)方法。近些年來,基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法在很多領(lǐng)域都有出色的表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)來挖掘語(yǔ)體的重要特征也是學(xué)者們努力研究的方向。周浩[10]利用神經(jīng)網(wǎng)絡(luò)對(duì)句法結(jié)構(gòu)進(jìn)行分析,實(shí)驗(yàn)結(jié)果顯示與傳統(tǒng)方法相比,神經(jīng)網(wǎng)絡(luò)能挖掘更好的句法結(jié)構(gòu)來幫助分析語(yǔ)體。還有學(xué)者利用復(fù)雜神經(jīng)網(wǎng)絡(luò)挖掘語(yǔ)體的關(guān)鍵信息,例如Wang等[11]提出了一種基于雙向長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的關(guān)鍵詞自動(dòng)提取方法。通過對(duì)京東的產(chǎn)品評(píng)論進(jìn)行分析,所提取的關(guān)鍵詞能很好地區(qū)分不同種類的產(chǎn)品。此外,神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域也有很好的應(yīng)用,Bahdanau 等[12]將注意力機(jī)制應(yīng)用到翻譯領(lǐng)域,通過注意力機(jī)制找出每一句話的關(guān)鍵詞來幫助終端進(jìn)行翻譯,從而使翻譯效果得到了很大的提升。Pappas 等[13]將注意力機(jī)制應(yīng)用到詞和句子層面上,通過注意力機(jī)制找到能區(qū)分文本的關(guān)鍵詞和句子,從而提高了文檔分類的準(zhǔn)確率。

    這些基于復(fù)雜神經(jīng)網(wǎng)絡(luò)的方法無論是在特征提取還是分類準(zhǔn)確率方面都有了很大的提升。深度學(xué)習(xí)可以自動(dòng)獲取語(yǔ)體本身的信息,并使用高維度的向量來表示所提取的特征,使其具有高維度的空間語(yǔ)義屬性[14]。這樣,語(yǔ)體特征的語(yǔ)義信息被挖掘出來,同時(shí)也極大地減少了人為參與。不足的是這些模型對(duì)硬件要求比較高,訓(xùn)練時(shí)間通常比較長(zhǎng)。

    通過分析這些方法的優(yōu)缺點(diǎn),本文利用注意力機(jī)制和多層感知機(jī)的組合模型——注意力網(wǎng)絡(luò)來挖掘能區(qū)分不同語(yǔ)體的重要特征,結(jié)構(gòu)如圖1 所示。本文工作的核心是通過注意力網(wǎng)絡(luò)挖掘能區(qū)分小說、新聞及課本的詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的2 元特征,并對(duì)它們的重要性進(jìn)行量化表示與分析,主要工作是:

    1)利用注意力網(wǎng)絡(luò)模型能挖掘出多種能區(qū)分小說、新聞及課本的特征集,主要包含:詞和詞的2 元、詞類和詞類2 元、標(biāo)點(diǎn)和標(biāo)點(diǎn)2 元、句法結(jié)構(gòu)以及多種特征組合,從多個(gè)語(yǔ)言層面上挖掘出小說、新聞和課本在詞匯、句法和語(yǔ)義使用上系統(tǒng)的差異。

    2)從語(yǔ)義角度挖掘出小說、新聞及課本的主題詞及與其依存的從屬詞和句法結(jié)構(gòu);并進(jìn)一步挖掘出動(dòng)詞是三種特征內(nèi)在聯(lián)系的紐帶,同時(shí)證明了動(dòng)詞對(duì)語(yǔ)體的重要性;最后,還逐一挖掘了小說的主人公形象(身體器官、面部表情、內(nèi)心活動(dòng)、說話語(yǔ)氣、親屬稱呼、社會(huì)角色等)、新聞的事件報(bào)道(時(shí)間、地點(diǎn)、主題等)及課本的人物描寫和議論主題等的內(nèi)在聯(lián)系。

    3)對(duì)注意力網(wǎng)絡(luò)進(jìn)行改進(jìn),使得它不但能夠挖掘序列化的特征,也能挖掘非序列化的句法結(jié)構(gòu);而且它能很好地挖掘出區(qū)分小說、新聞及課本的句法結(jié)構(gòu)集。

    4)本文選用注意力網(wǎng)絡(luò)模型的優(yōu)點(diǎn)是:能夠挖掘出多種有效特征,同時(shí)還能給出每一種特征的語(yǔ)體區(qū)分度;能夠自動(dòng)過濾掉大量的冗余特征;能夠自動(dòng)過濾掉停用詞。

    1 研究方法

    1.1 注意力網(wǎng)絡(luò)

    在計(jì)算機(jī)領(lǐng)域,深度學(xué)習(xí)已成為一種流行的方法,它在多個(gè)領(lǐng)域都顯示出了強(qiáng)大的建模能力[15]。在神經(jīng)網(wǎng)絡(luò)的模式設(shè)計(jì)中,有一種結(jié)構(gòu)被稱為注意力機(jī)制,它能自動(dòng)分析文本中不同信息的重要性。在自然語(yǔ)言處理領(lǐng)域,學(xué)者們將它與深度模型相結(jié)合已經(jīng)取得了顯著的成果。

    本文借助注意力機(jī)制來挖掘具有顯著區(qū)分度的語(yǔ)體特征。這些特征主要包括:詞的N 元、詞類的N 元、標(biāo)點(diǎn)符號(hào)的N 元及句法結(jié)構(gòu)。首先,通過對(duì)由這些特征所表示的文本執(zhí)行分類訓(xùn)練,在訓(xùn)練的過程中,注意力機(jī)制會(huì)對(duì)這些特征進(jìn)行評(píng)分。這里,注意力機(jī)制的作用是找出哪些特征具有顯著的語(yǔ)體區(qū)分度并賦予相應(yīng)的注意力分值,分值越高就越能區(qū)分語(yǔ)體,即注意力機(jī)制分值越高該特征的語(yǔ)體區(qū)分度就越大。本文使用的注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要由輸入層、嵌入層、N 元向量層、注意力層、N 元句子向量層、連接層、分類層及輸出層組成。

    圖1 注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Structure of attention network

    圖1 示意的是將詞類或詞類的2 元作為輸入時(shí)的網(wǎng)絡(luò)結(jié)構(gòu)。在兩種情況下,均先將輸入的詞類通過嵌入層轉(zhuǎn)化為詞類向量。若對(duì)詞類1 元(即詞類)進(jìn)行評(píng)分,則詞類向量直接輸入到注意力層;若對(duì)詞類的2 元進(jìn)行評(píng)分,則詞類向量先通過N 元向量層組合產(chǎn)生N 元向量,再輸入到注意力層。最終,無論特征是詞類還是詞類的N 元,注意力網(wǎng)絡(luò)層將對(duì)輸入到全連接層的句子進(jìn)行分類。總的來說,圖1 注意力網(wǎng)絡(luò)結(jié)構(gòu)包含三個(gè)部分:模型特征輸入(輸入層、嵌入層及N 元向量層)、注意力機(jī)制特征評(píng)分(注意力層和N元句子向量層)及語(yǔ)體分類(連接層和分類層)。接下來,將詳細(xì)地介紹這三部分。

    1.2 模型特征輸入

    本節(jié)的主要目的是將由句子組成的語(yǔ)料集轉(zhuǎn)換成注意力網(wǎng)絡(luò)所要識(shí)別的特征(詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的組合)向量,主要包括輸入層、嵌入層及N元向量層。

    1)輸入層。使用模型前,需要用特征表示語(yǔ)料集中的每一個(gè)句子。 首先,需要構(gòu)建特征對(duì)應(yīng)的字典W ={w1,w2,…,wn},n 表示文本的特征數(shù)。例如:想提取能區(qū)分小說、新聞及課本的詞匯特征,故此時(shí)的W 是所有詞的集合,n表示不同詞的數(shù)目。類似地,如果想要提取能識(shí)別小說、新聞及課本的詞類或標(biāo)點(diǎn)符號(hào)或句法結(jié)構(gòu)特征,此時(shí)的W 就是詞類或標(biāo)點(diǎn)符號(hào)或句法結(jié)構(gòu),對(duì)應(yīng)的n 就是這幾類特征各自的總個(gè)數(shù)。其次,將語(yǔ)料集的句子集用字典W中的特征表示,其中,L 表示語(yǔ)料集的句子數(shù),即S ={s1,s2,…,sL}。對(duì)每一個(gè)句子進(jìn)行切詞、詞性標(biāo)注及構(gòu)建句法樹如下:

    其中:posi,j表示詞 wordi,j所對(duì)應(yīng)的詞性,i 表示句子在語(yǔ)料庫(kù)中的序號(hào),j 表示該詞類在當(dāng)前句子中的序號(hào);m 為句長(zhǎng);p 是句法樹經(jīng)過序列化處理(前序遍歷,即先訪問根節(jié)點(diǎn),然后訪問左子樹,最后訪問右子樹)后所得的句法結(jié)構(gòu)數(shù)。對(duì)于句法結(jié)構(gòu)的提取,需要借助句法樹來完成。

    下面利用圖1 的例句來詳細(xì)說明以上幾種形式化表示。首先,使用斯坦福自然語(yǔ)言處理工具包CoreNLP 對(duì)句子si={俺閨女分房子…}分別進(jìn)行切詞、詞性標(biāo)注及構(gòu)建句法樹(圖2)得:

    語(yǔ)料集中所有的句子分別用類似si-words、si-POS、si-Pun及si-syntax表示后輸入到嵌入層。

    圖2 句法樹Fig. 2 Syntactic tree

    2)嵌入層。該層是將句子特征轉(zhuǎn)化為向量,以詞特征為例,即:

    其中:wi,j∈ Rv為詞 wi,j所對(duì)應(yīng)的向量(本文用粗體表示相應(yīng)特征的向量);φ 為特征空間到向量空間的映射,即φ:W → Rv,v 表示特征向量的維度,由3.2 節(jié)實(shí)驗(yàn)設(shè)置給出。詞向量由正態(tài)分布N(0,0.01)隨機(jī)初始化得到,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中會(huì)被訓(xùn)練優(yōu)化。

    3)N 元向量層。該層是將嵌入層所得的特征向量按照N的大小拼接起來,以詞類的N 元為例:對(duì)于句子Si-words={wi,1,wi,2,…,wi,n} 所 對(duì) 應(yīng) 的 詞 類 表 示 為 Si-POS=,則 詞 類 的 k 元 表 示 為 Si-tag=,其中,gki,j表示句子的第 j 個(gè)詞類 k元,用粗體表示其向量,則它對(duì)應(yīng)的向量是:

    經(jīng)過模型輸入部分得到句子特征的N 元向量,接下來需要利用注意力機(jī)制對(duì)其進(jìn)行評(píng)分。以圖1 詞類表示的句子為例,來闡述注意力機(jī)制的評(píng)分原理。

    1.3 注意力機(jī)制對(duì)特征評(píng)分

    1)注意力層。首先,注意力機(jī)制通過全連接層計(jì)算出每一個(gè)句子的第j個(gè)詞類k元特征()的注意力向量。

    其中:Ak∈ Rt×kv和bk∈ Rt是注意力網(wǎng)絡(luò)的參數(shù),分別為連接權(quán)重和偏置,t表示注意力網(wǎng)絡(luò)的隱含層的維度,v表示向量的維度,kv 表示向量gki,j的維度。其次,因?yàn)?Kalman 等[15]曾經(jīng)指出“具有非線性多項(xiàng)式激活函數(shù)的多層前饋網(wǎng)絡(luò)可以逼近任何函數(shù)”,因此為了使模型具有更好的擬合性,通常在全連接層之后增加一個(gè)非線性多項(xiàng)式激活函數(shù)。其中,uki,j是包含詞類k 元模型(k-Gram)重要性信息的隱藏注意向量。之后對(duì)注意力隱含向量進(jìn)行加權(quán)求和,公式如下:

    其中:hk是權(quán)重,屬于注意力網(wǎng)絡(luò)參數(shù);uki,j是注意力機(jī)制給 k元的所打的分值。注意,uki,j∈ (-∞,∞),如果直接用的分值與其對(duì)應(yīng)的特征向量進(jìn)行加權(quán)求和來形成句子向量,那么隨著訓(xùn)練過程的進(jìn)行,句子向量的長(zhǎng)度和規(guī)模將失去控制趨向無窮大。所以,需要對(duì)句子向量進(jìn)行歸一化,本文使用函數(shù)規(guī)范化指數(shù)函數(shù)Softmax函數(shù)進(jìn)行歸一化。該函數(shù)將m -k + 1個(gè)實(shí)數(shù)作為輸入,并將其規(guī)范化為概率分布,公式如下:

    2)N 元句子向量。通過式(1)~(3)完成了對(duì)句子中詞類的N元的評(píng)分。這樣就可以將原來的句子向量表示為帶有注意力分值的詞類和詞類N元模型,如式(4):

    一般來說,這里的句子向量是注意力分值所有向量以權(quán)重加權(quán)和所得,它的權(quán)重是隨著注意力網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)生成的,不同句子的詞類N 元模型的權(quán)重是不一樣的。注意力網(wǎng)絡(luò)會(huì)隨著訓(xùn)練分類準(zhǔn)確率的提升動(dòng)態(tài)地為每一個(gè)詞類N元模型進(jìn)行評(píng)分。經(jīng)過注意力層和N 元句子向量化表示后,得到了帶有注意力分值的句子向量。接下來需要使用分類器對(duì)這些句子進(jìn)行分類。

    1.4 語(yǔ)體分類

    本文使用多層感知機(jī)(Multi-Layer Perceptron,MLP)對(duì)語(yǔ)體進(jìn)行分類。MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò),一般由輸入層、隱藏層和輸出層組成,每層都有很多個(gè)神經(jīng)元。MLP 通過使用后向傳播的有監(jiān)督算法來訓(xùn)練和學(xué)習(xí)區(qū)分不同的語(yǔ)體。本文以句子向量si為輸入,返回不同語(yǔ)體的概率作為輸出。假設(shè)C是所有不同語(yǔ)體的集合,|C|是語(yǔ)體的數(shù)目。

    1)連接層。本文通過使用兩個(gè)完全連接的層來構(gòu)建一個(gè)高效簡(jiǎn)單的分類模塊,公式如下:

    其中:M1∈ Rt×vs,b1∈ Rt,M2∈ R|C|×t,b2∈ R|C|,這四個(gè)參數(shù)都是模型參數(shù),vs是句子向量si的大小,t是隱含層的大小,|C|是語(yǔ)體類別個(gè)數(shù)。pi向量表示句子屬于不同語(yǔ)體的非規(guī)范化概率,其中pi(j)為向量的第j個(gè)數(shù)表示句子si屬于語(yǔ)體j的非規(guī)范化概率,本文使用如下函數(shù)進(jìn)行歸一化:

    其中,p(cj|si)表示句子si屬于類別cj的概率。在本文類別指的是小說(0)、新聞(1)及課本(2)這三類。

    2)分類層。為了給出預(yù)測(cè)類別,選取最大p(cj|si)所對(duì)應(yīng)的類別cj作為模型預(yù)測(cè)類別,這就是圖1中的分類層。

    以上涉及的訓(xùn)練參數(shù)會(huì)在3.2 節(jié)的實(shí)驗(yàn)設(shè)置中逐一給出。

    另外,對(duì)于組合特征(“詞+詞類”、“詞+標(biāo)點(diǎn)符號(hào)”、“詞+詞類+標(biāo)點(diǎn)+句法結(jié)構(gòu)”)來說,由于詞類(32 種,具體含義見表12)、標(biāo)點(diǎn)符號(hào)(12種)及句法結(jié)構(gòu)(高頻的396種)的數(shù)量比較少,采用One-Hot 編碼表示,并取它們與詞嵌入向量的和表示組合特征向量。對(duì)于這幾類組合特征向量,只需用圖1 的左邊的模型重復(fù)上面的步驟即可。

    本文使用最常見的12 種標(biāo)點(diǎn)符號(hào),即,句號(hào)(。)、感嘆號(hào)(!)、問號(hào)(?)、省略號(hào)(……)、逗號(hào)(,)、頓號(hào)(、)、分號(hào)(;)、引號(hào)(“ ”‘ ’)、冒號(hào)(:)、括號(hào)(()[]{})、破折號(hào)(──)和書名號(hào)(《》〈〉)。

    2 研究過程

    本文的研究過程由以下幾個(gè)步驟組成:

    1)構(gòu)建語(yǔ)料庫(kù)。本文的研究對(duì)象是小說、新聞及課本,具體信息在3.1節(jié)語(yǔ)料庫(kù)介紹中詳細(xì)說明。

    2)語(yǔ)料預(yù)處理。本文語(yǔ)料的處理使用斯坦福大學(xué)所提供的自然語(yǔ)言處理工具包Stanford CoreNLP 進(jìn)行,主要包括數(shù)據(jù)清洗、切詞、詞性標(biāo)注、句法樹構(gòu)建等。其中,語(yǔ)料庫(kù)的處理以句子為單位,判斷句子的標(biāo)準(zhǔn)是以號(hào)(。)、問號(hào)(?)、感嘆號(hào)(!)及省略號(hào)(……)為結(jié)尾的句子。

    3)給每一個(gè)句子編號(hào)。通過建立特征字典,將語(yǔ)料庫(kù)中每一個(gè)句子所對(duì)應(yīng)的特征用其在字典中唯一的編號(hào)來表示,進(jìn)而將語(yǔ)料庫(kù)中所有的句子轉(zhuǎn)換為用特征編號(hào)來表示。

    4)注意力機(jī)制和多層感知機(jī)組合模型。這是注意力網(wǎng)絡(luò)的核心部分,其中,注意力機(jī)制對(duì)輸入句子進(jìn)行評(píng)分,其分值的大小隨著分類準(zhǔn)確率的變化而自動(dòng)調(diào)整,直到分類準(zhǔn)確率達(dá)到最優(yōu)而停止更新。而多層感知機(jī)是一個(gè)分類器,用于對(duì)句子類別的預(yù)測(cè)。

    5)單現(xiàn)、共現(xiàn)處理。無需計(jì)算特征出現(xiàn)在每一種語(yǔ)體的次數(shù),對(duì)每一種語(yǔ)體中的所有特征求注意力分值的平均分值。

    6)特征選擇。通過繪制注意力網(wǎng)絡(luò)分值的分布曲線,找出每一種特征所對(duì)應(yīng)的注意力分值的閾值,進(jìn)而選擇出能區(qū)分小說、新聞及課本的關(guān)鍵特征。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 語(yǔ)料庫(kù)

    本文選取小說、新聞及課本三種語(yǔ)料,具體信息如下:

    1)小說。選取莫言和余華的小說,其中包括莫言的12 部小說:《白棉花》《豐乳肥臀》《紅高粱》《紅樹林》《酒神》《生死疲勞》《十三步》《食草家族》《四十一炮》《檀香刑》《天堂蒜薹之歌》及《蛙》;余華的8部小說:《第七天》《古典愛情》《活著》《現(xiàn)實(shí)一種》《兄弟》《兄弟2》《許三觀賣血記》及《在細(xì)雨中呼喊》。

    2)新聞。選取搜狗公開的語(yǔ)料集(https://www. sogou.com/labs/resource/list_yuliao. php),主要包含國(guó)內(nèi)外新聞、財(cái)經(jīng)、股票、房地產(chǎn)、健康、熱點(diǎn)、教育及社會(huì)等十個(gè)主題相關(guān)的新聞。

    3)課本。以中小學(xué)的語(yǔ)文教材為主,包括國(guó)內(nèi)外小說、散文、勵(lì)志故事、愛國(guó)故事、話劇等,例如:魯迅的《孔乙己》《阿Q正傳》《祥林嫂》及《故鄉(xiāng)》等;海明威的《海燕》;莎士比亞的《羅密歐與朱麗葉》;朱自清的散文《背影》及《匆匆》等。由此可以看出,課本包含的語(yǔ)體種類比較多,其目的通常是選取一些有代表性的文章來培養(yǎng)學(xué)生的聽說讀寫等能力。數(shù)據(jù)集詳細(xì)的統(tǒng)計(jì)信息見表1。

    表1 數(shù)據(jù)集信息Tab. 1 Dataset information

    3.2 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)將語(yǔ)料集按8∶1∶1 劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,驗(yàn)證集用來探索訓(xùn)練輪數(shù)且在過擬合的情況下提前結(jié)束訓(xùn)練。為了更好地訓(xùn)練模型,本文使用網(wǎng)格搜索來選擇模型參數(shù)的最優(yōu)組合,這些參數(shù)主要包括:學(xué)習(xí)率(learning rate)∈{0.001,0.01,0.1,1}和批量大?。╞atch size)∈{32,64,128,256,512},初始化向量的維度是128。另外,本文實(shí)驗(yàn)以句子為單位進(jìn)行訓(xùn)練分類,故需要設(shè)置句子長(zhǎng)度及每個(gè)詞用多少位來表示。小說和課本的平均句子長(zhǎng)度接近20,新聞的平均句子長(zhǎng)度接近30。因此,設(shè)置句子長(zhǎng)度集∈{10,20,30,40,50,80,100,120,130}。句子向量的大小是這三種語(yǔ)體特征的總數(shù),特征的維度大小設(shè)置為32。參數(shù)的最佳組合以黑色加粗顯示,對(duì)模型影響較小的其他參數(shù)則統(tǒng)一采用默認(rèn)值。對(duì)于用句法結(jié)構(gòu)表示的句子,在訓(xùn)練時(shí)將句子長(zhǎng)度大小改為200,其他參數(shù)不變。本文采用準(zhǔn)確率來評(píng)估模型的性能。

    3.3 結(jié)果及分析

    通過回答以下2個(gè)問題進(jìn)行實(shí)驗(yàn)結(jié)果分析。

    1)問題1:對(duì)詞、詞類、標(biāo)點(diǎn)符號(hào)及句法結(jié)構(gòu)來說,當(dāng)注意力分值為多大時(shí)才能很好地區(qū)分小說、新聞及課本。

    以訓(xùn)練詞特征的結(jié)果分析為例,將其注意力分值按照降序排列,然后取隊(duì)尾、隊(duì)首詞進(jìn)行分類,其準(zhǔn)確率隨取隊(duì)首、隊(duì)尾的詞的多少而變化,其變化曲線(包含訓(xùn)練集)如圖3所示。

    根據(jù)圖3分析如下:

    1)從圖(a)的隊(duì)首詞比,大約用隊(duì)首3%的高注意力分值詞就能使模型的分類準(zhǔn)確率達(dá)到90%以上,表明高分值的詞具有非常好的語(yǔ)體區(qū)分度。

    2)從圖(b)的隊(duì)尾詞可以看出,大約用隊(duì)尾97%的低注意力分值的詞才能使模型分類準(zhǔn)確率達(dá)到90%以上,表明低分值的詞對(duì)區(qū)分語(yǔ)體的幫助沒有高注意力分值的詞好。

    3)在一定程度上,無論是取隊(duì)尾詞還是隊(duì)首詞,有效的特征越多,其分類準(zhǔn)確率越高。

    上述結(jié)果驗(yàn)證了注意力分值具有很好的區(qū)分度,根據(jù)不同注意力分值詞的百分比和其對(duì)應(yīng)的準(zhǔn)確率,本文將注意力的分值分為高([0.15,1])、中([0.01,0.15))、低([0,0.01))三個(gè)區(qū)間,不同區(qū)間的詞頻占比及其對(duì)應(yīng)的準(zhǔn)確率見表2所示。從表2可以看出,低區(qū)分度的詞占大多數(shù)(約75%)所對(duì)應(yīng)的分類準(zhǔn)確率只有47.60%;而取高分值詞的4.21%,對(duì)應(yīng)的分類準(zhǔn)確率就達(dá)到93.31%。這說明在區(qū)分不同的語(yǔ)體時(shí),高分值的詞更有效。同時(shí)也說明了研究語(yǔ)體特征的意義:挖掘更多的具有高注意力分值的特征來提高語(yǔ)體分類準(zhǔn)確率,進(jìn)而實(shí)現(xiàn)語(yǔ)體特征的降維。

    圖3 隊(duì)尾與隊(duì)首詞百分比與準(zhǔn)確率的關(guān)系Fig.3 Relationship between accuracy and proportion of head/tail words of queue

    2)問題2:對(duì)詞、標(biāo)點(diǎn)符號(hào)、詞類及句法結(jié)構(gòu)來說,每一種特征區(qū)分小說、新聞及課本的能力如何。

    分別使用詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的組合特征表示語(yǔ)料,并將其作為輸入特征,經(jīng)過訓(xùn)練后得到的分類結(jié)果如表3所示。

    表3 基于語(yǔ)體特征的分類結(jié)果 單位:%Tab. 3 Classification results based on stylistic features unit:%

    根據(jù)表3的分類結(jié)果可以得出以下幾點(diǎn):

    1)對(duì)于每一種特征(詞的N元、詞類的N元、標(biāo)點(diǎn)符號(hào)的N元及句法結(jié)構(gòu))來說,分類的準(zhǔn)確率由高到低依次是:詞的2元、詞、句法結(jié)構(gòu)、詞類的2元、標(biāo)點(diǎn)符號(hào)的2元、標(biāo)點(diǎn)符號(hào)及詞類,這幾類特征都具有語(yǔ)體區(qū)分能力,但是每一種特征能區(qū)分小說、新聞及課本能力的大小并不相同。總體來說,詞和詞的2 元的分類準(zhǔn)確率相對(duì)比較高,這是因?yàn)橄啾容^詞類、標(biāo)點(diǎn)符號(hào)及句法結(jié)構(gòu),詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,且具有實(shí)際含義。詞的2 元特征是詞的組合,所以比詞含有更豐富的信息,因此詞的2 元分類準(zhǔn)確率最優(yōu)。句法結(jié)構(gòu)表示詞之間搭配規(guī)則,是詞語(yǔ)組成句子的必要結(jié)構(gòu),由它構(gòu)成的詞組既可以單獨(dú)成句,也可以是句子的組成成分。所以從這個(gè)角度來說,句法結(jié)構(gòu)具有較高的語(yǔ)體區(qū)分度。標(biāo)點(diǎn)符號(hào)不但具有表示句子停頓、結(jié)束等功能,還可以表達(dá)句子的語(yǔ)氣,尤其是句末標(biāo)點(diǎn)符號(hào)(感嘆號(hào)、疑問號(hào)、省略號(hào))等。然而,對(duì)于小說、新聞及課本來說,句子的語(yǔ)氣特征十分重要,而詞類的作用僅是指明詞的性質(zhì),所以與標(biāo)點(diǎn)符號(hào)相比,詞類語(yǔ)體區(qū)分度沒有標(biāo)點(diǎn)符號(hào)的好。但是,從表3 的分類結(jié)果來看,標(biāo)點(diǎn)符號(hào)的2元沒有詞類的2元的分類效果好,一方面是因?yàn)樵~類的種類(32)比標(biāo)點(diǎn)符號(hào)的種類(12)多,所以詞2 元的組合特征比標(biāo)點(diǎn)符號(hào)2 元的組合特征多,這就會(huì)導(dǎo)致基于標(biāo)點(diǎn)符號(hào)2 元訓(xùn)練的注意力網(wǎng)絡(luò)處于欠擬合,沒有達(dá)到最優(yōu)狀態(tài),故其效果不好;另一方面,詞類的2 元從某一種角度上來說,體現(xiàn)了詞之間的搭配共現(xiàn)規(guī)則,尤其是那些高頻率的詞類的2元。同樣,根據(jù)表3,作為表示詞之間搭配規(guī)則的句法結(jié)構(gòu)來說,基于它的分類準(zhǔn)確率高于標(biāo)點(diǎn)符號(hào),這說明詞之間的搭配規(guī)則在區(qū)分語(yǔ)體上也有重要的作用。所以結(jié)合這幾點(diǎn),詞類的2元比標(biāo)點(diǎn)符號(hào)的2元更具有語(yǔ)體區(qū)分度是合理的。

    2)對(duì)于組合特征來說,基于“詞+詞類+標(biāo)點(diǎn)符號(hào)+句法結(jié)構(gòu)”的分類效果最優(yōu),其次是“詞+詞類+標(biāo)點(diǎn)符號(hào)”,最后是“詞+詞類”。反過來看,每增加一類特征,所對(duì)應(yīng)的分類準(zhǔn)確率就有所提高,只是提高的程度有所不同,所以說每一類特征都具有語(yǔ)體區(qū)分度。這是因?yàn)槊恳活愄卣鞫际菑牟煌慕嵌确治稣Z(yǔ)體。這樣通過多類組合特征,就可以從多個(gè)角度區(qū)分語(yǔ)體,并根據(jù)其對(duì)應(yīng)的準(zhǔn)確率能很好掌握每一類特征對(duì)區(qū)分語(yǔ)體的影響。更進(jìn)一步說明了綜合考慮多種特征能夠更有效地區(qū)分開不同語(yǔ)體。

    接下來,用一個(gè)例子分析注意力分值在不同語(yǔ)體特征上的分布情況。選用基于“詞+詞類+標(biāo)點(diǎn)符號(hào)”訓(xùn)練后所得的注意力分值分布如圖4所示。在圖4中,分別選取了長(zhǎng)度差不多的4 個(gè)句子,其中,第一句來自小說(余華的《古典愛情》),第二句選自新聞(《上?;鼊F(tuán)的近況》),第三句和第四句選自課本(《修辭手法》和秦似的《榕樹的風(fēng)度》),之所以從課本中選取兩句是因?yàn)檎n本所包含的語(yǔ)體種類比較多,這樣可以進(jìn)一步了解注意力分值在不同語(yǔ)體總的分布情況。

    圖4 中灰度越深表示該特征的注意力分值越高,即該特征越重要。第一個(gè)句子的“柳生”顏色最深,根據(jù)右邊的注意力分值刻度值,發(fā)現(xiàn)其注意力分值大于0.15,所以“柳生”是這句話的關(guān)鍵詞,且符合該句的語(yǔ)義描述。我們知道,“柳生”是余華的小說《古典愛情》的主人公,該文全篇都是以“柳生”為主展開敘述的。同理,第二句來自新聞,是一篇有關(guān)于《上海滑稽劇團(tuán)的近況》的報(bào)道,講述了“滑稽劇團(tuán)”從產(chǎn)生、發(fā)展、興盛到衰敗的過程,從而感慨任何事物都要經(jīng)歷這樣的過程。故其關(guān)鍵詞是“滑稽”和“劇團(tuán)”。第三句是關(guān)于修辭方法的議論分析,故其關(guān)鍵詞是“修辭”。第四句,根據(jù)上下文含義,該句是作者看見榕樹在艱苦的環(huán)境中依然茁壯成長(zhǎng)有感而發(fā),并通過一個(gè)疑問句來強(qiáng)調(diào)“這個(gè)時(shí)候”榕樹十分美麗。由此可見,注意力網(wǎng)絡(luò)很好地學(xué)習(xí)到了這種情況下作者想表達(dá)的含義并對(duì)其進(jìn)行準(zhǔn)確的評(píng)分。

    圖4 注意力分值分布Fig. 4 Distribution of attention score

    4 特征語(yǔ)體區(qū)分度分析

    4.1 詞的語(yǔ)體區(qū)分度統(tǒng)計(jì)和分析

    詞是最小的語(yǔ)言運(yùn)用單位,且能獨(dú)立表達(dá)完整的意思。根據(jù)3.3節(jié)的問題1,選擇滿足條件的前幾個(gè)高注意力分值的詞進(jìn)行分析,高分值的詞如表4 所示。從表4 可以看出,小說的高分值詞大部分都是小說主人公的名字;新聞的詞主要是主題詞,如熱點(diǎn)、房?jī)r(jià)、股市,還有一些較為正式的詞,如表決、議案等;課本的關(guān)鍵詞是小說選篇的主人公的名詞、人物傳記名詞等。為了進(jìn)一步分析小說、新聞及課本詞的差異,下面將從詞的語(yǔ)義信息和詞之間的依存關(guān)系進(jìn)行深入分析。

    表6 小說主題詞的支配詞分布Tab. 6 Distribution of governing words of the topic words in novel

    以小說的主題詞“柳生”為例,選擇包含主題詞“柳生”的句子:“柳生赴京趕考,行走在一條黃色大道上。”建立相應(yīng)的依存樹,如圖5所示。

    表4 高注意力分值的詞Tab. 4 Words with high attention score

    4.1.1 主題詞分析

    為了進(jìn)一步分析小說、新聞及課本的關(guān)鍵詞,使用T 分布隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)降維算法將所提取關(guān)鍵詞的向量映射到二維平面內(nèi)表示,并選擇每一個(gè)簇中注意力分值最高的詞作為該簇的語(yǔ)義主題詞,如表5 所示。表5 中,小說的主題詞主要是主人公的名字(柳生、余占鰲)及地點(diǎn)名詞(高密、東北)為主;新聞主要是事件主題名(股市、經(jīng)濟(jì)、市場(chǎng)等)及核心人物(主席)等;課本的主題詞是人名(高爾基、列寧)、小說選篇的主人公名字(孔乙己、閏土)、議論文的主題詞(愛國(guó))等。

    表5 語(yǔ)義主題詞分布Tab. 5 Distribution of semantic topic words

    4.1.2 主題詞的支配詞分析

    依存關(guān)系表示句子中兩個(gè)詞之間的2 元關(guān)系,其中一個(gè)為核心詞,另一個(gè)為依存詞,反映的是核心詞和依存詞之間語(yǔ)義上的依賴關(guān)系。在不同的語(yǔ)體中,詞與詞之間的依存關(guān)系是否存在差異?已有研究[16]證明了依存句法關(guān)系能很好地區(qū)別不同的作者。本文挖掘主題詞與其支配詞之間的依存關(guān)系并按降序排列,結(jié)果如表6所示。

    圖5 依存樹Fig. 5 Dependency tree

    同1.2 節(jié)一樣,該句的依存樹也是調(diào)用斯坦福自然語(yǔ)言處理包完成的。對(duì)于圖5 中詞之間的相互依存關(guān)系用如下形式表示:

    依存關(guān)系名(支配詞位置,從屬詞位置)

    這里的“依存關(guān)系名”由斯坦福自然語(yǔ)言處理包中的依存句法關(guān)系給出,一共53 個(gè)。“從屬詞位置”是在依存句法樹中箭頭的結(jié)束詞(從屬詞),“位置”表示該詞在句子中的位置;相反“支配詞位置”是指依存關(guān)系中箭頭的開始詞(支配詞),例如,nsubj(赴京2,柳生1)表示“柳生”是“赴京”的名詞主語(yǔ)。同理,圖5例句中詞之間的依存關(guān)系表示如下:

    nsubj(赴京2,柳生1)

    Root(Root0,赴京2)

    dobj(赴京2,趕考3)

    punct(赴京2,4)

    conj(赴京2,行走5)

    nmod:prep(行走5,大道10)

    case(大道10,在6)

    nummod(大道10,一7)

    nummod(一7,條8)

    amod(大道10,黃色9)

    case(大道10,上11)

    分別統(tǒng)計(jì)小說、新聞及課本主題詞的從屬詞,并按照它們之間依存關(guān)系的個(gè)數(shù)由高到低排序,結(jié)果如表6~8所示。

    從表6 發(fā)現(xiàn),與小說主題詞有關(guān)的從屬詞種類最多是所屬修飾關(guān)系(poss),涉及的從屬詞主要包括身體器官、親屬關(guān)系、內(nèi)心活動(dòng)、性格特征、社會(huì)角色等。經(jīng)統(tǒng)計(jì),與小說主題詞相關(guān)的依存關(guān)系由高到低依次是nsubj、amod、dobj、poss,這些依存關(guān)系所對(duì)應(yīng)的從屬詞主要是以小說主人公為核心而展開的多角度描寫。

    結(jié)合表7,以新聞的主題詞“滑稽劇團(tuán)”為例分析新聞?wù)Z體的特征,與“滑稽劇團(tuán)”有關(guān)的從屬詞主要是時(shí)間詞(過去,目前、未來),地點(diǎn)詞(上海、全國(guó)),描述其發(fā)展?fàn)顟B(tài)詞(逐漸、緩慢、衰退),涉及的人主要有劇團(tuán)的管理人員和演員等。由此可以看出,新聞是以敘述事件發(fā)生的時(shí)間tmod、地點(diǎn)及現(xiàn)狀等為主的語(yǔ)體。

    表7 新聞主題詞的支配詞分布Tab. 7 Distribution of governing words of the topic words in news

    課本由多種語(yǔ)體組合而成,其主題詞的從屬詞分布如表8 所示。這里以課本主題詞“父親”為例分析。“父親”一詞出現(xiàn)最多的是朱自清的散文《背影》。統(tǒng)計(jì)“父親”有關(guān)的依存關(guān)系和與其對(duì)應(yīng)的從屬詞,主要包括:nsubj(戴著、探身、穿過、笑、招手)、advmod(慢慢、蹣跚、挺拔)、poss(背影、皺紋、臉、身體、心)等。通過與“父親”相關(guān)的從屬詞,可以感受到作者與父親之間濃濃的父子之情。

    表8 課本主題詞的支配詞分布Tab. 8 Distribution of governing words of the topic words in textbook

    經(jīng)過分析三種語(yǔ)體主題詞的從屬詞及它們之間的依存關(guān)系可以看出,通過語(yǔ)義層面依存關(guān)系的挖掘使三種語(yǔ)體的本質(zhì)特征已經(jīng)顯示出來了。此外,以上這些分析都是從詞之間的關(guān)系出發(fā)所得到的,而詞之間的搭配規(guī)則(句法結(jié)構(gòu))也是很重要的,接下來就從詞之間的搭配規(guī)則出發(fā),分析三種語(yǔ)體的差異。

    4.1.3 主題詞相關(guān)的句法結(jié)構(gòu)分析

    4.1.2 節(jié)討論的是與主題詞相關(guān)的從屬詞及它們之間的依存關(guān)系,發(fā)現(xiàn)從這個(gè)角度出發(fā),三種語(yǔ)體有較大的差異。本小節(jié)討論的是與主題詞搭配的規(guī)則(句法結(jié)構(gòu))有哪些,它們?cè)诓挥玫恼Z(yǔ)體中是否有差異。首先,對(duì)主題詞所在的句子建立句法樹,以小說的主題詞“柳生”為例,以句子“柳生赴京趕考,行走在一條黃色大道上。”構(gòu)建的句法樹如圖6 所示。其次,找出與“柳生”有關(guān)的句法結(jié)構(gòu):IP→NP VP,NP→NN,VP→VP PU VP,VP→VSB,VSB→VV VV,VP→VV PP,PP→P LCP,LCP→NP LC,NP→QP ADJP NP,QP→CD CLP,CLP→M,ADJP→JJ,NP→NN。最后,統(tǒng)計(jì)全文跟“柳生”有較高相似度的句法結(jié)構(gòu)并按降序排列。同理,對(duì)新聞、課本做相同的處理,得到與主題詞有關(guān)的句法結(jié)構(gòu)如表9所示。

    從表9 可以看出,與新聞主題詞有關(guān)的句法結(jié)構(gòu)最多,其次是小說,最后是課本。同樣,以小說主題詞“柳生”為例,與其有關(guān)的句法結(jié)構(gòu)“IP →NP VV”,結(jié)合圖5的句法樹和圖4的依存樹,這個(gè)句法結(jié)構(gòu)表明了“柳生”的動(dòng)作是“赴京”,從依附“赴京”的支配詞可以得知“柳生赴京”的目的是“趕考”。所以通過分析可以得到與小說語(yǔ)義主題詞(“柳生”)相關(guān)的句法結(jié)構(gòu)集及依存關(guān)系集,同時(shí)也可以得到與小說主題詞(“柳生”)相關(guān)的核心動(dòng)詞集及依存詞集,并對(duì)這些核心動(dòng)詞和依存詞分別進(jìn)行聚類,進(jìn)而得到與小說主題詞相關(guān)的核心動(dòng)詞塊及依存詞塊。對(duì)于新聞和課本也采用同樣的方法進(jìn)行研究。

    圖6 句法樹的例子Fig. 6 Example of syntactic tree

    表9 與主題詞相關(guān)的句法結(jié)構(gòu)(部分)Tab. 9 Syntactic structure related to topic words(part)

    通過對(duì)小說、新聞及課本的語(yǔ)義主題詞、依存關(guān)系及句法結(jié)構(gòu)之間的內(nèi)在聯(lián)系進(jìn)行分析,能讓讀者更加深刻地了解這三種語(yǔ)體每類特征之間的內(nèi)在聯(lián)系及它們所能反映的語(yǔ)體特征。

    4.2 詞的2元語(yǔ)體區(qū)分度分析

    在作者識(shí)別任務(wù)中,詞的N元能夠很好地區(qū)分不同的作者,那么,在語(yǔ)體分類任務(wù)中,詞的N元能否區(qū)分不同的語(yǔ)體。從表3 的分類結(jié)果可以看出,詞的2 元對(duì)應(yīng)的分類準(zhǔn)確率較高,所以詞的2 元具有語(yǔ)體區(qū)分度。與詞一樣,詞2 元的頻率分布與注意力分值及分類準(zhǔn)確率的關(guān)系如表10所示。

    表10 詞2元的分值區(qū)間、頻率及準(zhǔn)確率的分布 單位:%Tab. 10 Distribution of score interval,frequency and accuracy of bigrams of words unit:%

    從表10 可以看出,用6.64%高注意力分值(大于等于0.15)的詞的2 元就能使分類準(zhǔn)確率達(dá)到91.88%;而使用79.38%低注意力分值(小于等于0.01)的詞的2元,對(duì)應(yīng)的分類準(zhǔn)確率是46.25%,這說明高注意分值的詞的2 元具有更好的語(yǔ)體區(qū)分度。通過訓(xùn)練詞的2 元,所得的高注意力分值的詞的2元如表11所示。

    表11 高注意力分值的詞的2元Tab. 11 Bigrams of words with high attention score

    從表11 可以看出,在小說中,詞的2 元主要是“主語(yǔ)+動(dòng)詞”,例如:“鼠妹問”“福貴說”。經(jīng)統(tǒng)計(jì),小說中的動(dòng)詞多數(shù)是單音節(jié),如“說”“喊”“問”。因?yàn)榕c雙音節(jié)動(dòng)詞相比,單音節(jié)動(dòng)詞的動(dòng)作性比較強(qiáng),這充分體現(xiàn)了小說的另一面:以描寫人物行為動(dòng)作為主的語(yǔ)體。此外,小說中還有一些群體稱呼(“鄉(xiāng)親們”“姑娘們”)及一些口語(yǔ)化的詞或短語(yǔ)(“是嗎”“不知道”),所以小說也具有口語(yǔ)的特征。新聞詞的2元也是以“主語(yǔ)+動(dòng)詞”的結(jié)構(gòu)為主,例如:“劉代英坦言”“記者追問”“葉篤初表示”。與小說不同的是,這些動(dòng)詞大多數(shù)是雙音節(jié),所以這些動(dòng)詞比小說中的單音節(jié)動(dòng)詞更具有嚴(yán)謹(jǐn)性。例如:“表決”具有“說”的意思,但更多的是表示經(jīng)過思考以后所做出的決定,其形式比較正式,這與新聞的特點(diǎn)相符。此外,新聞中還有VV+NN 或NN+NN 形式的詞2 元比較多,且這兩個(gè)結(jié)構(gòu)中的無論名詞還是動(dòng)詞都傾向于雙音節(jié)詞。正如馮勝利所言,單雙音節(jié)詞具有語(yǔ)體區(qū)分度。由于課本包含多種語(yǔ)體形式,所以課本中的詞的2 元特點(diǎn)介于小說和新聞之間,其中小說部分類似于小說的特點(diǎn),事實(shí)類文章類似于新聞。對(duì)于課本中其他的語(yǔ)體,本文暫不作討論。

    4.3 詞類語(yǔ)體區(qū)分度分析

    本文使用詞類的含義見表12,詞類的作用是指明詞的性質(zhì),通過詞類可用了解每一種語(yǔ)體關(guān)注的重點(diǎn)。詞類在三個(gè)語(yǔ)體中的注意力平均分值如圖7所示,從中可以看出:

    1)三種語(yǔ)體的詞類分值分布趨勢(shì)相似,這說明每一種詞類的語(yǔ)體區(qū)分度是相對(duì)比較穩(wěn)定的。

    2)從詞類的分值大小來看,詞類整體的分值都比較小,這說明詞類具有較小的語(yǔ)體區(qū)分度。

    3)詞類的語(yǔ)體區(qū)分度由高到低依次是:ON、SB、IJ、LB、FW、MSP、DER、ETC、OD、BA、CS、DEV、VE、CC、SP、PN、VC、DEC、DT、JJ、NT、P、LC、AS、VA、CD、M、DEG、AD、VV。

    從表3 分類準(zhǔn)確率來看,基于詞類的分類準(zhǔn)確率不高,且從圖8 可以看出,三種語(yǔ)體的注意力分值分布幾乎重合在一起,這說明單純?cè)~類特征并不能很好地區(qū)分小說、新聞及課本。所以,本文借助卡方檢驗(yàn)來判斷詞類在三種語(yǔ)體中是否具有顯著差異。

    圖7 詞類的注意力分值分布Fig. 7 Attention score distribution of POS

    表12 賓州樹庫(kù)標(biāo)記Tab. 12 Symbols of Penn Treebank

    由于詞類是離散型數(shù)據(jù),且要檢驗(yàn)它與三種語(yǔ)體的顯著關(guān)系,故使用R x C 列聯(lián)表的卡方檢驗(yàn)來驗(yàn)證,其原理跟卡方檢驗(yàn)一樣,是卡方檢驗(yàn)的擴(kuò)展。檢驗(yàn)結(jié)果如表13 所示,其中,卡方值按降序排列。在卡方檢驗(yàn)中,特征的卡方值越大其在語(yǔ)體中就越顯著,經(jīng)過計(jì)算每一個(gè)詞類的卡方值,最后得出32 種詞類在三種語(yǔ)體中都有差異,這里選擇卡方值最大的NN(名詞)進(jìn)行分析,結(jié)果如表14所示。

    4.4 詞類的2元語(yǔ)體區(qū)分度分析

    與詞一樣,詞類的2 元也具有語(yǔ)體區(qū)分度,詞類的2 元保留了比詞類更多的詞與詞之間的共現(xiàn)信息。不同的詞類2 元平均注意力分值分布如圖8所示。本節(jié)主要分析詞類的2元,不包含標(biāo)點(diǎn)(即PU標(biāo)記)的詞類2元。

    從圖8可以看出,具有語(yǔ)體區(qū)分度的詞類的2元在三種語(yǔ)體中都是“NN+**”。從這三種語(yǔ)體詞類的2 元的數(shù)量來看,小說是20種,新聞是14種,課本是13種,即小說的2元結(jié)構(gòu)最豐富,其次是新聞,最后是課本。從搭配詞類的性質(zhì)來看,小說中與NN 搭配最顯著是CD(數(shù)詞),新聞中也是CD(數(shù)詞),而課本是VA(形容詞)。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),小說中的“NN CD”主要用于描述與人有關(guān)的特征,如“這娃20 了”;而新聞中的“NN CD”主要描述一個(gè)事件相關(guān)的特征,如“滑稽劇團(tuán)2012年開始衰退?!睆倪@個(gè)角度來看,詞類的2 元(NN CD)可以看作小說和新聞的特征。另外,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)數(shù)詞在新聞中出現(xiàn)了29 121 個(gè)、在小說中出現(xiàn)了6 826 個(gè),在課本中出現(xiàn)了2 378個(gè),從這個(gè)角度來說,與CD搭配的詞類的數(shù)量也存在著差異。對(duì)于詞類的2 元(NN VA)雖然在課本中較為顯著,但是它在新聞和小說中也存在,例如:

    小說:面色蒼白、副官瀟灑、高粱凄婉;

    新聞:情況充實(shí)、特征明顯、股市健康;

    課本:人多、花朵大、榴蓮貴、政策好;

    在課本中,像“多、大、貴、好、熱”等單音節(jié)形容詞比較多,其次是小說,最后是新聞,從這個(gè)角度來看,(NN VA)具有顯著差異是合理的。

    表13 詞類的卡方值分布Tab. 13 Distribution of Chi-square value of parts of speech

    表14 名詞(NN)的卡方檢驗(yàn)結(jié)果Tab. 14 Results of Chi-square test of nouns

    4.5 標(biāo)點(diǎn)符號(hào)語(yǔ)體區(qū)分度分析

    標(biāo)點(diǎn)符號(hào)是書面語(yǔ)的有機(jī)組成部分,主要用來表示句子的停頓、說話者語(yǔ)氣以及文本中詞語(yǔ)的性質(zhì)和作用。不同語(yǔ)體中標(biāo)點(diǎn)符號(hào)的使用頻率如圖9所示。

    從圖9 可以看出:逗號(hào)在小說中最多,其次是課本,最后是新聞;頓號(hào)在新聞中最多,其次是課本,最后是小說;引號(hào)在課本中最多,其次是小說,最后是新聞;感嘆號(hào)在小說中最多、其次是課本、最后是新聞;問號(hào)同感嘆號(hào)一樣,都是小說中最多,其次是課本,最后是新聞。實(shí)驗(yàn)觀察發(fā)現(xiàn)在新聞中,例如:“‘冰棍論’、‘靚女先嫁論’”這樣的句子結(jié)構(gòu)很多,通過頓號(hào)并列性質(zhì)相同的詞。引號(hào)主要出現(xiàn)在小說和課本的對(duì)話中,表示引出說話的內(nèi)容;而在新聞中,引號(hào)主要用來表示一些具有特殊含義的人和物,例如:“房奴”“寄生蟲”等。最后,感嘆號(hào)、問號(hào)、省略號(hào)這些帶有情感色彩的標(biāo)點(diǎn),在小說和課本中更多。

    圖10 給出了不同標(biāo)點(diǎn)符號(hào)在不同語(yǔ)體中的平均注意力分值分布??梢悦黠@觀察到,省略號(hào)、問號(hào)、感嘆號(hào)及冒號(hào)在三種語(yǔ)體中具有較大的語(yǔ)體區(qū)分性。由于標(biāo)點(diǎn)符號(hào)的注意力分類準(zhǔn)確率不高,與詞類類似,本文利用卡方檢驗(yàn)來檢驗(yàn)標(biāo)點(diǎn)符號(hào)在不同語(yǔ)體中的分布差異。

    根據(jù)卡方檢驗(yàn)的結(jié)果發(fā)現(xiàn),省略號(hào)、感嘆號(hào)、問號(hào)、頓號(hào)、句號(hào)、逗號(hào)、引號(hào)、破折號(hào)、冒號(hào)在三種語(yǔ)體中都具有顯著差異,而分號(hào)在三種語(yǔ)體中的差異不明顯。

    接下來以最為顯著的省略號(hào)為例,分析它在小說、新聞及課本中的分布差異。從數(shù)量上來說,小說中省略號(hào)出現(xiàn)了9 983 次,新聞中出現(xiàn)了101 次,課本中出現(xiàn)了2 188 次。從省略號(hào)出現(xiàn)的場(chǎng)景來看,小說和課本中大約有80%的省略號(hào)都用于對(duì)話中,剩余的20%主要用于表示人物內(nèi)心活動(dòng)及用于列舉內(nèi)容的省略等場(chǎng)景中。而在新聞中,省略號(hào)主要用于列舉內(nèi)容的省略,避免啰嗦。接下來,通過具體的例子來分析,三種語(yǔ)體中常用省略號(hào)的例子如表15 所示。從表15 可以看出,小說和課本中的省略號(hào)賦予情感色彩,例如:小說中,“鄉(xiāng)親們接應(yīng)我們來了,鄉(xiāng)親們來了……”,這句話來自莫言的《紅高粱》,講述的是:面對(duì)日本侵略者的絞殺,在走投無路的情況下,余占鰲對(duì)豆官所說的話,體現(xiàn)出當(dāng)時(shí)余占鰲看到來援救的相親們所表現(xiàn)出的欣喜和激動(dòng)。“我敬仰青松,但我卻更喜歡榕樹……”來自課本,選取秦似的《榕樹的風(fēng)度》。因?yàn)樵谠倪@句話的前半句寫了榕樹的品質(zhì)(榕樹魁偉、莊嚴(yán)、恬靜、安祥),為了避免內(nèi)容的重復(fù),所以后面的省略號(hào)省略了作者喜歡榕樹的原因。在新聞中,例句中的省略號(hào)省略了中國(guó)其他地方房?jī)r(jià)上漲情況,僅僅是列舉內(nèi)容的省略,不帶有任何情感色彩。所以,從這個(gè)角度來看,省略號(hào)在三種語(yǔ)體中具有顯著差異。

    圖8 詞類2元的注意力分值分布Fig. 8 Attention score distribution of bigrams of POS

    圖9 標(biāo)點(diǎn)符號(hào)的頻率分布Fig. 9 Frequency distribution of punctuations

    4.6 標(biāo)點(diǎn)符號(hào)2元語(yǔ)體區(qū)分度分析

    本文忽略詞,將連續(xù)出現(xiàn)的兩個(gè)標(biāo)點(diǎn)符號(hào)視為標(biāo)點(diǎn)符號(hào)的2 元,它能反映句子的結(jié)構(gòu)和語(yǔ)氣等信息,其注意力分值分布如圖11所示,其中橫軸表示標(biāo)點(diǎn)符號(hào)的2元序號(hào),相應(yīng)的對(duì)應(yīng)關(guān)系如表16所示。

    圖10 標(biāo)點(diǎn)符號(hào)的注意分值分布Fig. 10 Attention score distribution of punctuations

    表15 省略號(hào)在不同語(yǔ)體的例子Tab. 15 Examples of ellipsis in different registers

    從圖11 可以看出,小說中與省略號(hào)、感嘆號(hào)、問號(hào)及引號(hào)組成的2元特征比較多。其中,標(biāo)點(diǎn)符號(hào)的這些2元特征大部分來自人物對(duì)話或描述人物內(nèi)心活動(dòng)的句子。新聞中與省略號(hào)、感嘆號(hào)及問號(hào)組成的2 元特征主要用于對(duì)新聞事件相關(guān)的人物記錄,屬于客觀陳述,不帶任何情感色彩,這與新聞嚴(yán)謹(jǐn)?shù)男再|(zhì)相符。而在課本中,這些2 元特征以對(duì)話和內(nèi)心感悟?yàn)橹?,進(jìn)而引發(fā)學(xué)生思考,這與課本的目的相符。

    圖11 標(biāo)點(diǎn)符號(hào)2元的注意力分值分布Fig. 11 Attention score distribution of bigrams of punctuations

    表16 標(biāo)點(diǎn)符號(hào)的2元映射示例說明Tab. 16 Explanation of the example of binary mapping of punctuations

    通過以上各種統(tǒng)計(jì)和詳細(xì)分析,本文將一元特征匯總?cè)绫?7、18 所示,其中:星號(hào)(*)表示該語(yǔ)體的顯著特征,空白表示該特征在語(yǔ)體中不顯著。這些主要是詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及依存關(guān)系。

    2 元特征是這些一元特征的組合,種類多且復(fù)雜,本文不再列出。

    表17 語(yǔ)體的特征(詞、詞類)匯總Tab. 17 Summary of stylistic features(words,POS)

    表18 語(yǔ)體的特征(標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)、依存關(guān)系)匯總Tab. 18 Summary of stylistic features(punctuations,syntactic structures,dependency relationships)

    5 結(jié)語(yǔ)

    本文利用注意力網(wǎng)絡(luò)模型提取能區(qū)分小說、新聞及課本的詞、詞類、標(biāo)點(diǎn)符號(hào)、語(yǔ)法結(jié)構(gòu)及它們的N(N= 1,2)元特征。相較其他三類特征,詞匯特征更能直接反映出不同語(yǔ)體的區(qū)別,所以針對(duì)詞匯特征,本文進(jìn)行了深入分析(語(yǔ)義分析、依存關(guān)系和句法結(jié)構(gòu));對(duì)于詞類和標(biāo)點(diǎn)符號(hào),由于注意力網(wǎng)絡(luò)的分類準(zhǔn)確率并不高,所以結(jié)合卡方檢驗(yàn)一起分析。對(duì)于句法結(jié)構(gòu),借助句法樹,將其序列化后,通過訓(xùn)練注意力網(wǎng)絡(luò)挖掘出能區(qū)分不同語(yǔ)體的句法結(jié)構(gòu)集。最后,通過多輪組合特征的訓(xùn)練,不但得到了每一種語(yǔ)體的關(guān)鍵特征集,而且還得出了每一種特征對(duì)不同語(yǔ)體的重要性。接下來將在以下幾個(gè)方面進(jìn)行改進(jìn)工作:

    1)提取能區(qū)分不同語(yǔ)體的其他特征。

    2)分析影響注意力網(wǎng)絡(luò)評(píng)分的因素,例如:句長(zhǎng),從而可以更好地完善模型。

    3)改進(jìn)注意力網(wǎng)絡(luò)模型,將詞在句子中的位置信息也考慮進(jìn)來。

    猜你喜歡
    句法結(jié)構(gòu)詞類語(yǔ)體
    用詞類活用法擴(kuò)充詞匯量
    基于語(yǔ)料庫(kù)“隱秘”的詞類標(biāo)注初步探究
    從成語(yǔ)中學(xué)習(xí)詞類活用
    現(xiàn)代漢語(yǔ)句法結(jié)構(gòu)解讀
    山西青年(2017年7期)2017-01-29 18:25:26
    《基本句法結(jié)構(gòu):無特征句法》評(píng)介
    基于“字本位”理論再談漢語(yǔ)詞類問題
    語(yǔ)言表達(dá)與語(yǔ)體選擇
    語(yǔ)體語(yǔ)法:從“在”字句的語(yǔ)體特征說開去
    語(yǔ)體轉(zhuǎn)化的量度與語(yǔ)體規(guī)范
    漢代語(yǔ)體思想淺談
    欧美另类亚洲清纯唯美| 国产伦在线观看视频一区| 757午夜福利合集在线观看| 黄网站色视频无遮挡免费观看| 亚洲第一av免费看| 久久中文字幕人妻熟女| 人人妻人人澡人人看| 91大片在线观看| 精品高清国产在线一区| 久热爱精品视频在线9| 国产精品久久久久久亚洲av鲁大| 日本精品一区二区三区蜜桃| 欧美黑人巨大hd| 亚洲欧美激情综合另类| 一级毛片精品| 精品国产亚洲在线| 久久精品夜夜夜夜夜久久蜜豆 | 国产精品香港三级国产av潘金莲| 久久中文字幕人妻熟女| 亚洲人成伊人成综合网2020| 99国产精品99久久久久| 国产一级毛片七仙女欲春2 | 久久久久精品国产欧美久久久| 欧美 亚洲 国产 日韩一| 人妻久久中文字幕网| xxx96com| 亚洲一区二区三区色噜噜| 国产精品免费一区二区三区在线| 国产亚洲av嫩草精品影院| 色尼玛亚洲综合影院| 婷婷亚洲欧美| 久久精品夜夜夜夜夜久久蜜豆 | 禁无遮挡网站| xxx96com| 亚洲 欧美 日韩 在线 免费| 欧美黑人欧美精品刺激| 青草久久国产| 精品一区二区三区av网在线观看| 老汉色∧v一级毛片| 久久久久久久久久黄片| 国产欧美日韩一区二区精品| 久久热在线av| netflix在线观看网站| 一本大道久久a久久精品| 午夜激情福利司机影院| 亚洲国产精品久久男人天堂| 50天的宝宝边吃奶边哭怎么回事| 色婷婷久久久亚洲欧美| 日韩欧美国产一区二区入口| 国产蜜桃级精品一区二区三区| 国产私拍福利视频在线观看| 此物有八面人人有两片| netflix在线观看网站| 搡老熟女国产l中国老女人| 老鸭窝网址在线观看| 大香蕉久久成人网| 国产高清有码在线观看视频 | 亚洲av熟女| 少妇被粗大的猛进出69影院| 久久国产乱子伦精品免费另类| 精品一区二区三区视频在线观看免费| 国产单亲对白刺激| 黄片大片在线免费观看| 欧美日韩乱码在线| 一二三四社区在线视频社区8| 午夜福利欧美成人| 免费在线观看影片大全网站| 在线观看66精品国产| 亚洲最大成人中文| 91老司机精品| 一本大道久久a久久精品| 麻豆成人av在线观看| 老司机在亚洲福利影院| 12—13女人毛片做爰片一| 大型黄色视频在线免费观看| 国产av一区二区精品久久| 亚洲精品粉嫩美女一区| 丝袜人妻中文字幕| 婷婷丁香在线五月| 又黄又粗又硬又大视频| 国产爱豆传媒在线观看 | 99久久综合精品五月天人人| 欧美最黄视频在线播放免费| 国产精品免费视频内射| 国产三级在线视频| 免费电影在线观看免费观看| 黄频高清免费视频| 99久久国产精品久久久| 特大巨黑吊av在线直播 | 18禁黄网站禁片免费观看直播| 在线免费观看的www视频| 日韩欧美免费精品| 18禁黄网站禁片午夜丰满| 日本三级黄在线观看| 国产成人精品久久二区二区免费| 亚洲欧美精品综合一区二区三区| 国产一区在线观看成人免费| or卡值多少钱| 欧美色视频一区免费| 国产精品野战在线观看| 亚洲国产日韩欧美精品在线观看 | 女人爽到高潮嗷嗷叫在线视频| 黄网站色视频无遮挡免费观看| 村上凉子中文字幕在线| 国产黄a三级三级三级人| 国产精品久久久久久人妻精品电影| 亚洲一卡2卡3卡4卡5卡精品中文| 久久伊人香网站| 亚洲国产欧美网| 午夜两性在线视频| 午夜福利高清视频| 天天躁狠狠躁夜夜躁狠狠躁| 久久中文看片网| 18禁美女被吸乳视频| 青草久久国产| 精品一区二区三区av网在线观看| 夜夜看夜夜爽夜夜摸| 国产真人三级小视频在线观看| 女性生殖器流出的白浆| 成年人黄色毛片网站| 亚洲第一欧美日韩一区二区三区| 中文字幕av电影在线播放| 亚洲国产精品合色在线| 久久国产乱子伦精品免费另类| av天堂在线播放| 宅男免费午夜| 日日干狠狠操夜夜爽| 日本熟妇午夜| 在线视频色国产色| 亚洲精华国产精华精| 精品久久久久久久久久免费视频| 日韩中文字幕欧美一区二区| 国产午夜精品久久久久久| 精品久久久久久久末码| 精品日产1卡2卡| 精品国内亚洲2022精品成人| 免费无遮挡裸体视频| 久久欧美精品欧美久久欧美| 国产av不卡久久| 国产精华一区二区三区| 国产精品久久电影中文字幕| 黄色毛片三级朝国网站| 国内少妇人妻偷人精品xxx网站 | 嫁个100分男人电影在线观看| 欧美色欧美亚洲另类二区| 久久久久国产一级毛片高清牌| 成人欧美大片| 国产爱豆传媒在线观看 | 久热这里只有精品99| 亚洲九九香蕉| 欧美色欧美亚洲另类二区| 日日爽夜夜爽网站| 久久久久久九九精品二区国产 | 极品教师在线免费播放| 日韩有码中文字幕| 精品一区二区三区av网在线观看| 精品少妇一区二区三区视频日本电影| 国产高清激情床上av| 久久中文字幕人妻熟女| 一级作爱视频免费观看| 亚洲人成网站高清观看| 777久久人妻少妇嫩草av网站| 国产野战对白在线观看| 麻豆av在线久日| 99久久精品国产亚洲精品| 成人国产综合亚洲| 亚洲激情在线av| 黄色视频,在线免费观看| 欧洲精品卡2卡3卡4卡5卡区| 色婷婷久久久亚洲欧美| 国产真人三级小视频在线观看| 亚洲五月婷婷丁香| 国产99久久九九免费精品| 一级a爱视频在线免费观看| 亚洲国产欧洲综合997久久, | 黑人欧美特级aaaaaa片| 国产男靠女视频免费网站| 琪琪午夜伦伦电影理论片6080| 国产亚洲av嫩草精品影院| 国产麻豆成人av免费视频| 婷婷亚洲欧美| 久热这里只有精品99| 99久久无色码亚洲精品果冻| 黑人欧美特级aaaaaa片| 熟女电影av网| 国产三级黄色录像| 很黄的视频免费| 人人妻人人看人人澡| 男人舔女人的私密视频| or卡值多少钱| 国内精品久久久久久久电影| 91在线观看av| av中文乱码字幕在线| 露出奶头的视频| 黄色片一级片一级黄色片| 成人欧美大片| 午夜视频精品福利| 天天添夜夜摸| 久久久精品国产亚洲av高清涩受| 精品国产国语对白av| ponron亚洲| 中文字幕人妻丝袜一区二区| 一本一本综合久久| 亚洲精品av麻豆狂野| 天天躁夜夜躁狠狠躁躁| 精品国产乱码久久久久久男人| 日本撒尿小便嘘嘘汇集6| 真人做人爱边吃奶动态| 嫩草影视91久久| 日韩三级视频一区二区三区| 欧美色欧美亚洲另类二区| 亚洲午夜理论影院| 无遮挡黄片免费观看| 亚洲成av片中文字幕在线观看| 岛国视频午夜一区免费看| 日韩有码中文字幕| 国产精品亚洲美女久久久| 午夜免费成人在线视频| av在线天堂中文字幕| 两人在一起打扑克的视频| 精品高清国产在线一区| 免费看a级黄色片| av在线天堂中文字幕| 两人在一起打扑克的视频| 色播在线永久视频| 日本五十路高清| 19禁男女啪啪无遮挡网站| 一本一本综合久久| 国产激情偷乱视频一区二区| 免费看a级黄色片| 丰满的人妻完整版| 久久天躁狠狠躁夜夜2o2o| 亚洲国产精品久久男人天堂| 一级黄色大片毛片| 亚洲精品色激情综合| 精品久久久久久久末码| 色婷婷久久久亚洲欧美| 他把我摸到了高潮在线观看| 午夜精品在线福利| 国产1区2区3区精品| 欧美黑人精品巨大| 视频在线观看一区二区三区| √禁漫天堂资源中文www| 欧美日韩精品网址| 中文字幕人妻丝袜一区二区| 欧美色视频一区免费| 中文字幕高清在线视频| 12—13女人毛片做爰片一| 成人免费观看视频高清| 亚洲黑人精品在线| 91九色精品人成在线观看| 亚洲精品一区av在线观看| 亚洲国产精品合色在线| 两个人免费观看高清视频| 国产精品 国内视频| 桃色一区二区三区在线观看| 亚洲av片天天在线观看| 日韩欧美 国产精品| 午夜福利在线观看吧| 91在线观看av| 淫秽高清视频在线观看| 精品国产乱子伦一区二区三区| 国产又色又爽无遮挡免费看| av福利片在线| 欧美三级亚洲精品| a级毛片在线看网站| 亚洲午夜理论影院| 国产精品一区二区三区四区久久 | 不卡一级毛片| 女生性感内裤真人,穿戴方法视频| 黄色丝袜av网址大全| 国产视频一区二区在线看| 黄片小视频在线播放| 两性夫妻黄色片| 精品国产乱子伦一区二区三区| 国内少妇人妻偷人精品xxx网站 | 真人做人爱边吃奶动态| 91字幕亚洲| 成人亚洲精品一区在线观看| 中文字幕人妻熟女乱码| 一本综合久久免费| 男女做爰动态图高潮gif福利片| 欧美黑人巨大hd| 九色国产91popny在线| 女性被躁到高潮视频| 国产精品香港三级国产av潘金莲| 亚洲五月天丁香| 正在播放国产对白刺激| 日韩中文字幕欧美一区二区| 在线天堂中文资源库| 在线看三级毛片| 老熟妇乱子伦视频在线观看| 一进一出好大好爽视频| 一本一本综合久久| 香蕉久久夜色| 少妇被粗大的猛进出69影院| 国产极品粉嫩免费观看在线| 中文字幕精品免费在线观看视频| 天天添夜夜摸| 国产亚洲欧美精品永久| 又紧又爽又黄一区二区| 99在线人妻在线中文字幕| 中文字幕精品亚洲无线码一区 | 国产亚洲av高清不卡| 久久中文看片网| 好男人在线观看高清免费视频 | 亚洲国产精品成人综合色| 久久久久精品国产欧美久久久| 久久婷婷成人综合色麻豆| 成人免费观看视频高清| www国产在线视频色| 免费无遮挡裸体视频| 亚洲av美国av| 无人区码免费观看不卡| 欧美日韩精品网址| 久久久久久久久久黄片| 欧美日韩福利视频一区二区| 久久久久国产精品人妻aⅴ院| 国产免费av片在线观看野外av| 好男人在线观看高清免费视频 | 在线观看www视频免费| 国产一区二区在线av高清观看| x7x7x7水蜜桃| 欧美精品亚洲一区二区| 国产一区二区在线av高清观看| 国产97色在线日韩免费| 99国产精品一区二区三区| 久久精品国产亚洲av香蕉五月| 老鸭窝网址在线观看| 最近最新中文字幕大全电影3 | 亚洲国产看品久久| 精品欧美国产一区二区三| 人人妻人人看人人澡| 国产在线观看jvid| 久9热在线精品视频| 久久久久久久久中文| 国产精品九九99| 亚洲欧美精品综合久久99| 精品不卡国产一区二区三区| videosex国产| 欧美日韩亚洲国产一区二区在线观看| 亚洲成人久久性| 久久中文字幕人妻熟女| 中文字幕人妻熟女乱码| 一边摸一边做爽爽视频免费| 露出奶头的视频| 国产亚洲欧美精品永久| 亚洲精品在线美女| 极品教师在线免费播放| 91老司机精品| 99re在线观看精品视频| 欧美日韩福利视频一区二区| 精品福利观看| 美女午夜性视频免费| 欧美中文日本在线观看视频| 亚洲国产高清在线一区二区三 | 18禁美女被吸乳视频| 日韩欧美国产在线观看| 久久欧美精品欧美久久欧美| 日韩高清综合在线| 一区二区三区国产精品乱码| 变态另类丝袜制服| 欧美另类亚洲清纯唯美| 亚洲精品中文字幕在线视频| 国产黄色小视频在线观看| 级片在线观看| 欧美+亚洲+日韩+国产| 午夜福利在线观看吧| 国产激情欧美一区二区| 中文字幕人成人乱码亚洲影| 一本一本综合久久| 99国产精品一区二区三区| av中文乱码字幕在线| 99精品欧美一区二区三区四区| 人妻久久中文字幕网| 欧美日韩黄片免| 免费看美女性在线毛片视频| 男女那种视频在线观看| 97人妻精品一区二区三区麻豆 | 国产成人精品久久二区二区91| 久久久久精品国产欧美久久久| 欧美+亚洲+日韩+国产| 亚洲人成伊人成综合网2020| 久久国产精品影院| 露出奶头的视频| 欧洲精品卡2卡3卡4卡5卡区| 国产精品国产高清国产av| 色综合站精品国产| 日韩欧美在线二视频| 国产爱豆传媒在线观看 | 日韩视频一区二区在线观看| 日韩高清综合在线| 一本大道久久a久久精品| 一夜夜www| 精品国内亚洲2022精品成人| 午夜影院日韩av| 成人手机av| 国产精品亚洲美女久久久| 日韩精品免费视频一区二区三区| 少妇的丰满在线观看| 一进一出抽搐gif免费好疼| 最近最新中文字幕大全免费视频| 窝窝影院91人妻| 久久精品aⅴ一区二区三区四区| 女警被强在线播放| 久久国产亚洲av麻豆专区| 久久精品国产清高在天天线| 成人国语在线视频| 午夜福利高清视频| 高清毛片免费观看视频网站| 亚洲一区二区三区色噜噜| 欧美zozozo另类| 国产v大片淫在线免费观看| 精品久久久久久久人妻蜜臀av| 1024香蕉在线观看| 99久久综合精品五月天人人| 日本 av在线| 一进一出抽搐动态| 国产亚洲av高清不卡| 中文字幕另类日韩欧美亚洲嫩草| 丁香六月欧美| 久久亚洲精品不卡| 日韩一卡2卡3卡4卡2021年| 国产精品亚洲一级av第二区| 国产亚洲精品久久久久5区| 欧美丝袜亚洲另类 | 国产av不卡久久| 人妻久久中文字幕网| 免费av毛片视频| www国产在线视频色| 国产成人欧美| 18禁裸乳无遮挡免费网站照片 | 人人妻人人澡欧美一区二区| 真人一进一出gif抽搐免费| 熟妇人妻久久中文字幕3abv| 一个人观看的视频www高清免费观看 | 亚洲精品国产精品久久久不卡| 国产精品 欧美亚洲| 久久久久亚洲av毛片大全| 高清毛片免费观看视频网站| 激情在线观看视频在线高清| 国内毛片毛片毛片毛片毛片| 国产99久久九九免费精品| 嫩草影院精品99| 欧美一级a爱片免费观看看 | 国产又色又爽无遮挡免费看| 1024手机看黄色片| 久久精品人妻少妇| 国产精华一区二区三区| 精品不卡国产一区二区三区| 免费女性裸体啪啪无遮挡网站| 国产片内射在线| 国产亚洲精品第一综合不卡| 国产熟女午夜一区二区三区| 亚洲熟女毛片儿| 51午夜福利影视在线观看| 欧美 亚洲 国产 日韩一| 国产精品爽爽va在线观看网站 | 高清在线国产一区| 一边摸一边做爽爽视频免费| 三级毛片av免费| 欧美性长视频在线观看| 国产精品影院久久| 国产成人av教育| 亚洲精品国产区一区二| www.www免费av| 啦啦啦韩国在线观看视频| 午夜影院日韩av| 国产久久久一区二区三区| 色在线成人网| 美女 人体艺术 gogo| 身体一侧抽搐| 一区二区三区精品91| 免费无遮挡裸体视频| 日韩欧美免费精品| 国产99久久九九免费精品| 88av欧美| 久久久久久久久免费视频了| 久久精品aⅴ一区二区三区四区| 久久久久国产一级毛片高清牌| 女人高潮潮喷娇喘18禁视频| 国产真实乱freesex| 最好的美女福利视频网| 99热6这里只有精品| 国产一区二区三区视频了| 中国美女看黄片| 日韩精品中文字幕看吧| 99国产综合亚洲精品| 黄色毛片三级朝国网站| 99国产精品一区二区蜜桃av| 欧美绝顶高潮抽搐喷水| 亚洲人成77777在线视频| 成人欧美大片| 免费高清视频大片| 欧美性长视频在线观看| 免费女性裸体啪啪无遮挡网站| 91在线观看av| 叶爱在线成人免费视频播放| 午夜日韩欧美国产| 国产成人精品无人区| 在线十欧美十亚洲十日本专区| 精品久久久久久久毛片微露脸| 国产激情欧美一区二区| АⅤ资源中文在线天堂| 久久 成人 亚洲| 长腿黑丝高跟| 国产精品一区二区免费欧美| 免费电影在线观看免费观看| 日本三级黄在线观看| 草草在线视频免费看| 国产精品亚洲av一区麻豆| 国产精品,欧美在线| www.熟女人妻精品国产| 一a级毛片在线观看| 69av精品久久久久久| 热99re8久久精品国产| 黄色丝袜av网址大全| 亚洲人成网站高清观看| 一进一出抽搐gif免费好疼| 18禁美女被吸乳视频| 亚洲一区高清亚洲精品| 麻豆成人av在线观看| 国产午夜精品久久久久久| 国产97色在线日韩免费| 亚洲av片天天在线观看| 欧美黑人精品巨大| 1024手机看黄色片| 又黄又爽又免费观看的视频| 国产一区二区在线av高清观看| 99久久综合精品五月天人人| 国产精品综合久久久久久久免费| 亚洲一码二码三码区别大吗| 亚洲男人的天堂狠狠| 亚洲精品国产区一区二| 两个人视频免费观看高清| 黄色a级毛片大全视频| 久久国产乱子伦精品免费另类| 欧美黑人巨大hd| 美女国产高潮福利片在线看| 一夜夜www| 国产亚洲精品一区二区www| 亚洲va日本ⅴa欧美va伊人久久| 亚洲九九香蕉| netflix在线观看网站| 亚洲狠狠婷婷综合久久图片| 脱女人内裤的视频| 久久中文看片网| 久久久久精品国产欧美久久久| 国产蜜桃级精品一区二区三区| 99热这里只有精品一区 | 老司机深夜福利视频在线观看| 欧美成狂野欧美在线观看| 精品人妻1区二区| 久久久久精品国产欧美久久久| 亚洲狠狠婷婷综合久久图片| 日韩中文字幕欧美一区二区| 精品久久蜜臀av无| 久久香蕉国产精品| 老司机在亚洲福利影院| 精品一区二区三区四区五区乱码| 在线永久观看黄色视频| 成人永久免费在线观看视频| 国产亚洲av嫩草精品影院| 亚洲第一av免费看| 丁香六月欧美| 久久天躁狠狠躁夜夜2o2o| 欧美精品亚洲一区二区| 男女视频在线观看网站免费 | 国产精品 国内视频| 国产精品1区2区在线观看.| 麻豆av在线久日| 亚洲色图av天堂| 国产91精品成人一区二区三区| 免费在线观看黄色视频的| 精品国产超薄肉色丝袜足j| tocl精华| 欧美精品亚洲一区二区| 日本一区二区免费在线视频| 精品人妻1区二区| 三级毛片av免费| 亚洲成人精品中文字幕电影| 夜夜夜夜夜久久久久| 亚洲熟女毛片儿| 亚洲七黄色美女视频| 亚洲全国av大片| 精品无人区乱码1区二区| 国产精品影院久久| 美女 人体艺术 gogo| 午夜a级毛片| √禁漫天堂资源中文www| 午夜福利在线在线| 香蕉国产在线看| 午夜a级毛片| 午夜成年电影在线免费观看| 久久天堂一区二区三区四区| 看免费av毛片| 午夜免费观看网址| 中文字幕精品免费在线观看视频| 亚洲av熟女| 亚洲色图av天堂| 日韩高清综合在线| 国产真人三级小视频在线观看| 黄色丝袜av网址大全| 十八禁网站免费在线| 窝窝影院91人妻| a在线观看视频网站| 国产精品综合久久久久久久免费| 99久久精品国产亚洲精品| 成人av一区二区三区在线看| √禁漫天堂资源中文www| 欧美黑人欧美精品刺激| 人人妻人人看人人澡| 精品国产乱码久久久久久男人| ponron亚洲| e午夜精品久久久久久久|