吳海燕,劉 穎
(清華大學(xué)人文學(xué)院,北京100084)
語(yǔ)體是當(dāng)代語(yǔ)言學(xué)的重要范疇,是語(yǔ)言研究的一個(gè)不可忽視的領(lǐng)域,它是人們?cè)谑褂谜Z(yǔ)言時(shí)受到交際對(duì)象、目的、內(nèi)容、環(huán)境等交際條件的限制而形成的一些綜合的語(yǔ)言特點(diǎn)?;粜×ⅲ?]指出,語(yǔ)體特征是語(yǔ)體在受交際環(huán)境、目的和內(nèi)容影響而間接體現(xiàn)語(yǔ)體本質(zhì)的屬性集合。顧名思義,語(yǔ)體特征區(qū)分度是指特征能區(qū)分不同語(yǔ)體的能力。
語(yǔ)體特征作為語(yǔ)體的本質(zhì)屬性,具有一定的語(yǔ)體區(qū)分度。在之前的文獻(xiàn)中主要從兩方面進(jìn)行語(yǔ)體區(qū)分度的研究:一是根據(jù)語(yǔ)言學(xué)知識(shí)分析哪些特征具有語(yǔ)體區(qū)分度;二是借助計(jì)算機(jī)模型,通過分析分類準(zhǔn)確率或聚類離散程度等來說明哪些特征具有顯著語(yǔ)體區(qū)分度。根據(jù)以往研究方法的不同,本文將它們分為三類:語(yǔ)言學(xué)方法、統(tǒng)計(jì)學(xué)方法及神經(jīng)網(wǎng)絡(luò)方法。
1)語(yǔ)言學(xué)方法。很多語(yǔ)言學(xué)者對(duì)不同語(yǔ)體中具體的字、詞、特定短語(yǔ)、句法結(jié)構(gòu)、句類等都做了詳細(xì)的分析研究,并給出了哪些特征具有語(yǔ)體區(qū)分度。例如:2010 年陶紅印等[2]提出“把”字句和“被”字句在不同的語(yǔ)體中具有明顯的差異。馮勝利[3]通過對(duì)比研究口語(yǔ)和書面語(yǔ)的語(yǔ)體特征,最后指出單、雙音節(jié)是區(qū)別口語(yǔ)和書面語(yǔ)的基本單位。張?jiān)シ澹?]指出“得”在文藝語(yǔ)體、政論語(yǔ)體、科技語(yǔ)體和公文語(yǔ)體中頻率呈遞減趨勢(shì)。錢小飛[5]認(rèn)為“地”字結(jié)構(gòu)可用來區(qū)分不同的語(yǔ)體。句法作為漢語(yǔ)的語(yǔ)言結(jié)構(gòu)組成之一,方梅[6]認(rèn)為句法特征在不同語(yǔ)體的分布存在差異,它在宏觀上規(guī)定的句子語(yǔ)氣類型和功能類型也存在差異。此外,標(biāo)點(diǎn)符號(hào)也具有語(yǔ)體區(qū)分性,林毓霞[7]曾指出標(biāo)點(diǎn)符號(hào)的運(yùn)用同語(yǔ)體有著密切的關(guān)系,標(biāo)點(diǎn)符號(hào)種類的多寡、頻率的高低取決于語(yǔ)體的形式。
這些研究的共同點(diǎn)是通過語(yǔ)言學(xué)分析和基本的計(jì)量找出哪些字、詞、短語(yǔ)或句法結(jié)構(gòu)等特征具有語(yǔ)體區(qū)分度,并對(duì)其重要性進(jìn)行解釋說明。這些語(yǔ)言學(xué)家細(xì)致入微的語(yǔ)言學(xué)分析為后續(xù)學(xué)者的研究提供了重要的理論依據(jù),但這些分析說明是從語(yǔ)體內(nèi)在的含義出發(fā),需要逐詞逐句地分析和篩選例句,工作量大,耗時(shí)費(fèi)力,并且缺乏大規(guī)模數(shù)據(jù)上的統(tǒng)計(jì)驗(yàn)證。
2)統(tǒng)計(jì)學(xué)方法。隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者們逐漸開始借助統(tǒng)計(jì)學(xué)方法來提取語(yǔ)體特征并將其數(shù)字化表示,例如:頻率、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)等形式,并在此基礎(chǔ)上進(jìn)行分類和聚類,通過分析分類和聚類的準(zhǔn)確率來說明所選語(yǔ)體特征的重要性。胡駿飛等[8]借助詞頻來分析“弄”字句在會(huì)話口語(yǔ)、影視口語(yǔ)及書面語(yǔ)體中的分布,并得出詞類在一定程度上可以反映語(yǔ)體的重要程度,同時(shí)從語(yǔ)用功能的角度加以解釋說明。肖天久等[9]利用詞和詞的N 元文法相結(jié)合研究《紅樓夢(mèng)》前八十回與后四十回的關(guān)系,結(jié)論是前八十回與后四十回有差異,這說明詞和詞的N 元文法對(duì)判定語(yǔ)體有重要的作用,即詞和N 元文法具有語(yǔ)體區(qū)分度;但是該文作者并未直接給出這個(gè)區(qū)分語(yǔ)體能力的大小,而是通過使用聚類的離散程度來間接說明的。
這些方法的共同點(diǎn)是對(duì)所提取的特征都采用了數(shù)值量化表示,與語(yǔ)言學(xué)方法相比,特征的形式化表示很容易被計(jì)算機(jī)處理,并且也取得了很好的效果。事實(shí)上,從這些研究所選擇的特征類型來看,學(xué)者們已經(jīng)開始嘗試從更多的角度考慮特征的選擇,唯一不足的是這些特征需要人為選取,這就對(duì)研究人員的語(yǔ)言學(xué)知識(shí)有較高的要求。
3)神經(jīng)網(wǎng)絡(luò)方法。近些年來,基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法在很多領(lǐng)域都有出色的表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)來挖掘語(yǔ)體的重要特征也是學(xué)者們努力研究的方向。周浩[10]利用神經(jīng)網(wǎng)絡(luò)對(duì)句法結(jié)構(gòu)進(jìn)行分析,實(shí)驗(yàn)結(jié)果顯示與傳統(tǒng)方法相比,神經(jīng)網(wǎng)絡(luò)能挖掘更好的句法結(jié)構(gòu)來幫助分析語(yǔ)體。還有學(xué)者利用復(fù)雜神經(jīng)網(wǎng)絡(luò)挖掘語(yǔ)體的關(guān)鍵信息,例如Wang等[11]提出了一種基于雙向長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的關(guān)鍵詞自動(dòng)提取方法。通過對(duì)京東的產(chǎn)品評(píng)論進(jìn)行分析,所提取的關(guān)鍵詞能很好地區(qū)分不同種類的產(chǎn)品。此外,神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域也有很好的應(yīng)用,Bahdanau 等[12]將注意力機(jī)制應(yīng)用到翻譯領(lǐng)域,通過注意力機(jī)制找出每一句話的關(guān)鍵詞來幫助終端進(jìn)行翻譯,從而使翻譯效果得到了很大的提升。Pappas 等[13]將注意力機(jī)制應(yīng)用到詞和句子層面上,通過注意力機(jī)制找到能區(qū)分文本的關(guān)鍵詞和句子,從而提高了文檔分類的準(zhǔn)確率。
這些基于復(fù)雜神經(jīng)網(wǎng)絡(luò)的方法無論是在特征提取還是分類準(zhǔn)確率方面都有了很大的提升。深度學(xué)習(xí)可以自動(dòng)獲取語(yǔ)體本身的信息,并使用高維度的向量來表示所提取的特征,使其具有高維度的空間語(yǔ)義屬性[14]。這樣,語(yǔ)體特征的語(yǔ)義信息被挖掘出來,同時(shí)也極大地減少了人為參與。不足的是這些模型對(duì)硬件要求比較高,訓(xùn)練時(shí)間通常比較長(zhǎng)。
通過分析這些方法的優(yōu)缺點(diǎn),本文利用注意力機(jī)制和多層感知機(jī)的組合模型——注意力網(wǎng)絡(luò)來挖掘能區(qū)分不同語(yǔ)體的重要特征,結(jié)構(gòu)如圖1 所示。本文工作的核心是通過注意力網(wǎng)絡(luò)挖掘能區(qū)分小說、新聞及課本的詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的2 元特征,并對(duì)它們的重要性進(jìn)行量化表示與分析,主要工作是:
1)利用注意力網(wǎng)絡(luò)模型能挖掘出多種能區(qū)分小說、新聞及課本的特征集,主要包含:詞和詞的2 元、詞類和詞類2 元、標(biāo)點(diǎn)和標(biāo)點(diǎn)2 元、句法結(jié)構(gòu)以及多種特征組合,從多個(gè)語(yǔ)言層面上挖掘出小說、新聞和課本在詞匯、句法和語(yǔ)義使用上系統(tǒng)的差異。
2)從語(yǔ)義角度挖掘出小說、新聞及課本的主題詞及與其依存的從屬詞和句法結(jié)構(gòu);并進(jìn)一步挖掘出動(dòng)詞是三種特征內(nèi)在聯(lián)系的紐帶,同時(shí)證明了動(dòng)詞對(duì)語(yǔ)體的重要性;最后,還逐一挖掘了小說的主人公形象(身體器官、面部表情、內(nèi)心活動(dòng)、說話語(yǔ)氣、親屬稱呼、社會(huì)角色等)、新聞的事件報(bào)道(時(shí)間、地點(diǎn)、主題等)及課本的人物描寫和議論主題等的內(nèi)在聯(lián)系。
3)對(duì)注意力網(wǎng)絡(luò)進(jìn)行改進(jìn),使得它不但能夠挖掘序列化的特征,也能挖掘非序列化的句法結(jié)構(gòu);而且它能很好地挖掘出區(qū)分小說、新聞及課本的句法結(jié)構(gòu)集。
4)本文選用注意力網(wǎng)絡(luò)模型的優(yōu)點(diǎn)是:能夠挖掘出多種有效特征,同時(shí)還能給出每一種特征的語(yǔ)體區(qū)分度;能夠自動(dòng)過濾掉大量的冗余特征;能夠自動(dòng)過濾掉停用詞。
在計(jì)算機(jī)領(lǐng)域,深度學(xué)習(xí)已成為一種流行的方法,它在多個(gè)領(lǐng)域都顯示出了強(qiáng)大的建模能力[15]。在神經(jīng)網(wǎng)絡(luò)的模式設(shè)計(jì)中,有一種結(jié)構(gòu)被稱為注意力機(jī)制,它能自動(dòng)分析文本中不同信息的重要性。在自然語(yǔ)言處理領(lǐng)域,學(xué)者們將它與深度模型相結(jié)合已經(jīng)取得了顯著的成果。
本文借助注意力機(jī)制來挖掘具有顯著區(qū)分度的語(yǔ)體特征。這些特征主要包括:詞的N 元、詞類的N 元、標(biāo)點(diǎn)符號(hào)的N 元及句法結(jié)構(gòu)。首先,通過對(duì)由這些特征所表示的文本執(zhí)行分類訓(xùn)練,在訓(xùn)練的過程中,注意力機(jī)制會(huì)對(duì)這些特征進(jìn)行評(píng)分。這里,注意力機(jī)制的作用是找出哪些特征具有顯著的語(yǔ)體區(qū)分度并賦予相應(yīng)的注意力分值,分值越高就越能區(qū)分語(yǔ)體,即注意力機(jī)制分值越高該特征的語(yǔ)體區(qū)分度就越大。本文使用的注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要由輸入層、嵌入層、N 元向量層、注意力層、N 元句子向量層、連接層、分類層及輸出層組成。
圖1 注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Structure of attention network
圖1 示意的是將詞類或詞類的2 元作為輸入時(shí)的網(wǎng)絡(luò)結(jié)構(gòu)。在兩種情況下,均先將輸入的詞類通過嵌入層轉(zhuǎn)化為詞類向量。若對(duì)詞類1 元(即詞類)進(jìn)行評(píng)分,則詞類向量直接輸入到注意力層;若對(duì)詞類的2 元進(jìn)行評(píng)分,則詞類向量先通過N 元向量層組合產(chǎn)生N 元向量,再輸入到注意力層。最終,無論特征是詞類還是詞類的N 元,注意力網(wǎng)絡(luò)層將對(duì)輸入到全連接層的句子進(jìn)行分類。總的來說,圖1 注意力網(wǎng)絡(luò)結(jié)構(gòu)包含三個(gè)部分:模型特征輸入(輸入層、嵌入層及N 元向量層)、注意力機(jī)制特征評(píng)分(注意力層和N元句子向量層)及語(yǔ)體分類(連接層和分類層)。接下來,將詳細(xì)地介紹這三部分。
本節(jié)的主要目的是將由句子組成的語(yǔ)料集轉(zhuǎn)換成注意力網(wǎng)絡(luò)所要識(shí)別的特征(詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的組合)向量,主要包括輸入層、嵌入層及N元向量層。
1)輸入層。使用模型前,需要用特征表示語(yǔ)料集中的每一個(gè)句子。 首先,需要構(gòu)建特征對(duì)應(yīng)的字典W ={w1,w2,…,wn},n 表示文本的特征數(shù)。例如:想提取能區(qū)分小說、新聞及課本的詞匯特征,故此時(shí)的W 是所有詞的集合,n表示不同詞的數(shù)目。類似地,如果想要提取能識(shí)別小說、新聞及課本的詞類或標(biāo)點(diǎn)符號(hào)或句法結(jié)構(gòu)特征,此時(shí)的W 就是詞類或標(biāo)點(diǎn)符號(hào)或句法結(jié)構(gòu),對(duì)應(yīng)的n 就是這幾類特征各自的總個(gè)數(shù)。其次,將語(yǔ)料集的句子集用字典W中的特征表示,其中,L 表示語(yǔ)料集的句子數(shù),即S ={s1,s2,…,sL}。對(duì)每一個(gè)句子進(jìn)行切詞、詞性標(biāo)注及構(gòu)建句法樹如下:
其中:posi,j表示詞 wordi,j所對(duì)應(yīng)的詞性,i 表示句子在語(yǔ)料庫(kù)中的序號(hào),j 表示該詞類在當(dāng)前句子中的序號(hào);m 為句長(zhǎng);p 是句法樹經(jīng)過序列化處理(前序遍歷,即先訪問根節(jié)點(diǎn),然后訪問左子樹,最后訪問右子樹)后所得的句法結(jié)構(gòu)數(shù)。對(duì)于句法結(jié)構(gòu)的提取,需要借助句法樹來完成。
下面利用圖1 的例句來詳細(xì)說明以上幾種形式化表示。首先,使用斯坦福自然語(yǔ)言處理工具包CoreNLP 對(duì)句子si={俺閨女分房子…}分別進(jìn)行切詞、詞性標(biāo)注及構(gòu)建句法樹(圖2)得:
語(yǔ)料集中所有的句子分別用類似si-words、si-POS、si-Pun及si-syntax表示后輸入到嵌入層。
圖2 句法樹Fig. 2 Syntactic tree
2)嵌入層。該層是將句子特征轉(zhuǎn)化為向量,以詞特征為例,即:
其中:wi,j∈ Rv為詞 wi,j所對(duì)應(yīng)的向量(本文用粗體表示相應(yīng)特征的向量);φ 為特征空間到向量空間的映射,即φ:W → Rv,v 表示特征向量的維度,由3.2 節(jié)實(shí)驗(yàn)設(shè)置給出。詞向量由正態(tài)分布N(0,0.01)隨機(jī)初始化得到,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中會(huì)被訓(xùn)練優(yōu)化。
3)N 元向量層。該層是將嵌入層所得的特征向量按照N的大小拼接起來,以詞類的N 元為例:對(duì)于句子Si-words={wi,1,wi,2,…,wi,n} 所 對(duì) 應(yīng) 的 詞 類 表 示 為 Si-POS=,則 詞 類 的 k 元 表 示 為 Si-tag=,其中,gki,j表示句子的第 j 個(gè)詞類 k元,用粗體表示其向量,則它對(duì)應(yīng)的向量是:
經(jīng)過模型輸入部分得到句子特征的N 元向量,接下來需要利用注意力機(jī)制對(duì)其進(jìn)行評(píng)分。以圖1 詞類表示的句子為例,來闡述注意力機(jī)制的評(píng)分原理。
1)注意力層。首先,注意力機(jī)制通過全連接層計(jì)算出每一個(gè)句子的第j個(gè)詞類k元特征()的注意力向量。
其中:Ak∈ Rt×kv和bk∈ Rt是注意力網(wǎng)絡(luò)的參數(shù),分別為連接權(quán)重和偏置,t表示注意力網(wǎng)絡(luò)的隱含層的維度,v表示向量的維度,kv 表示向量gki,j的維度。其次,因?yàn)?Kalman 等[15]曾經(jīng)指出“具有非線性多項(xiàng)式激活函數(shù)的多層前饋網(wǎng)絡(luò)可以逼近任何函數(shù)”,因此為了使模型具有更好的擬合性,通常在全連接層之后增加一個(gè)非線性多項(xiàng)式激活函數(shù)。其中,uki,j是包含詞類k 元模型(k-Gram)重要性信息的隱藏注意向量。之后對(duì)注意力隱含向量進(jìn)行加權(quán)求和,公式如下:
其中:hk是權(quán)重,屬于注意力網(wǎng)絡(luò)參數(shù);uki,j是注意力機(jī)制給 k元的所打的分值。注意,uki,j∈ (-∞,∞),如果直接用的分值與其對(duì)應(yīng)的特征向量進(jìn)行加權(quán)求和來形成句子向量,那么隨著訓(xùn)練過程的進(jìn)行,句子向量的長(zhǎng)度和規(guī)模將失去控制趨向無窮大。所以,需要對(duì)句子向量進(jìn)行歸一化,本文使用函數(shù)規(guī)范化指數(shù)函數(shù)Softmax函數(shù)進(jìn)行歸一化。該函數(shù)將m -k + 1個(gè)實(shí)數(shù)作為輸入,并將其規(guī)范化為概率分布,公式如下:
2)N 元句子向量。通過式(1)~(3)完成了對(duì)句子中詞類的N元的評(píng)分。這樣就可以將原來的句子向量表示為帶有注意力分值的詞類和詞類N元模型,如式(4):
一般來說,這里的句子向量是注意力分值所有向量以權(quán)重加權(quán)和所得,它的權(quán)重是隨著注意力網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)生成的,不同句子的詞類N 元模型的權(quán)重是不一樣的。注意力網(wǎng)絡(luò)會(huì)隨著訓(xùn)練分類準(zhǔn)確率的提升動(dòng)態(tài)地為每一個(gè)詞類N元模型進(jìn)行評(píng)分。經(jīng)過注意力層和N 元句子向量化表示后,得到了帶有注意力分值的句子向量。接下來需要使用分類器對(duì)這些句子進(jìn)行分類。
本文使用多層感知機(jī)(Multi-Layer Perceptron,MLP)對(duì)語(yǔ)體進(jìn)行分類。MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò),一般由輸入層、隱藏層和輸出層組成,每層都有很多個(gè)神經(jīng)元。MLP 通過使用后向傳播的有監(jiān)督算法來訓(xùn)練和學(xué)習(xí)區(qū)分不同的語(yǔ)體。本文以句子向量si為輸入,返回不同語(yǔ)體的概率作為輸出。假設(shè)C是所有不同語(yǔ)體的集合,|C|是語(yǔ)體的數(shù)目。
1)連接層。本文通過使用兩個(gè)完全連接的層來構(gòu)建一個(gè)高效簡(jiǎn)單的分類模塊,公式如下:
其中:M1∈ Rt×vs,b1∈ Rt,M2∈ R|C|×t,b2∈ R|C|,這四個(gè)參數(shù)都是模型參數(shù),vs是句子向量si的大小,t是隱含層的大小,|C|是語(yǔ)體類別個(gè)數(shù)。pi向量表示句子屬于不同語(yǔ)體的非規(guī)范化概率,其中pi(j)為向量的第j個(gè)數(shù)表示句子si屬于語(yǔ)體j的非規(guī)范化概率,本文使用如下函數(shù)進(jìn)行歸一化:
其中,p(cj|si)表示句子si屬于類別cj的概率。在本文類別指的是小說(0)、新聞(1)及課本(2)這三類。
2)分類層。為了給出預(yù)測(cè)類別,選取最大p(cj|si)所對(duì)應(yīng)的類別cj作為模型預(yù)測(cè)類別,這就是圖1中的分類層。
以上涉及的訓(xùn)練參數(shù)會(huì)在3.2 節(jié)的實(shí)驗(yàn)設(shè)置中逐一給出。
另外,對(duì)于組合特征(“詞+詞類”、“詞+標(biāo)點(diǎn)符號(hào)”、“詞+詞類+標(biāo)點(diǎn)+句法結(jié)構(gòu)”)來說,由于詞類(32 種,具體含義見表12)、標(biāo)點(diǎn)符號(hào)(12種)及句法結(jié)構(gòu)(高頻的396種)的數(shù)量比較少,采用One-Hot 編碼表示,并取它們與詞嵌入向量的和表示組合特征向量。對(duì)于這幾類組合特征向量,只需用圖1 的左邊的模型重復(fù)上面的步驟即可。
本文使用最常見的12 種標(biāo)點(diǎn)符號(hào),即,句號(hào)(。)、感嘆號(hào)(!)、問號(hào)(?)、省略號(hào)(……)、逗號(hào)(,)、頓號(hào)(、)、分號(hào)(;)、引號(hào)(“ ”‘ ’)、冒號(hào)(:)、括號(hào)(()[]{})、破折號(hào)(──)和書名號(hào)(《》〈〉)。
本文的研究過程由以下幾個(gè)步驟組成:
1)構(gòu)建語(yǔ)料庫(kù)。本文的研究對(duì)象是小說、新聞及課本,具體信息在3.1節(jié)語(yǔ)料庫(kù)介紹中詳細(xì)說明。
2)語(yǔ)料預(yù)處理。本文語(yǔ)料的處理使用斯坦福大學(xué)所提供的自然語(yǔ)言處理工具包Stanford CoreNLP 進(jìn)行,主要包括數(shù)據(jù)清洗、切詞、詞性標(biāo)注、句法樹構(gòu)建等。其中,語(yǔ)料庫(kù)的處理以句子為單位,判斷句子的標(biāo)準(zhǔn)是以號(hào)(。)、問號(hào)(?)、感嘆號(hào)(!)及省略號(hào)(……)為結(jié)尾的句子。
3)給每一個(gè)句子編號(hào)。通過建立特征字典,將語(yǔ)料庫(kù)中每一個(gè)句子所對(duì)應(yīng)的特征用其在字典中唯一的編號(hào)來表示,進(jìn)而將語(yǔ)料庫(kù)中所有的句子轉(zhuǎn)換為用特征編號(hào)來表示。
4)注意力機(jī)制和多層感知機(jī)組合模型。這是注意力網(wǎng)絡(luò)的核心部分,其中,注意力機(jī)制對(duì)輸入句子進(jìn)行評(píng)分,其分值的大小隨著分類準(zhǔn)確率的變化而自動(dòng)調(diào)整,直到分類準(zhǔn)確率達(dá)到最優(yōu)而停止更新。而多層感知機(jī)是一個(gè)分類器,用于對(duì)句子類別的預(yù)測(cè)。
5)單現(xiàn)、共現(xiàn)處理。無需計(jì)算特征出現(xiàn)在每一種語(yǔ)體的次數(shù),對(duì)每一種語(yǔ)體中的所有特征求注意力分值的平均分值。
6)特征選擇。通過繪制注意力網(wǎng)絡(luò)分值的分布曲線,找出每一種特征所對(duì)應(yīng)的注意力分值的閾值,進(jìn)而選擇出能區(qū)分小說、新聞及課本的關(guān)鍵特征。
本文選取小說、新聞及課本三種語(yǔ)料,具體信息如下:
1)小說。選取莫言和余華的小說,其中包括莫言的12 部小說:《白棉花》《豐乳肥臀》《紅高粱》《紅樹林》《酒神》《生死疲勞》《十三步》《食草家族》《四十一炮》《檀香刑》《天堂蒜薹之歌》及《蛙》;余華的8部小說:《第七天》《古典愛情》《活著》《現(xiàn)實(shí)一種》《兄弟》《兄弟2》《許三觀賣血記》及《在細(xì)雨中呼喊》。
2)新聞。選取搜狗公開的語(yǔ)料集(https://www. sogou.com/labs/resource/list_yuliao. php),主要包含國(guó)內(nèi)外新聞、財(cái)經(jīng)、股票、房地產(chǎn)、健康、熱點(diǎn)、教育及社會(huì)等十個(gè)主題相關(guān)的新聞。
3)課本。以中小學(xué)的語(yǔ)文教材為主,包括國(guó)內(nèi)外小說、散文、勵(lì)志故事、愛國(guó)故事、話劇等,例如:魯迅的《孔乙己》《阿Q正傳》《祥林嫂》及《故鄉(xiāng)》等;海明威的《海燕》;莎士比亞的《羅密歐與朱麗葉》;朱自清的散文《背影》及《匆匆》等。由此可以看出,課本包含的語(yǔ)體種類比較多,其目的通常是選取一些有代表性的文章來培養(yǎng)學(xué)生的聽說讀寫等能力。數(shù)據(jù)集詳細(xì)的統(tǒng)計(jì)信息見表1。
表1 數(shù)據(jù)集信息Tab. 1 Dataset information
實(shí)驗(yàn)將語(yǔ)料集按8∶1∶1 劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,驗(yàn)證集用來探索訓(xùn)練輪數(shù)且在過擬合的情況下提前結(jié)束訓(xùn)練。為了更好地訓(xùn)練模型,本文使用網(wǎng)格搜索來選擇模型參數(shù)的最優(yōu)組合,這些參數(shù)主要包括:學(xué)習(xí)率(learning rate)∈{0.001,0.01,0.1,1}和批量大?。╞atch size)∈{32,64,128,256,512},初始化向量的維度是128。另外,本文實(shí)驗(yàn)以句子為單位進(jìn)行訓(xùn)練分類,故需要設(shè)置句子長(zhǎng)度及每個(gè)詞用多少位來表示。小說和課本的平均句子長(zhǎng)度接近20,新聞的平均句子長(zhǎng)度接近30。因此,設(shè)置句子長(zhǎng)度集∈{10,20,30,40,50,80,100,120,130}。句子向量的大小是這三種語(yǔ)體特征的總數(shù),特征的維度大小設(shè)置為32。參數(shù)的最佳組合以黑色加粗顯示,對(duì)模型影響較小的其他參數(shù)則統(tǒng)一采用默認(rèn)值。對(duì)于用句法結(jié)構(gòu)表示的句子,在訓(xùn)練時(shí)將句子長(zhǎng)度大小改為200,其他參數(shù)不變。本文采用準(zhǔn)確率來評(píng)估模型的性能。
通過回答以下2個(gè)問題進(jìn)行實(shí)驗(yàn)結(jié)果分析。
1)問題1:對(duì)詞、詞類、標(biāo)點(diǎn)符號(hào)及句法結(jié)構(gòu)來說,當(dāng)注意力分值為多大時(shí)才能很好地區(qū)分小說、新聞及課本。
以訓(xùn)練詞特征的結(jié)果分析為例,將其注意力分值按照降序排列,然后取隊(duì)尾、隊(duì)首詞進(jìn)行分類,其準(zhǔn)確率隨取隊(duì)首、隊(duì)尾的詞的多少而變化,其變化曲線(包含訓(xùn)練集)如圖3所示。
根據(jù)圖3分析如下:
1)從圖(a)的隊(duì)首詞比,大約用隊(duì)首3%的高注意力分值詞就能使模型的分類準(zhǔn)確率達(dá)到90%以上,表明高分值的詞具有非常好的語(yǔ)體區(qū)分度。
2)從圖(b)的隊(duì)尾詞可以看出,大約用隊(duì)尾97%的低注意力分值的詞才能使模型分類準(zhǔn)確率達(dá)到90%以上,表明低分值的詞對(duì)區(qū)分語(yǔ)體的幫助沒有高注意力分值的詞好。
3)在一定程度上,無論是取隊(duì)尾詞還是隊(duì)首詞,有效的特征越多,其分類準(zhǔn)確率越高。
上述結(jié)果驗(yàn)證了注意力分值具有很好的區(qū)分度,根據(jù)不同注意力分值詞的百分比和其對(duì)應(yīng)的準(zhǔn)確率,本文將注意力的分值分為高([0.15,1])、中([0.01,0.15))、低([0,0.01))三個(gè)區(qū)間,不同區(qū)間的詞頻占比及其對(duì)應(yīng)的準(zhǔn)確率見表2所示。從表2可以看出,低區(qū)分度的詞占大多數(shù)(約75%)所對(duì)應(yīng)的分類準(zhǔn)確率只有47.60%;而取高分值詞的4.21%,對(duì)應(yīng)的分類準(zhǔn)確率就達(dá)到93.31%。這說明在區(qū)分不同的語(yǔ)體時(shí),高分值的詞更有效。同時(shí)也說明了研究語(yǔ)體特征的意義:挖掘更多的具有高注意力分值的特征來提高語(yǔ)體分類準(zhǔn)確率,進(jìn)而實(shí)現(xiàn)語(yǔ)體特征的降維。
圖3 隊(duì)尾與隊(duì)首詞百分比與準(zhǔn)確率的關(guān)系Fig.3 Relationship between accuracy and proportion of head/tail words of queue
2)問題2:對(duì)詞、標(biāo)點(diǎn)符號(hào)、詞類及句法結(jié)構(gòu)來說,每一種特征區(qū)分小說、新聞及課本的能力如何。
分別使用詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及它們的組合特征表示語(yǔ)料,并將其作為輸入特征,經(jīng)過訓(xùn)練后得到的分類結(jié)果如表3所示。
表3 基于語(yǔ)體特征的分類結(jié)果 單位:%Tab. 3 Classification results based on stylistic features unit:%
根據(jù)表3的分類結(jié)果可以得出以下幾點(diǎn):
1)對(duì)于每一種特征(詞的N元、詞類的N元、標(biāo)點(diǎn)符號(hào)的N元及句法結(jié)構(gòu))來說,分類的準(zhǔn)確率由高到低依次是:詞的2元、詞、句法結(jié)構(gòu)、詞類的2元、標(biāo)點(diǎn)符號(hào)的2元、標(biāo)點(diǎn)符號(hào)及詞類,這幾類特征都具有語(yǔ)體區(qū)分能力,但是每一種特征能區(qū)分小說、新聞及課本能力的大小并不相同。總體來說,詞和詞的2 元的分類準(zhǔn)確率相對(duì)比較高,這是因?yàn)橄啾容^詞類、標(biāo)點(diǎn)符號(hào)及句法結(jié)構(gòu),詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,且具有實(shí)際含義。詞的2 元特征是詞的組合,所以比詞含有更豐富的信息,因此詞的2 元分類準(zhǔn)確率最優(yōu)。句法結(jié)構(gòu)表示詞之間搭配規(guī)則,是詞語(yǔ)組成句子的必要結(jié)構(gòu),由它構(gòu)成的詞組既可以單獨(dú)成句,也可以是句子的組成成分。所以從這個(gè)角度來說,句法結(jié)構(gòu)具有較高的語(yǔ)體區(qū)分度。標(biāo)點(diǎn)符號(hào)不但具有表示句子停頓、結(jié)束等功能,還可以表達(dá)句子的語(yǔ)氣,尤其是句末標(biāo)點(diǎn)符號(hào)(感嘆號(hào)、疑問號(hào)、省略號(hào))等。然而,對(duì)于小說、新聞及課本來說,句子的語(yǔ)氣特征十分重要,而詞類的作用僅是指明詞的性質(zhì),所以與標(biāo)點(diǎn)符號(hào)相比,詞類語(yǔ)體區(qū)分度沒有標(biāo)點(diǎn)符號(hào)的好。但是,從表3 的分類結(jié)果來看,標(biāo)點(diǎn)符號(hào)的2元沒有詞類的2元的分類效果好,一方面是因?yàn)樵~類的種類(32)比標(biāo)點(diǎn)符號(hào)的種類(12)多,所以詞2 元的組合特征比標(biāo)點(diǎn)符號(hào)2 元的組合特征多,這就會(huì)導(dǎo)致基于標(biāo)點(diǎn)符號(hào)2 元訓(xùn)練的注意力網(wǎng)絡(luò)處于欠擬合,沒有達(dá)到最優(yōu)狀態(tài),故其效果不好;另一方面,詞類的2 元從某一種角度上來說,體現(xiàn)了詞之間的搭配共現(xiàn)規(guī)則,尤其是那些高頻率的詞類的2元。同樣,根據(jù)表3,作為表示詞之間搭配規(guī)則的句法結(jié)構(gòu)來說,基于它的分類準(zhǔn)確率高于標(biāo)點(diǎn)符號(hào),這說明詞之間的搭配規(guī)則在區(qū)分語(yǔ)體上也有重要的作用。所以結(jié)合這幾點(diǎn),詞類的2元比標(biāo)點(diǎn)符號(hào)的2元更具有語(yǔ)體區(qū)分度是合理的。
2)對(duì)于組合特征來說,基于“詞+詞類+標(biāo)點(diǎn)符號(hào)+句法結(jié)構(gòu)”的分類效果最優(yōu),其次是“詞+詞類+標(biāo)點(diǎn)符號(hào)”,最后是“詞+詞類”。反過來看,每增加一類特征,所對(duì)應(yīng)的分類準(zhǔn)確率就有所提高,只是提高的程度有所不同,所以說每一類特征都具有語(yǔ)體區(qū)分度。這是因?yàn)槊恳活愄卣鞫际菑牟煌慕嵌确治稣Z(yǔ)體。這樣通過多類組合特征,就可以從多個(gè)角度區(qū)分語(yǔ)體,并根據(jù)其對(duì)應(yīng)的準(zhǔn)確率能很好掌握每一類特征對(duì)區(qū)分語(yǔ)體的影響。更進(jìn)一步說明了綜合考慮多種特征能夠更有效地區(qū)分開不同語(yǔ)體。
接下來,用一個(gè)例子分析注意力分值在不同語(yǔ)體特征上的分布情況。選用基于“詞+詞類+標(biāo)點(diǎn)符號(hào)”訓(xùn)練后所得的注意力分值分布如圖4所示。在圖4中,分別選取了長(zhǎng)度差不多的4 個(gè)句子,其中,第一句來自小說(余華的《古典愛情》),第二句選自新聞(《上?;鼊F(tuán)的近況》),第三句和第四句選自課本(《修辭手法》和秦似的《榕樹的風(fēng)度》),之所以從課本中選取兩句是因?yàn)檎n本所包含的語(yǔ)體種類比較多,這樣可以進(jìn)一步了解注意力分值在不同語(yǔ)體總的分布情況。
圖4 中灰度越深表示該特征的注意力分值越高,即該特征越重要。第一個(gè)句子的“柳生”顏色最深,根據(jù)右邊的注意力分值刻度值,發(fā)現(xiàn)其注意力分值大于0.15,所以“柳生”是這句話的關(guān)鍵詞,且符合該句的語(yǔ)義描述。我們知道,“柳生”是余華的小說《古典愛情》的主人公,該文全篇都是以“柳生”為主展開敘述的。同理,第二句來自新聞,是一篇有關(guān)于《上海滑稽劇團(tuán)的近況》的報(bào)道,講述了“滑稽劇團(tuán)”從產(chǎn)生、發(fā)展、興盛到衰敗的過程,從而感慨任何事物都要經(jīng)歷這樣的過程。故其關(guān)鍵詞是“滑稽”和“劇團(tuán)”。第三句是關(guān)于修辭方法的議論分析,故其關(guān)鍵詞是“修辭”。第四句,根據(jù)上下文含義,該句是作者看見榕樹在艱苦的環(huán)境中依然茁壯成長(zhǎng)有感而發(fā),并通過一個(gè)疑問句來強(qiáng)調(diào)“這個(gè)時(shí)候”榕樹十分美麗。由此可見,注意力網(wǎng)絡(luò)很好地學(xué)習(xí)到了這種情況下作者想表達(dá)的含義并對(duì)其進(jìn)行準(zhǔn)確的評(píng)分。
圖4 注意力分值分布Fig. 4 Distribution of attention score
詞是最小的語(yǔ)言運(yùn)用單位,且能獨(dú)立表達(dá)完整的意思。根據(jù)3.3節(jié)的問題1,選擇滿足條件的前幾個(gè)高注意力分值的詞進(jìn)行分析,高分值的詞如表4 所示。從表4 可以看出,小說的高分值詞大部分都是小說主人公的名字;新聞的詞主要是主題詞,如熱點(diǎn)、房?jī)r(jià)、股市,還有一些較為正式的詞,如表決、議案等;課本的關(guān)鍵詞是小說選篇的主人公的名詞、人物傳記名詞等。為了進(jìn)一步分析小說、新聞及課本詞的差異,下面將從詞的語(yǔ)義信息和詞之間的依存關(guān)系進(jìn)行深入分析。
表6 小說主題詞的支配詞分布Tab. 6 Distribution of governing words of the topic words in novel
以小說的主題詞“柳生”為例,選擇包含主題詞“柳生”的句子:“柳生赴京趕考,行走在一條黃色大道上。”建立相應(yīng)的依存樹,如圖5所示。
表4 高注意力分值的詞Tab. 4 Words with high attention score
4.1.1 主題詞分析
為了進(jìn)一步分析小說、新聞及課本的關(guān)鍵詞,使用T 分布隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)降維算法將所提取關(guān)鍵詞的向量映射到二維平面內(nèi)表示,并選擇每一個(gè)簇中注意力分值最高的詞作為該簇的語(yǔ)義主題詞,如表5 所示。表5 中,小說的主題詞主要是主人公的名字(柳生、余占鰲)及地點(diǎn)名詞(高密、東北)為主;新聞主要是事件主題名(股市、經(jīng)濟(jì)、市場(chǎng)等)及核心人物(主席)等;課本的主題詞是人名(高爾基、列寧)、小說選篇的主人公名字(孔乙己、閏土)、議論文的主題詞(愛國(guó))等。
表5 語(yǔ)義主題詞分布Tab. 5 Distribution of semantic topic words
4.1.2 主題詞的支配詞分析
依存關(guān)系表示句子中兩個(gè)詞之間的2 元關(guān)系,其中一個(gè)為核心詞,另一個(gè)為依存詞,反映的是核心詞和依存詞之間語(yǔ)義上的依賴關(guān)系。在不同的語(yǔ)體中,詞與詞之間的依存關(guān)系是否存在差異?已有研究[16]證明了依存句法關(guān)系能很好地區(qū)別不同的作者。本文挖掘主題詞與其支配詞之間的依存關(guān)系并按降序排列,結(jié)果如表6所示。
圖5 依存樹Fig. 5 Dependency tree
同1.2 節(jié)一樣,該句的依存樹也是調(diào)用斯坦福自然語(yǔ)言處理包完成的。對(duì)于圖5 中詞之間的相互依存關(guān)系用如下形式表示:
依存關(guān)系名(支配詞位置,從屬詞位置)
這里的“依存關(guān)系名”由斯坦福自然語(yǔ)言處理包中的依存句法關(guān)系給出,一共53 個(gè)。“從屬詞位置”是在依存句法樹中箭頭的結(jié)束詞(從屬詞),“位置”表示該詞在句子中的位置;相反“支配詞位置”是指依存關(guān)系中箭頭的開始詞(支配詞),例如,nsubj(赴京2,柳生1)表示“柳生”是“赴京”的名詞主語(yǔ)。同理,圖5例句中詞之間的依存關(guān)系表示如下:
nsubj(赴京2,柳生1)
Root(Root0,赴京2)
dobj(赴京2,趕考3)
punct(赴京2,4)
conj(赴京2,行走5)
nmod:prep(行走5,大道10)
case(大道10,在6)
nummod(大道10,一7)
nummod(一7,條8)
amod(大道10,黃色9)
case(大道10,上11)
分別統(tǒng)計(jì)小說、新聞及課本主題詞的從屬詞,并按照它們之間依存關(guān)系的個(gè)數(shù)由高到低排序,結(jié)果如表6~8所示。
從表6 發(fā)現(xiàn),與小說主題詞有關(guān)的從屬詞種類最多是所屬修飾關(guān)系(poss),涉及的從屬詞主要包括身體器官、親屬關(guān)系、內(nèi)心活動(dòng)、性格特征、社會(huì)角色等。經(jīng)統(tǒng)計(jì),與小說主題詞相關(guān)的依存關(guān)系由高到低依次是nsubj、amod、dobj、poss,這些依存關(guān)系所對(duì)應(yīng)的從屬詞主要是以小說主人公為核心而展開的多角度描寫。
結(jié)合表7,以新聞的主題詞“滑稽劇團(tuán)”為例分析新聞?wù)Z體的特征,與“滑稽劇團(tuán)”有關(guān)的從屬詞主要是時(shí)間詞(過去,目前、未來),地點(diǎn)詞(上海、全國(guó)),描述其發(fā)展?fàn)顟B(tài)詞(逐漸、緩慢、衰退),涉及的人主要有劇團(tuán)的管理人員和演員等。由此可以看出,新聞是以敘述事件發(fā)生的時(shí)間tmod、地點(diǎn)及現(xiàn)狀等為主的語(yǔ)體。
表7 新聞主題詞的支配詞分布Tab. 7 Distribution of governing words of the topic words in news
課本由多種語(yǔ)體組合而成,其主題詞的從屬詞分布如表8 所示。這里以課本主題詞“父親”為例分析。“父親”一詞出現(xiàn)最多的是朱自清的散文《背影》。統(tǒng)計(jì)“父親”有關(guān)的依存關(guān)系和與其對(duì)應(yīng)的從屬詞,主要包括:nsubj(戴著、探身、穿過、笑、招手)、advmod(慢慢、蹣跚、挺拔)、poss(背影、皺紋、臉、身體、心)等。通過與“父親”相關(guān)的從屬詞,可以感受到作者與父親之間濃濃的父子之情。
表8 課本主題詞的支配詞分布Tab. 8 Distribution of governing words of the topic words in textbook
經(jīng)過分析三種語(yǔ)體主題詞的從屬詞及它們之間的依存關(guān)系可以看出,通過語(yǔ)義層面依存關(guān)系的挖掘使三種語(yǔ)體的本質(zhì)特征已經(jīng)顯示出來了。此外,以上這些分析都是從詞之間的關(guān)系出發(fā)所得到的,而詞之間的搭配規(guī)則(句法結(jié)構(gòu))也是很重要的,接下來就從詞之間的搭配規(guī)則出發(fā),分析三種語(yǔ)體的差異。
4.1.3 主題詞相關(guān)的句法結(jié)構(gòu)分析
4.1.2 節(jié)討論的是與主題詞相關(guān)的從屬詞及它們之間的依存關(guān)系,發(fā)現(xiàn)從這個(gè)角度出發(fā),三種語(yǔ)體有較大的差異。本小節(jié)討論的是與主題詞搭配的規(guī)則(句法結(jié)構(gòu))有哪些,它們?cè)诓挥玫恼Z(yǔ)體中是否有差異。首先,對(duì)主題詞所在的句子建立句法樹,以小說的主題詞“柳生”為例,以句子“柳生赴京趕考,行走在一條黃色大道上。”構(gòu)建的句法樹如圖6 所示。其次,找出與“柳生”有關(guān)的句法結(jié)構(gòu):IP→NP VP,NP→NN,VP→VP PU VP,VP→VSB,VSB→VV VV,VP→VV PP,PP→P LCP,LCP→NP LC,NP→QP ADJP NP,QP→CD CLP,CLP→M,ADJP→JJ,NP→NN。最后,統(tǒng)計(jì)全文跟“柳生”有較高相似度的句法結(jié)構(gòu)并按降序排列。同理,對(duì)新聞、課本做相同的處理,得到與主題詞有關(guān)的句法結(jié)構(gòu)如表9所示。
從表9 可以看出,與新聞主題詞有關(guān)的句法結(jié)構(gòu)最多,其次是小說,最后是課本。同樣,以小說主題詞“柳生”為例,與其有關(guān)的句法結(jié)構(gòu)“IP →NP VV”,結(jié)合圖5的句法樹和圖4的依存樹,這個(gè)句法結(jié)構(gòu)表明了“柳生”的動(dòng)作是“赴京”,從依附“赴京”的支配詞可以得知“柳生赴京”的目的是“趕考”。所以通過分析可以得到與小說語(yǔ)義主題詞(“柳生”)相關(guān)的句法結(jié)構(gòu)集及依存關(guān)系集,同時(shí)也可以得到與小說主題詞(“柳生”)相關(guān)的核心動(dòng)詞集及依存詞集,并對(duì)這些核心動(dòng)詞和依存詞分別進(jìn)行聚類,進(jìn)而得到與小說主題詞相關(guān)的核心動(dòng)詞塊及依存詞塊。對(duì)于新聞和課本也采用同樣的方法進(jìn)行研究。
圖6 句法樹的例子Fig. 6 Example of syntactic tree
表9 與主題詞相關(guān)的句法結(jié)構(gòu)(部分)Tab. 9 Syntactic structure related to topic words(part)
通過對(duì)小說、新聞及課本的語(yǔ)義主題詞、依存關(guān)系及句法結(jié)構(gòu)之間的內(nèi)在聯(lián)系進(jìn)行分析,能讓讀者更加深刻地了解這三種語(yǔ)體每類特征之間的內(nèi)在聯(lián)系及它們所能反映的語(yǔ)體特征。
在作者識(shí)別任務(wù)中,詞的N元能夠很好地區(qū)分不同的作者,那么,在語(yǔ)體分類任務(wù)中,詞的N元能否區(qū)分不同的語(yǔ)體。從表3 的分類結(jié)果可以看出,詞的2 元對(duì)應(yīng)的分類準(zhǔn)確率較高,所以詞的2 元具有語(yǔ)體區(qū)分度。與詞一樣,詞2 元的頻率分布與注意力分值及分類準(zhǔn)確率的關(guān)系如表10所示。
表10 詞2元的分值區(qū)間、頻率及準(zhǔn)確率的分布 單位:%Tab. 10 Distribution of score interval,frequency and accuracy of bigrams of words unit:%
從表10 可以看出,用6.64%高注意力分值(大于等于0.15)的詞的2 元就能使分類準(zhǔn)確率達(dá)到91.88%;而使用79.38%低注意力分值(小于等于0.01)的詞的2元,對(duì)應(yīng)的分類準(zhǔn)確率是46.25%,這說明高注意分值的詞的2 元具有更好的語(yǔ)體區(qū)分度。通過訓(xùn)練詞的2 元,所得的高注意力分值的詞的2元如表11所示。
表11 高注意力分值的詞的2元Tab. 11 Bigrams of words with high attention score
從表11 可以看出,在小說中,詞的2 元主要是“主語(yǔ)+動(dòng)詞”,例如:“鼠妹問”“福貴說”。經(jīng)統(tǒng)計(jì),小說中的動(dòng)詞多數(shù)是單音節(jié),如“說”“喊”“問”。因?yàn)榕c雙音節(jié)動(dòng)詞相比,單音節(jié)動(dòng)詞的動(dòng)作性比較強(qiáng),這充分體現(xiàn)了小說的另一面:以描寫人物行為動(dòng)作為主的語(yǔ)體。此外,小說中還有一些群體稱呼(“鄉(xiāng)親們”“姑娘們”)及一些口語(yǔ)化的詞或短語(yǔ)(“是嗎”“不知道”),所以小說也具有口語(yǔ)的特征。新聞詞的2元也是以“主語(yǔ)+動(dòng)詞”的結(jié)構(gòu)為主,例如:“劉代英坦言”“記者追問”“葉篤初表示”。與小說不同的是,這些動(dòng)詞大多數(shù)是雙音節(jié),所以這些動(dòng)詞比小說中的單音節(jié)動(dòng)詞更具有嚴(yán)謹(jǐn)性。例如:“表決”具有“說”的意思,但更多的是表示經(jīng)過思考以后所做出的決定,其形式比較正式,這與新聞的特點(diǎn)相符。此外,新聞中還有VV+NN 或NN+NN 形式的詞2 元比較多,且這兩個(gè)結(jié)構(gòu)中的無論名詞還是動(dòng)詞都傾向于雙音節(jié)詞。正如馮勝利所言,單雙音節(jié)詞具有語(yǔ)體區(qū)分度。由于課本包含多種語(yǔ)體形式,所以課本中的詞的2 元特點(diǎn)介于小說和新聞之間,其中小說部分類似于小說的特點(diǎn),事實(shí)類文章類似于新聞。對(duì)于課本中其他的語(yǔ)體,本文暫不作討論。
本文使用詞類的含義見表12,詞類的作用是指明詞的性質(zhì),通過詞類可用了解每一種語(yǔ)體關(guān)注的重點(diǎn)。詞類在三個(gè)語(yǔ)體中的注意力平均分值如圖7所示,從中可以看出:
1)三種語(yǔ)體的詞類分值分布趨勢(shì)相似,這說明每一種詞類的語(yǔ)體區(qū)分度是相對(duì)比較穩(wěn)定的。
2)從詞類的分值大小來看,詞類整體的分值都比較小,這說明詞類具有較小的語(yǔ)體區(qū)分度。
3)詞類的語(yǔ)體區(qū)分度由高到低依次是:ON、SB、IJ、LB、FW、MSP、DER、ETC、OD、BA、CS、DEV、VE、CC、SP、PN、VC、DEC、DT、JJ、NT、P、LC、AS、VA、CD、M、DEG、AD、VV。
從表3 分類準(zhǔn)確率來看,基于詞類的分類準(zhǔn)確率不高,且從圖8 可以看出,三種語(yǔ)體的注意力分值分布幾乎重合在一起,這說明單純?cè)~類特征并不能很好地區(qū)分小說、新聞及課本。所以,本文借助卡方檢驗(yàn)來判斷詞類在三種語(yǔ)體中是否具有顯著差異。
圖7 詞類的注意力分值分布Fig. 7 Attention score distribution of POS
表12 賓州樹庫(kù)標(biāo)記Tab. 12 Symbols of Penn Treebank
由于詞類是離散型數(shù)據(jù),且要檢驗(yàn)它與三種語(yǔ)體的顯著關(guān)系,故使用R x C 列聯(lián)表的卡方檢驗(yàn)來驗(yàn)證,其原理跟卡方檢驗(yàn)一樣,是卡方檢驗(yàn)的擴(kuò)展。檢驗(yàn)結(jié)果如表13 所示,其中,卡方值按降序排列。在卡方檢驗(yàn)中,特征的卡方值越大其在語(yǔ)體中就越顯著,經(jīng)過計(jì)算每一個(gè)詞類的卡方值,最后得出32 種詞類在三種語(yǔ)體中都有差異,這里選擇卡方值最大的NN(名詞)進(jìn)行分析,結(jié)果如表14所示。
與詞一樣,詞類的2 元也具有語(yǔ)體區(qū)分度,詞類的2 元保留了比詞類更多的詞與詞之間的共現(xiàn)信息。不同的詞類2 元平均注意力分值分布如圖8所示。本節(jié)主要分析詞類的2元,不包含標(biāo)點(diǎn)(即PU標(biāo)記)的詞類2元。
從圖8可以看出,具有語(yǔ)體區(qū)分度的詞類的2元在三種語(yǔ)體中都是“NN+**”。從這三種語(yǔ)體詞類的2 元的數(shù)量來看,小說是20種,新聞是14種,課本是13種,即小說的2元結(jié)構(gòu)最豐富,其次是新聞,最后是課本。從搭配詞類的性質(zhì)來看,小說中與NN 搭配最顯著是CD(數(shù)詞),新聞中也是CD(數(shù)詞),而課本是VA(形容詞)。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),小說中的“NN CD”主要用于描述與人有關(guān)的特征,如“這娃20 了”;而新聞中的“NN CD”主要描述一個(gè)事件相關(guān)的特征,如“滑稽劇團(tuán)2012年開始衰退?!睆倪@個(gè)角度來看,詞類的2 元(NN CD)可以看作小說和新聞的特征。另外,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)數(shù)詞在新聞中出現(xiàn)了29 121 個(gè)、在小說中出現(xiàn)了6 826 個(gè),在課本中出現(xiàn)了2 378個(gè),從這個(gè)角度來說,與CD搭配的詞類的數(shù)量也存在著差異。對(duì)于詞類的2 元(NN VA)雖然在課本中較為顯著,但是它在新聞和小說中也存在,例如:
小說:面色蒼白、副官瀟灑、高粱凄婉;
新聞:情況充實(shí)、特征明顯、股市健康;
課本:人多、花朵大、榴蓮貴、政策好;
在課本中,像“多、大、貴、好、熱”等單音節(jié)形容詞比較多,其次是小說,最后是新聞,從這個(gè)角度來看,(NN VA)具有顯著差異是合理的。
表13 詞類的卡方值分布Tab. 13 Distribution of Chi-square value of parts of speech
表14 名詞(NN)的卡方檢驗(yàn)結(jié)果Tab. 14 Results of Chi-square test of nouns
標(biāo)點(diǎn)符號(hào)是書面語(yǔ)的有機(jī)組成部分,主要用來表示句子的停頓、說話者語(yǔ)氣以及文本中詞語(yǔ)的性質(zhì)和作用。不同語(yǔ)體中標(biāo)點(diǎn)符號(hào)的使用頻率如圖9所示。
從圖9 可以看出:逗號(hào)在小說中最多,其次是課本,最后是新聞;頓號(hào)在新聞中最多,其次是課本,最后是小說;引號(hào)在課本中最多,其次是小說,最后是新聞;感嘆號(hào)在小說中最多、其次是課本、最后是新聞;問號(hào)同感嘆號(hào)一樣,都是小說中最多,其次是課本,最后是新聞。實(shí)驗(yàn)觀察發(fā)現(xiàn)在新聞中,例如:“‘冰棍論’、‘靚女先嫁論’”這樣的句子結(jié)構(gòu)很多,通過頓號(hào)并列性質(zhì)相同的詞。引號(hào)主要出現(xiàn)在小說和課本的對(duì)話中,表示引出說話的內(nèi)容;而在新聞中,引號(hào)主要用來表示一些具有特殊含義的人和物,例如:“房奴”“寄生蟲”等。最后,感嘆號(hào)、問號(hào)、省略號(hào)這些帶有情感色彩的標(biāo)點(diǎn),在小說和課本中更多。
圖10 給出了不同標(biāo)點(diǎn)符號(hào)在不同語(yǔ)體中的平均注意力分值分布??梢悦黠@觀察到,省略號(hào)、問號(hào)、感嘆號(hào)及冒號(hào)在三種語(yǔ)體中具有較大的語(yǔ)體區(qū)分性。由于標(biāo)點(diǎn)符號(hào)的注意力分類準(zhǔn)確率不高,與詞類類似,本文利用卡方檢驗(yàn)來檢驗(yàn)標(biāo)點(diǎn)符號(hào)在不同語(yǔ)體中的分布差異。
根據(jù)卡方檢驗(yàn)的結(jié)果發(fā)現(xiàn),省略號(hào)、感嘆號(hào)、問號(hào)、頓號(hào)、句號(hào)、逗號(hào)、引號(hào)、破折號(hào)、冒號(hào)在三種語(yǔ)體中都具有顯著差異,而分號(hào)在三種語(yǔ)體中的差異不明顯。
接下來以最為顯著的省略號(hào)為例,分析它在小說、新聞及課本中的分布差異。從數(shù)量上來說,小說中省略號(hào)出現(xiàn)了9 983 次,新聞中出現(xiàn)了101 次,課本中出現(xiàn)了2 188 次。從省略號(hào)出現(xiàn)的場(chǎng)景來看,小說和課本中大約有80%的省略號(hào)都用于對(duì)話中,剩余的20%主要用于表示人物內(nèi)心活動(dòng)及用于列舉內(nèi)容的省略等場(chǎng)景中。而在新聞中,省略號(hào)主要用于列舉內(nèi)容的省略,避免啰嗦。接下來,通過具體的例子來分析,三種語(yǔ)體中常用省略號(hào)的例子如表15 所示。從表15 可以看出,小說和課本中的省略號(hào)賦予情感色彩,例如:小說中,“鄉(xiāng)親們接應(yīng)我們來了,鄉(xiāng)親們來了……”,這句話來自莫言的《紅高粱》,講述的是:面對(duì)日本侵略者的絞殺,在走投無路的情況下,余占鰲對(duì)豆官所說的話,體現(xiàn)出當(dāng)時(shí)余占鰲看到來援救的相親們所表現(xiàn)出的欣喜和激動(dòng)。“我敬仰青松,但我卻更喜歡榕樹……”來自課本,選取秦似的《榕樹的風(fēng)度》。因?yàn)樵谠倪@句話的前半句寫了榕樹的品質(zhì)(榕樹魁偉、莊嚴(yán)、恬靜、安祥),為了避免內(nèi)容的重復(fù),所以后面的省略號(hào)省略了作者喜歡榕樹的原因。在新聞中,例句中的省略號(hào)省略了中國(guó)其他地方房?jī)r(jià)上漲情況,僅僅是列舉內(nèi)容的省略,不帶有任何情感色彩。所以,從這個(gè)角度來看,省略號(hào)在三種語(yǔ)體中具有顯著差異。
圖8 詞類2元的注意力分值分布Fig. 8 Attention score distribution of bigrams of POS
圖9 標(biāo)點(diǎn)符號(hào)的頻率分布Fig. 9 Frequency distribution of punctuations
本文忽略詞,將連續(xù)出現(xiàn)的兩個(gè)標(biāo)點(diǎn)符號(hào)視為標(biāo)點(diǎn)符號(hào)的2 元,它能反映句子的結(jié)構(gòu)和語(yǔ)氣等信息,其注意力分值分布如圖11所示,其中橫軸表示標(biāo)點(diǎn)符號(hào)的2元序號(hào),相應(yīng)的對(duì)應(yīng)關(guān)系如表16所示。
圖10 標(biāo)點(diǎn)符號(hào)的注意分值分布Fig. 10 Attention score distribution of punctuations
表15 省略號(hào)在不同語(yǔ)體的例子Tab. 15 Examples of ellipsis in different registers
從圖11 可以看出,小說中與省略號(hào)、感嘆號(hào)、問號(hào)及引號(hào)組成的2元特征比較多。其中,標(biāo)點(diǎn)符號(hào)的這些2元特征大部分來自人物對(duì)話或描述人物內(nèi)心活動(dòng)的句子。新聞中與省略號(hào)、感嘆號(hào)及問號(hào)組成的2 元特征主要用于對(duì)新聞事件相關(guān)的人物記錄,屬于客觀陳述,不帶任何情感色彩,這與新聞嚴(yán)謹(jǐn)?shù)男再|(zhì)相符。而在課本中,這些2 元特征以對(duì)話和內(nèi)心感悟?yàn)橹?,進(jìn)而引發(fā)學(xué)生思考,這與課本的目的相符。
圖11 標(biāo)點(diǎn)符號(hào)2元的注意力分值分布Fig. 11 Attention score distribution of bigrams of punctuations
表16 標(biāo)點(diǎn)符號(hào)的2元映射示例說明Tab. 16 Explanation of the example of binary mapping of punctuations
通過以上各種統(tǒng)計(jì)和詳細(xì)分析,本文將一元特征匯總?cè)绫?7、18 所示,其中:星號(hào)(*)表示該語(yǔ)體的顯著特征,空白表示該特征在語(yǔ)體中不顯著。這些主要是詞、詞類、標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)及依存關(guān)系。
2 元特征是這些一元特征的組合,種類多且復(fù)雜,本文不再列出。
表17 語(yǔ)體的特征(詞、詞類)匯總Tab. 17 Summary of stylistic features(words,POS)
表18 語(yǔ)體的特征(標(biāo)點(diǎn)符號(hào)、句法結(jié)構(gòu)、依存關(guān)系)匯總Tab. 18 Summary of stylistic features(punctuations,syntactic structures,dependency relationships)
本文利用注意力網(wǎng)絡(luò)模型提取能區(qū)分小說、新聞及課本的詞、詞類、標(biāo)點(diǎn)符號(hào)、語(yǔ)法結(jié)構(gòu)及它們的N(N= 1,2)元特征。相較其他三類特征,詞匯特征更能直接反映出不同語(yǔ)體的區(qū)別,所以針對(duì)詞匯特征,本文進(jìn)行了深入分析(語(yǔ)義分析、依存關(guān)系和句法結(jié)構(gòu));對(duì)于詞類和標(biāo)點(diǎn)符號(hào),由于注意力網(wǎng)絡(luò)的分類準(zhǔn)確率并不高,所以結(jié)合卡方檢驗(yàn)一起分析。對(duì)于句法結(jié)構(gòu),借助句法樹,將其序列化后,通過訓(xùn)練注意力網(wǎng)絡(luò)挖掘出能區(qū)分不同語(yǔ)體的句法結(jié)構(gòu)集。最后,通過多輪組合特征的訓(xùn)練,不但得到了每一種語(yǔ)體的關(guān)鍵特征集,而且還得出了每一種特征對(duì)不同語(yǔ)體的重要性。接下來將在以下幾個(gè)方面進(jìn)行改進(jìn)工作:
1)提取能區(qū)分不同語(yǔ)體的其他特征。
2)分析影響注意力網(wǎng)絡(luò)評(píng)分的因素,例如:句長(zhǎng),從而可以更好地完善模型。
3)改進(jìn)注意力網(wǎng)絡(luò)模型,將詞在句子中的位置信息也考慮進(jìn)來。