張洋寧,朱 靜,董 瑞,尤澤順,王 震
1.新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052
2.中國科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830011
3.中國科學(xué)院大學(xué),北京 100049
隨著信息時(shí)代的到來,網(wǎng)絡(luò)上的數(shù)據(jù)呈爆炸式增長,用戶如何獲取感興趣的信息,減輕信息負(fù)載成為研究熱點(diǎn)。目前,話題分割是一種有效的提取信息方法,它可以揭露文本的潛在結(jié)構(gòu),增強(qiáng)文本可讀性,并為信息檢索[1]、文本摘要[2]、話題檢測(cè)[3]等下游任務(wù)提供基礎(chǔ)。
話題分割定義為按照話題相關(guān)的原則將一篇較長的文本劃分為語義段落序列,使得各個(gè)語義段落內(nèi)部具有最大的話題相關(guān)性,而語義段落之間具有最小的話題相關(guān)性。現(xiàn)有的話題分割方法分為兩類,無監(jiān)督和有監(jiān)督方法。傳統(tǒng)的無監(jiān)督方法利用向量相似度來判斷話題是否發(fā)生變化[4]。有監(jiān)督方法[5]將篇章中每個(gè)句子進(jìn)行一次二分類任務(wù),判斷其是否為分割邊界。然而現(xiàn)有話題分割仍存在一些問題,以表1為例,句子2和3語義關(guān)聯(lián)性小,僅靠句子語義信息無法判定是否屬于同一話題,但是它們分別依靠關(guān)鍵詞“Record”和“release”與句子1存在關(guān)聯(lián),因此三句話屬于同一話題“發(fā)行”。而句子4“WWE選集在商業(yè)上取得了成功”雖然與句子1也存在共現(xiàn)詞“WWE”“Anthology”,但是這兩個(gè)詞匯在文章出現(xiàn)頻率過高,并且與上一話題沒有其他關(guān)鍵詞信息,話題語義從發(fā)行過渡到反響,因此關(guān)鍵詞信息是對(duì)該處進(jìn)行分割的關(guān)鍵。
表1 部分節(jié)選內(nèi)容Table 1 Partial excerpts
從上面分析,為進(jìn)一步提高話題分割效果,目前話題分割任務(wù)主要存在以下挑戰(zhàn):(1)如何提取句子的語義特征,句子中存在復(fù)雜的語義關(guān)系,加大了句子語義特征提取的難度,挖掘句子語義信息是話題分割任務(wù)的基礎(chǔ)。(2)如何聚合多層次信息來提高篇章內(nèi)容建模能力,篇章中存在多種層級(jí)單元(段落、語句、單詞),具有不同級(jí)別粒度的信息,有助于建模并分割篇章話題,但層級(jí)與粒度的差異增加了建模難度。(3)如何構(gòu)建上下文信息交互來加強(qiáng)文本單元全局特征表示,在不同語境上下文中,文本單元的語義特征存在很大差異。
本文提出了多層級(jí)信息增強(qiáng)異構(gòu)圖的篇章級(jí)話題分割模型(a discourse-level topic segmentation model with multi-level information enhanced heterogeneous graphs network,MHG-TS)。針對(duì)挑戰(zhàn)(1),模型使用預(yù)訓(xùn)練語言模型進(jìn)行句子語義特征提取,利用大規(guī)模語料訓(xùn)練的外部知識(shí)和Transformer提取的語義關(guān)系增強(qiáng)句子語義信息表達(dá);針對(duì)挑戰(zhàn)(2),模型引入關(guān)鍵詞信息來加強(qiáng)層次信息,通過不同粒度的語義節(jié)點(diǎn)充當(dāng)句子節(jié)點(diǎn)之間的中介,拓展了圖中的節(jié)點(diǎn)與邊的類型,構(gòu)建了句子節(jié)點(diǎn)間的遠(yuǎn)距離跨句信息交互,增強(qiáng)了全局語義信息建模能力;針對(duì)挑戰(zhàn)(3),模型利用圖的非歐幾里得結(jié)構(gòu)來表示篇章中的非序列關(guān)系,基于圖注意力機(jī)制在不同層級(jí)中的節(jié)點(diǎn)間消息傳遞,有側(cè)重的聚合節(jié)點(diǎn)信息,融合一階鄰域、關(guān)鍵詞和高階鄰域等層級(jí)信息彌補(bǔ)句子在上下文中的全局信息交互不足的缺陷。實(shí)驗(yàn)表明本文提出模型MHG-TS在多個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能。
早期話題分割任務(wù)通過觀測(cè)詞匯變化來判別話題變化,例如相鄰片段的詞共現(xiàn)、線索詞、詞的轉(zhuǎn)移與變換等。1997年,Hearst[6]提出TextTiling模型用于話題分割任務(wù),該模型利用詞頻統(tǒng)計(jì)構(gòu)建句子塊特征向量,比較向量余弦相似度判斷話題變化。該方法構(gòu)建的特征向量稀疏,只考慮了表層的詞統(tǒng)計(jì)信息,未考慮語義以及文本單元之間依賴等潛在信息。2003年,Dennis等人[7]使用潛在語義分析(latent semantic analysis,LSA)對(duì)詞頻統(tǒng)計(jì)向量進(jìn)行奇異值分解,使用前k個(gè)最大奇異值計(jì)算出k維特征向量來近似代替原向量。2012年,Riedl等人[8]使用潛在狄利克雷分配(latent Dirichlet allocations,LDA)主題模型得到句子中單詞的主題ID,將原先方法中的單詞向量空間降維到主題向量空間,根據(jù)主題向量計(jì)算相似度來判定話題是否變化。上述兩種方法雖然通過特征降維得到了較為密集的向量表示,但是仍未考慮到文本單元之間的信息交互問題。
后來隨著深度學(xué)習(xí)的發(fā)展,國內(nèi)外很多研究學(xué)者將深度學(xué)習(xí)方法運(yùn)用到話題分割任務(wù)。例如,2017 年Wang 等人[9]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取文本特征,但CNN提取特征為局部特征,全局信息交互能力不強(qiáng)。2018年Li等人[10]提出使用門控循環(huán)網(wǎng)絡(luò)(gated recurrent unit,GRU)結(jié)合指針網(wǎng)絡(luò)進(jìn)行話題分割;同年Koshorek等人[5]提出使用兩層雙向長短期記憶(bidirectional long short-term memory,Bi-LSTM)進(jìn)行話題分割;2020年,Barrow等人[11]提出將話題分割和話題分類兩個(gè)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)提升分割效果。上述方法雖然考慮到了文本單元之間的交互問題,但基本是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)按序列順序捕獲特征信息,忽略了單元之間的語法結(jié)構(gòu)等非序列關(guān)系。Shi等人[12]將輸入單詞序列轉(zhuǎn)換成樹形結(jié)構(gòu),通過Tree-LSTM和池化獲得句子向量,該方法使用樹形結(jié)構(gòu)構(gòu)建詞之間的非序列關(guān)系,但模型本質(zhì)還是基于LSTM 模型,時(shí)間空間復(fù)雜度較高,文本單元交互能力存在欠缺。Somasundaran[13]提出使用兩部分Transformer 來進(jìn)行話題分割,第一部分將輸入單詞向量轉(zhuǎn)換為句子向量表示,第二部分得到加入上下文信息的句子表示,該方法能夠同時(shí)考慮單詞級(jí)和句子級(jí)文本單元間的非序列關(guān)系,但是未考慮篇章中的層次信息。
近年來,隨著BERT(bidirectional encoder representation from Transformers)[14]的提出,出現(xiàn)了許多以BERT為基礎(chǔ)的話題分割模型。2020 年Lukasik 等人[15]使用BERT+Bi-LSTM 進(jìn)行話題分割,使用BERT 的[CLS]向量作為句子語義表示,然后將向量放入負(fù)責(zé)捕獲句子序列關(guān)系的Bi-LSTM中進(jìn)行分割判定。該方法在單詞級(jí)文本單元考慮了結(jié)構(gòu)信息,取得了不錯(cuò)的效果提升,但是句子級(jí)文本單元仍只能提取到序列信息,在上下文信息建模上存在缺陷。
受到上述研究工作的啟發(fā),研究人員意識(shí)到利用圖的非歐幾里得結(jié)構(gòu)模擬文本單元之間非序列關(guān)系的效果更佳。2019 年,Yao 等人[16]提出TextGCN(text graph convolutional network)模型應(yīng)用于文本分類任務(wù),該模型使用語料中的文章和單詞作為節(jié)點(diǎn)構(gòu)建異構(gòu)圖,節(jié)點(diǎn)初始化特征為獨(dú)熱(one-hot)編碼,使用逐點(diǎn)互信息(point-wise mutual information,PMI)作為單詞節(jié)點(diǎn)之間的邊權(quán)值,使用詞頻-逆文本頻率指數(shù)(term frequencyinverse document frequency,TF-IDF)作為單詞與文章節(jié)點(diǎn)之間邊的權(quán)重,通過圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)進(jìn)行迭代,最終取出文章節(jié)點(diǎn)的特征作為向量表示進(jìn)行文本分類,該模型證明圖結(jié)構(gòu)應(yīng)用于文本語義信息挖掘的有效性,但模型將整個(gè)語料構(gòu)建成圖,而GCN是full-batch更新(全圖更新),節(jié)點(diǎn)較多和圖較大時(shí)全圖更新計(jì)算慢且內(nèi)存占用大。2021 年,Lin 等人[17]使用BERT 等預(yù)訓(xùn)練語言模型初始化圖中文檔節(jié)點(diǎn)的表示。該方法加強(qiáng)了TextGCN 中使用獨(dú)熱編碼而損失的文本語義特征。為解決TextGCN 計(jì)算速度的問題,DSG-SEG 模型[18]使用句子節(jié)點(diǎn)替代文章節(jié)點(diǎn)建立異構(gòu)圖,并使用門控圖神經(jīng)網(wǎng)絡(luò)(gated graph neural network,GGNN)迭代獲取具有全局信息的句子編碼,但GGNN會(huì)在全部節(jié)點(diǎn)上多次運(yùn)行遞歸函數(shù),需要將全部節(jié)點(diǎn)的中間狀態(tài)存儲(chǔ)下來。
為了解決句子的語義特征提取不足、忽略篇章中的層次信息和上下文信息交互等問題,本文提出了一個(gè)融合圖注意機(jī)制的話題分割模型MHG-TS,如圖1 所示,模型包括三個(gè)模塊:(1)圖初始化模塊,分為節(jié)點(diǎn)特征初始化和邊權(quán)值的構(gòu)造編碼,節(jié)點(diǎn)特征初始化使用預(yù)訓(xùn)練模型初始化節(jié)點(diǎn)表示,邊權(quán)值的構(gòu)造編碼根據(jù)節(jié)點(diǎn)之間關(guān)系進(jìn)行邊初始化編碼;(2)圖聚合模塊,分為一階鄰域?qū)蛹?jí),關(guān)鍵詞層級(jí),高階鄰域?qū)蛹?jí),基于圖注意力機(jī)制完成層級(jí)中的消息傳遞聚合;(3)分割邊界預(yù)測(cè)模塊,將是否為邊界視為二分類任務(wù),概率大的標(biāo)簽為預(yù)測(cè)結(jié)果。
圖1 MHG-TS模型流程Fig.1 MHG-TS model process
構(gòu)建一張圖G={V,E},節(jié)點(diǎn)集V可以定義為V=Vw∪Vs,其中Vw=w1,w2,…,wm表示文檔的m個(gè)不重復(fù)的單詞,Vs={s1,s2,…,sn}對(duì)應(yīng)于文檔中的n個(gè)句子;E代表節(jié)點(diǎn)之間所有邊的集合,表示為E=Eii∪Eij,Eii為句子節(jié)點(diǎn)之間的邊,Eij為單詞節(jié)點(diǎn)與句子節(jié)點(diǎn)之間的邊。圖的初始化包括節(jié)點(diǎn)特征的初始化和邊的構(gòu)建編碼兩部分。
2.1.1 節(jié)點(diǎn)特征初始化
由于該模型將篇章中的句子以及單詞作為節(jié)點(diǎn),因此需要初始化這兩種節(jié)點(diǎn)。W∈Rm×d和S∈Rn×d分別表示單詞和句子節(jié)點(diǎn)的輸入特征矩陣,Rm表示為m個(gè)單詞節(jié)點(diǎn),Rn表示為n個(gè)句子節(jié)點(diǎn),d為節(jié)點(diǎn)特征的維度,圖中得到的節(jié)點(diǎn)特征矩陣表示為X=W∪S,X的前m行存放單詞節(jié)點(diǎn),從m+1 行開始存放n個(gè)句子節(jié)點(diǎn),如式(1)所示:
(1)句子向量表示使用預(yù)訓(xùn)練語言模型中每一層的[CLS]向量相加,該方法不僅考慮了預(yù)訓(xùn)練語言模型深層提取到的語義信息,更能結(jié)合表層提取到的局部短語結(jié)構(gòu)等信息,豐富了句子向量的表達(dá)。
(2)單詞嵌入向量引入預(yù)訓(xùn)練語言模型的詞嵌入層進(jìn)行嵌入,為單詞嵌入帶來經(jīng)過大規(guī)模語料訓(xùn)練的更準(zhǔn)確語義信息。
2.1.2 邊權(quán)值的構(gòu)造編碼
在圖結(jié)構(gòu)中,邊的構(gòu)建對(duì)于節(jié)點(diǎn)間的信息傳遞有一定的影響??紤]到節(jié)點(diǎn)并非篇章級(jí)別,為挖掘篇章中的文本結(jié)構(gòu)和上下文等信息,本模型設(shè)置三種類型的邊:句子節(jié)點(diǎn)之間的邊,單詞節(jié)點(diǎn)與句子節(jié)點(diǎn)之間的邊,句子節(jié)點(diǎn)的自環(huán)邊。兩個(gè)節(jié)點(diǎn)i和j之間的邊的權(quán)重定義為:
(1)句子節(jié)點(diǎn)之間的邊,考慮到句子節(jié)點(diǎn)初始化是句子級(jí)別,經(jīng)過預(yù)訓(xùn)練模型并未考慮到篇章級(jí)的上下文語境等信息,所以將篇章中所有句子節(jié)點(diǎn)連接在一起,使用圖注意力機(jī)制計(jì)算節(jié)點(diǎn)間的相關(guān)性進(jìn)行信息傳遞。
(2)關(guān)鍵詞節(jié)點(diǎn)與句子節(jié)點(diǎn)之間的邊,為了進(jìn)一步增強(qiáng)單詞節(jié)點(diǎn)與句子節(jié)點(diǎn)之間的關(guān)系重要性信息,本文對(duì)句子節(jié)點(diǎn)與其包含的所有單詞節(jié)點(diǎn)之間初始化了一條權(quán)重為TF-IDF 值的邊。TF-IDF 值[19]的計(jì)算公式如(3)~(6)所示:
其中,n表示該單詞節(jié)點(diǎn)在當(dāng)前句子中出現(xiàn)的次數(shù),D表示篇章中句子總個(gè)數(shù),Di表示包含指定詞的句子個(gè)數(shù),將TFw與IDFw相乘得到初始的TF-IDF值,再進(jìn)行歐幾里得范數(shù)歸一化得到最后的TF-IDF值。
(3)句子節(jié)點(diǎn)的自環(huán)邊,為了防止網(wǎng)絡(luò)在迭代傳遞信息的過程中,過分關(guān)注聚合到的鄰居節(jié)點(diǎn)信息,而忽略自身節(jié)點(diǎn)信息,故在所有句子節(jié)點(diǎn)增設(shè)自環(huán)邊。
2.2.1 一階鄰域?qū)蛹?jí)的消息聚合
經(jīng)過圖的初始化后,構(gòu)造出的圖G中具有節(jié)點(diǎn)特征矩陣Xi和鄰接矩陣Aij,隸屬于同一話題的句子存在潛在的語義聯(lián)系,模型首先在句子節(jié)點(diǎn)之間利用圖注意力機(jī)制GAT傳遞信息獲取初步的全局特征表示。計(jì)算過程如下所示:
其中,Wa、Wq、Wk、Wv是可訓(xùn)練的權(quán)重參數(shù)矩陣,αij是si和sj即句子i和句子j之間的注意力權(quán)重,σ為非線性激活函數(shù),為全面表示句子節(jié)點(diǎn)信息,將多頭注意力學(xué)到的特征進(jìn)行拼接作為最后節(jié)點(diǎn)特征的表示ui:
在句子節(jié)點(diǎn)得到初步全局信息之后引入Transformer中的前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN),通過線性變換加強(qiáng)模型提取更深層次特征的能力。
如圖2所示,句子節(jié)點(diǎn)聚合一階鄰域內(nèi)的句子節(jié)點(diǎn)信息,從而獲得具有全局信息的篇章級(jí)的句子表示,計(jì)算過程如下所示:
圖2 句子節(jié)點(diǎn)特征更新過程Fig.2 Updating process of sentence node features
2.2.2 關(guān)鍵詞層級(jí)的消息聚合
圖初始化在關(guān)鍵詞節(jié)點(diǎn)與句子節(jié)點(diǎn)之間的邊引入了TF-IDF 值作為初始化邊權(quán)重eij,因此將等式(7)改為(12),得到新的GATsw:
其次通過引入句子內(nèi)的關(guān)鍵詞特征信息,豐富句子節(jié)點(diǎn)特征的層次信息,使用GATsw和FFN 層實(shí)現(xiàn)一階鄰域內(nèi)關(guān)鍵詞節(jié)點(diǎn)信息向句子節(jié)點(diǎn)的聚合,計(jì)算過程如下所示:
2.2.3 高階鄰域?qū)蛹?jí)的消息聚合
如圖3 所示,為加強(qiáng)間接相鄰的跨句信息交互,實(shí)現(xiàn)高階鄰域節(jié)點(diǎn)間的信息傳遞,本方法以關(guān)鍵詞節(jié)點(diǎn)為中介,使聚合關(guān)鍵詞層級(jí)信息的句子節(jié)點(diǎn)反向傳遞信息給單詞節(jié)點(diǎn)得到新的單詞節(jié)點(diǎn)表示Mw,再迭代更新句子節(jié)點(diǎn)表示Ms,每次迭代都包含一次上述更新過程。n次迭代過程可表示為:
圖3 句子節(jié)點(diǎn)與單詞節(jié)點(diǎn)間的特征更新過程Fig.3 Feature update process between sentence nodes and word nodes
通過上述過程,模型得到了篇章中的句子向量序列(m1,m2,…,mi,…,mn),由于上述圖模型更關(guān)注跨句之間的聯(lián)系,為了加強(qiáng)句子之間的序列關(guān)系,本文將該句子向量序列放入Bi-LSTM[20]中,得到隱藏層的向量序列表示(h1,h2,…,hi,…,hn),如下所示:
然后將上述向量序列表示經(jīng)過全連接層分類器,再使用softmax輸出一個(gè)(0,1)的概率分布,作為每個(gè)句子作為分割邊界的概率,同Omri Koshorek提出模型一樣,對(duì)于包含n個(gè)句子的篇章,通過降低前n-1 個(gè)句子的損失來訓(xùn)練模型,為解決分割點(diǎn)與非分割點(diǎn)的樣本不平衡造成數(shù)據(jù)的長尾問題,本文使用Polyloss 損失函數(shù)[21],如式(16)、(17)所示:
其中,Pt為模型對(duì)目標(biāo)分類的預(yù)測(cè)概率。
實(shí)驗(yàn)中為驗(yàn)證本文提出模型的有效性,模型在英文數(shù)據(jù)集中使用一個(gè)較大規(guī)模的訓(xùn)練集進(jìn)行訓(xùn)練,在6個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,中文數(shù)據(jù)集使用一個(gè)進(jìn)行訓(xùn)練測(cè)試,有關(guān)數(shù)據(jù)集的部分信息如表2所示。
表2 有關(guān)數(shù)據(jù)集的部分信息Table 2 Some information about datasets
3.1.1 數(shù)據(jù)集
實(shí)驗(yàn)選擇話題分割領(lǐng)域常用的7 個(gè)數(shù)據(jù)集:WIKI-727K、SECTION、CHOI、ELEMENTS、CITIES、WIKI-50、Weibo等。其中WIKI-727K作為訓(xùn)練語料,從它的訓(xùn)練集、驗(yàn)證集、測(cè)試集中分別抽取8000、1 000、1 000 條數(shù)據(jù),組成新的包含10 000 條數(shù)據(jù)的WIKI-10K,使用WIKI-10K中的8 000條數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練出的模型在除中文數(shù)據(jù)集Weibo外的幾個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試:
WIKI-10K(Koshorek 等人[5])測(cè)試集由WIKI-727K測(cè)試集中隨機(jī)抽取的1 000條數(shù)據(jù)組成。
SECTION(Arnold 等人[22])數(shù)據(jù)集由38 000 個(gè)英文和德文維基百科文檔組成,本實(shí)驗(yàn)使用其中英文語料,包含21 376 個(gè)英文文檔,數(shù)據(jù)集主要包含疾病和城市等,本文使用7∶1∶2比例劃分該數(shù)據(jù)集,最終得到4 142個(gè)數(shù)據(jù)作為測(cè)試集對(duì)模型進(jìn)行測(cè)試。
Weibo(Zhang 等人[23])數(shù)據(jù)集包括20 000 個(gè)中文文檔,由微博上爬取微博新聞拼接而成,按16∶4∶5的比例劃分?jǐn)?shù)據(jù)集,4 000條作為測(cè)試集。
CHOI(Choi[24])數(shù)據(jù)集由920 個(gè)人工生成的文檔組成,每個(gè)文檔都是布朗語料庫中10個(gè)隨機(jī)段落的拼接。
ELEMENTS(Chen 等人[25])數(shù)據(jù)集包含118 篇從維基百科抽取的文檔,主要內(nèi)容包括周期表中化學(xué)元素的作用、發(fā)生率以及同位素等。
CITIES(Chen 等人[25])數(shù)據(jù)集是作者從英文維基百科抽取的100 篇文檔,主要內(nèi)容包括城市的歷史、文化和人口統(tǒng)計(jì)信息等。
WIKI-50(Koshorek等人[5])數(shù)據(jù)集是由作者從WIKI-727k數(shù)據(jù)集中隨機(jī)抽樣取得的50個(gè)測(cè)試文檔。
7個(gè)數(shù)據(jù)集中除前3個(gè)進(jìn)行了數(shù)據(jù)集劃分使用測(cè)試集測(cè)試,其余數(shù)據(jù)集皆使用全部數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試。
3.1.2 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)使用Pk[26]、WindowDiff(WD)[27]、B(boun-dary similarity)[28]等三個(gè)指標(biāo)來評(píng)估模型的性能。具體計(jì)算如下所示:
由Pk和WD公式定義可知,值越小代表真實(shí)分割和預(yù)測(cè)分割的差異越小,模型的性能越好;由B的定義可知,B的值為1減去每個(gè)邊界對(duì)的不正確性除以邊界對(duì)的總數(shù),故B的值越大,模型性能越好。
3.2.1 基線模型
為驗(yàn)證本文提出模型在話題分割任務(wù)上的有效性以及融合多層級(jí)信息捕獲篇章全局信息的能力,本文設(shè)置實(shí)驗(yàn)將模型與多種句向量嵌入模型進(jìn)行對(duì)比。
表3說明了本次實(shí)驗(yàn)所涉及的模型:
表3 模型的測(cè)試效果指標(biāo)Table 3 Test effect indicators of models 單位:%
Latent 方法根據(jù)n個(gè)句子中出現(xiàn)的m個(gè)單詞構(gòu)成n×m維的詞頻矩陣,其次使用奇異值分解,選擇前300個(gè)最大奇異值計(jì)算出300 維特征向量來近似代替原矩陣,再將特征向量放入分割點(diǎn)預(yù)測(cè)層;
Tree-left方法模型首先使用靜態(tài)詞向量將每個(gè)單詞進(jìn)行初始化,再將單詞序列放入Tree-LSTM 模型中,通過注意力池化得到300維的句子向量表示,最后將向量表示放入分割點(diǎn)預(yù)測(cè)層,本方法使用左平衡樹結(jié)構(gòu);
Freq代表詞頻方法,取10 000個(gè)高頻單詞和兩個(gè)特殊標(biāo)識(shí)符
Text-Segmentation 模型[5],首先使用靜態(tài)預(yù)訓(xùn)練詞向量初始化單詞序列,再通過雙層Bi-LSTM 模型和最大池化輸出512維的句子向量表示,最后進(jìn)行分割點(diǎn)預(yù)測(cè);
TextING 模型[18]使用篇章中的單詞構(gòu)建圖網(wǎng)絡(luò),使用詞嵌入模型進(jìn)行初始化,通過GGNN網(wǎng)絡(luò)迭代更新單詞節(jié)點(diǎn),然后通過讀出函數(shù)(readout function)融合所有單詞節(jié)點(diǎn)得到句子的向量表示,最終進(jìn)行分割預(yù)測(cè);
BERT+Bi-LSTM 模型[15]將句子輸入BERT,使用768 維[CLS]字符向量代表句子向量,再通過256 維Bi-LSTM預(yù)測(cè)分割點(diǎn);
DSG-SEG 模型[18]首先將篇章構(gòu)建成圖,使用靜態(tài)預(yù)訓(xùn)練詞向量初始化詞節(jié)以及和最大池化詞向量的方式初始化句子節(jié)點(diǎn),再使用GGNN網(wǎng)絡(luò)進(jìn)行迭代得到句子的向量表達(dá),接著將得到的句子向量進(jìn)行分割點(diǎn)預(yù)測(cè)。
3.2.2 實(shí)驗(yàn)參數(shù)
初始化模型:Tree-left、Text-Segmentation、TextING、DSG-SEG 四個(gè)模型分別使用300 維的中英文詞向量模型Google News Word2Vec、SGNS Weibo;BERT+Bi-LSTM(ft)、BERT+Bi-LSTM、MHG-TS使用的中英文預(yù)訓(xùn)練語言模型為BERT-base-uncased、wobert-Chinese-base。
MHG-TS模型參數(shù):高階鄰域信息迭代模塊的迭代次數(shù)設(shè)為1,GAT層維度為512,注意力個(gè)數(shù)為8,Bi-LSTM隱藏層維度為128。
訓(xùn)練與預(yù)測(cè)參數(shù):batch-size 設(shè)置為8,優(yōu)化器選擇Adam[29],初始化學(xué)習(xí)率設(shè)置為2.5E-4,損失函數(shù)Polyloss中的超參數(shù)α和γ分別為0.4(中文0.25)和2。若模型指標(biāo)在驗(yàn)證集超過5 輪未提升,訓(xùn)練結(jié)束。同Text-Segmentation 模型一樣,模型驗(yàn)證過程中會(huì)優(yōu)化一個(gè)閾值,在預(yù)測(cè)階段,當(dāng)句子預(yù)測(cè)概率超過該閾值,句子預(yù)測(cè)標(biāo)簽為1,反之為0。
實(shí)驗(yàn)設(shè)備:24 GB 顯存的NVIDIA GeForce RTX 3090。
表3 顯示了MHG-TS 與其他基線模型在多個(gè)數(shù)據(jù)集上的測(cè)試效果,實(shí)驗(yàn)結(jié)果表明:
(1)MHG-TS 模型在多個(gè)數(shù)據(jù)集取得了最好的結(jié)果,在三個(gè)指標(biāo)上分別比最優(yōu)基線模型的實(shí)驗(yàn)結(jié)果平均值提高了3.08%、2.56%、5.92%,證明了模型的穩(wěn)定性;由于多個(gè)數(shù)據(jù)集的數(shù)據(jù)分布不同,證明了MHG-TS模型的魯棒性。
(2)從提升效果來看,CHOI、ELEMENTS、CITIES三個(gè)數(shù)據(jù)集提升最多,從數(shù)據(jù)集信息可知,這三個(gè)數(shù)據(jù)集的話題轉(zhuǎn)換次數(shù)最多,分割點(diǎn)密集,上下文交互信息復(fù)雜。證明MHG-TS 模型引入的層次信息加強(qiáng)句子聯(lián)系,以及通過圖注意力機(jī)制有側(cè)重的相關(guān)語義信息聚合,有助于提取到更適合話題分割任務(wù)的語義特征。
(3)在中文數(shù)據(jù)集Weibo未取得最優(yōu)的原因可能是中文分詞過程中專有名詞未被保留,導(dǎo)致關(guān)鍵詞提取不夠準(zhǔn)確,該問題同樣出現(xiàn)在使用圖網(wǎng)絡(luò)的TextlNG、DSG-SEG模型中。
(4)在所有模型中,TextlNG、DSG-SEG、BERT+Bi-LSTM和MHG-TS取得了較好的結(jié)果,表明了圖網(wǎng)絡(luò)所構(gòu)建的非序列關(guān)系以及預(yù)訓(xùn)練模型注入的先驗(yàn)知識(shí)對(duì)話題分割任務(wù)的有效性。
3.4.1 消融實(shí)驗(yàn)分析
為了研究異構(gòu)圖中不同層級(jí)信息:句子節(jié)點(diǎn)一階鄰域的層級(jí)信息;以及關(guān)鍵詞節(jié)點(diǎn)層級(jí)信息和句子節(jié)點(diǎn)高階鄰域的層級(jí)信息,對(duì)模型性能的影響,故設(shè)置如下消融實(shí)驗(yàn):
(1)模型不包含關(guān)鍵詞層級(jí)信息和高階鄰域?qū)蛹?jí)信息,僅保留句子節(jié)點(diǎn)一階鄰域中的信息傳遞(記作w/o word)。
(2)模型去除句子節(jié)點(diǎn)之間的一階鄰域?qū)蛹?jí)信息,使用單詞與句子之間的迭代傳遞信息,只通過中介節(jié)點(diǎn)構(gòu)建跨句關(guān)系(記作w/o sentence)。
表4顯示了消融實(shí)驗(yàn)的結(jié)果,實(shí)驗(yàn)表明:
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation test 單位:%
(1)不使用單詞與句子節(jié)點(diǎn)之間的信息傳遞的w/o word模型,在所有數(shù)據(jù)集上,三個(gè)指標(biāo)性能分別比原模型平均下降了1.62%、1.4%、2.96%。這一結(jié)果表明,在模型中引入附加層次信息,通過將附加節(jié)點(diǎn)作為媒介聚合高階鄰域?qū)蛹?jí)信息的有效性。
(2)沒有使用句子節(jié)點(diǎn)之間圖注意力的w/o sentence模型,在所有數(shù)據(jù)集上的性能出現(xiàn)了下降,三個(gè)指標(biāo)性能分別平均下降了1.25%、1.24%、1.29%,證明使用句子節(jié)點(diǎn)一階鄰域中圖注意機(jī)制可以提取到對(duì)話題分割任務(wù)有效的語義信息。
(3)從指標(biāo)變化分析,SECTION 這個(gè)數(shù)據(jù)集上Pk值出現(xiàn)不穩(wěn)定的消融效果,可能的原因是,句子之間共現(xiàn)詞過多,導(dǎo)致引入詞節(jié)點(diǎn)間接信息交換出現(xiàn)不穩(wěn)定。Weibo數(shù)據(jù)集在w/o word模型上性能提升,原因可能是中文數(shù)據(jù)集中有太多專有名詞或生僻詞,導(dǎo)致分詞過程引入了數(shù)據(jù)噪音,對(duì)模型產(chǎn)生影響。
(4)三個(gè)模型在CHOI、ELEMENTS 兩個(gè)數(shù)據(jù)集上差距最大,w/o sentence模型強(qiáng)于w/o word模型證明了利用關(guān)鍵詞節(jié)點(diǎn)增強(qiáng)層次信息和高階鄰域信息在話題轉(zhuǎn)變較多數(shù)據(jù)集中的有效性。
3.4.2 不同句向量初始化分析
表5 展示了使用三種預(yù)訓(xùn)練語言模型常用句向量表示方法的實(shí)驗(yàn)結(jié)果,以驗(yàn)證預(yù)訓(xùn)練語言模型不同句向量表示方法對(duì)后續(xù)分割效果的影響。三種表示方法分別為使用BERT所有層的[CLS]字符向量相加(記為All-CLS)、僅使用最后一層[CLS]字符向量(記為Last-CLS)、第一層與最后一層隱藏向量平均池化(記為First+Last)
表5 不同句向量表示的實(shí)驗(yàn)結(jié)果Table 5 Experimental results expressed by different sentence vectors 單位:%
表5 結(jié)果說明,本文模型在上述數(shù)據(jù)集中All-CLS作為句子向量表示要優(yōu)于Last-CLS 和First+Last 方法,其原因可能為:引入不同層的向量信息可以豐富句子向量表達(dá),融合了深層的語義信息和表層的短語結(jié)構(gòu)和句法信息。
3.4.3 樣例分析
該樣例出自WIKI-10K 測(cè)試集,介紹了一個(gè)名叫Amguri的地方,包含六個(gè)話題片段:0~2、3~6、7~13、14~17、18~19、20~21,分別為地理、人口統(tǒng)計(jì)、教育、文化、政治和健康。如表6 所示,分別為真實(shí)分割結(jié)果以及DSG-SEG、BERT-Bi-LSTM和MHG-TS模型分割結(jié)果。
表6 樣例分析結(jié)果Table 6 Sample analysis results
從分割結(jié)果可以看出,只有MHG-TS模型預(yù)測(cè)到了17、19這兩個(gè)分割點(diǎn)。這兩處分割點(diǎn)話題段落較短,話題轉(zhuǎn)移頻率較高,證明了MHG-TS模型應(yīng)對(duì)話題分割任務(wù)的有效性。
BERT+Bi-LSTM和MHG-TS模型都錯(cuò)誤地在第9句話分割的可能原因是:7~9和10~13雖然都是在講Amguri的教育,但是話題主語從Amguri轉(zhuǎn)移到Rameswar Dutta高中,序列關(guān)系上出現(xiàn)了話題的遞進(jìn)。
MHG-TS 和DSG-SEG 模型將第12 句話預(yù)測(cè)為分割點(diǎn)的可能原因是10~12句著重描寫了Rameswar Dutta高中的由來,Dutta關(guān)鍵詞出現(xiàn)頻繁,模型受到關(guān)鍵詞語信息的影響,進(jìn)而導(dǎo)致分割錯(cuò)誤。
由上所述,MHG-TS模型取得更好的分割結(jié)果,成功結(jié)合了不同粒度文本單元的信息,適用于話題分割任務(wù)。
本文針對(duì)現(xiàn)階段模型對(duì)句子的語義特征提取不足、忽略篇章中的層次信息和上下文信息交互等問題,提出一個(gè)話題分割模型MHG-TS,該模型首先使用預(yù)訓(xùn)練語言模型初始化圖中關(guān)鍵詞與句子節(jié)點(diǎn)表示,再通過圖注意力網(wǎng)絡(luò)進(jìn)行圖中句子節(jié)點(diǎn)一階鄰域?qū)蛹?jí)的信息傳遞,初步得到具有全局信息的句子節(jié)點(diǎn)表示;再通過引入更細(xì)粒度的文本單元構(gòu)建關(guān)鍵詞層級(jí),注入外部知識(shí);利用關(guān)鍵詞節(jié)點(diǎn)充當(dāng)中介,幫助模型建立更復(fù)雜的句子間關(guān)系,將信息傳遞推廣到高階鄰域以加強(qiáng)局部句子節(jié)點(diǎn)間的信息交互;最后使用Bi-LSTM 網(wǎng)絡(luò)提取序列關(guān)系進(jìn)行分割邊界預(yù)測(cè)。在七個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果證明了MHG-TS模型在話題分割任務(wù)中的有效性,并驗(yàn)證了多層級(jí)信息增強(qiáng)全局語義信息提取的合理性。
在接下來的研究中,將探索中文語料中關(guān)鍵詞節(jié)點(diǎn)的抽取和句子節(jié)點(diǎn)的信息挖掘,同時(shí)根據(jù)節(jié)點(diǎn)之間的潛在語義聯(lián)系,對(duì)節(jié)點(diǎn)之間的邊進(jìn)行篩選,保證模型性能的同時(shí),降低模型計(jì)算復(fù)雜度。