• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于孿生神經(jīng)網(wǎng)絡(luò)的行文一致性測評研究

      2022-06-14 08:41:24劉杰張文軒李亞光張逸超周建設(shè)
      北京理工大學(xué)學(xué)報 2022年6期
      關(guān)鍵詞:人物性格行文一致性

      劉杰,張文軒,李亞光,張逸超,周建設(shè)

      (1. 首都師范大學(xué) 信息工程學(xué)院,北京 100048;2. 北方工業(yè)大學(xué) 信息工程學(xué)院,北京 100144;3. 首都師范大學(xué) 中國語言智能研究中心,北京 100048)

      如何對行文內(nèi)容進行提取、評測是作文評測研究的重點. 以人物記敘文為例,其寫作任務(wù)是結(jié)合某一類人物的性格特點、故事情節(jié),由此完成以人物形象為主旨的作文寫作. 其中人物形象主要由人物外貌、語言、動作、故事場景等要素構(gòu)成,同時突出核心人物的人物性格. 所以具體到行文一致性判別任務(wù),則需要結(jié)合全文和各個具體的描寫片段信息,從多個角度對人物形象的構(gòu)成要素進行提取與評測,是一個多維度的評測任務(wù).

      現(xiàn)有用于作文評測任務(wù)的方法,所抽取的文本信息主要是文本的淺層特征. 雖然能實現(xiàn)以語料庫驅(qū)動的針對文本句式句群、用語習(xí)慣和詞語搭配的測評,以及全文主題的分類,主題詞、特征詞的提取,但準確性無法達到本文這一復(fù)雜任務(wù)的要求. 對于這種篇章級別的評測任務(wù),目前的篇章級行文一致性度量模型僅考慮待測作文的全文行文一致性,對于文本詳細的語義塊之間的一致性沒有予以考慮.而人物類作文需要考慮作文中人物形象、性格、故事,三者的一致性. 比如:描寫性格慈祥的母親不能用勇敢的故事去襯托她;正義行為的刻畫與負面外貌的描寫具有矛盾性. 因此,行文一致性不僅需要對全文的主題進行判斷,還需要判斷作文語義塊之間的語義一致性. 通過對全文、段落、語句的聯(lián)合,更加準確的完成行文一致性的評測.

      針對上述問題,本文提出了一種測評行文一致性的孿生匹配網(wǎng)絡(luò)(Match_Net_Siamese)模型. 首先,對待測作文的全文主題進行主題提取,即分別通過對人物性格形象描寫與事件描寫進行語義特征建模,并利用神經(jīng)網(wǎng)絡(luò)的方式完成兩者關(guān)系的對應(yīng)訓(xùn)練.其次,判斷是否出現(xiàn)了內(nèi)容主題不一致的情況,即人物形象特征、性格、故事情節(jié)三者描述內(nèi)容要一致,共同突出一個作文主題,最終對全文進行行文一致性評分.

      另外,在數(shù)據(jù)處理和實驗過程中,針對外部數(shù)據(jù)庫依賴以及TF-IDF 文本向量的稀疏性問題,本文使用無監(jiān)督的Biterm-LDA 模型進行文本事件主題提取,從而解決對手工標注的依賴.

      目前,國內(nèi)對于作文自動測評的研究主要集中在對漢語寫作教學(xué)軟件的研究與設(shè)計[1],以及高考作文自動評分方面. 這些研究主要采取自然語言處理技術(shù),抽取待測作文中的文本信息,通過監(jiān)督型機器學(xué)習(xí)模型,將其轉(zhuǎn)化成分類或回歸問題,實現(xiàn)作文的評級或評分. 在這些研究中,用于作文評測所抽取的文本信息主要是文本的淺層特征,比如關(guān)鍵詞逆文檔頻率信息、句法結(jié)構(gòu),與詞性信息、分級詞匯頻率等,這是鑒于自然語言處理領(lǐng)域中利用淺層文本特征實現(xiàn)文本分類/回歸任務(wù)的方法. 另外,有研究運用了機器學(xué)習(xí)、計算語言學(xué)的諸多技術(shù),實現(xiàn)了文本主題聚類和分類,并在此基礎(chǔ)上生成了話題詞表及常用句型語料庫,從模型選擇和詞多樣性特征抽取兩個方面研究作文自動評分技術(shù). 或者利用作文中的排比、比喻等修辭手法以及詩詞引用來表征作文的文采. 付瑞吉等[2]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長短時記憶(BiLSTM)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行中學(xué)生作文的優(yōu)美句識別,并和CNN、BiLSTM 網(wǎng)絡(luò)進行了對比. 實驗證明,混合神經(jīng)網(wǎng)絡(luò)的準確率最高. YANG 等[3]針對作文自動評分任務(wù),首次引入BERT 并提出采用多個損失函數(shù)來進行. 使用排序損失函數(shù)進行度量學(xué)習(xí),同時加入回歸損失函數(shù)進行互補. KUO[4]研究表明Bi-lstm 在進行作文隱喻檢測任務(wù)上的有效性,證實了其性能優(yōu)于傳統(tǒng)的線性分類模型. MAYFIELD 等[5]提出模型的優(yōu)劣不僅需要考慮其性能也要考慮模型所需要的人工成本以及算力成本,針對作文自動評分任務(wù)把傳統(tǒng)算法與BERT 進行綜合比較,結(jié)果表明雖然BERT 性能達到了最佳,但其花費了傳統(tǒng)算法100 倍的時間進行計算,同時相比傳統(tǒng)算法提升的性能不超過5%. 因此針對作文自動評分任務(wù),傳統(tǒng)算法在計算成本與時間成本上仍具有一定的優(yōu)勢. 深度學(xué)習(xí)方法則在性能提升上更有優(yōu)勢. 以上研究對作文自動評分任務(wù)的發(fā)展起到積極的推進作用.

      針對行文一致性評測任務(wù),需要獲取篇章級別的語義特征. 目前現(xiàn)存的篇章級行文一致性度量模型主要有基于修辭結(jié)構(gòu)理論的方法[6],以及基于中心理論的方法[7]. 這些方法從統(tǒng)計學(xué)的角度定義了篇章級實體出現(xiàn)的句法角色及其轉(zhuǎn)換頻率與全文行文一致性的關(guān)系,并假設(shè)優(yōu)質(zhì)的作文中實體間的轉(zhuǎn)換關(guān)系一定滿足在訓(xùn)練集上學(xué)習(xí)到的關(guān)系,因此建立概率模型度量未知文本的行文連貫程度. 最終,研究者利用人工文本一致度評分與模型打分的相關(guān)程度度量模型的有效性.

      以上的研究雖然能實現(xiàn)語料庫驅(qū)動的針對文本句式句群、用語習(xí)慣和詞語搭配的測評,也可以實現(xiàn)對于全文主題的分類及主題詞、特征詞的提取,但對于本文所提出的復(fù)雜任務(wù)還無法達到所要求的準確性. 對于新聞推薦任務(wù),需要同時考慮實體之間的關(guān)聯(lián)信息和深層次的語義聯(lián)系[8]. 對于作文行文一致性判斷認為,需要同時判斷作文整體一致性和作文語義塊之間的語義一致性. 對于人物類作文,需要同時考慮作文中人物形象、性格、故事,三者的一致性:描寫性格慈祥的母親不能用勇敢的故事去襯托她;正義行為的刻畫與負面外貌的描寫具有矛盾性. 因此,人物類作文行文一致性分析包括作文表層的主題一致性、情感一致性、人物性格和事件的一致性,其原理是一樣的,因此方案都是相同的,都需要(情感?全文)、(主題?全文)、(人物性格?故事描寫)、(事件話題?事件描寫)的對應(yīng)建模.

      基于以上分析,本文提出了一個全新的無監(jiān)督模型,實現(xiàn)了作文行文一致性測評任務(wù). 模型構(gòu)建使用了孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)了抽象語義層面的作文人物性格形象特征與故事描寫特征的相似度度量.

      1 行文一致性判別模型

      1.1 作文的中心思想提取

      如何提取作文的中心思想特征是一個重要挑戰(zhàn).本節(jié)通過對作文的中心思想部分出現(xiàn)的規(guī)則、形式、位置進行分析,創(chuàng)新性地提出了一個作文中心思想提取的解決方案.

      一般來講中心思想信息(人物性格形象)基本可以從直接的關(guān)鍵詞、關(guān)鍵搭配的匹配技術(shù)以及間接的文本語義推理技術(shù)獲得,但由于作文中對核心人物的部分性格描寫可能比較隱晦,關(guān)鍵詞搭配的直接抽取不能獲得與核心人物性格有關(guān)的全部信息.因此本文提出使用語義逆向推理技術(shù),將核心人物相關(guān)段落轉(zhuǎn)化為人為設(shè)置的性格類型分布,從而作為性格關(guān)鍵詞的補充,二者結(jié)合形成人物性格特征.除此之外,與核心人物有關(guān)的外貌描寫可能也與人物形象相關(guān). 因此,本文從4 個方面完成對作文核心人物的性格形象特征(即中心思想特征)的提取:關(guān)鍵人物出現(xiàn)的頻率;與核心人物相關(guān)的外貌描寫匹配;顯示性格關(guān)鍵詞;隱式性格特征.

      具體地,為待測作文抽取中心思想特征時,需要完成以下流程.

      1.1.1 關(guān)鍵人物出現(xiàn)頻率

      本文通過構(gòu)建人物-代詞元組序列,以及代詞的上下文環(huán)境,將每個代詞映射到一個人物類別上,最后為作文中出現(xiàn)的所有人物按出現(xiàn)頻次排序,出現(xiàn)最高頻次的人物即設(shè)定為本文所描寫的核心人物.

      1.1.2 核心人物的外貌描寫

      通過人工遴選的方式選取了共計186 個頻率較高的外貌類名詞,作為選取外貌搭配的種子名詞. 合并表1 中無標簽訓(xùn)練集和驗證集的所有文本,在這些文本中抽取所有頻次大于30 的外貌搭配. 利用LTP 語言云平臺按照固定句法模式抽取文本中所有固定的搭配,構(gòu)建外貌搭配字典. 最終獲得了共計98 個有信息價值的外貌搭配. 之后抽取每篇作文核心人物出現(xiàn)的句子中所包含的外貌搭配,使用TFIDF 進行文本表示,從而作為文本的外貌搭配特征.

      表1 數(shù)據(jù)集信息Tab. 1 Dataset information

      1.1.3 顯示性格關(guān)鍵詞

      通過人工遴選的方式獲得了共計682 個頻率較高的性格詞語,形成本題所需的性格列表. 對性格詞進行同義詞與近義詞擴展,在此使用哈工大同義詞林工具識別性格詞庫中的同義詞/近義詞信息. 哈工大同義詞林可以計算兩個中文詞語間的語義相似度,本文取閾值=0.9,規(guī)定相似度在此閾值之上的兩個詞互為近義詞,若相似度為1 則為同義詞. 最終獲得了所有性格詞的同義詞/近義詞列表. 記性格詞c對應(yīng)的近義詞列表為:S imlist[c]={(j,sim(c,j))}j∈{1,2,···,682} 其 中sim(c,j)為詞語c和j在同義詞林中的相似度. 之后抽取每篇作文核心人物出現(xiàn)的句子中所包含的性格關(guān)鍵詞及其搭配作為對文本有價值的性格詞特征.

      1.1.4 隱式性格特征

      本文采用Biterm-AT 模型[9]作為隱式性格特征向量抽取的模型工具. 首先,從核心人物出現(xiàn)的語句中,通過間隔 Collapsed Gibbs Sampling 方法多次采樣獲得每個詞的標簽分配向量,再將多次采樣獲得的標簽分配向量取平均值,接著通過公式(1)對抽取到的標簽分配向量進行平滑.

      式中:nd為多次采樣后標簽a 平均出現(xiàn)的次數(shù);α為線性平滑因子,本文將其設(shè)為0.001,最后獲得了33(總標簽數(shù))維的概率分布向量.

      由于全體標簽中包括了人物類別和性格類別的標簽,而此時已經(jīng)根據(jù)關(guān)鍵人物列表提取了文本中所有出現(xiàn)的人物頻率,所以不再需要人物類別的概率作為特征. 因此,這一步中需要過濾掉所有人物類別的分布概率,只保留余下 18 維性格類別對應(yīng)的概率即可. 最后重新歸一化這18 維的性格類別向量,形成最終的隱式性格特征向量.

      根據(jù)上述的步驟從待測作文中提取中心思想,即核心人物特征向量,涵蓋了對人物類別、外貌、顯示性格關(guān)鍵詞與隱式性格的逆向推理的特征提取過程,這四步分別提取了77 維、132 維、682 維和18 維的特征信息,最后,拼合這部分向量,獲得描述作文核心人物特征的909 維向量. 在此后的模型訓(xùn)練與預(yù)測中,針對所有作文均應(yīng)用人物性格向量進行核心人物形象的形式化定量表示.

      1.2 作文故事段落文本提取

      作文行文一致性評測主要評測作文的中心思想以及作文內(nèi)容的一致性問題. 因此除中心思想(人物性格形象)外,行文還需要對作文其他部分進行特征表示,這些部分包括主要人物出現(xiàn)故事描寫特征以及作文整體的主題特征.

      1.2.1 故事描寫特征

      首先,利用LTP 工具,對表1 中所示的標注訓(xùn)練集_L 中包含7 600 多篇僅標注了人物類別的作文進行分詞和詞性標注,過濾掉性格詞庫中所有性格關(guān)鍵詞,最后利用TF-IDF 文本表示方式將集合中所有的文本表示為TF-IDF 向量形式. 由于每篇文本均對應(yīng)一個人物類標注,因此,可以利用卡方特征選擇方法選取最重要的前5 000 個單詞作為事件類的關(guān)鍵詞,對于每篇作文,將其轉(zhuǎn)化為TF-IDF 向量表示,如此則獲得了 5 000 維的文本TF-IDF 向量.

      1.2.2 作文主題特征

      LDA 模型是基于機器學(xué)習(xí)的一種無監(jiān)督學(xué)習(xí)方法,該方法通過在單文本層面獲取共現(xiàn)詞對以實現(xiàn)主題挖掘[10]. 本文利用Biterm-LDA[11]進行主題建模,抽取核心人物出現(xiàn)的故事段落的主題分布. 此模型結(jié)合了LDA 的單文本主題建模能力與 BTM 短文本主題建模質(zhì)量的優(yōu)勢. Biterm-LDA 模型可以實現(xiàn)對訓(xùn)練集文本的主題概率建模、逆向推理主題-詞多項式概率分布、以及對測試集中未知文本的主題分布的后驗推理等任務(wù). 訓(xùn)練主題模型的超參數(shù)設(shè)定為α=0.1,β=0.01,主題數(shù)K=180.

      使用上述主題抽取方案為所有與核心人物相關(guān)的目標文本抽取后驗主題向量特征,特征維度為180 維,將這部分特征與TF-IDF 向量拼合,形成最終的作文故事段落文本的特征量化表示.

      1.3 行文一致性判別模型

      在本文所述的作文特征提取方案中,針對作文的人物性格形象描寫和故事描寫段落分別抽取了特征向量,本節(jié)將討論如何利用這兩部分的數(shù)據(jù)構(gòu)建模型,完成對行文一致度的判別,即本文提出的Match_Net_Siamese 網(wǎng)絡(luò).

      針對作文的人物性格形象特征與故事特征的語義級對應(yīng)問題,設(shè)計了直接應(yīng)用神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)人物性格形象特征與故事特征之間的對應(yīng)關(guān)系訓(xùn)練.本模型設(shè)計的動機是將同一篇作文中的人物性格形象描寫向量與故事描寫向量映射到相近的抽象語義空間內(nèi),而不同人物對應(yīng)的故事描寫向量與該篇作文的人物性格形象向量在映射后,會出現(xiàn)較遠的距離.

      圖1 展示了本文所提出的Match_Net_Siamese 神經(jīng)網(wǎng)絡(luò)模型的示意圖.

      圖1 中,左下角部分為從每篇文本中抽取的人物性格形象向量(中心思想),右下為從每篇文本中抽取的故事描寫向量,在網(wǎng)絡(luò)的第一層,這兩個向量分別被線性映射激活. 由式(2)給出.

      圖1 Match_Net_Siamese 模型示意圖Fig. 1 Match_Net_Siamese model diagram

      式中Wl_1_fig為第一層對人物性格形象向量進行線性映射的矩陣,形狀為[200,820];Xi,fig為輸入的人物性格形象向量,此后經(jīng)過激活函數(shù)激活,得到200維的人物抽象特征,記為Layer_1_fig.

      與此同時,故事向量同樣被矩陣Wl_1_story線性映射至一個200 維的空間,Wl_1_story形狀為[200,5 180],之后經(jīng)過激活函數(shù)激活. 激活后的抽象故事特征記為Layer_1_story. 在第一層中,網(wǎng)絡(luò)不共享參量,對人物性格形象向量與故事向量的映射過程彼此獨立.

      網(wǎng)絡(luò)的第二層實現(xiàn)利用同一組的參數(shù),將人物抽象特征與故事抽象特征映射到同一歐式空間內(nèi),對人物抽象特征與故事抽象特征的計算用同一個映射矩陣W_C和偏置b_c,其中W_C維度為[75,200],b_c為列向量,維度為75. 如此,最初的每一對人物形象性格向量與故事描寫向量被映射到同一個歐式空間內(nèi). 在這個空間中,網(wǎng)絡(luò)優(yōu)化的目標是使來自同一篇文本內(nèi)的人物形象性格向量與故事描寫向量鄰近,使來自不同核心人物的作文人物形象向量與故事描寫向量的距離而疏遠.

      圖1 的模型中,本文首先將維度不同的人物形象向量與故事描寫向量映射到同一維度,再使用一層共享權(quán)值的神經(jīng)網(wǎng)絡(luò)進行最終的抽象特征提取,最后,再在最終的抽象特征空間計算樣本的相似度,后面的網(wǎng)絡(luò)權(quán)值共享、相似度度量與優(yōu)化的設(shè)計參考了孿生神經(jīng)網(wǎng)絡(luò)(Siamese neural network, SNN)模型. 網(wǎng)絡(luò)的損失函數(shù)如下:

      式中:Xi,fig為訓(xùn)練集中第i篇作文的人物性格形象特征向量;Xi,st為訓(xùn)練集中第i篇作文的故事描寫特征向量;Xj,st為訓(xùn)練集中第j篇作文的故事描寫特征向量,其中,第j篇與第i篇作文的核心人物不同. 下文中,為敘述方便,將彼此對應(yīng)的人物性格特征向量與故事向量稱為正例,否則為反例. 實際訓(xùn)練時,輸入數(shù)據(jù)為3 個向量,前兩個為對應(yīng)的人物性格特征向量與故事特征向量,然后再從與該篇作文核心人物不同的所有作文中隨機取出一篇,取其故事描寫特征向量,組成一組訓(xùn)練數(shù)據(jù). 這組數(shù)據(jù)經(jīng)兩層網(wǎng)絡(luò)映射后,使用式(3)可以計算出它的損失. 其中,β為正例損失強度稀疏,F(xiàn)fig、Fst分別指將原始人物性格形象特征/故事描寫特征映射至網(wǎng)絡(luò)最后抽象層的函數(shù). cossim 函數(shù)是向量余弦相似度函數(shù),公式如(4).

      公式(3)中的損失來源于兩部分,公式(3)右邊第一項為正例損失,第二項為負例損失. 需要說明的是,如果訓(xùn)練數(shù)據(jù)中來自不同的核心人物的人物性格特征與故事特征向量在最終的抽象向量空間內(nèi)余弦相似度≤0,則不做懲罰,這類似于“不敏感代價”的處理方式,實踐中發(fā)現(xiàn)如此設(shè)計可以一定程度上具有抗過擬合的效果.

      為考察本文所使用的Match_Net_Siamese 模型中,第二層孿生網(wǎng)絡(luò)的設(shè)置是否確實能提高網(wǎng)絡(luò)判別的準確性,這里還設(shè)計了普通的映射網(wǎng)絡(luò)模型與其做對比實驗. 圖2 展示了沒有孿生網(wǎng)絡(luò)參量的Match_Net_Vanilla 模型示意圖.

      圖2 Match_Net_Vanilla 模型示意圖Fig. 2 Match_Net_Vanilla model diagram

      該網(wǎng)絡(luò)與Match_Net_Siamese 的區(qū)別在于第二層到第三層抽象特征的映射中,網(wǎng)絡(luò)不共享權(quán)值,對抽象的人物/故事特征分別以各自的網(wǎng)絡(luò)第二層參數(shù)進行線性映射后激活,激活后的特征為最終的抽象語義特征.

      1.4 Match_Net 的參數(shù)設(shè)定

      在Match_Net_Siamese 模型中,本文使用0.000 6作為學(xué)習(xí)率,對于Match_Net_Vanilla,使用該模型能夠達到最好效果的學(xué)習(xí)率0.000 5. 兩個模型選擇的批大小為64,模型在一次優(yōu)化訓(xùn)練中處理32 個正例和32 個反例. L2正則化向參數(shù)Lamda 選擇為5×10?5,訓(xùn)練輪次為20,并使用指數(shù)下降法動態(tài)調(diào)整學(xué)習(xí)率,設(shè)置折損率decay_rate 為0.8,即每個學(xué)習(xí)輪次后將學(xué)習(xí)率折損0.8 倍,動態(tài)的學(xué)習(xí)率有助于更好地調(diào)節(jié)訓(xùn)練步長,使得模型訓(xùn)練易于收斂,避免在損失函數(shù)的局部極小點進行劇烈震蕩.

      2 數(shù)據(jù)與人工評分方案

      2.1 數(shù)據(jù)集

      本文使用了大約7 000 篇作文作為機器學(xué)習(xí)模型的訓(xùn)練、驗證,這部分文本均有人物類別標注. 此外,為挖掘人物性格與主題間的對應(yīng)關(guān)系,本文將其中一部分文本進行了性格標注,每篇文本的核心人物類別限制在1 個,但性格類別可以是多個,所以這是一批多標簽的文本集合. 除此之外,為訓(xùn)練無監(jiān)督的主題模型,本文收集了大約4 萬篇無任何標注的作文,用于無監(jiān)督主題模型的訓(xùn)練和測試. 模型驗證集中含有401 篇人工行文一致度評級后的作文,本文將利用模型驗證集,對最終的行文一致性測評模型的通用性、可行性和準確性進行評估.

      2.2 人工評分方案

      在模型驗證集的標注中,課題組請領(lǐng)域?qū)<遥ㄖ行W(xué)語文教師)將401 篇作文按其行文一致度分為4個等級,標注從教師測評的角度,考慮作文中的人物性格形象與故事描寫是否對應(yīng),故事描寫是否以作文核心人物為中心,圍繞核心人物展開、突出體現(xiàn)核心人物的性格特點,并且沒有跑題.

      每個等級的意義如下:

      6 分:跑題或人物與事件無明顯對應(yīng)關(guān)系,事件描寫離題,全文出現(xiàn)了多個人物不分主次.

      7 分:人物與事件有對應(yīng)關(guān)系,但人物性格不突出,事件描寫太簡略或冗雜,部分事件描寫離題.

      8 分:事件能體現(xiàn)核心人物的性格,能緊扣全文主旨進行事件寫作. 全文基本能做到重點突出、內(nèi)容具體.

      9 分:事件緊扣核心人物的性格形象展開,突出人物的重點性格,細節(jié)周到、詳略得當、層次分明,很好地刻畫了核心人物.

      以下給出標簽信息,總計標簽類別為15 類人物和18 類性格標簽. 表2 和表3 中列舉了這33 類標簽的信息.

      表2 人物標簽信息Tab. 2 Figure label information

      表3 性格標簽信息Tab. 3 Disposition label information

      實驗在每次決定神經(jīng)網(wǎng)絡(luò)模型輸入時隨機抽取反例樣本,訓(xùn)練/測試集比例為8∶2. 為真實地評估兩個模型的泛化性能,在此采用五折交叉驗證. 訓(xùn)練和驗證時,對每批正例樣本對隨機選取負樣本,而測試時,使用模型對測試集文本進行打分,并使用真實標注驗證模型效果.

      3 實驗結(jié)果及分析

      3.1 模型評測標準

      本文將分析在無行文一致性評級信息的條件下,模型對于測試集上的正例樣本和模擬生成的負例樣本的分類性能. 對于每一對人物性格形象特征與故事描寫特征,式(4)給出了兩者在模型抽象語義空間內(nèi)的余弦相似度,據(jù)此可實現(xiàn)模型對每一對特征主題是否一致進行分類. 本文以準確率(Precision)、召回率(Recall)及F1值作為評測標準. 此外,還為模型驗證集中的401 篇文本,依據(jù)模型輸出進行行文一致度打分,因此可對比模型評分與真實評分的擬合度.

      3.2 兩種Match_Net 行文一致性判別的二分類實驗結(jié)果

      本文在相同訓(xùn)練集與測試集上完成了對兩種Match_Net 的訓(xùn)練和測試. 在此二分類實驗中,以同篇作文中的人物性格特征與故事描寫特征作為正例樣本,以隨機的不同作文中兩部分特征作為負例樣本,在一次實驗中使用約 2 800 對樣本對模型進行二分類測試. 其中,分類閾值取最大化模型測試集上真陽比例-假陽比例的值. 表4 和表5 分別給出了2 種模型在五折交叉驗證后測試集上的平均分類結(jié)果.

      表4 Match_Net_Vanilla 的分類實驗結(jié)果Tab. 4 Classification experiment results of Match_Net_Vanilla

      表5 Match_Net_Siamese 的分類實驗結(jié)果Tab. 5 Classification experiment results of Match_Net_Siamese

      圖3 和圖4 分別給出了兩種Match_Net 模型的受試者曲線(receiver operating curve,ROC)測評結(jié)果,受試者曲線是在二分類任務(wù)中,利用逐步降低正例分類閾值對假陽性樣本概率和真陽性概率進行統(tǒng)計后繪制出的從坐標(0,0)到(1,1)的曲線.

      圖3 Match_Net_Vanilla 的受試者曲線Fig. 3 Receiver operating curve of Match_Net_Vanilla

      圖4 Match_Net_Siamese 的受試者曲線Fig. 4 Receiver operating curve of Match_Net_Siamese

      3.3 模型評分與真實人工評分的擬合度評測結(jié)果

      為實際檢驗?zāi)P蛯τ谡鎸嵡闆r下待測作文行文一致性評級與真實人工評級的擬合度,本文利用已經(jīng)訓(xùn)練好的模型進行實際評分,再將模型評分與人工評級作對比,以此檢驗?zāi)P驮谡鎸嵈郎y作文上的表現(xiàn). 本文在表1 中列出了模型測試集信息. 其中人工評分分為6~9 四個等級,分別對應(yīng)4 種行文一致性的符合程度. 公式4 的應(yīng)用對象為人物性格形象向量與故事描寫向量在模型處理的最后一層得到的抽象特征,依此公式可以得到待測作文人物性格形象描寫與故事描寫的余弦相似度,在?1~1 之間.

      模型測試時,首先,抽取測試集中401 篇作文的人物性格形象特征與故事描寫特征向量,然后計算這 401 對特征向量的余弦相似度,最后在除去離群的過大值和過小值后,根據(jù)其余相似度值的最大值和最小值,將這401 個余弦相似度值線性地映射至5.5~9.5 分之間,取其四舍五入后的整數(shù)作為模型的最終評分. 表6 和表7 分別給出了測試集上兩種模型最終評級與人工評級的分類測試結(jié)果.

      表6 Match_Net_Vanilla 的行文一致度評級結(jié)果Tab. 6 Rating results of writing consistency based on Match_Net_Vanilla

      表7 Match_Net_Siamese 的行文一致度評級結(jié)果Tab. 7 Rating results of writing consistency based on Match_Net_Siamese

      圖5 展示了測試集中部分作文的行文一致性最終評測結(jié)果與人工標注的評級結(jié)果間的對比,其中,橫坐標為評測算法最終給出的輸出,是介于5.5~9.5 之間的連續(xù)實數(shù),縱坐標為人工評級,分為6~9四個離散的整數(shù).

      圖5 行文一致性評級結(jié)果可視化展示Fig. 5 Visual display of writing consistency rating results

      3.4 實驗結(jié)果分析

      從兩種Match_Net 對于行文一致性判別的二分類實驗結(jié)果可以看出,共享網(wǎng)絡(luò)第二層參量的Match_Net_Siamese 模型在平均準確率、召回率和F1值3 種測評指標上均優(yōu)于不共享網(wǎng)絡(luò)參量的Match_Net_Vanilla 模型. 共享參量的網(wǎng)絡(luò)能夠有效地降低過擬合對實驗結(jié)果的損害,因為參量共享后網(wǎng)絡(luò)的整體參量數(shù)降低,在網(wǎng)絡(luò)第一層映射后,可以利用更少的參量提取文本更抽象特征,取得更優(yōu)的效果.

      從圖3 和圖4 可以看出,兩種網(wǎng)絡(luò)的訓(xùn)練結(jié)果均比較穩(wěn)定,體現(xiàn)在ROC 具有比較高的重合度與AUC 的低標準差. 此外,共享網(wǎng)絡(luò)第二層參量的Match_Net_Siamese 模型的AUC 值比較明顯地低于無參量共享的Match_Net_Vanilla 模型,驗證了使用Siamese 共享變量網(wǎng)絡(luò)可以在本任務(wù)文本數(shù)據(jù)集上有效地提高模型的預(yù)測(判別)準確度.

      據(jù)模型評分與真實人工評分的擬合度實驗結(jié)果可知,按上述算法將模型對于人物性格形象特征與故事特征的抽象語義級相似度輸出,通過Match_Net_Siamese 模型輸出后再進行線性映射、四舍五入的方法,即可獲得約84%的精準率和約83.5%的F1值,這個結(jié)果與普通神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模型Match-Net-Vanilla 相比具有比較明顯的優(yōu)勢. 模型測試集中6分作文較少,僅有9 篇,8 分作文較多,共計218 篇,7分和9 分作文的數(shù)量基本一致. 從實驗結(jié)果上來看,利用Match-Net_Siamese 模型通過簡單的線性映射獲得的最終評級結(jié)果,與人工標注結(jié)果多數(shù)一致,在8、9 分作文中獲得了比較高的準確率和召回率. 在6、7分作文中出現(xiàn)了一定的評分偏低的問題,但對于大多數(shù)高分作文均可以準確分類. 而基于普通神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的Match_Net_Vanilla 模型雖然對測試集中的模擬數(shù)據(jù)二分類結(jié)果尚可,在對于真實作文的評級實驗中,難以取得較優(yōu)的分類結(jié)果.

      圖5 中的4 個灰虛線矩形框內(nèi)分別為4 類評級作文中分類正確的樣本點,黑色樣本點為分類錯誤的樣本點. 可以看出,最終的評測算法能將多數(shù)8、9分作文準確分類. 對于部分作文,算法有評分偏低的傾向,這將在以后的研究中做進一步調(diào)整.

      實驗結(jié)果表明,引入孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的Match-Net 模型在分類正確率、召回率、F1值指標上均優(yōu)于普通神經(jīng)網(wǎng)絡(luò)模型. 且在該方案中,本文僅通過無監(jiān)督的方法制訂了從模型訓(xùn)練到實際應(yīng)用的算法流程,在保證基本準確率的條件下解決了對人工標注數(shù)據(jù)的依賴的問題.

      4 結(jié) 論

      本文提出了一種評測作文中行文一致性的實現(xiàn)方法. 首先分別使用了無監(jiān)督的Biterm-LDA 主題模型做事件主題抽取,使用了有監(jiān)督的Biterm-AT 主題模型對全文核心人物出現(xiàn)的語句進行逆向性格特征推理. 然后利用本文的Match_Net_Siamese 模型將兩部分特征進行相似度計算得到作文的行文一致性分數(shù),并且利用自動評估和人工評估來衡量它的性能.實驗結(jié)果表明,本文所提出的作文行文一致性測評方案在正確率、召回率、F1值指標上均優(yōu)于普通神經(jīng)網(wǎng)絡(luò)模型,可適用于以下條件的作文行文一致性評測:作文的表現(xiàn)形式以中心思想為核心,其他部分圍繞著中心思想展開并緊扣中心思想. 當然,還需要該類型的作文能用中心思想特征和其他作文部分特征來表示,并且表示的特征間具有一定的統(tǒng)計學(xué)規(guī)律,那么,仍可以用Match-Net 模型實現(xiàn)作文中心思想與其他輔助性段落的抽象語義級對應(yīng).

      下一步工作將嘗試更多的行文一致性測評方案,比如如何在弱監(jiān)督條件下,通過一個深度學(xué)習(xí)/機器學(xué)習(xí)模型完整地獲取文中的中心思想與輔助性故事特征表示,再實現(xiàn)行文一致度測評,這將可以直接根據(jù)模型的損失函數(shù)優(yōu)化作文兩部分內(nèi)容的特征表示,也減少了對上游模型特征抽取或人工特征抽取的依賴.

      猜你喜歡
      人物性格行文一致性
      歌劇表演中的“移情”對人物性格的刻畫效果透視——兼談兩部作品中的女性角色表達
      樂府新聲(2022年3期)2022-11-21 08:38:12
      關(guān)注減污降碳協(xié)同的一致性和整體性
      公民與法治(2022年5期)2022-07-29 00:47:28
      注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
      IOl-master 700和Pentacam測量Kappa角一致性分析
      思維有支架 行文有范式
      如何避免行文平淡無奇
      《湘江青年法學(xué)》行文體例與注釋規(guī)范
      《水滸傳》中的英雄與酒
      基于人物圖像視覺特征的人物性格隱私分析
      基于事件觸發(fā)的多智能體輸入飽和一致性控制
      泽普县| 嘉禾县| 丹棱县| 新源县| 轮台县| 天全县| 玉溪市| 扎赉特旗| 松溪县| 海宁市| 金门县| 广饶县| 永春县| 临安市| 长汀县| 遂昌县| 博兴县| 上蔡县| 无棣县| 浪卡子县| 建宁县| 揭西县| 永川市| 厦门市| 东城区| 蒙自县| 淄博市| 石棉县| 攀枝花市| 莱州市| 缙云县| 错那县| 阜平县| 三门峡市| 会东县| 遂川县| 蛟河市| 桂平市| 东乌珠穆沁旗| 临夏县| 舞钢市|