朱曉亮 吳逸塵 殷 姿
1(華中師范大學國家數(shù)字化學習工程技術研究中心 湖北 武漢 430079)2(華中師范大學教育大數(shù)據(jù)應用技術國家工程實驗室 湖北 武漢 430079)
語文課程標準[1]以及語文學科研究者均明確強調,在小學語文作文中要加強寫作素材的積累,并使學生能結合自身實際加以利用[2]。然而,當前語文作文教學中提供的素材數(shù)量龐雜且缺乏組織,在小學生有限的認知能力之下,若不經(jīng)過加工直接推送,極易造成認知過載以至于引發(fā)學習迷航。因此,在當前小學中高年級語文寫作教學過程中,缺少有效的作文素材資源輔助,這就要求在小學語文學科作文領域的信息化建設中,把握好優(yōu)秀作文素材的存儲管理工作,并且能夠為個性化的作文素材提供數(shù)據(jù)支撐。
對小學語文作文素材的存儲,借助知識圖譜[3]的概念,將各個優(yōu)秀作文語料視為本體的同時,必然會涉及到如何對本體進行有效的屬性描述。而能夠從作文語料本身抽取屬性,即作文的標簽,則是描述的核心內容。一方面,傳統(tǒng)的標簽抽取策略大部分采用關鍵詞抽取方案,沒有做到對作文語料的合理安排,即缺乏對小學語文作文標簽的定義。另一方面,原始語料文本中包含的大量冗余信息也會對文本的關鍵信息抽取產(chǎn)生干擾。
綜上所述,文本利用自然語言處理中文本自動摘要的方法去除冗余,并在定義了小學語文作文語料標簽的前提下,提出了一種基于自動文摘技術的小學語文作文語料自動標簽抽取方法。
1.1.1 自動摘要
在對小學語文作文原始語料的處理過程中,為了使語料能更好地表達文章中心思想,則需要對原始語料進行去除冗余操作,其中,最常用的方法是文本自動摘要。自動文摘最早于1958年由Luhn提出,起初沒有得到較高的關注度,但隨著信息時代數(shù)據(jù)的爆炸式增長,人們逐漸意識到自動文摘對于文本去除冗余、提取中心的重要性。
自動文摘主要過程為文本分析、信息選取及文摘語言轉換[4],從不同角度可以分為不同類型,從文摘的獲取方式上可分為抽取型文摘和理解型文摘。抽取型文摘主要是從原文中選取合適的句子組成文摘,理解型文摘[5]則是通過對原文進行語義上的分析生成文摘,而理解型文摘因其較為深入的自然語言特征,一直處于技術攻堅階段,故不具有實用性。本文采用抽取型文摘的技術方案對語料進行預處理。
圖1為抽取型自動摘要的一般流程。其中,預處理環(huán)節(jié)主要對文本內容進行編碼及斷句處理。特征分析階段則通過不同的分析方法獲取原文中句子的權重,再通過對權重排序,選出適量句子,重新排序后輸出。
圖1 抽取型摘要的一般流程
1.1.2 作文自動摘要
目前主流的抽取型文摘方案來自于Rada Mihalcea和Paul Tarau提出的TextRank算法,是對谷歌基于圖的網(wǎng)頁權重計算方法PageRank加權重演變而來[6],主要用于關鍵詞抽取和文摘句抽取[7]。
TextRank算法分為計算相似度和排序兩個部分,對于一篇語料而言,首先將句子分離出來,依據(jù)PageRank的思路建立圖。其中,圖的節(jié)點就是句子,節(jié)點之間的權值就是句子之間的相似度。然而,選擇不同的相似度算法,對TankRank產(chǎn)生的最終結果也有不同影響[8]。因此,本文比較了幾種主流的相似度計算方法,進而選擇出一種最適用于作文語料處理的自動文摘方法。
1) 經(jīng)典相似度算法。該方法借助于兩個句子之間的共有詞語來達到整體相似度計算的目的。
2) 基于編輯距離的相似度算法。該方法的核心思想為計算從一個子串轉移到另一個子串所需要的最小步驟,主要操作為“替換”、“插入”和“刪除”。通常認為,兩個子串的編輯距離越小,相似度越大。
3) 基于Word2Vec的相似度算法。Word2Vec可用于對文本進行詞語聚類,獲取關鍵詞[9]。其主要思想是將自然語言中的詞匯,映射到一個共同的維度內,使之成為一個個具有統(tǒng)一意義的短向量[10]。本文首先需要訓練基于Skip-Gram+HierarchySoftmax的模型,然后獲取詞語之間的相似度關系,最后推算出句子間的相似度。
4) 基于BM25的相似度算法。BM25算法基于概率檢索模型,其核心思想為解析搜索詞,生成對應的語素信息,并將語素與文檔進行比對,最后由每一個比對結果進行加權求和得到最終的相似度。
本文采用ROUGE對這四種相似度算法進行評價。ROUGE是由Chin-Yew Lin在2004年提出的一種針對自然語言處理的自動評價方法[11],在其評價指標中,Precision用于描述機器摘要的準確率,也被稱為查準率;Recall用于描述機器摘要的召回率,也被稱為查全率;F-Score是Precision與Recall的加權平均值,反映了機器摘要結合準確率和召回率的統(tǒng)一分數(shù)。通過對1 410條數(shù)據(jù)進行摘要處理,得到測試結果如表1所示。
表1 四種自動摘要相似度算法的ROUGE評分結果
續(xù)表1
從表1中可以看出,基于Word2Vec的相似度算法在F-Score上的得分較低?;诰庉嬀嚯x的計算方法在準確度上得分較高,基于BM25的計算方法在查全率上得分較高,并且,兩者在最后的F-Score得分上相差不大。經(jīng)典相似度計算方法在各個指標上均獲得了較合理的分數(shù),類似的情況也體現(xiàn)在ROUGE-2、ROUGE-W的評分方法中。
但在實際的標簽抽取過程中,由于語料內容繁多,因此對時間效率也有一定的要求。本文在測試時,也對這4種算法的時間消耗做了記錄,結果如表2所示。
表2 四種自動摘要相似度算法的耗時
從表2中可以看出,BM25算法雖然在ROUGE得分上不是最高的,但在計算的時間效率上領先較多。在F-Score相差甚微的前提下,本文最終選取BM25算法作為作文語料自動文摘預處理的相似度算法,并得到基于TextRank算法的作文語料抽取型自動文摘結果。
1.2.1 分 詞
在進行標簽抽取之前,需要將句子以詞匯組合的形式呈現(xiàn),在自然語言處理中,通常采用中文分詞的方法加以實現(xiàn)。目前主要的分詞方法有基于詞典的方法和基于統(tǒng)計的方法,由于基于詞典的方法在算法復雜度以及分詞速度上更具有優(yōu)勢,故本文選取基于詞典的分詞方法進行分詞處理。
在基于詞典的分詞方法中,選擇基于N-最短路徑的分詞算法作為主要算法。其基本思想是根據(jù)詞典,順序匹配出在中文字串中所有可能的出現(xiàn)的詞的集合[12]。相較于傳統(tǒng)分詞算法,其特性更適合發(fā)掘命名實體,故最適合本文分詞方案。
1.2.2 命名實體識別
在小學語文作文標簽抽取的過程中,需要對經(jīng)過分詞處理后的作文語料進行詞性標注,識別出能夠代表作文類型的詞語,這就涉及命名實體識別。
目前對中文語料中普通的人名、地名等命名實體識別的研究中,中科院俞鴻魁等設計的一種層疊隱馬爾可夫模型就能達到不錯的效果。層疊隱馬爾可夫模型由三層隱馬爾可夫模型構成,自下而上分別是人名識別HMM、地名識別HMM和機構名識別HMM。
通過對作文語料的觀察發(fā)現(xiàn),機構名出現(xiàn)的頻率并不高,因此本文將重點關注人名和地名的識別?;趯盈B隱馬爾可夫模型中關于人名和地名的部分標注角色見表3。
表3 人名及地名的部分角色標注
利用層疊隱馬爾可夫模型可以高效地識別小學作文語料中的重要人名地名,從而協(xié)助標簽抽取過程中的作文分類標簽的獲取。
1.2.3 詞典設計
在實際處理作文語料時發(fā)現(xiàn),一些特殊名詞如“父親”、“母親”等,命名實體識別模型不會對其作出實體判斷。但實際上,這些詞語應歸類于人物描寫標簽的范疇。另外,一些地名中包含的名詞出現(xiàn)頻率較高,分詞模型可能會對其進行單獨分類。為了避免這些情況,本文提出了一種自定義的詞典內容來協(xié)助標簽抽取。針對人物相關名詞,本文結合實際經(jīng)驗,借助不同類型名詞分類建立專屬詞典,與命名實體識別模型相結合達到更準確的結果。具體分類見表4。
表4 人物描寫類型自建詞典
針對地名的情況,可依據(jù)詞綴來進行相應識別,具體分類見表5。通過對實際語料分析表明,小學語文作文中對家鄉(xiāng)的描寫一般以風景為主,故把其歸類到景物描寫中。
表5 景物描寫類型自建詞典
前一節(jié)針對摘要的自動獲取方法以及標簽抽取過程中所需要的分詞、命名實體識別以及詞典設計等技術方法進行了比較與分析。本節(jié)將介紹基于自動摘要的作文標簽抽取策略,該策略的實現(xiàn)方式如圖2所示。
圖2 基于自動摘要的作文標簽抽取方法
通過對小學作文語料的分析,本文將文章標簽總數(shù)限制為6個,同時根據(jù)標簽涵蓋的內容將其分為文章類型、核心實體、關鍵描述三個大類。其中,文章類型指的是小學語文作文的分類,由于小學語文作文的具體類別界限可以從不同維度、不同細分程度來劃定,而作文分類并非本文的唯一目的,故后文對文章類型的闡述主要以人物描寫和景物描寫兩個大類進行區(qū)分。
核心實體是從文章中獲取的最核心命名實體。在人物描寫分類中,核心實體是主要描寫的人物;在景物描寫分類中,核心實體是景物場景。關鍵描述是文章中頻繁出現(xiàn)的形容詞或文章中出現(xiàn)的俗語、成語等描述性詞語。各分類限制詞數(shù)見表6。
表6 標簽三個分類的詞數(shù)規(guī)定
分詞及命名實體識別基于開源自然語言處理框架HanLP實現(xiàn),抽取過程如圖3所示。
圖3 標簽抽取整體步驟
命名實體識別在分詞的結果上進行,最終以詞性標注的方式顯示。去除停用詞目的在于去除抽取結果中的常用詞語,減少對抽取策略的干擾,采用綜合停用詞表法實現(xiàn)。對于本文所需要的標簽詞語,其詞性類型如表7所示。其中,nr、ns代表最終獲取的標簽類型中的核心實體的詞性,其他詞性為關鍵描述中所涉及的詞性。
表7 標簽抽取重點關注詞性及實體
其中,習慣用語、俗語一般為4字以上詞語,是為了與文本中字數(shù)少且出現(xiàn)頻繁的詞語加以區(qū)分,從而更加精確地獲取與文章核心實體相關的描述性詞語。將經(jīng)過命名實體識別后的結果按照詞語-詞性存儲為列表,并按照降序從上而下排列,從高頻詞開始分析,具體分析過程見圖4。
圖4 詞語-詞性列表分析流程
對于核心實體的獲取過程主要分為兩個步驟,第一,依據(jù)標準命名實體識別的方法進行識別,當詞語詞性為nr/ns時,檢查該分類下計數(shù)器是否等于上限次數(shù)2個,若已達到上限則不作處理,反之將其加入到結果集中。第二,對于進行標準命名實體識別方法后沒有標記出的詞語,優(yōu)先采用自建詞典配對,若該詞語存在于自建詞語中,則進行與第一步類似的操作。
獲取到的實體除了存儲到結果集中以外,還需要記錄詞頻來表示該實體所屬類型占的權重,若結果集中核心實體的次數(shù)已滿足,則后續(xù)識別到的詞語繼續(xù)計算權重但不添加到結果集中。若自建詞典中也不存在當前分析的詞語,則該詞語進入到關鍵描述的判斷中,關鍵描述判斷的具體描述規(guī)則如下所示,依據(jù)以下規(guī)則,可以獲取到標簽分類中的關鍵描述部分。
關鍵描述判斷流程:
(1) 當前詞語長度是否超過2,不滿足則輸出否;
(2) 當前詞語的詞頻是否大于等于2,不滿足則輸出否;
(3) 當前詞語詞性是否為所要求的描述性詞語詞性,不滿足則輸出否;
(4) 同時滿足(1)、(2)、(3)條件的,判斷詞語屬于關鍵描述;
(5) 特殊情況下,出現(xiàn)次數(shù)超過3次且長度大于等于2的一般名詞(詞性為n)及專有名詞(詞性為nz)將被判斷屬于關鍵描述;
(6) 當列表讀取結束,總標簽數(shù)仍不滿足目標的情況下,對詞語列表中詞頻為1,但字數(shù)在4個以上的俗語及成語進行補充錄入。
當從列表中獲取的標簽數(shù)已經(jīng)滿足需求或者詞語-詞性列表已經(jīng)讀取到末尾,則結束詞語列表分析。此時,判斷命名實體中的兩個大類的權重對比,即判斷nr.weight和ns.weight,來確定文章類型標簽。若nr.weight>ns.weight,則該分類標簽為人物描寫;若nr.weight 對于抽取標簽的結果,沒有現(xiàn)行的統(tǒng)一標準。因此,本文設計三個維度來評價抽取的結果,這三個維度分別為分類準確度、實體準確度和形容詞準確度,總分值設為6分。 1) 分類準確度用于描述標簽中作文分類的正確與否。分類主要為人物描寫和景物描寫兩個大類,正確得1分,錯誤得0分,該項評分總分1分。 2) 實體準確度用于描述標簽中核心實體的正確程度,該項總分2分。由于核心實體標簽數(shù)量為1~2個,故具體得分情況為:當核心實體標簽數(shù)量為1個的時候,實體選取正確得2分,錯誤得0分;當核心實體標簽數(shù)量為2個的時候,根據(jù)正確得數(shù)量獲取得分。 3) 關鍵描述準確度用于描述標簽中獲取到的形容詞或重要名詞是否合適,該項總分3分。多個形容詞情況下,從前至后按詞頻比求取加權平均值,共劃分為4個層級進行評分工作,分別為: (1) 所摘取關鍵描述與核心實體之間的關聯(lián)度高,且對核心實體的描述十分貼切,如“險峻”之于“華山”,該情況得分為3分。 (2) 所摘取形容詞與核心實體之間關聯(lián)度一般,但對于核心實體所屬類型而言,較為貼切。如“波瀾不興”之于“滇池”,該形容不具有代表性,但對于湖泊而言,相對通用,該情況得2分。 (3) 所摘取形容詞于核心實體之間關聯(lián)度較低,但對于分類標簽而言,尚可利用。如“層巒疊翠”之于“太湖”,雖不具有較強關聯(lián)性,但對于景物描寫分類而言,尚有利用價值,該情況得1分。 (4) 所摘取形容詞于核心實體之間無關聯(lián)度,且于分類標簽無價值。如“勤奮”之于“死?!?,該情況得0分。 本文研究基于上述評分標準,以總分6分,3個維度入手,通過人工評價的方式對標簽抽取進行分數(shù)評估。通過嚴格設定各評分段位界定方法,可以有效降低人工評價中主觀色彩過強引起的結果偏差。 本文對比測試選擇關鍵詞抽取算法,由于對比項為關鍵詞抽取,不具有文章分類能力,故選取5個關鍵詞來與本文標簽抽取策略獲取的結果進行除分類外的對比。 TF-IDF即詞頻-逆文件頻率,是常用于資訊檢索及資訊探勘的一種加權技術,其核心思想為一個詞在一篇文檔中出現(xiàn)頻次高,而在其他文檔中出現(xiàn)頻次小,則具有代表價值。對應到單文檔的關鍵詞抽取中,則將對應句子視為評估單位。 TextRank算法也常被用于關鍵詞提取。為了計算句子之間的關聯(lián)性,在PageRank的基礎上引入了邊的權值概念,并運用相應的相似度算法進行計算。而在獲取關鍵詞的過程中,若將詞視為句子,則所有節(jié)點之間的權重變?yōu)?,那么TextRank算法的計算就退變回了PageRank算法。 Word2Vec可以將詞語轉換為語義向量,自然也能運用于關鍵詞提取。本文對比方案利用樸素貝葉斯假設,將句子序列視為詞語序列的集合。具體計算詞語權重的方法為將序列集合中詞語與詞語之間的轉移概率進行求和操作。 測試數(shù)據(jù)為小學語文作文共50篇,涉及到的年級為三年級、四年級和五年級。采用人工盲評的方式進行打分,計算結果取平均分,保留小數(shù)點后三位最終的得分結果如表8所示。 表8 測試結果 本文提出的標簽自動抽取方案在不計算分類準確度的情況下最終得分為2.625分,計算分類準確度的情況下最終得分為3.431分,明顯優(yōu)于常用關鍵詞算法。其中,分類準確度達到80%,能夠比較有效地區(qū)分人物描寫和景物描寫。在實體準確度上,本文方案、TF-IDF算法以及TextRank算法在實體準確度上都取得了較好的效果,但Word2Vec的結果卻差強人意,這可能是由于在關鍵詞權重計算方法上缺少針對性。 在關鍵描述的得分結果上,本文得分明顯優(yōu)于其他三類得分,這說明本文所提出的標簽抽取策略在該評價標準下取得了較好的效果。一方面是因為本文方案在選取關鍵描述的時候主動排除了動詞的干擾,但是在另外三種算法中卻沒有體現(xiàn)。另一方面,由于本文方案采用了自動摘要去除冗余,因此能夠更好地獲取到中心內容,而另外三類算法沒有對原始語料進行去除冗余操作,導致一般性動詞的大量留存,最終干擾了關鍵描述的抽取結果。 最后,在對不同年級的評分結果進行比較時發(fā)現(xiàn),高年級的平均得分明顯高于低年級,這是因為高年級學生用詞更加豐富,更加適合本文方案。當然,在對關鍵描述的獲取上,本文仍有較大的進步空間,但這并不妨礙本方案的可用性。 本文圍繞當前小學語文作文輔助中,作文素材的非結構化特征與語料信息化所需要的結構化數(shù)據(jù)之間的矛盾,提出了基于文本自動摘要的小學語文作文標簽提取方法,實現(xiàn)作文語料的結構化組織。 本文對標簽抽取過程中涉及的關鍵技術進行了對比分析,選取了抽取型自動文摘方法、基于詞典的分詞方案以及有監(jiān)督的命名實體識別方法等作為主要技術框架。同時,本文嘗試給出了小學語文作文標簽的定義并根據(jù)應用場景設定了相應的評價指標。仿真實驗表明,本文方法在小學語文作文領域的標簽準確度評估中相較于傳統(tǒng)的關鍵詞算法有較大提升。3 測試與評價
3.1 評價指標
3.2 對比方案
3.3 測試結果
4 結 語