才智杰,三毛措,3,才讓卓瑪
(1. 青海師范大學 計算機學院, 青海 西寧 810016;2. 省部共建藏語智能信息處理及應用國家重點實驗室, 青海 西寧 810008;3. 四川省威州民族師范學校,四川 阿壩 624000;4. 西南民族大學 計算機科學與技術學院,四川 成都 610041)
隨著自然語言處理研究的不斷深入,技術方法的評測已成為自然語言處理的研究內容之一。評測集是技術方法評測的基礎數據,有了合理的評測集才能有效地評測技術方法。文本校對評測集是用于評價文本校對效果的數據集,可分為傳統文本校對評測集和標準文本校對評測集。傳統文本校對評測集是對正確的數據集通過主觀經驗人工偽造而得到的評測集,標準文本校對評測集是通過選擇研究對象獲取可信度強的真實數據集而得到的評測集。在沒有構建標準評測集的情況下,通常使用傳統文本校對評測集進行評測。由于傳統評測集是人工偽造的數據集,不能覆蓋文本校對的各種類型,因此學者們開始研究標準評測集的構建。
藏文文本校對研究剛剛起步,目前還沒有用于評價藏文文本校對性能的標準評測集。隨著大數據時代的不斷推進,藏文電子語料也與日俱增,這些語料已經過相關機構的審核,基本無錯誤,因而不能作為藏文文本校對的評測集。本文在結合藏文特點并分析英文、漢文文本校對評測集構建方法的基礎上,研究了藏文文本校對評測集的構建方法,構建了用于評價藏文文本校對性能的標準評測集,并統計分析了評測集中的錯誤類型及分布。
文本校對評測是文本校對性能分析的基礎,評測的目的是驗證模型的性能,以比較各種文本校對技術的優(yōu)劣。然而,評測體系需要客觀公正,不受主觀感覺影響。自2014年起,學者們開始了文本校對評測集的建設工作。英文文本校對評測集建設方面,ACL自然語言學習特別興趣小組(SIGNLL)組織了CONLL年度會議,專門用于探討自然語言處理技術方法,2014年的會議任務是探討文本校對評測方法。該小組在研究英語語法錯誤檢測技術時以標準的方式構建了50篇論文的英文文本校對評測集[1],用于評測英語語法錯誤檢測。該評測集數據采集對象是25名非英語母語國家大學的學生,其構建方式是根據給出的兩個提示每人寫兩篇論文,評測集的具體信息如表1所示。在CONLL2014語法錯誤檢測任務中,17個小組采用不同的文本校對方法在相同的英文文本校對評測集上驗證其任務的性能, 學者們希望在這樣的平臺上挖掘出更先進的英語語法錯誤檢測技術。
表1 英文文本校對評測集信息表
漢文文本校對評測集建設方面,2015年自然語言處理技術研討會NLP-TEA與中國語法錯誤檢測(CGED)共同為漢文文本校對工具的開發(fā)和實施提供了一個論壇。他們在研究漢語語法錯誤檢測時以標準的方式構建了1 000個評測句的漢文文本校對評測集[2],用于評測漢語語法錯誤檢測。該評測集數據采集內容是臺灣地區(qū)的TOCFL機考作文,其構建方式是以漢語為母語的人手工標注語法錯誤,并提供相應的糾正,然后以開放測試的形式進行評估,促進了漢文文本校對技術的發(fā)展。2017年由臺灣大學、計算語言與中文處理協會主辦,亞洲自然語言處理聯合協會(AFNLP)承辦的第八屆國際自然語言處理聯席會議IJCNLP2017的共同任務也是漢語語法錯誤檢測,他們以標準的方式構建了漢文文本校對評測集[3],用于評測漢語語法錯誤檢測。該評測集的數據采集內容是《漢語水平考試》的寫作部分,其構建方式與上面方法一致,表2顯示了評測集中錯誤類型的分布。2018年國際自然語言處理與中文計算會議NLPCC2018的共同任務中,他們從北京大學漢語學習語料庫中抽取2 000個句子以標準的方式構建了一個漢文文本校對評測集[4],其目的是評測漢語語法糾錯。
表2 IJCNLP 2017語法錯誤檢測評測集中錯誤類型的分布
國內少數民族語言文字的文本校對評測集構建研究剛剛起步,藏文文本校對評測集構建研究也處于探索階段。目前,學者們普遍采用爬蟲技術抓取網絡上現有的語料,進而通過增加噪聲數據的方法獲取訓練集或者評測集(傳統評測集)。2018年才智杰等[5]在研究向量模型的藏文非真字自動拼寫檢查時采用傳統的方式構建了規(guī)模為11.7萬的藏文字評測集, 2019年色差甲等[6]在研究CNN藏文音節(jié)拼寫檢查時采用傳統方式構建了人工偽造的音節(jié)數據集,2020年華旦扎西等[7]在研究TC_LSTM的藏文詞拼寫檢查時也采用傳統的方式主觀構建了規(guī)模為400句的藏文詞評測集。綜上所述,我們可以看出英文和漢文文本校對評測集建設方面已比較成熟,同時也推動了英文和漢文自然語言處理發(fā)展。但藏文文本校對評測集構建方面還未見標準評測集的相關文獻報道,制約了藏文文本校對技術的發(fā)展。
數據采集是評測集構建的第一步。數據采集方式多種多樣,通常采用問卷調查、做實驗、查閱資料、下載公開數據集、人工偽造數據、爬蟲以及現場采集等方式。目前進行藏文文本校對技術研究時, 學者們采用人工偽造數據構建評測集(傳統評測集),傳統評測集中存在的錯誤類型覆蓋率不全、可靠性較低,不能準確反映文本校對的真實情況。而現場采集的數據能反映出問題的真實性,具有直觀性、科學性、真實性以及通用性等優(yōu)點。因此,本文借鑒英文和漢文的文本校對評測集的建立過程,采用現場采集的方式進行了評測數據采集,以此設計了藏文文本校對評測集的構建方案。藏文文本校對評測集的構建方案如圖1所示。
圖1 藏文文本校對評測集構建方案
藏文文本校對評測集構建方案由評測集采集和評測集數據分析兩部分組成,評測集采集包括數據采集對象選取、數據采集內容選取、數據收集以及數據整理四部分,評測集數據分析包括錯誤類型統計、錯誤類型分布及數據分析三部分。構建藏文文本校對評測集時,首先要選擇與自己研究問題相符合的數據采集對象,進而選擇數據采集內容,然后到現場采集數據樣本,對采集的數據樣本進行整理,并判斷數據是否有效,最后對構建的評測集進行數據分析。數據整理是將采集到的數據規(guī)范化,并數字化。根據數據集中是否出現拼寫錯誤判斷數據集的有效性。若有拼寫錯誤,則將其歸入評測集,否則重新采集。數據分析部分通過統計評測集中的錯誤類型和分析錯誤類型的分布情況,驗證評測集構建的合理性和有效性。
根據藏文文本校對評測集構建方案,可以按以下步驟建立藏文文本校對評測集。
第一步: 數據采集對象選取
本文將拉加草原學校作為這次課題研究數據采集的對象。該學校位于青海省果洛藏族自治州瑪沁縣拉加鎮(zhèn),這所學校設有9個年級,14個教學班,開設的課程與其他中小學的設課內容基本一致,所使用的教材均為教育部標準教材。此外,將辯論的課程和思想也被運用在了日常教學中。該校的學生都從小學一年級開始學習藏語,都是母語學習者,因而藏語水平總體上比其他語言文字成績普遍都較高,學生的來源除青海各個州縣外,還有甘肅、四川等地區(qū),這種來源多樣性有助于識別藏文文本中各地方特有的拼寫錯誤類型。學校設有9個年級(一年級至九年級),其中一年級到三年級的藏語學習時長較短,還未掌握很多的藏文知識點,藏語水平較低,因此本研究以四年級至九年級共六個年級作為研究對象進行現場數據采集。數據采集對象信息如表3所示。
表3 數據采集對象信息表
表3列舉的信息可作為本課題研究對象的主要原因有以下四個方面: ①由于該學校的學生均為母語使用者,為數據的有效性提供了基礎保障;②由于該學校收集到的數據具有多元化,使得數據類型較全面及覆蓋率較高,并與下游任務藏文文本校對的實驗內容相吻合;③由于每個年級每位學生的藏語水平各不相同,使得本文采集到的數據具有很大的研究價值;④由于本文將采取現場采集的方式采集數據,使得本文采集到的數據具有真實性。綜上,本文的數據采集對象滿足數據的有效性、多樣性、價值性、真?zhèn)涡缘人拇筇匦?符合作為本次研究的數據采集要求。
第二步: 數據采集內容選取
選取研究內容時,本文考慮學生的藏語學習時長的長短,計劃從三年級至八年級的上下冊教材中各選一篇課文,共12篇課文。為了提高數據的質量和數據采集的效率,低年級的課文普遍都很短,本文選擇其中常用詞較多同、篇長較長的課文作為數據采集的內容。高年級的課文普遍都很長,本文選擇其中常用詞較多、篇長較短的課文作為數據采集的內容。因此本文選取的數據采集內容的覆蓋性較全面,其中的常用詞也較普遍,符合作為本課題的數據采集內容。藏文文本校對評測集數據采集內容的選取信息如表4所示。為了獲取學生在已學課文的情況下所犯的真實性的拼寫錯誤數據,本文將四年級的學生作為三年級上下冊教材兩篇課文的數據采集的對象,將五年級的學生作為四年級上下冊教材兩篇課文的數據采集的對象,以此類推。
表4 評測集數據采集內容選取信息表
第三步: 數據收集
由于初三年級需要備考和缺少人手等的種種原因,本文最終實際獲取到的數據只有六篇課文的內容,共232名學生的研究樣本,數據信息如表5所示。數據采集的方式是現場采集的方法,即老師到每個班聽寫相應的課文,對每個數據采集對象采取一致的數據采集方法,保證采集數據樣本的有效性、可比性、可靠性及研究價值,使得采集的數據具有普遍性和代表性。表5中數據采集參與人數和最終收集的數據樣本數一致。
表5 實際評測集數據采集信息表
第四步: 數據整理
評測數據的代表性決定了最終建立的藏文文本校對評測集的可靠性和可行性。完成第三步的數據收集后,本文對收集到的紙質版數據樣本進行了整理。數據整理包括對數據樣本進行編號,例如,四年級40名學生的數據樣本編號依次為4-1、4-2、…、4-40,五年級一班36名學生的數據樣本編號依次為5(1)-1、5(1)-2、…、5(1)-36,五年級二班33名學生的數據樣本編號依次為5(2)-1、5(2)-2、…、5(2)-33,以此類推。由藏語為母語的人對數據樣本進行拼寫錯誤檢查并做了錯誤注釋;將6個數據集的內容(正確的數據內容)進行電子化(文檔)并以文本格式分別保存;在每個文件中按每個數據采集參與人數復制、粘貼相應的文檔并對文檔進行編號(紙質版樣本編號數=文檔復制數=數據采集參與人數=文檔編號數),它們之間是一對一的關系;按照每份紙質版樣本中注釋的錯誤將在對應電子文檔中的正確的字改成錯誤的字,獲取最終的藏文文本校對評測集。藏文文本校對評測集信息如表6所示,表中的數據大小是指評測集文檔數的總大小,例如,序號1對應的數據大小200KB是指四年級40名學生的評測集文檔數的總大小有200KB,以此類推。
表6 藏文文本校對評測集信息分布表
根據文獻[8]中歸納的藏文文本真字錯誤類型,本文首先識別了本文構建的藏文文本校對評測集中的拼寫錯誤類型,其次對錯誤類型的分布進行了統計,最后根據統計表對數據進行分析。
為了進一步弄清評測集中錯誤類型的分布,本文做了詳細的統計和分析,得出了以下評測集中錯誤類型分布情況的統計結果,整個藏文文本校對評測集中的錯誤類型的分布統計如表7所示。表7中全集是指整個232個評測集文檔之和。為了更直觀地了解評測集中的拼寫錯誤類型的分布,根據表7中統計的數據本文畫出了對應的餅圖,如圖2所示。
圖2 全樣本錯誤類型的分布圖
表7 全樣本錯誤類型的分布統計表
圖3 真字錯誤類型的分布圖
表8 真字錯誤類型的分布統計表
為了能更清楚地觀察每篇課文的評測集中每個錯誤類型的分布情況,本文又詳細統計了這些數據信息,具體信息如表9所示。表9中數量是指對于一篇課文(共6篇課文)的每個評測集文檔中出現該錯誤類型的總數。根據表9中統計的數據本文得出了每篇課文的藏文文本校對評測集中錯誤類型的分布圖,如圖4~圖9所示。
圖4 課文1評測集中錯誤類型分布情況
圖5 課文2評測集中錯誤類型分布情況
圖6 課文3評測集中錯誤類型分布情況
圖7 課文4評測集中錯誤類型分布情況
圖8 課文5評測集中錯誤類型分布情況
圖9 課文6評測集中錯誤類型分布情況
表9 各篇評測集中錯誤類型的分布統計表
由表9、圖4至圖9可知,各篇評測集中構詞錯誤占的比例最大,占比依次在72.41%~82.6% 的區(qū)間,其次是語法錯誤,占比依次在14.42%~26.11%的區(qū)間,再次是非真字錯誤,占比依次在0.74%~1.70%的區(qū)間。至于語義錯誤、連帶錯誤和標點錯誤、是由于本文的研究內容和采集方式的選擇,導致出現的頻次很少,但也符合實際情況,因此本文構建的藏文文本校對評測集是合理的。
本文通過分析英文和漢文文本校對評測集構建方法,設計了藏文文本校對評測集構建方案,根據此方案構建了藏文文本校對評測集,并統計分析了藏文文本校對評測集中存在的錯誤類型。統計數據結果表明,從藏文文本錯誤類型大類層面來說,錯誤類型主要集中在真字錯誤,占比為98.14%。藏文真字錯誤類型又分為構詞錯誤、語法錯誤、語義錯誤及連帶錯誤四小類,其中構詞錯誤占的比例最高,占比為80.23%。這就決定了我們在研究下一任務藏文文本校對方法時應該注重哪一種錯誤類型,如何選擇任務的側重點,從而為藏文文本校對技術研究奠定了基礎。本文數據采集的合理性、可操作性及統計分析結果確保了本文構建的評測集的有效性。今后我們將在已構建的藏文文本校對評測集的基礎上,研究藏文真字的文本校對方法,進一步完善自動文本校對技術。