楊靜,姜贏,朱哲宇
(1.北京師范大學(xué)人文和社會(huì)科學(xué)高等研究院,珠海 519087;2.北京師范大學(xué)珠海分校,珠海 519087)
隨著自然語(yǔ)言處理技術(shù)的進(jìn)步以及大型語(yǔ)料庫(kù)的不斷豐富,中文信息處理領(lǐng)域取得了豐富的研究成果。這其中尤為突出的是基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法的深入應(yīng)用,在中文分詞、詞性標(biāo)注、語(yǔ)義分析、主題提取、自動(dòng)問(wèn)答系統(tǒng)、機(jī)器翻譯、文本聚類等方面都取得了較好的效果。但對(duì)于半監(jiān)督、有監(jiān)督的算法而言,網(wǎng)絡(luò)模型的訓(xùn)練往往需要海量正確標(biāo)注的語(yǔ)料作為樣本,通過(guò)學(xué)習(xí)之后才能具備對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力。例如最新的自然語(yǔ)言深度學(xué)習(xí)模型GPT-3[1],該模型通過(guò)對(duì)將近0.5萬(wàn)億個(gè)單詞進(jìn)行預(yù)訓(xùn)練,可以很好地完成翻譯、自動(dòng)問(wèn)答甚至生成連貫的文本段落。雖然目前已經(jīng)出現(xiàn)了各種自動(dòng)文本標(biāo)注算法,但由于中文詞義的復(fù)雜、多變,無(wú)論哪一種標(biāo)注算法都無(wú)法達(dá)到100%的準(zhǔn)確率。特別是在語(yǔ)義、語(yǔ)用和話語(yǔ)研究中,單純依靠計(jì)算機(jī)的自動(dòng)判別無(wú)法達(dá)到研究所需的精度,因此海量的高質(zhì)量標(biāo)注數(shù)據(jù)對(duì)于中文信息處理是不可或缺的研究素材。
語(yǔ)料庫(kù)是自然語(yǔ)言處理的重要數(shù)據(jù)支撐平臺(tái),大量帶標(biāo)注的結(jié)構(gòu)化語(yǔ)料能夠幫助研究者對(duì)語(yǔ)料庫(kù)信息進(jìn)行深度挖掘,并實(shí)現(xiàn)語(yǔ)料的增值[2]。目前國(guó)內(nèi)大部分語(yǔ)料庫(kù)都存在規(guī)模偏小、語(yǔ)料陳舊、標(biāo)注單一、開(kāi)發(fā)周期過(guò)長(zhǎng)等缺陷。例如:北京大學(xué)計(jì)算語(yǔ)言研究所構(gòu)建的1998年人民日?qǐng)?bào)語(yǔ)料庫(kù)無(wú)論在學(xué)界和業(yè)界都有巨大的影響力,但是隨著時(shí)間的推移,該語(yǔ)料庫(kù)的時(shí)效性、完備性和覆蓋度均需要進(jìn)一步的更新和補(bǔ)充。然而建設(shè)一個(gè)海量標(biāo)注語(yǔ)料庫(kù)是一項(xiàng)非常巨大的系統(tǒng)工程,從原始語(yǔ)料的采集、整理、存儲(chǔ)、分發(fā)、標(biāo)注到語(yǔ)料庫(kù)的后期維護(hù)都需要大量的人力與物力。語(yǔ)料庫(kù)標(biāo)注是“為了提高計(jì)算機(jī)處理自然語(yǔ)言能力而向文本添加元信息的過(guò)程”[3],這里的元信息一般來(lái)說(shuō)包括文本的詞性標(biāo)注、句法分析、音韻標(biāo)注、語(yǔ)義標(biāo)注、語(yǔ)用標(biāo)注、話語(yǔ)標(biāo)注、文體標(biāo)注、詞語(yǔ)標(biāo)注等[4]。語(yǔ)料庫(kù)標(biāo)注按標(biāo)注內(nèi)容可以分為:一般語(yǔ)言學(xué)知識(shí)標(biāo)注、實(shí)體知識(shí)標(biāo)注和特定語(yǔ)言任務(wù)標(biāo)注[5]三類。標(biāo)注階段由于算法標(biāo)注和人工標(biāo)注都無(wú)法達(dá)到百分百的準(zhǔn)確,是語(yǔ)料庫(kù)建設(shè)中最為耗費(fèi)人力和時(shí)間的步驟。傳統(tǒng)的以人工為主的語(yǔ)料庫(kù)開(kāi)發(fā)方式已經(jīng)逐漸不能適應(yīng)海量語(yǔ)料庫(kù)的開(kāi)發(fā)需求,目前很少有研究者從事專門(mén)的標(biāo)注語(yǔ)料庫(kù)標(biāo)注系統(tǒng)研究,已有各種標(biāo)注系統(tǒng)大多是針對(duì)某一專門(mén)的領(lǐng)域,例如計(jì)算機(jī)視覺(jué)領(lǐng)域中的靜態(tài)圖像行為標(biāo)注系統(tǒng)[6];或者是用于完成某種特定的自然語(yǔ)言標(biāo)注任務(wù),例如WASA[7]是一個(gè)用于專門(mén)處理多語(yǔ)語(yǔ)碼轉(zhuǎn)換的標(biāo)注系統(tǒng)。一個(gè)完善的語(yǔ)料庫(kù)標(biāo)注系統(tǒng)除了應(yīng)該能夠高效的完成大規(guī)模語(yǔ)料數(shù)據(jù)的標(biāo)注任務(wù),還需要易于擴(kuò)展以支持不同的標(biāo)注類型。因此本文中的系統(tǒng)主要是針對(duì)大型語(yǔ)料庫(kù)中的中文分詞與詞性標(biāo)注任務(wù),而其他類型的標(biāo)注問(wèn)題也可以參考借鑒本系統(tǒng)。
針對(duì)以上問(wèn)題,本文通過(guò)構(gòu)建基于海量語(yǔ)料庫(kù)的智能標(biāo)注系統(tǒng),旨在提供一套完整的海量標(biāo)注語(yǔ)料庫(kù)開(kāi)發(fā)方案,為語(yǔ)料庫(kù)開(kāi)發(fā)者提供了從語(yǔ)料的采集、分發(fā)到存儲(chǔ)、標(biāo)注以及統(tǒng)計(jì)分析等各項(xiàng)功能。系統(tǒng)采用B∕S架構(gòu),通過(guò)三級(jí)標(biāo)注來(lái)保證標(biāo)注的準(zhǔn)確率和標(biāo)注效率,并內(nèi)置三個(gè)用戶自定義的標(biāo)注參數(shù)以適應(yīng)不同的語(yǔ)料庫(kù)標(biāo)注任務(wù),除此之外,系統(tǒng)還通過(guò)專家錯(cuò)誤反饋機(jī)制、詞性查詢字典、標(biāo)注用戶留言等功能來(lái)輔助標(biāo)注。使用該系統(tǒng)可以大大縮短海量標(biāo)注語(yǔ)料庫(kù)的開(kāi)發(fā)周期,并降低語(yǔ)料標(biāo)注的人工成本。
系統(tǒng)主要包括語(yǔ)料導(dǎo)入、導(dǎo)出模塊、語(yǔ)料派發(fā)模塊、預(yù)標(biāo)注模塊、眾包標(biāo)注模塊、專家標(biāo)注模塊、錯(cuò)誤反饋模塊、查詢模塊、留言模塊以及數(shù)據(jù)統(tǒng)計(jì)模塊。系統(tǒng)具備易開(kāi)發(fā)、易維護(hù)、易擴(kuò)展的特點(diǎn),方便語(yǔ)料庫(kù)開(kāi)發(fā)人員進(jìn)行系統(tǒng)配置以及后期的系統(tǒng)維護(hù)與更新。語(yǔ)料庫(kù)開(kāi)發(fā)者可以根據(jù)不同的語(yǔ)料標(biāo)注任務(wù)進(jìn)行系統(tǒng)參數(shù)配置以獲得最優(yōu)的標(biāo)注效果。系統(tǒng)遵循MVC設(shè)計(jì)思想,采用J2EE技術(shù),構(gòu)建B∕S架構(gòu);采用前后端分離模式,前端使用React框架作為數(shù)據(jù)展示實(shí)現(xiàn),后端使用Spring Boot框架來(lái)搭建系統(tǒng);數(shù)據(jù)存儲(chǔ)采用MySQL和Elasticsearch相結(jié)合,除了能滿足數(shù)據(jù)存儲(chǔ)需求還能提供海量數(shù)據(jù)的快速搜索、統(tǒng)計(jì)分析和數(shù)據(jù)探索功能。系統(tǒng)使用MyBatis-Plus作為數(shù)據(jù)持久層框架;Spring Security作為認(rèn)證服務(wù)框架,實(shí)現(xiàn)基于RBAC模型的權(quán)限控制。系統(tǒng)基本架構(gòu)如圖1所示。
圖1 系統(tǒng)架構(gòu)
為了滿足海量標(biāo)注語(yǔ)料庫(kù)的開(kāi)發(fā)需求,系統(tǒng)主要包括十個(gè)功能模塊,分別屬于服務(wù)器端功能模塊和客戶端功能模塊。
1.2.1 服務(wù)器端功能模塊
(1)導(dǎo)入、導(dǎo)出模塊。批量或者單獨(dú)導(dǎo)入或?qū)С霾煌袷降脑颊Z(yǔ)料,并預(yù)留接口可以直接連接外部語(yǔ)料采集系統(tǒng)。
(2)標(biāo)注者評(píng)價(jià)模塊。對(duì)標(biāo)注用戶進(jìn)行標(biāo)注能力測(cè)試、評(píng)分,并根據(jù)評(píng)價(jià)結(jié)果進(jìn)行標(biāo)注用戶篩選。
(3)預(yù)標(biāo)注模塊。利用自動(dòng)標(biāo)注算法對(duì)原始語(yǔ)料進(jìn)行預(yù)標(biāo)注。
(4)語(yǔ)料派發(fā)模塊。對(duì)原始語(yǔ)料進(jìn)行分割后派發(fā)給不同的標(biāo)注用戶進(jìn)行標(biāo)注。
(5)數(shù)據(jù)統(tǒng)計(jì)模塊。對(duì)語(yǔ)料標(biāo)注情況進(jìn)行統(tǒng)計(jì)分析。
1.2.2 客戶端功能模塊
(1)眾包標(biāo)注模塊。眾包標(biāo)注用戶對(duì)系統(tǒng)所分配的語(yǔ)料進(jìn)行標(biāo)注。
(2)專家標(biāo)注模塊。專家標(biāo)注用戶對(duì)系統(tǒng)判定的疑難語(yǔ)料進(jìn)行標(biāo)注。
(3)錯(cuò)誤反饋模塊。專家用戶在標(biāo)注過(guò)程中糾正錯(cuò)誤標(biāo)注的結(jié)果并反饋給預(yù)標(biāo)注算法和眾包標(biāo)注用戶。
(4)查詢模塊。標(biāo)注用戶和語(yǔ)料庫(kù)使用者可以對(duì)標(biāo)注情況以及語(yǔ)料進(jìn)行多維查詢。
(5)留言模塊。用戶可以將在使用過(guò)程中所遇到的系統(tǒng)使用、標(biāo)注問(wèn)題等相關(guān)信息反饋給系統(tǒng)開(kāi)發(fā)者。
在語(yǔ)料標(biāo)注的過(guò)程中,系統(tǒng)采用三級(jí)標(biāo)注的方式對(duì)語(yǔ)料進(jìn)行標(biāo)注,可以同時(shí)保證標(biāo)注的準(zhǔn)確率和效率,標(biāo)注的具體流程如圖2所示。
圖2 語(yǔ)料標(biāo)注流程
根據(jù)不同的建庫(kù)目的,語(yǔ)料庫(kù)中語(yǔ)料來(lái)源有不同的種類,主要包括:報(bào)刊文章、文學(xué)作品、廣播電視轉(zhuǎn)寫(xiě)、微博、科技論文、教材等等。由于版權(quán)保護(hù)的原因,語(yǔ)料庫(kù)的語(yǔ)料一般不能以全文方式顯示,而是以單個(gè)句子、詞、字的形式進(jìn)行統(tǒng)計(jì)分析和規(guī)律展示。在語(yǔ)料標(biāo)注任務(wù)中,語(yǔ)料庫(kù)開(kāi)發(fā)者希望將同一個(gè)標(biāo)注任務(wù)盡可能分散的分配給不同的標(biāo)注用戶以避免版權(quán)糾紛和敏感語(yǔ)料的泄露。因此系統(tǒng)需要首先將完整的語(yǔ)料全文按標(biāo)點(diǎn)符號(hào)切分成若干句子再以單句為最小任務(wù)單位進(jìn)行分發(fā)。另一方面,為了提高人工標(biāo)注的準(zhǔn)確率,系統(tǒng)采用冗余標(biāo)注的方式,即一個(gè)標(biāo)注任務(wù)分發(fā)給多個(gè)眾包用戶進(jìn)行標(biāo)注。
基于以上兩點(diǎn)考慮,系統(tǒng)給出了一種簡(jiǎn)單、高效的標(biāo)注語(yǔ)料派發(fā)算法。系統(tǒng)接收兩個(gè)用戶自定義參數(shù):最小語(yǔ)料間隔和冗余標(biāo)注數(shù)量。首先將系統(tǒng)中的原始語(yǔ)料進(jìn)行分句處理,并記錄每條語(yǔ)料的位置信息,例如(i,j)表示第i篇文檔中的第j句語(yǔ)料,再將所有語(yǔ)料隨機(jī)打亂順序。系統(tǒng)將每一條語(yǔ)料分配給預(yù)定數(shù)量的標(biāo)注者之后,遍歷整個(gè)分配結(jié)果,如果發(fā)現(xiàn)同一個(gè)標(biāo)注者的相鄰兩個(gè)標(biāo)注語(yǔ)料屬于同一文檔且位置間隔小于預(yù)設(shè)定的最小語(yǔ)料間隔則進(jìn)行重新分配直到所有分配結(jié)果滿足最小間隔的要求。
由于系統(tǒng)采用了三級(jí)標(biāo)注來(lái)處理標(biāo)注任務(wù),為了區(qū)分不同標(biāo)注階段的語(yǔ)料,語(yǔ)料設(shè)有以下5種狀態(tài):未標(biāo)注、預(yù)標(biāo)注、眾包標(biāo)注、專家標(biāo)注以及成功標(biāo)注。原始語(yǔ)料的狀態(tài)為未標(biāo)注,由算法自動(dòng)標(biāo)注完成后語(yǔ)料狀態(tài)由轉(zhuǎn)變?yōu)轭A(yù)標(biāo)注。系統(tǒng)將預(yù)標(biāo)注狀態(tài)的語(yǔ)料分發(fā)給眾包標(biāo)注者進(jìn)行眾包標(biāo)注,語(yǔ)料狀態(tài)同時(shí)被設(shè)置為眾包標(biāo)注。
系統(tǒng)基于多用戶的冗余標(biāo)注,每條語(yǔ)料會(huì)派發(fā)給多個(gè)眾包用戶進(jìn)行標(biāo)注,再根據(jù)眾包標(biāo)注的中間結(jié)果來(lái)決定如何進(jìn)行下一步的語(yǔ)料標(biāo)注派發(fā)。引入三元組<m,n,k>來(lái)標(biāo)記語(yǔ)料標(biāo)注的中間結(jié)果:其中的m代表最大相同眾包標(biāo)注結(jié)果數(shù)量,n為不同眾包標(biāo)注結(jié)果數(shù)量,k為語(yǔ)料跳過(guò)總次數(shù)。具體標(biāo)注過(guò)程如下:標(biāo)注者首先對(duì)接收到的語(yǔ)料標(biāo)注任務(wù)進(jìn)行評(píng)估,如果認(rèn)為該條語(yǔ)料的標(biāo)注過(guò)于困難則可以選擇直接跳過(guò),語(yǔ)料的中間狀態(tài)更新為<m,n,k+1>。如果眾包用戶選擇進(jìn)行標(biāo)注,系統(tǒng)在用戶提交結(jié)果后進(jìn)行多用戶標(biāo)注結(jié)果的對(duì)比,并更新最大相同語(yǔ)料標(biāo)注結(jié)果和最大不同語(yǔ)料標(biāo)注結(jié)果。例如三元組<3,2,2>表示該語(yǔ)料的標(biāo)注結(jié)果中有3位用戶標(biāo)注一致,有2種不同的標(biāo)注結(jié)果,且曾經(jīng)被2位用戶跳過(guò)標(biāo)注。
在大多數(shù)應(yīng)用場(chǎng)景中,如果多位用戶給出了完全相同的標(biāo)注結(jié)果,可以直接接受該結(jié)果,而如果同一個(gè)標(biāo)注任務(wù)出現(xiàn)多個(gè)完全不同的標(biāo)注結(jié)果,則可以認(rèn)為該標(biāo)注任務(wù)存在歧義,屬于較難的標(biāo)注任務(wù),而如果同一個(gè)標(biāo)注任務(wù)多次被標(biāo)注者選擇跳過(guò),則可以認(rèn)定該標(biāo)注任務(wù)屬于困難任務(wù)。系統(tǒng)設(shè)定三個(gè)自定義參數(shù):驗(yàn)證接受次數(shù)、驗(yàn)證拒絕次數(shù)和最大跳過(guò)次數(shù),分別對(duì)應(yīng)語(yǔ)料狀態(tài)三元組中的三個(gè)值。用戶可以根據(jù)實(shí)際應(yīng)用中語(yǔ)料標(biāo)注的難易程度自行設(shè)定參數(shù)大小,系統(tǒng)判定邏輯為:如果m值大于驗(yàn)證接受次數(shù),系統(tǒng)將認(rèn)定該條語(yǔ)料為成功標(biāo)注;而如果n值大于驗(yàn)證拒絕次數(shù),系統(tǒng)將認(rèn)為該條語(yǔ)料未通過(guò)交叉驗(yàn)證則不再分發(fā)給眾包用戶而是直接發(fā)給專家用戶進(jìn)行標(biāo)注;如果k值大于最大跳過(guò)次數(shù),則系統(tǒng)自動(dòng)將該條語(yǔ)料設(shè)置為疑難語(yǔ)料,疑難語(yǔ)料也直接發(fā)給專家用戶進(jìn)行標(biāo)注。系統(tǒng)語(yǔ)料派發(fā)的優(yōu)先級(jí)由以下規(guī)則確定:人工標(biāo)注狀態(tài)的語(yǔ)料優(yōu)先級(jí)高于預(yù)標(biāo)注狀態(tài)的語(yǔ)料,而同樣為人工標(biāo)注狀態(tài)的語(yǔ)料則根據(jù)狀態(tài)三元組中的m值確定,m值越大優(yōu)先級(jí)越高。這種語(yǔ)料派選方法傾向于將系統(tǒng)中已標(biāo)注過(guò)的語(yǔ)料優(yōu)先處理完畢,然后再對(duì)未標(biāo)注過(guò)的語(yǔ)料進(jìn)行標(biāo)注,可以有效防止系統(tǒng)中產(chǎn)生大量未標(biāo)注完畢的語(yǔ)料。
人工標(biāo)注包括眾包標(biāo)注和專家標(biāo)注兩部分,在語(yǔ)料預(yù)標(biāo)注的基礎(chǔ)上,為了最大限度提高人工標(biāo)注的語(yǔ)料產(chǎn)出效率,系統(tǒng)提供了兩種人工標(biāo)注方式:選擇模式和輸入模式,標(biāo)注人員可以根據(jù)自己的標(biāo)注習(xí)慣與偏好選擇合適的模式進(jìn)行標(biāo)注。
選擇模式盡可能減少人工標(biāo)注過(guò)程中的鍵盤(pán)輸入,標(biāo)注用戶只需要點(diǎn)擊選擇框進(jìn)行選擇就可以對(duì)語(yǔ)料進(jìn)行標(biāo)注,不需通過(guò)鍵盤(pán)輸入詞性。標(biāo)注頁(yè)面如圖3所示。
圖3 選擇模式核心標(biāo)注界面
系統(tǒng)根據(jù)系統(tǒng)對(duì)語(yǔ)料的標(biāo)注結(jié)果,通過(guò)正則表達(dá)式,將語(yǔ)料以“詞∕詞性”的模式進(jìn)行拆分顯示,標(biāo)注界面上方顯示原始語(yǔ)料,語(yǔ)料正下方按系統(tǒng)分詞結(jié)果進(jìn)行切分顯示下拉菜單,標(biāo)注人員在對(duì)應(yīng)位置進(jìn)行詞性選擇。點(diǎn)擊詞性框會(huì)彈出詞性的具體選擇模塊,詞性通過(guò)二級(jí)菜單實(shí)現(xiàn)分類展示,用戶點(diǎn)擊詞性選擇框,首先彈出詞性類別選項(xiàng),點(diǎn)擊具體詞類后,會(huì)彈出該類別下的所有詞性,復(fù)合詞的詞性則在最后一個(gè)語(yǔ)素的下方選擇詞性。
輸入模式則由用戶從鍵盤(pán)輸入,采取了“原句-系統(tǒng)標(biāo)注結(jié)果-文本輸入框”的展示模式,用戶首先檢查輸入框內(nèi)完整的系統(tǒng)標(biāo)注結(jié)果標(biāo)注,然后從鍵盤(pán)輸入對(duì)預(yù)標(biāo)注的結(jié)果進(jìn)行手工修改。標(biāo)注界面如圖4所示。
圖4 輸入模式核心標(biāo)注界面
系統(tǒng)標(biāo)注結(jié)果以“詞∕詞性”的方式顯示,標(biāo)注人員需要對(duì)文本輸入框中顯示的系統(tǒng)標(biāo)注結(jié)果中標(biāo)注錯(cuò)誤的地方直接進(jìn)行修改。輸入模式允許標(biāo)注人員在輸入框中自由修改文本,為了避免標(biāo)注人員誤輸入的數(shù)據(jù)格式錯(cuò)誤,標(biāo)注人員完成標(biāo)注后,點(diǎn)擊“提交”按鈕提交標(biāo)注語(yǔ)料,系統(tǒng)會(huì)采用正則表達(dá)式按照“詞∕詞性”的組合形式對(duì)輸入框中的標(biāo)注內(nèi)容進(jìn)行檢測(cè),若格式不正確,則系統(tǒng)拒絕標(biāo)注結(jié)果,并給出提示提醒標(biāo)注人員重新檢查標(biāo)注結(jié)果。
兩種標(biāo)注方式各有優(yōu)勢(shì):選擇模式無(wú)需標(biāo)注人員從鍵盤(pán)輸入,便于標(biāo)注人員利用鼠標(biāo)快速選擇正確詞性,同時(shí)選擇框限定了數(shù)據(jù)輸入格式,從而避免了標(biāo)注結(jié)果中的數(shù)據(jù)格式錯(cuò)誤;而輸入模式中字與字之間的連接更為緊湊,在整體視覺(jué)上更為友好,便于標(biāo)注人員快速閱讀帶有分詞結(jié)果的語(yǔ)料,提高理解效率。系統(tǒng)的運(yùn)行結(jié)果反饋表明大約60%的標(biāo)注人員選擇使用輸入模式,而40%的標(biāo)注人員選擇使用選擇模式進(jìn)行標(biāo)注。
專家用戶作為標(biāo)注任務(wù)中的權(quán)威用戶,其主要任務(wù)是對(duì)少量疑難語(yǔ)料進(jìn)行標(biāo)注,專家用戶標(biāo)注后的語(yǔ)料將直接被接受為正確標(biāo)注的語(yǔ)料。本系統(tǒng)借鑒主動(dòng)學(xué)習(xí)[8]的優(yōu)化思想,結(jié)合專家標(biāo)注來(lái)進(jìn)一步提高標(biāo)注系統(tǒng)的標(biāo)注質(zhì)量。主動(dòng)學(xué)習(xí)是通過(guò)對(duì)一些較難學(xué)習(xí)的樣本進(jìn)行人工專家標(biāo)注后再利用這些樣本訓(xùn)練以提高模型的精度,而專家對(duì)疑難語(yǔ)料的標(biāo)注結(jié)果可以作為正確標(biāo)注的學(xué)習(xí)樣本反饋給眾包標(biāo)注用戶以及預(yù)標(biāo)注算法,從而提高整個(gè)標(biāo)注系統(tǒng)的標(biāo)注質(zhì)量,具體如圖5所示。
圖5 專家錯(cuò)誤反饋機(jī)制
眾包用戶在標(biāo)注過(guò)程中遇到疑難語(yǔ)料可以選擇跳過(guò),在專家用戶對(duì)該條疑難語(yǔ)料標(biāo)注完畢后,專家的標(biāo)注結(jié)果會(huì)在眾包用戶下次登錄系統(tǒng)時(shí)推送給跳過(guò)此條語(yǔ)料標(biāo)注的眾包用戶。另一方面,眾包用戶在標(biāo)注過(guò)程中如果有關(guān)于語(yǔ)料標(biāo)注的疑問(wèn)可以進(jìn)行系統(tǒng)留言,之后由專家進(jìn)行留言反饋,這種定向的錯(cuò)誤反饋機(jī)制可以有效提高眾包用戶的標(biāo)注質(zhì)量。
在算法標(biāo)注階段,專家標(biāo)注的語(yǔ)料同樣可以反饋給算法以改進(jìn)算法標(biāo)注的準(zhǔn)確性。以HanLP分詞為例,HanLP提供了多個(gè)離線詞典作為分詞依據(jù),這些詞典是可以用戶自定義的。在專家標(biāo)注過(guò)程中,專家可以向系統(tǒng)提交未登錄詞,系統(tǒng)自動(dòng)將該詞整理成詞典格式并修改HanLP的離線詞典。系統(tǒng)運(yùn)行結(jié)果顯示,該功能可以較好地解決未登錄詞的識(shí)別問(wèn)題。
系統(tǒng)提供了詞性字典供標(biāo)注人員在標(biāo)注過(guò)程中對(duì)某個(gè)詞的詞性進(jìn)行查詢。查詢結(jié)果中除了顯示查詢?cè)~的各種可能詞性,還能顯示該詞在系統(tǒng)中已成功標(biāo)注過(guò)的詞性以及對(duì)應(yīng)的次數(shù)。如果當(dāng)前標(biāo)注的語(yǔ)料是已標(biāo)注但未通過(guò)交叉檢驗(yàn)的狀態(tài),則在頁(yè)面下方還會(huì)展示出其他標(biāo)注人員對(duì)該語(yǔ)料的標(biāo)注結(jié)果。如果有多個(gè)標(biāo)注結(jié)果,則系統(tǒng)選擇兩條不一樣的結(jié)果分別顯示,并且以標(biāo)紅的方式對(duì)比顯示出標(biāo)注結(jié)果中的差異之處。在詞性標(biāo)注任務(wù)中絕大部分標(biāo)注錯(cuò)誤都集中在某幾種容易混淆的詞性上,例如:動(dòng)詞s(V)和名動(dòng)詞(Vn),因此標(biāo)注人員往往只需要重點(diǎn)關(guān)注這些易混淆詞。這種標(biāo)注參考方式使得標(biāo)注人員可以快速定位到語(yǔ)料中歧義詞的所在位置,也可以在一定程度上提高標(biāo)注人員的效率。
圖6 詞性字典及標(biāo)注結(jié)果對(duì)比界面
為了增加標(biāo)注人員之間以及與專家用戶、管理員之間的交互便利性,系統(tǒng)提供了留言功能。眾包用戶點(diǎn)擊左側(cè)菜單欄中“語(yǔ)料庫(kù)標(biāo)注”模塊下的“留言”欄目可以進(jìn)入留言列表。眾包用戶對(duì)某條語(yǔ)料有疑問(wèn)、評(píng)論或?qū)ο到y(tǒng)有相關(guān)建議等,都可以在留言界面發(fā)表。
為了便于語(yǔ)料庫(kù)開(kāi)發(fā)者隨時(shí)了解語(yǔ)料標(biāo)注情況,系統(tǒng)還提供了基于Elasticsearch的查詢統(tǒng)計(jì)模塊,系統(tǒng)管理員可以查看當(dāng)前的總體標(biāo)注趨勢(shì)與標(biāo)注情況??傮w標(biāo)注趨勢(shì)以折線圖的形式顯示最近七天內(nèi)每日的標(biāo)注總量,眾包標(biāo)注情況以列表的形式展現(xiàn),顯示標(biāo)注人員的序號(hào)、用戶名、最后標(biāo)注日期、最后一天標(biāo)注的數(shù)量、最后一次標(biāo)注前7天的標(biāo)注量、標(biāo)注總量,并按照用戶的標(biāo)注總量進(jìn)行倒序排序。通過(guò)該模塊系統(tǒng)管理員可以快速了解各標(biāo)注人員的標(biāo)注進(jìn)度,配合趨勢(shì)折線圖還能充分了解語(yǔ)料的詳細(xì)標(biāo)注情況。
本文針對(duì)海量語(yǔ)料庫(kù)標(biāo)注工作,設(shè)計(jì)并實(shí)現(xiàn)了基于三級(jí)混合標(biāo)注的語(yǔ)料庫(kù)標(biāo)注系統(tǒng)。語(yǔ)料庫(kù)開(kāi)發(fā)者可以利用該系統(tǒng)快速獲得高質(zhì)量的標(biāo)注語(yǔ)料,系統(tǒng)主要優(yōu)點(diǎn)體現(xiàn)在以下幾方面:①算法預(yù)標(biāo)注、眾包標(biāo)注和專家標(biāo)注的三級(jí)標(biāo)注保證了系統(tǒng)標(biāo)注的效率和準(zhǔn)確率。②語(yǔ)料狀態(tài)三元組能準(zhǔn)確描述語(yǔ)料在系統(tǒng)中的狀態(tài)并為語(yǔ)料分發(fā)和流轉(zhuǎn)提供依據(jù)。③用戶自定義參數(shù)的設(shè)定使得系統(tǒng)可以適應(yīng)不同的標(biāo)注任務(wù)。④專家錯(cuò)誤反饋機(jī)制進(jìn)一步提高了系統(tǒng)標(biāo)注質(zhì)量。⑤兩種人工標(biāo)注界面為用戶提供了偏好選擇,用戶使用界面友好。