• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于流程控制的漢語篇章結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)*

    2022-01-15 06:24:12徐宸涵顧宇浩張志昊褚曉敏
    關(guān)鍵詞:審核員語料語料庫

    徐宸涵 顧宇浩 張志昊 褚曉敏 蔣 峰

    (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 蘇州 215006)

    1 引言

    篇章分析是自然語言處理領(lǐng)域的一個重要研究方向。篇章分析的主要任務(wù)是對自然語言文本的內(nèi)在結(jié)構(gòu)和文本單元間的邏輯語義關(guān)聯(lián)進(jìn)行研究,從而挖掘出文本的結(jié)構(gòu)化和語義信息[1],為自然語言處理的應(yīng)用(如自動文摘[2~4]、機(jī)器翻譯[5~7]、信息抽?。?~9]、問答系統(tǒng)等[10])提供幫助。構(gòu)建一定規(guī)模的篇章結(jié)構(gòu)分析語料資源庫是進(jìn)行科學(xué)有效的篇章結(jié)構(gòu)分析的基礎(chǔ)。現(xiàn)有的篇章語料資源中,英文的主要包括賓州篇章樹庫(PDTB)[11]、修辭結(jié)構(gòu)理論篇章樹庫(RST-DT)等[12],中文的主要包括基于連接依存樹的漢語篇章樹庫(CDTB)[13]和借鑒RST標(biāo)注的漢語篇章語料庫(CJPL)[14]等。就中文語料來說,主要存在兩個問題。第一,絕對數(shù)量不足,相比英文語料的PDTB標(biāo)注的2304篇文章,CDTB由500個文檔組成,標(biāo)注了7310個關(guān)系,而CJPL僅完成了97篇篇章結(jié)構(gòu)標(biāo)注。第二,缺少篇章宏觀結(jié)構(gòu)語料,無論是哪一個中文語料庫都沒有篇章宏觀結(jié)構(gòu)語料資源。

    宏觀篇章結(jié)構(gòu)標(biāo)注任務(wù)的起點(diǎn)為扁平的文章段落(圖1中P1~P6葉子);需要標(biāo)注的內(nèi)容為段落之間的關(guān)系(圖1中內(nèi)點(diǎn))和主次(圖1中的箭頭指向主要單元);標(biāo)注任務(wù)的終點(diǎn)為只有一個根的篇章結(jié)構(gòu)樹。此外在標(biāo)注過程中,同時需要產(chǎn)出每個段落的主題句、全文主題等輔助數(shù)據(jù)。

    標(biāo)注任務(wù)要求標(biāo)注者對篇章的主旨和內(nèi)容有全面的理解。具體而言,標(biāo)注者需要首先自頂向下通讀文章,把握文章的整體結(jié)構(gòu),然后依據(jù)段落之間的相關(guān)性自底向上逐層組合,并判斷關(guān)系和主次,構(gòu)建上層結(jié)點(diǎn),并最終完成一棵完整的篇章結(jié)構(gòu)樹。

    根據(jù)上述分析,開展?jié)h語篇章宏觀結(jié)構(gòu)語料標(biāo)注(以下簡稱“語料標(biāo)注”)是必要且緊迫的。然而,現(xiàn)有的語料批量標(biāo)注流程模式主要有兩種,即純手工標(biāo)注[15]和單機(jī)輔助標(biāo)注[16]。在純手工標(biāo)注流程中,標(biāo)注主體為各標(biāo)注小組,標(biāo)注工具為傳統(tǒng)的紙筆,管理方式為人工控制。標(biāo)注小組各成員首先分別對一份篇章結(jié)構(gòu)生語料進(jìn)行獨(dú)立標(biāo)注,接著通過組內(nèi)討論的形式對有疑問的部分進(jìn)行意見統(tǒng)一,并將一輪標(biāo)注工作計(jì)算的一致率和討論成果交由標(biāo)注小組負(fù)責(zé)人進(jìn)行抽樣交叉檢查,對存有疑問的篇章還要進(jìn)行組間討論。在單機(jī)輔助標(biāo)注流程中,標(biāo)注主體仍然為各標(biāo)注小組,標(biāo)注工具升級為單機(jī)輔助標(biāo)注程序。使用該程序,通過對篇章結(jié)構(gòu)生語料進(jìn)行導(dǎo)入、預(yù)處理、標(biāo)注、導(dǎo)出的標(biāo)準(zhǔn)流程操作,基本將手工獨(dú)立標(biāo)注的部分轉(zhuǎn)移至計(jì)算機(jī)。剩余標(biāo)注流程與純手工標(biāo)注基本一致。

    結(jié)合以上兩種標(biāo)注模式可以發(fā)現(xiàn),篇章語料的篇幅長度、結(jié)構(gòu)復(fù)雜性、語義模糊性決定了語料標(biāo)注并不是單純的個人行為,而是綜合了個人行為、集體行為,并且嚴(yán)格遵循一套既定流程的、具有主觀性和特殊性的活動。開展這樣的活動僅依靠人力進(jìn)行流程控制有很大概率會在流程交接環(huán)節(jié)損失不小的效率,產(chǎn)生不可避免的主觀誤差,從而得到并不準(zhǔn)確的標(biāo)注成果評估。例如,小組進(jìn)行組內(nèi)、組間討論實(shí)際操作起來協(xié)作效率很差;對一輪標(biāo)注工作手工計(jì)算一致率時可能導(dǎo)致運(yùn)算失誤;將單機(jī)輔助標(biāo)注成果導(dǎo)入、導(dǎo)出計(jì)算機(jī)的過程同樣增加時間成本等。

    針對以上問題,本文提出并實(shí)現(xiàn)了一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)(以下簡稱系統(tǒng)),它綜合了標(biāo)注流程控制、用戶管理、語料庫管理三大模塊,對篇章語料標(biāo)注流程的各個部分進(jìn)行了針對性的設(shè)計(jì)和系統(tǒng)性的優(yōu)化。部分系統(tǒng)效果圖見圖2~圖3。

    基于本文設(shè)計(jì)的流程控制機(jī)制,該系統(tǒng)具有以下三種優(yōu)勢:第一,語料集中管理:將生語料以任務(wù)的形式進(jìn)行管理標(biāo)注入庫,并為每一任務(wù)狀態(tài)維護(hù)一個標(biāo)志以實(shí)現(xiàn)進(jìn)展跟蹤和自動控制。第二,系統(tǒng)權(quán)限分明:系統(tǒng)設(shè)立標(biāo)注員、審核員、管理員三角色,分權(quán)限分工協(xié)作,契合任務(wù)流程。第三,標(biāo)注過程易于控制:根據(jù)任務(wù)狀態(tài)準(zhǔn)確分配語料到各個角色,收集標(biāo)注成果數(shù)據(jù)及標(biāo)注流程中產(chǎn)生的行為數(shù)據(jù)優(yōu)化控制過程?;谏鲜鲈O(shè)計(jì),系統(tǒng)簡化了語料在各個環(huán)節(jié)的交接過程,極大增強(qiáng)了協(xié)作性,提高了標(biāo)注效率,減輕了工作負(fù)擔(dān)。

    2 基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)

    相比于微觀結(jié)構(gòu)標(biāo)注(如句法結(jié)構(gòu)等),宏觀篇章結(jié)構(gòu)標(biāo)注由于其需要閱讀的內(nèi)容多、結(jié)構(gòu)界限較為模糊等固有特點(diǎn),導(dǎo)致標(biāo)注者的標(biāo)注結(jié)果帶有更多的主觀成分,不易取得完全相同的看法。為了消除主觀性對標(biāo)注結(jié)果質(zhì)量的影響,需要在標(biāo)注流程上采取協(xié)同的方式,從多個標(biāo)注者的主觀結(jié)果中尋找共性和客觀性。另外,為了解決在標(biāo)注實(shí)踐中出現(xiàn)的語料版本混亂、結(jié)果無法溯源、進(jìn)度難以監(jiān)控等問題,減少不必要的麻煩,提高標(biāo)注效率,亟需一個中心化的標(biāo)注系統(tǒng)協(xié)調(diào)所有語料標(biāo)注參與者的合作。

    圖4系統(tǒng)結(jié)構(gòu)與功能

    圖4 為本文設(shè)計(jì)的標(biāo)注系統(tǒng)的總體結(jié)構(gòu)與提供的功能。該系統(tǒng)以標(biāo)注流程控制為核心,結(jié)合用戶管理和標(biāo)注后的語料成品庫子系統(tǒng),提供進(jìn)度監(jiān)控、協(xié)同標(biāo)注、版本控制等多種服務(wù),提高工作效率,以期加速語料庫的建設(shè)。嚴(yán)格遵循一套完整的標(biāo)注流程規(guī)范是該系統(tǒng)解決傳統(tǒng)標(biāo)注問題的基本思想。對使用傳統(tǒng)手工標(biāo)注的小組工作時間進(jìn)行統(tǒng)計(jì),獨(dú)立標(biāo)注效率約為6.9篇/時,小組討論效率約7.7篇/時[1],并且未包括數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)整合等中間步驟耗時。使用該系統(tǒng)進(jìn)行標(biāo)注,獨(dú)立標(biāo)注效率約為8.0篇/時,中間步驟耗時幾乎可以忽略,效率有了一個顯著的提升。

    3 標(biāo)注流程控制

    純手工標(biāo)注和單機(jī)輔助標(biāo)注要面臨的最大問題就是標(biāo)注流程復(fù)雜,包括人員的分配、標(biāo)注內(nèi)容的提交與審核、績效評定等,而將這些流程規(guī)范化、系統(tǒng)化是本系統(tǒng)的首要任務(wù)。

    標(biāo)注流程控制設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心,對生語料從上傳到標(biāo)注完成入庫進(jìn)行全面控制管理。流程分為生語料創(chuàng)建(包括生語料入批、人員分配)、標(biāo)注員標(biāo)注、一致性檢查及審核員審核、成果入庫幾個部分。

    圖5為標(biāo)注流程示例,圖中包含了3位標(biāo)注員,實(shí)際標(biāo)注人數(shù)可以視情況調(diào)整標(biāo)注環(huán)節(jié)的人員數(shù)量。對單個生語料直接進(jìn)行管理過于精細(xì),管理操作瑣碎,通常,生語料以批的形式進(jìn)行標(biāo)注入庫,可按批次分配標(biāo)注員、審核員。由于標(biāo)注任務(wù)繁重,實(shí)際標(biāo)注過程采用分組的形式進(jìn)行工作,為了避免小組之間產(chǎn)生風(fēng)格差異,還需要進(jìn)行經(jīng)常性的組員輪換。

    圖5 標(biāo)注流程的數(shù)據(jù)流轉(zhuǎn)

    標(biāo)注進(jìn)度的監(jiān)控將由生語料和生語料批次(即任務(wù))狀態(tài)來描述。具體來說,在標(biāo)注開始時,一份新的生語料由管理員添加到一個任務(wù),并分配相應(yīng)的標(biāo)注員和審核員,此時這些生語料和任務(wù)都應(yīng)處于待標(biāo)注狀態(tài)。當(dāng)且僅當(dāng)一份生語料被分配到的所有標(biāo)注員都完成標(biāo)注,但未通過一致性檢查時,該份生語料改變?yōu)榇龑徍藸顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料沒有處于待標(biāo)注狀態(tài)時,任務(wù)改變?yōu)榇龑徍藸顟B(tài)。標(biāo)注完成的生語料通過了一致性檢查或?qū)徍藛T完成審核后,改變?yōu)橐淹瓿蔂顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料都處于已完成狀態(tài),任務(wù)改變?yōu)橐淹瓿蔂顟B(tài)。進(jìn)度監(jiān)控是實(shí)時的,對任務(wù)所屬生語料的增刪、標(biāo)注人員的增刪應(yīng)同步改變狀態(tài)。

    標(biāo)注任務(wù)創(chuàng)建到完成的過程類似工廠的流水線,以確保數(shù)據(jù)的規(guī)范和可控。當(dāng)生語料進(jìn)入標(biāo)注流程控制,無論是標(biāo)注員還是審核員,在提交了成果后都不能再修改,保證語料庫中所有的語料都有溯源記錄,同時也實(shí)現(xiàn)了最低程度的版本控制。

    根據(jù)上面的論述,設(shè)計(jì)的數(shù)據(jù)庫結(jié)構(gòu)如圖6所示,圖中省略了實(shí)體的標(biāo)識符主鍵屬性。中間結(jié)果表的主鍵為人員標(biāo)識符、任務(wù)批次、生語料標(biāo)識符,其中人員標(biāo)識符和任務(wù)批次是標(biāo)注分配表的復(fù)合外鍵,人員標(biāo)識符和生語料標(biāo)識符是語料分配表的復(fù)合外鍵,除此之外,還需通過存儲過程來保持中間結(jié)果為標(biāo)注分配和語料分配的笛卡爾積。狀態(tài)標(biāo)志用于跟蹤任務(wù)進(jìn)展和結(jié)果保護(hù)(例如當(dāng)入庫之后歷史記錄就不再允許改動),在存儲過程中自動維護(hù)、更新。

    圖6 數(shù)據(jù)庫ER圖

    通過這種設(shè)計(jì),可以實(shí)現(xiàn)對標(biāo)注各個環(huán)節(jié)的關(guān)鍵數(shù)據(jù)留檔備份,和對任務(wù)進(jìn)度的實(shí)時監(jiān)控。

    如果需要在下一批次的任務(wù)中輪換小組成員,只需在新建的任務(wù)批次記錄中設(shè)置不同的人員即可,所以,小組人員組成的概念實(shí)際上被任務(wù)批次的人員分配取代,并且容易實(shí)現(xiàn)對不同的任務(wù)批次分配不同數(shù)量的標(biāo)注人員的需求。

    對于多個標(biāo)注者標(biāo)注的不同結(jié)果,為發(fā)揮計(jì)算機(jī)的優(yōu)勢,在將不同標(biāo)注結(jié)果提交審核員之前,系統(tǒng)計(jì)算這些成果的一致性,來側(cè)面衡量標(biāo)注結(jié)果的客觀性,驗(yàn)證標(biāo)注質(zhì)量。一致率不足的需要提交審核員審核。一致率的計(jì)算公式如式(1)所示,式中A、B分別代表兩名標(biāo)注者。

    為了避免偶然的標(biāo)注一致對指標(biāo)計(jì)算的干擾,還需使用式(2)進(jìn)行Kappa值的計(jì)算,式中P(A)表示標(biāo)注一致的比例,P(E)表示偶然一致的比例。

    系統(tǒng)還實(shí)現(xiàn)了把已標(biāo)注的生語料退回流程重標(biāo)的需求,為此,一個關(guān)鍵的設(shè)計(jì)是將生語料與熟語料統(tǒng)一到兼容的格式定義中。篇章結(jié)構(gòu)的構(gòu)建是自底向上進(jìn)行的,在標(biāo)注過程中,生語料從多根的樹林轉(zhuǎn)變到單根的篇章結(jié)構(gòu)樹,因而根據(jù)此點(diǎn)設(shè)計(jì)出兼容生語料與熟語料的文件格式。

    一個完整的標(biāo)注系統(tǒng)同時需要提供標(biāo)注、審核等工具,通過工具可以方便收集人員標(biāo)注過程的各種副產(chǎn)物數(shù)據(jù),如標(biāo)注時長等,可用于對標(biāo)注人員建立用戶畫像,這是手工管理不可能實(shí)現(xiàn)的。最后,系統(tǒng)還需要豐富的格式化轉(zhuǎn)換器以與其它系統(tǒng)一同工作。

    4 用戶管理

    用戶管理系統(tǒng)的設(shè)計(jì)充分考慮到了完整的標(biāo)注流程所涉及到的角色與權(quán)限,目標(biāo)是清晰區(qū)分標(biāo)注活動的參與者,便于標(biāo)注活動的管理,提高標(biāo)注效率。圍繞標(biāo)注流程控制設(shè)計(jì),在實(shí)現(xiàn)基礎(chǔ)的用戶創(chuàng)建、注銷等功能之上,系統(tǒng)為防止越級修改增設(shè)了權(quán)限控制功能,為對標(biāo)注活動進(jìn)行更好的檢測增設(shè)了績效評定服務(wù)。

    權(quán)限控制分為動態(tài)權(quán)限控制和靜態(tài)權(quán)限控制兩方面。動態(tài)權(quán)限控制在標(biāo)注流程控制中已經(jīng)提到,即在存儲數(shù)據(jù)時使用人員標(biāo)識符作為中間結(jié)果的主鍵。靜態(tài)權(quán)限分成語料庫權(quán)限、用戶管理權(quán)限、使用格式化器的權(quán)限、生語料管理權(quán)限、任務(wù)管理權(quán)限五種共27個具體的權(quán)限。不同的角色擁有的權(quán)限大小有區(qū)別。一般地,標(biāo)注員和審核員禁止被賦予任務(wù)管理權(quán)限,管理員擁有大部分權(quán)限。

    績效評定針對標(biāo)注員,依賴于標(biāo)注成果的統(tǒng)計(jì)和行為分析數(shù)據(jù)的收集。標(biāo)注成果統(tǒng)計(jì)較為直接,通過該標(biāo)注員已標(biāo)注的生語料數(shù)、通過一致性檢查概率等數(shù)值體現(xiàn)。由于本系統(tǒng)基于的流程控制的特性,部分從標(biāo)注行為中收集的數(shù)據(jù)也將影響績效評定,故將統(tǒng)計(jì)量羅列在此。對單個標(biāo)注員標(biāo)注單份生語料的流程,系統(tǒng)主要關(guān)注標(biāo)注總時間、正操作次數(shù)、反操作次數(shù)及最大間隔時間這四個數(shù)據(jù)量。

    4.1 標(biāo)注總時間

    標(biāo)注總時間統(tǒng)計(jì)標(biāo)注員從進(jìn)入該份生語料的標(biāo)注頁面,到提交標(biāo)注成果離開之間的時間差。消除噪音數(shù)據(jù)后,一份生語料的標(biāo)注總時間明顯地與它的復(fù)雜程度呈正相關(guān)。標(biāo)注總時間將被計(jì)算入標(biāo)注員績效。

    4.2 正操作次數(shù)

    標(biāo)注員標(biāo)注一份生語料操作的次數(shù)與語料的復(fù)雜程度呈不嚴(yán)格的正相關(guān)。定義正操作次數(shù)為對建立一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,則正操作次數(shù)最后將得到粗略的對生語料的標(biāo)注起到促進(jìn)作用的操作次數(shù),或用于對一份生語料的篇幅長度和復(fù)雜程度進(jìn)行評估,得到相應(yīng)的反饋呈現(xiàn)給審核員。

    標(biāo)注一份生語料主要包括了以下操作:選擇關(guān)系類型,選擇關(guān)聯(lián)子節(jié)點(diǎn)個數(shù),選擇中心數(shù),創(chuàng)建新的關(guān)系,刪除關(guān)系,修改邊的權(quán)重和回退操作。由于創(chuàng)建新的關(guān)系的前提是正確配置關(guān)系,因此正操作次數(shù)為避免重復(fù),僅將創(chuàng)建關(guān)系節(jié)點(diǎn)的操作以及修改任意邊的權(quán)重的操作計(jì)算在內(nèi)。刪除已創(chuàng)建節(jié)點(diǎn)和回退操作不計(jì)入正操作,也不扣除正操作次數(shù)。

    4.3 負(fù)操作次數(shù)

    與正操作數(shù)不同,負(fù)操作次數(shù)統(tǒng)計(jì)了標(biāo)注員在進(jìn)行篇章標(biāo)注時對解構(gòu)一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,包括已有關(guān)系節(jié)點(diǎn)的移除和回退操作。負(fù)操作次數(shù)直觀地給出了在一篇語料標(biāo)注的過程中標(biāo)注員認(rèn)為自己標(biāo)注錯誤的次數(shù),對評估該份生語料和負(fù)責(zé)此次標(biāo)注任務(wù)的標(biāo)注員的績效都能形成參考。

    4.4 最大間隔時間

    一份語料的標(biāo)注重心或難點(diǎn)能夠通過標(biāo)注的間隔時間有所體現(xiàn),因?yàn)橥ǔ碚f人思考得越久,就表明越不能很有把握得對此處如何標(biāo)注下結(jié)論。

    間隔時間用來描述標(biāo)注員在篇章標(biāo)注過程中兩次操作的間隔。系統(tǒng)統(tǒng)計(jì)標(biāo)注員標(biāo)注一份生語料所進(jìn)行的所有操作中,間隔時間最長的若干操作,并對應(yīng)到這些操作所關(guān)聯(lián)的節(jié)點(diǎn)。另外,設(shè)置間隔時間閾值,對小于閾值的間隔時間的操作忽略,判定為正常標(biāo)注??紤]到人的思考習(xí)慣和標(biāo)注習(xí)慣不同,有些標(biāo)注員的標(biāo)注習(xí)慣是仔細(xì)考慮之后再操作,并不會出現(xiàn)太多增刪的二次操作,使用最大間隔時間能夠在一定程度上彌補(bǔ)正負(fù)操作次數(shù)的局限性。

    隨著一份生語料任務(wù)被多個標(biāo)注員標(biāo)注,系統(tǒng)中行為數(shù)據(jù)會不斷豐富,在提交審核員審核時,系統(tǒng)將對不同標(biāo)注員的上述數(shù)據(jù)量進(jìn)行均值計(jì)算,最終向?qū)徍藛T提交該份語料的整體難度、標(biāo)注重點(diǎn)段落的提示,以幫助審核員快速定位審核重點(diǎn),提高審核效率。

    5 語料庫管理

    語料庫管理系統(tǒng)最主要的功能是接收通過合法流程標(biāo)注完成的語料,并對其進(jìn)行管理。語料庫管理的方式如上文所述,以批的形式標(biāo)注入庫,同時保存帶有狀態(tài)標(biāo)記的中間結(jié)果。

    為了協(xié)助標(biāo)注人員更好地進(jìn)行標(biāo)注,語料庫管理系統(tǒng)提供部分輔助統(tǒng)計(jì)組件,即篇章語料統(tǒng)計(jì)功能。

    褚曉敏等提出[1],通過每個類別的篇章關(guān)系的數(shù)量以及主次關(guān)系,可以推斷某一類文章常用的篇章關(guān)系,以及常用寫作架構(gòu)。因此,系統(tǒng)參考建立了基本篇章語料統(tǒng)計(jì)功能,并實(shí)驗(yàn)性地進(jìn)行了一部分統(tǒng)計(jì),獲得了部分?jǐn)?shù)據(jù),而篇章語料統(tǒng)計(jì)分析數(shù)據(jù)對真實(shí)世界的反饋還有待進(jìn)一步研究。

    篇章語料統(tǒng)計(jì)主要分為兩個部分:生語料數(shù)據(jù)庫和熟語料統(tǒng)計(jì)分析。其中,生語料數(shù)據(jù)庫主要為生語料標(biāo)注流程控制提供基本數(shù)據(jù),包括生語料索引表、任務(wù)分配表、審核表等。熟語料統(tǒng)計(jì)分析主要分析已通過審核員審核并入庫的已標(biāo)注語料,具體熟語料統(tǒng)計(jì)項(xiàng)見表1。

    表1 熟語料統(tǒng)計(jì)條目

    系統(tǒng)數(shù)據(jù)庫采用實(shí)時更新策略,當(dāng)標(biāo)注流程的終端審核員通過審核時,已標(biāo)注語料文件將被收錄至后端熟語料數(shù)據(jù)庫中,數(shù)據(jù)庫會根據(jù)熟語料統(tǒng)計(jì)項(xiàng),對新入庫熟語料進(jìn)行統(tǒng)計(jì)分析,并將結(jié)果更新。

    熟語料數(shù)據(jù)庫中已有1200篇已標(biāo)注語料,其中共有6763個段落,最長段落為34段,最短段落為兩段,平均篇章段落數(shù)為5.64,篇章段落分布見圖7。

    圖7 篇章段落分布

    在篇章關(guān)系方面,并列類關(guān)系數(shù)量為2150個,占比44.12%;因果類關(guān)系數(shù)量為621個,占比12.74%;解說類關(guān)系數(shù)量為2102個,占比43.14%。具體關(guān)系及數(shù)量見表2。并列類關(guān)系和解說類關(guān)系數(shù)量相似,但因果類關(guān)系數(shù)量卻少許多,數(shù)據(jù)集存在不平衡。

    表2 熟語料統(tǒng)計(jì)條目

    在主次關(guān)系方面,主-次關(guān)系(PS)數(shù)量為3536個,占比72.56%;次-主關(guān)系(SP)數(shù)量為156個,占比3.20%;同等重要(EI)關(guān)系數(shù)量為1181,占比24.24%。具體關(guān)系類主次分布見表3。顯然數(shù)據(jù)集中存在不平衡。

    表3 篇章關(guān)系中主次分布

    同時統(tǒng)計(jì)了篇章以及段落功能語用,統(tǒng)計(jì)結(jié)果見表4。從數(shù)據(jù)來看,篇章語用以新聞報(bào)道和故事為主,段落語用以情景、補(bǔ)充和總述-導(dǎo)語為主,與已標(biāo)注語料中大部分為新聞報(bào)道語料的特征相符合。

    表4 語用分布

    6 結(jié)語

    本文針對手工標(biāo)注和單機(jī)輔助標(biāo)注漢語篇章宏觀結(jié)構(gòu)流程復(fù)雜、效率不高、標(biāo)注質(zhì)量欠缺的問題,提出一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。它能夠通過本文設(shè)計(jì)的流程控制機(jī)制,消除了多余的可能產(chǎn)生誤差的中間環(huán)節(jié),提升了語料標(biāo)注質(zhì)量,減少了退回重標(biāo)的次數(shù),推動了宏觀篇章語料庫的建設(shè)。在接下來的工作中,本文將充分利用系統(tǒng)內(nèi)收集的標(biāo)注行為數(shù)據(jù),開發(fā)智能流程控制系統(tǒng),進(jìn)一步優(yōu)化語料標(biāo)注流程,提高標(biāo)注效率和準(zhǔn)確度,最終實(shí)現(xiàn)一個智能化流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。

    猜你喜歡
    審核員語料語料庫
    《語料庫翻譯文體學(xué)》評介
    論提升收銀審核員崗位職責(zé)意識的方法策略
    如何提升收銀審核員的崗位職責(zé)意識
    魅力中國(2019年17期)2019-01-12 20:41:41
    你是否知道審核員的十條規(guī)則?
    中國纖檢(2017年4期)2017-05-15 23:24:20
    把課文的優(yōu)美表達(dá)存進(jìn)語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    上海質(zhì)量體系審核中心招聘啟事
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    在线天堂中文资源库| 黄色 视频免费看| 中文字幕人妻丝袜一区二区| 法律面前人人平等表现在哪些方面| 国产成年人精品一区二区 | 亚洲av电影在线进入| 9色porny在线观看| 色在线成人网| 国产精品 欧美亚洲| 久久精品国产亚洲av高清一级| 又黄又爽又免费观看的视频| 久久人人爽av亚洲精品天堂| aaaaa片日本免费| 中文字幕人妻丝袜制服| 国产一卡二卡三卡精品| 亚洲伊人色综图| 欧美日韩亚洲高清精品| 怎么达到女性高潮| 日本黄色日本黄色录像| 久久精品91蜜桃| 一区二区三区国产精品乱码| 老司机午夜福利在线观看视频| 青草久久国产| 免费看十八禁软件| 精品久久久久久久毛片微露脸| 免费av毛片视频| 人人妻,人人澡人人爽秒播| 成人特级黄色片久久久久久久| 香蕉久久夜色| 亚洲精品国产色婷婷电影| 亚洲一码二码三码区别大吗| 国产三级黄色录像| 国产不卡一卡二| 午夜免费成人在线视频| 亚洲精品成人av观看孕妇| 丝袜美足系列| 精品久久久久久久久久免费视频 | 中文字幕最新亚洲高清| 国内久久婷婷六月综合欲色啪| 真人做人爱边吃奶动态| 99久久国产精品久久久| 一个人免费在线观看的高清视频| 精品人妻1区二区| 亚洲中文字幕日韩| 国产精品久久久久成人av| 级片在线观看| 亚洲免费av在线视频| 18美女黄网站色大片免费观看| 大陆偷拍与自拍| 国产91精品成人一区二区三区| 国产成人系列免费观看| 欧美+亚洲+日韩+国产| 成人特级黄色片久久久久久久| 韩国av一区二区三区四区| 级片在线观看| 夜夜夜夜夜久久久久| 亚洲欧美一区二区三区黑人| 亚洲av美国av| 老司机靠b影院| 黑人巨大精品欧美一区二区mp4| 国产精品久久久久成人av| 国产成人av激情在线播放| 级片在线观看| 国内久久婷婷六月综合欲色啪| 女警被强在线播放| 亚洲一卡2卡3卡4卡5卡精品中文| 成人三级做爰电影| 久久人妻福利社区极品人妻图片| 女生性感内裤真人,穿戴方法视频| 亚洲片人在线观看| 999精品在线视频| 欧美日韩精品网址| 免费在线观看视频国产中文字幕亚洲| 久久 成人 亚洲| 黄色怎么调成土黄色| 日韩一卡2卡3卡4卡2021年| 欧美色视频一区免费| 日韩欧美免费精品| 国产一区二区三区在线臀色熟女 | 免费人成视频x8x8入口观看| 欧美日韩乱码在线| 久久久久久大精品| 国产精品久久久人人做人人爽| 亚洲国产欧美日韩在线播放| 中文亚洲av片在线观看爽| 亚洲午夜精品一区,二区,三区| 色综合婷婷激情| 亚洲情色 制服丝袜| 亚洲男人的天堂狠狠| 18禁裸乳无遮挡免费网站照片 | 亚洲精品中文字幕一二三四区| 99re在线观看精品视频| 国产亚洲精品第一综合不卡| 成人特级黄色片久久久久久久| 国产精品98久久久久久宅男小说| 亚洲熟女毛片儿| 老司机在亚洲福利影院| 91在线观看av| 午夜免费鲁丝| 国产av一区在线观看免费| 少妇的丰满在线观看| av福利片在线| 国产国语露脸激情在线看| 如日韩欧美国产精品一区二区三区| 久久99一区二区三区| 国产伦人伦偷精品视频| 国产成人精品在线电影| 91精品三级在线观看| 91麻豆精品激情在线观看国产 | 久久久久九九精品影院| 人成视频在线观看免费观看| 在线看a的网站| 日韩视频一区二区在线观看| 久久精品影院6| 国产欧美日韩一区二区三区在线| 午夜福利影视在线免费观看| 国产亚洲精品综合一区在线观看 | 国产精品 欧美亚洲| 欧美成人免费av一区二区三区| 91麻豆av在线| 日韩一卡2卡3卡4卡2021年| 夜夜夜夜夜久久久久| 久久香蕉激情| 两人在一起打扑克的视频| 99riav亚洲国产免费| 久久香蕉国产精品| 丰满的人妻完整版| 国产xxxxx性猛交| 99久久人妻综合| 97碰自拍视频| 看黄色毛片网站| 男男h啪啪无遮挡| 精品国内亚洲2022精品成人| 亚洲欧美日韩高清在线视频| 99久久精品国产亚洲精品| 国产精华一区二区三区| 人成视频在线观看免费观看| 国产在线观看jvid| 国产视频一区二区在线看| 可以在线观看毛片的网站| 桃色一区二区三区在线观看| 丝袜美腿诱惑在线| 五月开心婷婷网| 视频区欧美日本亚洲| 亚洲中文av在线| 19禁男女啪啪无遮挡网站| 美女高潮到喷水免费观看| 亚洲av电影在线进入| 99国产综合亚洲精品| 丝袜美腿诱惑在线| 黄频高清免费视频| 久久精品影院6| 亚洲,欧美精品.| 午夜福利,免费看| 欧美黄色片欧美黄色片| 在线免费观看的www视频| 深夜精品福利| 亚洲激情在线av| 男女做爰动态图高潮gif福利片 | 黄色片一级片一级黄色片| 午夜老司机福利片| 免费不卡黄色视频| 精品无人区乱码1区二区| 人人妻人人澡人人看| 日韩高清综合在线| 成在线人永久免费视频| 亚洲av日韩精品久久久久久密| 宅男免费午夜| 啦啦啦 在线观看视频| 黄色视频,在线免费观看| 成在线人永久免费视频| 国产精品一区二区三区四区久久 | 午夜免费鲁丝| 老司机午夜福利在线观看视频| 一区二区三区精品91| 天堂中文最新版在线下载| 日本免费a在线| 久久人妻福利社区极品人妻图片| 国产又爽黄色视频| 激情在线观看视频在线高清| 变态另类成人亚洲欧美熟女 | 中文字幕最新亚洲高清| 黄片播放在线免费| 久久人人爽av亚洲精品天堂| 黄色毛片三级朝国网站| 亚洲一区二区三区不卡视频| 亚洲va日本ⅴa欧美va伊人久久| svipshipincom国产片| 又大又爽又粗| 国产成人精品久久二区二区91| 99国产综合亚洲精品| 亚洲精品中文字幕一二三四区| 久久亚洲真实| 欧美日韩一级在线毛片| 亚洲成a人片在线一区二区| 国产精品久久电影中文字幕| 久久九九热精品免费| 久久香蕉激情| 久久这里只有精品19| 精品欧美一区二区三区在线| 国产人伦9x9x在线观看| 国产精品野战在线观看 | av视频免费观看在线观看| 一二三四社区在线视频社区8| 国产免费现黄频在线看| 叶爱在线成人免费视频播放| 狠狠狠狠99中文字幕| 亚洲精华国产精华精| 如日韩欧美国产精品一区二区三区| 人人妻人人澡人人看| 久久久国产一区二区| 久久午夜综合久久蜜桃| 亚洲欧美日韩高清在线视频| 午夜福利影视在线免费观看| 精品国产亚洲在线| 老司机午夜福利在线观看视频| 国产成人精品在线电影| 久久精品国产亚洲av高清一级| 亚洲av日韩精品久久久久久密| 久久人妻熟女aⅴ| 51午夜福利影视在线观看| 嫩草影院精品99| 18禁美女被吸乳视频| 久久九九热精品免费| 国产区一区二久久| 国产精品一区二区在线不卡| 中文字幕高清在线视频| 9热在线视频观看99| 超碰97精品在线观看| 精品久久久久久,| 丰满的人妻完整版| 色综合站精品国产| 久久天躁狠狠躁夜夜2o2o| 香蕉国产在线看| www国产在线视频色| 久久热在线av| 超碰成人久久| 老汉色∧v一级毛片| 成人三级黄色视频| 美女高潮喷水抽搐中文字幕| 日韩视频一区二区在线观看| 视频在线观看一区二区三区| av片东京热男人的天堂| 国产日韩一区二区三区精品不卡| 精品国产国语对白av| 国产精品久久久久成人av| 麻豆久久精品国产亚洲av | 美女午夜性视频免费| 在线观看66精品国产| 久久人人97超碰香蕉20202| 国产成人系列免费观看| 99热只有精品国产| 视频区欧美日本亚洲| 精品福利永久在线观看| 男人的好看免费观看在线视频 | 中文字幕人妻丝袜制服| 夜夜爽天天搞| 中文字幕人妻熟女乱码| 可以免费在线观看a视频的电影网站| 久久人妻av系列| 9191精品国产免费久久| 亚洲人成网站在线播放欧美日韩| 成人国产一区最新在线观看| 在线观看一区二区三区| videosex国产| 丝袜人妻中文字幕| 欧美丝袜亚洲另类 | √禁漫天堂资源中文www| 天天添夜夜摸| 久久天堂一区二区三区四区| 老汉色av国产亚洲站长工具| 性色av乱码一区二区三区2| 无限看片的www在线观看| 美国免费a级毛片| 黄网站色视频无遮挡免费观看| 日本免费一区二区三区高清不卡 | 妹子高潮喷水视频| 日本欧美视频一区| 90打野战视频偷拍视频| 一边摸一边抽搐一进一小说| 免费久久久久久久精品成人欧美视频| 久久热在线av| 超碰成人久久| 丝袜在线中文字幕| 一区二区日韩欧美中文字幕| 成人免费观看视频高清| 一个人观看的视频www高清免费观看 | 亚洲 欧美 日韩 在线 免费| 欧美+亚洲+日韩+国产| 宅男免费午夜| 亚洲av第一区精品v没综合| 久久香蕉激情| 久久久精品国产亚洲av高清涩受| 51午夜福利影视在线观看| 国产熟女午夜一区二区三区| 99久久综合精品五月天人人| 久久热在线av| 色婷婷久久久亚洲欧美| 午夜精品国产一区二区电影| 一区福利在线观看| 亚洲精品美女久久久久99蜜臀| 久久精品国产亚洲av高清一级| 国产av又大| 老司机午夜福利在线观看视频| 黄片播放在线免费| 亚洲专区国产一区二区| 天天影视国产精品| 琪琪午夜伦伦电影理论片6080| 欧美精品一区二区免费开放| 国内久久婷婷六月综合欲色啪| 成人永久免费在线观看视频| 在线国产一区二区在线| 午夜成年电影在线免费观看| 国产99久久九九免费精品| 国产精品久久久久成人av| 国产高清视频在线播放一区| 精品国产美女av久久久久小说| 久久中文字幕一级| 一进一出抽搐动态| xxx96com| 欧美日韩精品网址| 亚洲精品一区av在线观看| 久热这里只有精品99| 亚洲aⅴ乱码一区二区在线播放 | 咕卡用的链子| 亚洲avbb在线观看| 一级毛片高清免费大全| 亚洲五月色婷婷综合| 精品国产一区二区三区四区第35| 国产免费现黄频在线看| 成人手机av| 50天的宝宝边吃奶边哭怎么回事| 亚洲精品在线美女| 亚洲第一青青草原| 亚洲五月天丁香| 校园春色视频在线观看| 国产免费男女视频| 国产野战对白在线观看| 午夜福利一区二区在线看| 欧美成人性av电影在线观看| 夜夜夜夜夜久久久久| 黑人操中国人逼视频| 黑人巨大精品欧美一区二区蜜桃| 一二三四社区在线视频社区8| 久久九九热精品免费| 丰满迷人的少妇在线观看| 国产一区二区三区视频了| 18禁国产床啪视频网站| a级毛片在线看网站| 国产亚洲欧美精品永久| 午夜日韩欧美国产| 91字幕亚洲| 国产午夜精品久久久久久| 欧美日韩一级在线毛片| 亚洲精品av麻豆狂野| 日韩免费av在线播放| 成人亚洲精品一区在线观看| 高清黄色对白视频在线免费看| 免费在线观看黄色视频的| 可以在线观看毛片的网站| 又紧又爽又黄一区二区| 午夜福利一区二区在线看| 亚洲人成电影观看| xxx96com| 国产无遮挡羞羞视频在线观看| 亚洲男人天堂网一区| 十八禁人妻一区二区| 欧美久久黑人一区二区| 久久久久久免费高清国产稀缺| 亚洲久久久国产精品| 久久香蕉激情| 久久 成人 亚洲| 久久欧美精品欧美久久欧美| 99国产综合亚洲精品| 两人在一起打扑克的视频| 国产亚洲精品一区二区www| 波多野结衣av一区二区av| 日本a在线网址| 精品久久蜜臀av无| 欧美日韩瑟瑟在线播放| 久久精品国产清高在天天线| 99riav亚洲国产免费| 久久人人爽av亚洲精品天堂| 一边摸一边做爽爽视频免费| 天天添夜夜摸| av片东京热男人的天堂| 又黄又爽又免费观看的视频| av在线播放免费不卡| 黄色视频,在线免费观看| 在线观看日韩欧美| 91在线观看av| 在线观看一区二区三区激情| 国产亚洲精品久久久久5区| 欧美日韩福利视频一区二区| 亚洲中文日韩欧美视频| 久久国产精品影院| 99re在线观看精品视频| 亚洲一区二区三区欧美精品| 亚洲欧洲精品一区二区精品久久久| 亚洲中文日韩欧美视频| av在线播放免费不卡| 亚洲av五月六月丁香网| 天天影视国产精品| 男女午夜视频在线观看| 19禁男女啪啪无遮挡网站| aaaaa片日本免费| netflix在线观看网站| 日韩 欧美 亚洲 中文字幕| 夜夜爽天天搞| 国产欧美日韩综合在线一区二区| 99久久99久久久精品蜜桃| 欧美av亚洲av综合av国产av| 国产一区二区在线av高清观看| 国产成人精品无人区| 亚洲精品国产色婷婷电影| 亚洲熟女毛片儿| 国产亚洲欧美在线一区二区| 老鸭窝网址在线观看| 久久人人爽av亚洲精品天堂| 18禁观看日本| 亚洲精品粉嫩美女一区| 亚洲一区高清亚洲精品| 国产精品99久久99久久久不卡| 在线观看一区二区三区激情| 日韩av在线大香蕉| 狂野欧美激情性xxxx| 一二三四在线观看免费中文在| 国产精品亚洲一级av第二区| 成人特级黄色片久久久久久久| 亚洲国产精品999在线| 国产精品日韩av在线免费观看 | 欧美日本亚洲视频在线播放| 亚洲一码二码三码区别大吗| 在线观看免费午夜福利视频| 久久人妻av系列| 一二三四在线观看免费中文在| 亚洲熟妇中文字幕五十中出 | 色尼玛亚洲综合影院| 国产精品久久久久成人av| 伊人久久大香线蕉亚洲五| 欧美成人性av电影在线观看| 级片在线观看| 国产精品亚洲一级av第二区| 国产成年人精品一区二区 | 啦啦啦在线免费观看视频4| 日韩精品免费视频一区二区三区| 黑丝袜美女国产一区| 久久精品国产99精品国产亚洲性色 | 亚洲精品国产精品久久久不卡| 99久久精品国产亚洲精品| 久久伊人香网站| 欧美亚洲日本最大视频资源| 村上凉子中文字幕在线| 电影成人av| 高清av免费在线| 在线观看免费视频日本深夜| 亚洲,欧美精品.| 亚洲一码二码三码区别大吗| 国产精品一区二区在线不卡| 久久久久久免费高清国产稀缺| 亚洲国产精品999在线| 中国美女看黄片| 国产精品久久视频播放| 咕卡用的链子| 亚洲国产精品sss在线观看 | 久久久久国内视频| 国产成人啪精品午夜网站| 久久婷婷成人综合色麻豆| 久久精品人人爽人人爽视色| 一级作爱视频免费观看| 怎么达到女性高潮| 国产xxxxx性猛交| 国产色视频综合| 黄色a级毛片大全视频| 91成人精品电影| 天堂动漫精品| 欧美黄色淫秽网站| 国产精品国产高清国产av| 亚洲成人免费电影在线观看| 国产一卡二卡三卡精品| 亚洲黑人精品在线| 精品欧美一区二区三区在线| 我的亚洲天堂| 中文字幕精品免费在线观看视频| 嫩草影视91久久| 黑丝袜美女国产一区| 久久久久久亚洲精品国产蜜桃av| 精品国产乱子伦一区二区三区| 亚洲三区欧美一区| 日韩欧美一区二区三区在线观看| 亚洲欧美一区二区三区黑人| av国产精品久久久久影院| 91字幕亚洲| 1024视频免费在线观看| 最近最新中文字幕大全电影3 | 在线免费观看的www视频| 久久亚洲真实| 99国产精品99久久久久| 日韩欧美国产一区二区入口| 女生性感内裤真人,穿戴方法视频| 首页视频小说图片口味搜索| 久久精品亚洲精品国产色婷小说| 欧美激情 高清一区二区三区| 亚洲五月天丁香| 色播在线永久视频| 亚洲第一av免费看| 国产熟女午夜一区二区三区| 日日夜夜操网爽| 亚洲片人在线观看| 十八禁人妻一区二区| 国产伦一二天堂av在线观看| 国产亚洲精品第一综合不卡| 香蕉国产在线看| 成年版毛片免费区| 国产精品爽爽va在线观看网站 | 一级片免费观看大全| www.精华液| 最好的美女福利视频网| 性色av乱码一区二区三区2| 国产99久久九九免费精品| 精品人妻1区二区| 欧美日韩视频精品一区| 美国免费a级毛片| 国产欧美日韩精品亚洲av| 如日韩欧美国产精品一区二区三区| 亚洲精品国产色婷婷电影| 99国产极品粉嫩在线观看| 高清黄色对白视频在线免费看| 中文字幕av电影在线播放| 国产av在哪里看| 女警被强在线播放| 亚洲精品国产区一区二| 视频在线观看一区二区三区| av国产精品久久久久影院| 欧美老熟妇乱子伦牲交| 亚洲精品国产一区二区精华液| 亚洲国产精品999在线| 在线看a的网站| 欧美 亚洲 国产 日韩一| 国产一区二区在线av高清观看| 桃色一区二区三区在线观看| 欧美日韩亚洲高清精品| 国产一区二区三区在线臀色熟女 | 欧美色视频一区免费| 欧美日韩精品网址| 欧美激情 高清一区二区三区| 欧美成人免费av一区二区三区| a级毛片黄视频| 国产成年人精品一区二区 | 看免费av毛片| 在线观看免费视频日本深夜| 欧美日韩亚洲综合一区二区三区_| 黄色毛片三级朝国网站| 免费少妇av软件| 性少妇av在线| 99久久人妻综合| 99热国产这里只有精品6| 免费日韩欧美在线观看| av视频免费观看在线观看| 日韩有码中文字幕| 色婷婷av一区二区三区视频| 高清欧美精品videossex| 成在线人永久免费视频| 色综合婷婷激情| 日本黄色日本黄色录像| 中文字幕色久视频| 美女大奶头视频| 免费不卡黄色视频| 亚洲专区国产一区二区| 久久99一区二区三区| 高清在线国产一区| 亚洲五月色婷婷综合| 露出奶头的视频| 黑人猛操日本美女一级片| av中文乱码字幕在线| 国产又色又爽无遮挡免费看| 久久久久久亚洲精品国产蜜桃av| 人人妻,人人澡人人爽秒播| 国产成人精品久久二区二区91| 国产99久久九九免费精品| 国产欧美日韩精品亚洲av| 国产精品一区二区免费欧美| 最好的美女福利视频网| 午夜老司机福利片| 又黄又爽又免费观看的视频| 91av网站免费观看| 色尼玛亚洲综合影院| 国产精品香港三级国产av潘金莲| www.www免费av| 亚洲精品一卡2卡三卡4卡5卡| 国产一区二区在线av高清观看| 久久精品91无色码中文字幕| 777久久人妻少妇嫩草av网站| 亚洲久久久国产精品| 久久热在线av| 亚洲 国产 在线| 99在线视频只有这里精品首页| 少妇粗大呻吟视频| 久久人妻福利社区极品人妻图片| 一级毛片高清免费大全| 一进一出好大好爽视频| 多毛熟女@视频| 黄色 视频免费看| 午夜免费激情av| 国产亚洲精品综合一区在线观看 | 狂野欧美激情性xxxx| 亚洲成人免费av在线播放| 精品一区二区三区四区五区乱码| 涩涩av久久男人的天堂| 在线观看日韩欧美| 精品人妻1区二区| 亚洲一区高清亚洲精品| 免费少妇av软件| 91国产中文字幕| 亚洲精品国产区一区二|