• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向ELAN軟件的手語漢語平行語料庫構(gòu)建

    2019-04-02 03:08:28吳蕊珠李晗靜呂會(huì)華姚登峰
    中文信息學(xué)報(bào) 2019年2期
    關(guān)鍵詞:手語語料平行

    吳蕊珠,李晗靜,呂會(huì)華,姚登峰

    (1. 北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 北京聯(lián)合大學(xué)特殊教育學(xué)院,北京 100075)

    0 引言

    手語是一種視覺語言,它是通過手的動(dòng)作、面部表情的變化和身體的運(yùn)動(dòng)進(jìn)行交流的語言。美國學(xué)者威廉姆·斯多基于20世紀(jì)60年代初發(fā)表了世界上第一本談手語的著作《手語結(jié)構(gòu)》,明確提出美國手語是一種自然語言。時(shí)至今日,手語語言學(xué)成為語言學(xué)研究中不可或缺的組成部分,語言學(xué)家開始從不同層面研究手語,而研究范圍也從美國手語擴(kuò)展到其他國家手語[1]。

    需要指出的是,我們這里所說的手語均為自然手語,與手勢漢語或手勢英語等人造語言是不同的。手勢漢語是根據(jù)漢語的語法規(guī)律、人為造出來與聾人交流的工具,其利用了漢語的語序,與自然手語的語法規(guī)律存在很大差別,聾人理解起來存在一定困難[1]。所以未來手語的機(jī)器翻譯并不是簡單地將漢語一個(gè)詞對應(yīng)一個(gè)手勢翻譯出來[2]。本文面向自然手語進(jìn)行收集和整理。

    本文的工作主要是建立手語漢語平行語料庫。平行語料庫是指“由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語語料庫,其雙語對應(yīng)程度可有詞級(jí)、句級(jí)和段級(jí)幾種”[3]。所以手語漢語平行語料庫一方面是要有嚴(yán)格的手語語料的采集過程,采集設(shè)備及場景設(shè)置、采集內(nèi)容、被采集者的選取和采集用到的誘導(dǎo)材料都需要建立標(biāo)準(zhǔn);另一方面是用多媒體標(biāo)注軟件ELAN對收集到的手語語料進(jìn)行手控和非手控信息等的標(biāo)注,其標(biāo)注者的選取和標(biāo)注的標(biāo)準(zhǔn)也需要科學(xué)指導(dǎo)。本文建立手語漢語平行語料庫是為了給日后建立其他通用手語語料庫提供有效的參考,為保證語料庫標(biāo)注質(zhì)量,提供相應(yīng)技術(shù)支持,它也能夠?yàn)楹罄m(xù)的手語機(jī)器翻譯提供有力的數(shù)據(jù)基礎(chǔ)。

    為了有助于語料的去重和手語語料的分類,以及保證其標(biāo)注質(zhì)量,本文提出對標(biāo)注語料使用基于向量空間模型的余弦相似性算法來實(shí)現(xiàn)手語語料相似度的計(jì)算。

    1 相關(guān)研究

    1.1 語料庫

    1.1.1 國內(nèi)漢英雙語平行語料庫

    北京大學(xué)計(jì)算語言學(xué)研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發(fā)了相應(yīng)的對齊工具和雙語語料庫管理軟件。在此基礎(chǔ)上做漢英對照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條;哈爾濱工業(yè)大學(xué)的英漢雙語語料庫1998年有3萬句子對,已經(jīng)進(jìn)行了詞性標(biāo)注,目前正在擴(kuò)充為40萬~50萬句子對,在句子、短語、詞匯三級(jí)層面實(shí)現(xiàn)雙語對齊;東北大學(xué)的英漢雙語語段庫:在雙語語料庫基礎(chǔ)上,建造雙語語段庫,1999年構(gòu)造了10萬雙語語段庫,進(jìn)行了基于語段的英漢機(jī)器翻譯實(shí)驗(yàn);中國科學(xué)院軟件研究所的英漢雙語語料庫基于雙語對齊算法研究,現(xiàn)有15萬對英漢雙語對齊句子庫,已經(jīng)切分和標(biāo)注[4]。

    1.1.2 澳大利亞手語語料庫

    目前最為成熟的手語語料庫當(dāng)屬由Johnston等人創(chuàng)建的澳大利亞手語語料庫[5]。該庫的建設(shè)目的從早期的社會(huì)語言學(xué)描寫研究,逐漸轉(zhuǎn)移到手語的傳承保護(hù)和詞典編纂。該語料庫的標(biāo)注包括49層,其中用來對雙手手形的意義、運(yùn)動(dòng)、位置等手控信息的標(biāo)注層就有37層之多;9層是對眼睛、眉毛、身體、頭部等非手控信息的標(biāo)注;2層是對于手語意義的標(biāo)注,分別是句子翻譯和詞語轉(zhuǎn)寫翻譯;最后一層是注釋。澳大利亞手語語料庫雖然是最為成熟的手語語料庫,但其大部分標(biāo)注層主要集中在雙手空間信息的描述上,標(biāo)注層過多,耗時(shí)耗力。因此,該語料庫很難復(fù)制或者推廣。

    1.1.3 德國天氣預(yù)報(bào)手語平行語料庫

    該語料庫的建立是為了手語的翻譯和識(shí)別,將德語翻譯成德國手語是該系統(tǒng)的目標(biāo)[6]?;诮y(tǒng)計(jì)的機(jī)器翻譯要依賴海量的數(shù)據(jù),該語料庫收集了自1999年以來6年內(nèi)德國天氣預(yù)報(bào)的手語視頻數(shù)據(jù),包括2 190個(gè)手語視頻,德語手語句子對有72 724對,詞語數(shù)量872 117個(gè),詞匯(去掉重復(fù)詞)有12 320個(gè),而且其收集的是國家級(jí)天氣預(yù)報(bào),手語視頻質(zhì)量比較高,包括很多相同的句子句式,比如天氣預(yù)報(bào)中的德語句子“Und nun die Wettervorhersage für morgen, Donnerstag, den zw?lften Mai.”,德國手語句子標(biāo)注為“JETZT WETTER+VORAUS+SAGEN MORGEN DONNERSTAG ZW? LF MAI.”,表達(dá)的意思是“And now the weather forecast for tomorrow, the 12th of May.”,語料庫中很多手語視頻中都會(huì)有這樣的句式,有利于基于統(tǒng)計(jì)的機(jī)器翻譯。該語料庫由三部分組層:一部分是手語視頻數(shù)據(jù)的標(biāo)注語料(The Video Corpus),其中標(biāo)注層有6層,分別是轉(zhuǎn)寫、詞語類型、手語句子邊界、相應(yīng)的德語句子邊界、德語使用者標(biāo)注的德語句子翻譯。另一部分是德語手語的文本語料(The Bilingual Text-based Corpus),是將ELAN軟件中的標(biāo)注信息導(dǎo)出。還有一部分是天氣預(yù)報(bào)的德語文本語料(The Monolingual Text-based Corpus),其中標(biāo)注信息中沒有主手、輔手、非手控信息的描述。對于手語這種空間性的語言,其記錄的手語信息不夠完整,且該語料庫采集的是規(guī)約手語,不是自然手語。

    1.1.4 中國手語語料庫

    中國的手語語料庫建設(shè)目前還處于初始階段,且手語研究逐漸豐富,北京師范大學(xué)鄧猛教授領(lǐng)頭的國家語委、中國殘聯(lián)“十二五”科研規(guī)劃2013年重大課題“國家通用手語等級(jí)標(biāo)準(zhǔn)研制”;復(fù)旦大學(xué)龔群虎的通用手語語料庫研究項(xiàng)目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”;由南京特殊教育師范學(xué)院承擔(dān)的國家語委重點(diǎn)科研項(xiàng)目“國家手語詞匯語料庫建設(shè)”是中國第一個(gè)手語詞匯語料庫,采集了9個(gè)地區(qū)共6萬多個(gè)手語詞視頻,語料具有較強(qiáng)的代表性[7],但是只限于詞語級(jí)別;黃曉曉建立的基于情景的手語語料庫[8],包含個(gè)人在家庭、學(xué)校等場合的日常交流,其手語視頻轉(zhuǎn)寫采用Word文檔作為轉(zhuǎn)寫文檔,轉(zhuǎn)寫的格式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn),這使文本語料很難成為格式化的可機(jī)讀文件。除了政府或殘聯(lián)組織投資建設(shè)的語料庫外,一些研究者為了研究的需要,也建立了或大或小的手語語料庫。

    目前手語漢語平行語料庫建設(shè)的缺點(diǎn)是: 規(guī)范性差,缺少系統(tǒng)的理論指導(dǎo),缺乏具體的評(píng)測標(biāo)準(zhǔn),使得手語語料庫建設(shè)的質(zhì)量不一,應(yīng)用性欠佳,難以滿足語料庫語言學(xué)發(fā)展的需要。很難為語言學(xué)研究提供及時(shí)、全面、權(quán)威性高的語料素材,為語言學(xué)建設(shè)提供強(qiáng)有力的數(shù)據(jù)支持。

    1.2 采集內(nèi)容

    為了采集到高質(zhì)量的手語語料,本節(jié)整理了國內(nèi)外手語語料庫的采集內(nèi)容(表1)、被采集者的選取規(guī)則以及采集場景的設(shè)置材料,以便為落實(shí)本文的采集內(nèi)容、被采集者的選取和采集場景設(shè)置提供參考。

    表1 手語語料庫的手語類型、題材、形式

    1.3 被采集者選取

    對于被采集者的選取來說,不同語言群體的成員,其語言能力存在差異,手語使用者群體也不例外。根據(jù)Johnston的調(diào)查,只有極少數(shù)人可以被稱作手語的母語使用者。因此最理想的受試者來自第二代聾人家庭的手語使用者。在實(shí)際生活中,尤其是在較小的聾人群體中,研究者往往難以召集到足夠數(shù)量的理想受試者。鑒于此,Johnston提出了另外一套針對非母語使用者的選取標(biāo)準(zhǔn),以保證研究的科學(xué)性。當(dāng)中包括: ①手語的學(xué)習(xí)年齡不應(yīng)晚于八歲,以三歲前為最佳; ②接受聾校教育,以住校生為最佳; ③每天使用手語; ④身份上認(rèn)同聾文化[5]。

    1.4 采集場景設(shè)置

    圖1是荷蘭NGT手語視頻采集的場景布置,被采集者和引導(dǎo)者相對而坐,每人面前各有一臺(tái)攝像機(jī)負(fù)責(zé)采集拍攝其手語信息。被采集者和引導(dǎo)者正上方也各自有一臺(tái)攝像機(jī),負(fù)責(zé)采集拍攝對象的另一個(gè)平面的手語信息。這種場景設(shè)置考慮到了手語的空間性。但是,被采集者和引導(dǎo)者的手語采集過程是一個(gè)手語對話的過程,如果將其分開,對后面的標(biāo)注過程是不利的,因?yàn)楹茈y理解他們要表達(dá)的內(nèi)容。

    圖1 荷蘭NGT手語語料庫的場景布置[9]

    新西蘭手語語料庫(The Corpus NGT(Nederlands))數(shù)據(jù)采集的場景布置如圖2所示,需要錄制對話人的正面、臉部、由上向下的6個(gè)同步視頻數(shù)據(jù)。新西蘭手語語料庫的場景設(shè)置比荷蘭NGT手語語料庫的場景設(shè)置多了臉部信息的攝取,是手語非手控信息的采集;還合成了被采集者和引導(dǎo)者兩人手語對話內(nèi)容,此類場景布置更適合采集對話形式的手語。其場景布置復(fù)雜,要用到6臺(tái)不同的高清攝像機(jī)同時(shí)錄制,實(shí)驗(yàn)室配置花費(fèi)大。

    圖2 新西蘭手語采集場景設(shè)置[10]

    1.5 ELAN工具介紹

    ELAN (EUDICO Linguistic Annotator)[11]是荷蘭馬克斯普朗克研究所為研究心理語言學(xué)而開發(fā),其目的是為注釋和開發(fā)多媒體提供良好的技術(shù)支持。ELAN是一個(gè)用于對視頻或音頻文件進(jìn)行復(fù)雜標(biāo)注的專業(yè)工具。使用ELAN可以為視頻、音頻添加無限層的標(biāo)注。標(biāo)注內(nèi)容可以是句子、單詞、內(nèi)容、翻譯或者是對視頻細(xì)節(jié)的描述等。使用ELAN對手語視頻進(jìn)行標(biāo)注可達(dá)到事半功倍的效果[12]。

    ① 層(Tier)是轉(zhuǎn)寫和標(biāo)注的依托,不同的層可以被賦予不同的標(biāo)注內(nèi)容。如注釋層、詞類層、翻譯層等。ELAN中的層可以根據(jù)使用者的需求添加。

    ② 轉(zhuǎn)寫(transcription)指根據(jù)音頻和視頻錄入文字或其他符號(hào)的操作。以手語為例,是借用漢字和其他字符按照手語順序記錄手語表達(dá)的內(nèi)容和方式,沒有翻譯加工,記錄的是手語表達(dá)的信息,并非翻譯的漢語句子[13]。

    ③ 標(biāo)注(annotation)是針對音頻或視頻內(nèi)容轉(zhuǎn)寫的文字、注釋、翻譯、國際音標(biāo)等,標(biāo)注包括轉(zhuǎn)寫。在ELAN中,標(biāo)注也指時(shí)間段上的時(shí)間線,時(shí)間段內(nèi)可以沒有轉(zhuǎn)寫任何內(nèi)容。

    1.6 視頻相似度計(jì)算

    手語是一種視覺語言,沒有書面形式,更多的是通過視頻錄制的方式進(jìn)行記錄。視頻的相似度研究為手語語料相似度研究提供了參考。

    國內(nèi)外學(xué)者在研究視頻相似度問題時(shí),一種方法是提取視頻的文本信息,Crawler系統(tǒng)[14]可以從視頻的URL和主頁HTML文件中提取視頻的文本信息,比如字幕、視頻的題目、摘要、類別、主題,以及相關(guān)的人物信息等。還有視頻經(jīng)過文字檢測、文字分割、字符識(shí)別,使用OCR軟件識(shí)別[15],完成由數(shù)字圖像到字符編碼的轉(zhuǎn)化,最終可以將視頻相似度轉(zhuǎn)化為文本相似度的計(jì)算。另一種方法,是將視頻作為圖像進(jìn)行處理,即關(guān)鍵幀之間的相似度計(jì)算, 轉(zhuǎn)化成圖像的相似度計(jì)算。以兩個(gè)視頻間對應(yīng)幀的平均距離作為相似度,條件是視頻幀序列遵守時(shí)間順序[16]。采用常見的顏色直方圖進(jìn)行計(jì)算比較, 但不是直接將兩幅圖像的直方圖進(jìn)行比較, 而是先將視頻的關(guān)鍵幀進(jìn)行區(qū)域劃分[17]。

    2 手語漢語平行語料庫的建設(shè)

    2.1 本文采集的內(nèi)容

    本文手語漢語平行語料庫采集內(nèi)容為聾人日常生活、學(xué)習(xí)、工作中自然產(chǎn)生的語料,還有通過實(shí)驗(yàn)誘導(dǎo)的方式獲取的語料。語料庫中已標(biāo)注語料約5.12GB,約80min,約2 400個(gè)平行句對。

    2.2 本文被采集者選取

    被采集人群為根據(jù)Berent提出的手語雙語者分類方案篩選被試,將被采集者分為五類。第一類:出生于聾人家庭的聾人,父母從小使用自然手語與其溝通,在獲得第一語言手語后,口語成為第二語言;第二類:出生于健聽家庭的聾人,早期接觸手語,之后接觸口語;第三類:出生于健聽家庭的聾人,晚期接觸手語;第四類:出生于聾人家庭的健聽人,早期從聾人父母處自然習(xí)得手語;第五類:健聽家庭的健聽人,如聾校教師、手語翻譯等,他們大多因工作需要,成年后學(xué)習(xí)手語。以上語料提供者還需滿足經(jīng)常使用手語這一條件[18]。

    圖3 本文手語視頻采集場景設(shè)置

    2.3 本文采集場景設(shè)置

    本文的手語視頻采集的場景布置如圖3所示。攝像機(jī)1的視角是負(fù)責(zé)拍攝被采集者和引導(dǎo)者的對話,而攝像機(jī)2的視角是負(fù)責(zé)拍攝被采集者的手語信息。這樣做的好處是,既記錄了對話內(nèi)容,也記錄了被采集者的信息,在后續(xù)對采集的語料進(jìn)行標(biāo)注的時(shí)候,可以參考對話內(nèi)容,以保證標(biāo)注的正確性與可靠性,降低標(biāo)注者的難度。

    2.4 標(biāo)注方法

    在本文建立的手語漢語平行語料庫中,我們的標(biāo)注層分為14層,包含手語的手控和非手控信息。分別是主手、輔手、詞語轉(zhuǎn)寫、詞語翻譯、句子翻譯1、句子翻譯2、句子翻譯3、句子翻譯4、眉毛、眼睛、嘴巴、身體、頭部、眨眼。其中主手和輔手層是對主手和輔手的位置、手形、運(yùn)動(dòng)信息進(jìn)行標(biāo)注,標(biāo)準(zhǔn)參考文獻(xiàn)[19]中的內(nèi)容(如圖4所示);詞語轉(zhuǎn)寫是時(shí)間段與手勢所要表達(dá)的意思,以國家通用手語為準(zhǔn);詞語翻譯是詞語轉(zhuǎn)寫層融合非手控信息后的翻譯,比如詞語轉(zhuǎn)寫是“雨”,融合非手控信息就可能翻譯成“大雨”或者“暴雨”;句子翻譯1和句子翻譯2是由手語使用進(jìn)來標(biāo)注,分成兩個(gè)句子翻譯是為了處理句子有歧義的情況;句子翻譯3和句子翻譯4是語言學(xué)專家標(biāo)注,分別對句子翻譯1和句子翻譯2進(jìn)行漢語翻譯和校驗(yàn);眉毛、眼睛、嘴巴、身體、頭部、眨眼這六層的標(biāo)注標(biāo)準(zhǔn)參考文獻(xiàn)[18]中的內(nèi)容。如圖5所示是使用ELAN軟件進(jìn)行標(biāo)注的示例。

    圖4 位置、手形和運(yùn)動(dòng)的標(biāo)注標(biāo)準(zhǔn)[19]

    圖5 手語標(biāo)注示例

    2.5 手語語料的預(yù)處理

    手語語料預(yù)處理是整個(gè)工作內(nèi)容的基礎(chǔ),有以下四個(gè)方面的內(nèi)容:手語語料采集、語料的標(biāo)注、語料專家校驗(yàn)及語料庫的更新和存儲(chǔ),手語語料的預(yù)處理總體流程如圖6所示。

    手語語料的預(yù)處理的具體內(nèi)容如下。

    ① “手語語料采集”首先需要確定被采集人和采集內(nèi)容,接下來按照場景布置要求將拍攝現(xiàn)場搭建好,最后就是對視頻的采集與存儲(chǔ)。

    圖6 手語語料的預(yù)處理總體流程

    ② “語料的標(biāo)注”這個(gè)過程是由自然手語使用者與漢語專家共同完成的,第一步是將MP4文件導(dǎo)入ELAN標(biāo)注軟件;第二步是按照話題或者固定時(shí)間將手語視頻進(jìn)行切分;第三步是建立轉(zhuǎn)寫標(biāo)注層,本文在建立手語漢語平行語料庫時(shí),綜合了相關(guān)研究章節(jié)中語料庫的優(yōu)缺點(diǎn),以及手語漢語平行語料庫的用途,增加了翻譯部分詞級(jí)和句子級(jí)的平行標(biāo)注層,減少了空間信息的過多描述,保留了非手控信息的標(biāo)注,最終確定了14層的標(biāo)注層級(jí),接著以手語標(biāo)注的標(biāo)準(zhǔn)及《國家通用手語》作為參考對手語進(jìn)行標(biāo)注。

    ③ “語料專家校驗(yàn)”時(shí),首先要對被采集者、采集內(nèi)容和手語標(biāo)注者信息等進(jìn)行確認(rèn),然后根據(jù)漢語標(biāo)注標(biāo)準(zhǔn)和手語標(biāo)注標(biāo)準(zhǔn)對語料庫標(biāo)注內(nèi)容進(jìn)行校驗(yàn)。專家校驗(yàn)就是為了提高語料庫的質(zhì)量,以便使語料庫能夠建得更好。

    ④ “語料庫的更新與存儲(chǔ)”將存在的問題進(jìn)行反饋,由手語使用者和漢語專家將標(biāo)注轉(zhuǎn)寫的語料內(nèi)容中的任何漏標(biāo)、誤標(biāo)、多標(biāo)、標(biāo)注不統(tǒng)一等情況進(jìn)行修正更新,形成一套符合標(biāo)注標(biāo)準(zhǔn)的手語漢語平行語料庫。最終,將手語視頻的MP4文件及手語語料標(biāo)注轉(zhuǎn)寫語料EAF文件進(jìn)行存儲(chǔ)。

    3 手語漢語相似度的計(jì)算

    手語語料相似度的計(jì)算有助于語料的去重和手語視頻的分類,以及保證標(biāo)注質(zhì)量問題等。本文建立的手語漢語平行語料庫中詞語轉(zhuǎn)寫層(詞語級(jí)別,不涉及語法信息)是對手語視頻內(nèi)容的轉(zhuǎn)寫,可以將手語視頻轉(zhuǎn)化為文本來處理。我們與1.6節(jié)中提到的視頻的文本信息是不同的,一般視頻的文本信息是非常有限的,而且視頻語義方面的文本信息很少,所以在視頻相似度處理方面是不利的。而本文用到的語料庫的詞語轉(zhuǎn)寫層,是對整段手語視頻中的語義進(jìn)行描述,對其進(jìn)行手語相似度的計(jì)算,為準(zhǔn)確性提供了保障。我們使用基于向量空間[20]的余弦相似性來進(jìn)行手語相似度的計(jì)算,還可以用此算法確定標(biāo)注者的標(biāo)注質(zhì)量是否合格。

    3.1 算法介紹

    向量空間模型的概念最早在20世紀(jì)60年代被Salton等人提出,并很快在文本分類、信息檢索等領(lǐng)域得到廣泛應(yīng)用。其定義為: 對于待檢查手語B中的每一個(gè)詞語,使用Bi代表此段手語中第i個(gè)詞語的權(quán)重,同樣使用Ai表示已有手語A中的第i個(gè)詞語的權(quán)重,從而可以使用Ai=(a1,a2,…,an)和Bi=(b1,b2,…,bn)表示待檢查手語B和已有手語A的詞語權(quán)重向量。在得到手語的詞語權(quán)重向量之后,通過余弦相似性算法計(jì)算Ai和Bi兩個(gè)向量的余弦相似度,從而判斷待檢查手語B和已有手語A之間的相似度。余弦相似度的計(jì)算如式(1)所示。

    (1)

    其中, ‖A‖和‖B‖表示向量的模。由于Ai和Bi均大于等于0,所以式(1)的值是一個(gè)0到1的值,0表示兩段手語語料的相似度為零,1表示兩段手語語料完全相同。

    3.2 算法流程

    算法流程如圖7所示。首先是語料預(yù)處理過程,將轉(zhuǎn)寫層語料導(dǎo)出成文本,并去除相應(yīng)的停用詞。然后按照余弦相似性算法的步驟,對手語視頻A的轉(zhuǎn)寫層和手語視頻B的轉(zhuǎn)寫層的所有詞進(jìn)行列舉;然后計(jì)算各自的詞頻、確定各自的詞頻向量、計(jì)算兩個(gè)詞頻向量對應(yīng)的夾角。最后就是確定手語視頻A和手語視頻B的相似度。

    圖7 基于余弦相似性算法的手語相似度計(jì)算流程圖

    3.3 實(shí)驗(yàn)結(jié)果

    本文選取了語料庫中的手語語料進(jìn)行了實(shí)驗(yàn),結(jié)果如圖8所示,其中手語視頻①和手語視頻1是同一內(nèi)容、被不同采集者進(jìn)行手語講述、經(jīng)同一轉(zhuǎn)寫者處理(手語視頻對2和②,3和③,4和④,5和⑤處理?xiàng)l件相同,表2中的實(shí)驗(yàn)結(jié)果為圖8中的結(jié)果。通過本文提出的相似度計(jì)算方法得到的結(jié)果為0.506 6。而手語視頻①和其他手語視頻進(jìn)行計(jì)算得到的相似度為0.237 6、0.061 4、0.281 8和0.143 6,相比較而言,相似度降低。說明同一內(nèi)容的手語視頻比不同內(nèi)容的相似度高,證明了算法的有效性。實(shí)驗(yàn)也將相似度高于0.5的手語視頻進(jìn)行專家校驗(yàn),得到了同樣的結(jié)果。

    圖8 手語視頻相似度計(jì)算對比實(shí)驗(yàn)

    另外,圖8中,標(biāo)注者A和標(biāo)注者B對手語視頻1進(jìn)行了轉(zhuǎn)寫。我們用上述方法進(jìn)行計(jì)算相似度。

    表2 手語視頻相似度實(shí)驗(yàn)結(jié)果

    結(jié)果1為0.895 8,也就是說同一手語視頻在不同標(biāo)注者進(jìn)行轉(zhuǎn)寫的情況下,其相似度計(jì)算結(jié)果有一定的可信度;為了保證語料庫的標(biāo)注質(zhì)量,此算法可以用作專家相似度測試。標(biāo)注者A為專家,標(biāo)注者B是一般標(biāo)注者,如果通過標(biāo)注培訓(xùn),標(biāo)注者與專家的標(biāo)注語料相似度達(dá)到相似度閾值,經(jīng)過專家討論研究,此閾值設(shè)為0.85,如果計(jì)算結(jié)果小于閾值,則不能通過專家相似度測試,重新進(jìn)行標(biāo)注培訓(xùn);如果計(jì)算結(jié)果大于閾值,則表明此標(biāo)注者可以進(jìn)行語料庫的標(biāo)注工作,保證了語料庫的標(biāo)注質(zhì)量。

    實(shí)驗(yàn)結(jié)果表明,本文用到的基于向量空間的余弦相似度的計(jì)算方法是可以用于手語視頻中的相似度計(jì)算的,也有非常明顯的效果。

    4 總結(jié)

    本文總結(jié)了國內(nèi)外手語平行語料庫建立、采集內(nèi)容、被采集者選取和采集場景設(shè)置的優(yōu)缺點(diǎn),最終確定了本文建設(shè)的手語漢語平行語料庫的方案;并對ELAN軟件進(jìn)行了詳細(xì)介紹,確定了基于ELAN的語料庫的標(biāo)注方法和標(biāo)準(zhǔn),并對手語語料的預(yù)處理過程進(jìn)行了分析和研究;最后進(jìn)行了基于向量空間的余弦相似性算法的實(shí)驗(yàn)并獲得明顯效果,為手語語料去重提供有力支持,也提高了研究人員管理和檢索手語語料的效率,同時(shí)保證了手語語料庫的質(zhì)量。未來我們會(huì)基于手語漢語平行語料庫對手語的機(jī)器翻譯和各種自然語言知識(shí)進(jìn)行挖掘研究。

    猜你喜歡
    手語語料平行
    手語學(xué)習(xí),只為更懂你
    向量的平行與垂直
    平行
    逃離平行世界
    自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
    活力(2019年15期)2019-09-25 07:23:06
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    奇怪的手語圖
    奇怪的手語圖
    欧美精品国产亚洲| 熟女人妻精品中文字幕| 日韩 亚洲 欧美在线| 国产91av在线免费观看| 亚洲在久久综合| 午夜日本视频在线| 在线免费观看的www视频| 国产黄片视频在线免费观看| 亚洲国产成人一精品久久久| 日韩国内少妇激情av| 久久欧美精品欧美久久欧美| 日韩三级伦理在线观看| 久久午夜福利片| 麻豆乱淫一区二区| 欧美日韩国产亚洲二区| 日日啪夜夜撸| 综合色丁香网| 亚洲av电影不卡..在线观看| 精品少妇黑人巨大在线播放 | 一个人免费在线观看电影| 国产精品美女特级片免费视频播放器| 国产午夜精品一二区理论片| 午夜福利在线在线| 国产高清国产精品国产三级 | 男人舔奶头视频| 高清av免费在线| 国产亚洲精品久久久com| 色尼玛亚洲综合影院| 少妇熟女aⅴ在线视频| 日本五十路高清| 久久久精品94久久精品| 国产亚洲一区二区精品| 国产精品乱码一区二三区的特点| 91av网一区二区| 丰满乱子伦码专区| 韩国av在线不卡| 国产三级在线视频| 18禁在线播放成人免费| 久久精品国产亚洲网站| 小蜜桃在线观看免费完整版高清| 只有这里有精品99| 有码 亚洲区| 男插女下体视频免费在线播放| 尤物成人国产欧美一区二区三区| 最近中文字幕2019免费版| 亚洲美女视频黄频| videossex国产| 欧美成人午夜免费资源| 欧美日韩一区二区视频在线观看视频在线 | 狂野欧美白嫩少妇大欣赏| 日本一本二区三区精品| 日本免费一区二区三区高清不卡| 中文字幕熟女人妻在线| 亚洲欧美精品综合久久99| 两性午夜刺激爽爽歪歪视频在线观看| 日韩精品有码人妻一区| 91精品伊人久久大香线蕉| 中文字幕免费在线视频6| 成人高潮视频无遮挡免费网站| 亚洲欧美精品专区久久| av视频在线观看入口| 国产精品蜜桃在线观看| 国产成人freesex在线| 国产一区二区三区av在线| 久久综合国产亚洲精品| 成年免费大片在线观看| 欧美日本视频| 国产一区二区在线观看日韩| 久久韩国三级中文字幕| 99久久成人亚洲精品观看| 国产精品1区2区在线观看.| 国产伦精品一区二区三区视频9| 一二三四中文在线观看免费高清| 真实男女啪啪啪动态图| 亚洲电影在线观看av| 亚洲av成人av| 建设人人有责人人尽责人人享有的 | 久久热精品热| 亚洲av电影在线观看一区二区三区 | 久久久精品94久久精品| 18禁动态无遮挡网站| 亚洲最大成人中文| 美女国产视频在线观看| 亚洲欧美清纯卡通| 啦啦啦观看免费观看视频高清| 国产免费一级a男人的天堂| 少妇的逼好多水| 国产麻豆成人av免费视频| 看黄色毛片网站| 欧美又色又爽又黄视频| 成人午夜高清在线视频| 天堂影院成人在线观看| 亚洲精品自拍成人| 色播亚洲综合网| 亚洲不卡免费看| 黄色日韩在线| 日日啪夜夜撸| 亚洲成人精品中文字幕电影| 国产色婷婷99| 一级毛片aaaaaa免费看小| 秋霞伦理黄片| 国产精品.久久久| 精品国产一区二区三区久久久樱花 | 国产91av在线免费观看| 亚洲三级黄色毛片| 国产免费男女视频| 久久精品人妻少妇| 国内揄拍国产精品人妻在线| 欧美一区二区亚洲| 女人被狂操c到高潮| 亚洲欧美成人精品一区二区| 一个人看的www免费观看视频| 国产精品国产三级专区第一集| 亚洲18禁久久av| 超碰av人人做人人爽久久| 国内精品宾馆在线| 特大巨黑吊av在线直播| 久久久久久久亚洲中文字幕| 亚洲在线观看片| 亚洲国产精品久久男人天堂| 国产免费又黄又爽又色| 成人综合一区亚洲| 亚洲国产日韩欧美精品在线观看| 国产亚洲精品av在线| 国产黄片美女视频| 色网站视频免费| 九草在线视频观看| 全区人妻精品视频| 波多野结衣高清无吗| 26uuu在线亚洲综合色| 99热网站在线观看| 亚洲成人精品中文字幕电影| 国产真实伦视频高清在线观看| 五月伊人婷婷丁香| 国产一区亚洲一区在线观看| 久久这里只有精品中国| 成人国产麻豆网| a级毛片免费高清观看在线播放| 91在线精品国自产拍蜜月| 精品无人区乱码1区二区| 亚洲在线观看片| 色5月婷婷丁香| 久久久久久九九精品二区国产| 色综合亚洲欧美另类图片| 国产精品精品国产色婷婷| 国产人妻一区二区三区在| videos熟女内射| 白带黄色成豆腐渣| 欧美日韩在线观看h| 中文精品一卡2卡3卡4更新| 卡戴珊不雅视频在线播放| 免费看日本二区| 亚洲av中文字字幕乱码综合| av在线蜜桃| 国产精品国产三级国产av玫瑰| 毛片一级片免费看久久久久| 在线免费观看不下载黄p国产| 欧美潮喷喷水| 欧美又色又爽又黄视频| 亚洲综合精品二区| 伦精品一区二区三区| 亚洲伊人久久精品综合 | 一个人看视频在线观看www免费| 日韩制服骚丝袜av| 国产精品一二三区在线看| 国产精品国产高清国产av| 国产私拍福利视频在线观看| 色视频www国产| 亚洲色图av天堂| 国产精品人妻久久久影院| 麻豆乱淫一区二区| 国语自产精品视频在线第100页| 国产一区亚洲一区在线观看| 国产精品蜜桃在线观看| 22中文网久久字幕| 少妇裸体淫交视频免费看高清| 日本三级黄在线观看| 国内精品美女久久久久久| 我要看日韩黄色一级片| 日本一本二区三区精品| 日韩一本色道免费dvd| 亚洲av熟女| 天堂网av新在线| 蜜臀久久99精品久久宅男| 色播亚洲综合网| 成人综合一区亚洲| 亚洲怡红院男人天堂| 国产精品一区www在线观看| 一个人看视频在线观看www免费| 日韩大片免费观看网站 | 插逼视频在线观看| 搡老妇女老女人老熟妇| 啦啦啦韩国在线观看视频| 日产精品乱码卡一卡2卡三| 国产精品久久久久久av不卡| 国产精品不卡视频一区二区| 搡女人真爽免费视频火全软件| 亚洲国产精品成人久久小说| 黄色日韩在线| 亚洲精品国产成人久久av| 国产久久久一区二区三区| 午夜福利高清视频| 成人无遮挡网站| 日韩欧美在线乱码| 五月玫瑰六月丁香| 亚洲国产精品久久男人天堂| 欧美日本亚洲视频在线播放| 成人av在线播放网站| 欧美激情久久久久久爽电影| 亚洲精品国产成人久久av| 久久久久久久久久久丰满| 91午夜精品亚洲一区二区三区| 久久精品久久精品一区二区三区| 欧美高清成人免费视频www| 99热网站在线观看| 欧美极品一区二区三区四区| 日本免费一区二区三区高清不卡| 最近手机中文字幕大全| 伦理电影大哥的女人| 97在线视频观看| 亚洲国产精品国产精品| 日韩中字成人| 国产亚洲一区二区精品| 日韩一本色道免费dvd| 国产精品久久视频播放| 亚洲无线观看免费| 97在线视频观看| 国产av一区在线观看免费| 2022亚洲国产成人精品| 成人性生交大片免费视频hd| 99视频精品全部免费 在线| 欧美性感艳星| 国产伦精品一区二区三区四那| 亚洲怡红院男人天堂| 国产乱来视频区| 国产av码专区亚洲av| 日本av手机在线免费观看| 啦啦啦韩国在线观看视频| 搡女人真爽免费视频火全软件| 精品无人区乱码1区二区| 美女脱内裤让男人舔精品视频| 免费大片18禁| a级一级毛片免费在线观看| 国产精品久久久久久精品电影| 国产中年淑女户外野战色| 高清午夜精品一区二区三区| 免费搜索国产男女视频| 天天躁夜夜躁狠狠久久av| 亚洲美女视频黄频| 久久久久久九九精品二区国产| 亚洲国产欧美人成| 人妻少妇偷人精品九色| 免费一级毛片在线播放高清视频| 欧美又色又爽又黄视频| 久久精品久久精品一区二区三区| 国产成人a区在线观看| 婷婷色麻豆天堂久久 | 成人美女网站在线观看视频| 男的添女的下面高潮视频| 国产一区亚洲一区在线观看| 成年免费大片在线观看| 白带黄色成豆腐渣| 床上黄色一级片| 99在线视频只有这里精品首页| 久久亚洲国产成人精品v| 99久久精品热视频| 男人的好看免费观看在线视频| 又爽又黄a免费视频| 免费av不卡在线播放| 最新中文字幕久久久久| 69av精品久久久久久| 午夜视频国产福利| 97超视频在线观看视频| 99久久成人亚洲精品观看| 国产一区二区三区av在线| 水蜜桃什么品种好| 中文天堂在线官网| 欧美色视频一区免费| av福利片在线观看| 国产免费视频播放在线视频 | 男女啪啪激烈高潮av片| 美女cb高潮喷水在线观看| 黄色配什么色好看| 在线观看美女被高潮喷水网站| 午夜精品一区二区三区免费看| 少妇被粗大猛烈的视频| 欧美成人精品欧美一级黄| 亚洲精品日韩在线中文字幕| 男人和女人高潮做爰伦理| 国产精品1区2区在线观看.| 天美传媒精品一区二区| 中国美白少妇内射xxxbb| 国产亚洲91精品色在线| 亚洲人成网站高清观看| 七月丁香在线播放| 国产精品永久免费网站| 搡女人真爽免费视频火全软件| 久久精品国产99精品国产亚洲性色| 一区二区三区高清视频在线| 男人和女人高潮做爰伦理| 国产老妇女一区| 97热精品久久久久久| 欧美+日韩+精品| 丰满乱子伦码专区| 亚洲人成网站在线观看播放| 一级毛片电影观看 | 99久久精品热视频| 久久久久久久久久久丰满| 国产一区二区在线观看日韩| 国产精品蜜桃在线观看| eeuss影院久久| 国产乱来视频区| 国产乱人视频| 久99久视频精品免费| 精品熟女少妇av免费看| 欧美成人a在线观看| 亚洲欧美日韩东京热| 日韩强制内射视频| 在线播放无遮挡| 国产黄a三级三级三级人| 99热这里只有是精品50| 国产高清视频在线观看网站| 成人美女网站在线观看视频| 国产亚洲91精品色在线| 99热精品在线国产| 国产亚洲午夜精品一区二区久久 | 亚洲人成网站在线播| 亚洲自拍偷在线| 国产精品国产三级国产专区5o | 成年免费大片在线观看| 亚洲自拍偷在线| 建设人人有责人人尽责人人享有的 | 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美成人a在线观看| 人妻制服诱惑在线中文字幕| 一区二区三区四区激情视频| 成人高潮视频无遮挡免费网站| 免费看美女性在线毛片视频| 搞女人的毛片| 狠狠狠狠99中文字幕| 尾随美女入室| 综合色丁香网| 亚洲欧美成人精品一区二区| 美女xxoo啪啪120秒动态图| 波多野结衣巨乳人妻| 少妇的逼好多水| 中文字幕久久专区| 麻豆国产97在线/欧美| 啦啦啦韩国在线观看视频| 长腿黑丝高跟| 国产在线男女| 我要看日韩黄色一级片| 欧美激情国产日韩精品一区| 岛国在线免费视频观看| 精品酒店卫生间| 日日摸夜夜添夜夜爱| 亚洲欧美日韩东京热| 国产黄片视频在线免费观看| 伦理电影大哥的女人| 一区二区三区四区激情视频| 看十八女毛片水多多多| 丰满少妇做爰视频| 在线a可以看的网站| 毛片一级片免费看久久久久| 亚洲成色77777| 亚洲五月天丁香| 欧美激情久久久久久爽电影| 美女内射精品一级片tv| 夫妻性生交免费视频一级片| 男人的好看免费观看在线视频| 国产熟女欧美一区二区| 亚洲av免费高清在线观看| 亚洲中文字幕一区二区三区有码在线看| 最近手机中文字幕大全| 永久免费av网站大全| 久久久国产成人免费| 男的添女的下面高潮视频| 国产人妻一区二区三区在| 天堂中文最新版在线下载 | 哪个播放器可以免费观看大片| 性插视频无遮挡在线免费观看| 国产日韩欧美在线精品| 亚洲精品成人久久久久久| 久久久久九九精品影院| 成人午夜精彩视频在线观看| 成人特级av手机在线观看| 久久久欧美国产精品| 中文字幕熟女人妻在线| 日本熟妇午夜| 欧美成人一区二区免费高清观看| 国产免费福利视频在线观看| 能在线免费观看的黄片| 日产精品乱码卡一卡2卡三| 99热全是精品| 91av网一区二区| 成人亚洲精品av一区二区| 国产精品av视频在线免费观看| 内地一区二区视频在线| 七月丁香在线播放| 成人一区二区视频在线观看| 听说在线观看完整版免费高清| 中文资源天堂在线| 免费观看性生交大片5| 免费看光身美女| 欧美zozozo另类| 人人妻人人澡人人爽人人夜夜 | 能在线免费观看的黄片| 久久99精品国语久久久| 18禁动态无遮挡网站| 日本色播在线视频| 久久精品国产鲁丝片午夜精品| 免费电影在线观看免费观看| 日韩视频在线欧美| 舔av片在线| 欧美激情国产日韩精品一区| 91精品伊人久久大香线蕉| 精品国产一区二区三区久久久樱花 | 最近最新中文字幕大全电影3| 五月玫瑰六月丁香| 国产成人午夜福利电影在线观看| 搡老妇女老女人老熟妇| 国产高清不卡午夜福利| 一本一本综合久久| 日日啪夜夜撸| 亚洲av不卡在线观看| 精品国产三级普通话版| 国产成人a区在线观看| 成年女人永久免费观看视频| 久久久久免费精品人妻一区二区| 69人妻影院| av天堂中文字幕网| 国产老妇伦熟女老妇高清| 国产三级中文精品| 国产一级毛片在线| 国产成人免费观看mmmm| 99热精品在线国产| 一级毛片久久久久久久久女| 国产精品1区2区在线观看.| 久久国内精品自在自线图片| 亚洲精品自拍成人| 91精品国产九色| 精品一区二区免费观看| 亚洲丝袜综合中文字幕| 午夜亚洲福利在线播放| 91精品伊人久久大香线蕉| 国产免费又黄又爽又色| av在线天堂中文字幕| 色综合色国产| 国产精品嫩草影院av在线观看| 亚洲精品亚洲一区二区| 久久久久久久国产电影| 亚洲自偷自拍三级| 国产精品人妻久久久久久| 综合色丁香网| 99视频精品全部免费 在线| 国产真实乱freesex| 2021天堂中文幕一二区在线观| 成人亚洲精品av一区二区| 国产精品,欧美在线| a级一级毛片免费在线观看| 人妻夜夜爽99麻豆av| 在线免费观看不下载黄p国产| 日本色播在线视频| 丝袜喷水一区| 噜噜噜噜噜久久久久久91| 久久鲁丝午夜福利片| 18禁裸乳无遮挡免费网站照片| ponron亚洲| 超碰97精品在线观看| 国产精品久久久久久精品电影| 免费人成在线观看视频色| 舔av片在线| 三级经典国产精品| 午夜爱爱视频在线播放| 3wmmmm亚洲av在线观看| 精品久久久噜噜| 国产视频首页在线观看| 国产白丝娇喘喷水9色精品| 毛片女人毛片| 久久99蜜桃精品久久| 高清毛片免费看| 天堂√8在线中文| 欧美人与善性xxx| 丰满少妇做爰视频| 波多野结衣高清无吗| 精品99又大又爽又粗少妇毛片| 黑人高潮一二区| 中文资源天堂在线| 午夜老司机福利剧场| 又粗又爽又猛毛片免费看| 99久国产av精品| 在线免费观看的www视频| 日韩视频在线欧美| 高清av免费在线| 亚洲丝袜综合中文字幕| 国产国拍精品亚洲av在线观看| 亚洲在线观看片| 97超视频在线观看视频| 日韩欧美国产在线观看| 最新中文字幕久久久久| 免费看日本二区| 一区二区三区高清视频在线| 精品欧美国产一区二区三| 国内精品美女久久久久久| av国产久精品久网站免费入址| 亚洲,欧美,日韩| 搡老妇女老女人老熟妇| 青春草视频在线免费观看| 天堂√8在线中文| 成人欧美大片| 国产高清国产精品国产三级 | 日日摸夜夜添夜夜添av毛片| 国产高清国产精品国产三级 | 国产毛片a区久久久久| 在线观看美女被高潮喷水网站| 欧美人与善性xxx| 天美传媒精品一区二区| 免费看光身美女| 99国产精品一区二区蜜桃av| 伦理电影大哥的女人| 六月丁香七月| 三级男女做爰猛烈吃奶摸视频| 国产精品久久视频播放| 99视频精品全部免费 在线| 美女cb高潮喷水在线观看| 日本黄大片高清| 水蜜桃什么品种好| 日韩一本色道免费dvd| 少妇熟女欧美另类| 蜜臀久久99精品久久宅男| 成年免费大片在线观看| 国产 一区精品| 中文字幕亚洲精品专区| 国产黄a三级三级三级人| 欧美激情久久久久久爽电影| 午夜爱爱视频在线播放| 免费播放大片免费观看视频在线观看 | 国内精品美女久久久久久| 亚洲精品456在线播放app| 免费不卡的大黄色大毛片视频在线观看 | 亚洲最大成人中文| 国产精品久久久久久精品电影小说 | 久久久久九九精品影院| 插逼视频在线观看| 麻豆成人午夜福利视频| 成人二区视频| 久久精品国产自在天天线| 欧美另类亚洲清纯唯美| 国产精品,欧美在线| 国产高清三级在线| or卡值多少钱| 免费无遮挡裸体视频| 日韩亚洲欧美综合| av播播在线观看一区| 亚洲不卡免费看| 国产一区亚洲一区在线观看| a级一级毛片免费在线观看| 午夜亚洲福利在线播放| 波野结衣二区三区在线| 免费观看的影片在线观看| 伦理电影大哥的女人| 嫩草影院新地址| 黄色一级大片看看| 久久久久九九精品影院| 边亲边吃奶的免费视频| 亚洲一区高清亚洲精品| 五月伊人婷婷丁香| 亚洲图色成人| 亚洲一级一片aⅴ在线观看| 久久这里有精品视频免费| 一级毛片久久久久久久久女| 白带黄色成豆腐渣| 国产老妇伦熟女老妇高清| 国产午夜精品久久久久久一区二区三区| 免费黄网站久久成人精品| 国产成年人精品一区二区| 免费av观看视频| av视频在线观看入口| 亚洲中文字幕一区二区三区有码在线看| 国产乱来视频区| 菩萨蛮人人尽说江南好唐韦庄 | .国产精品久久| 国产精品美女特级片免费视频播放器| 国产三级中文精品| 特大巨黑吊av在线直播| 亚洲精品色激情综合| 91精品一卡2卡3卡4卡| 国产精品久久视频播放| 亚洲精品aⅴ在线观看| 久久精品国产99精品国产亚洲性色| 最近最新中文字幕免费大全7| 久久精品熟女亚洲av麻豆精品 | 亚州av有码| 少妇的逼水好多| 日韩av在线大香蕉| 精品熟女少妇av免费看| 国产精品一二三区在线看| 亚洲国产精品专区欧美| 欧美潮喷喷水| av在线播放精品| 国产一级毛片七仙女欲春2| 色视频www国产| 99热网站在线观看| 久久久欧美国产精品| 色播亚洲综合网| 插逼视频在线观看| 久久久久性生活片| 欧美日本亚洲视频在线播放| 亚洲图色成人| 亚洲国产欧美人成| 国内精品一区二区在线观看| 国产精华一区二区三区| 2021天堂中文幕一二区在线观| 亚洲国产精品国产精品| 九九热线精品视视频播放|