摘要:口譯多模態(tài)語料數(shù)據(jù)庫是指語料由記錄口譯過程的文本、圖片、音頻和視頻等多種文件組成,并能夠通過多模態(tài)方式進(jìn)行加工、檢索和統(tǒng)計(jì)等操作的語料庫。其中,音頻和視頻語料的采集、加工和檢索是語料庫建設(shè)的重點(diǎn)和難點(diǎn)之一。介紹了國內(nèi)外多模態(tài)語料庫建設(shè)和研究的現(xiàn)狀,并針對(duì)音頻和視頻語料數(shù)據(jù)的采集、加工和檢索進(jìn)行初步的探索研究。數(shù)據(jù)加工過程中以滿足內(nèi)容完整性為基本的數(shù)據(jù)分割依據(jù),對(duì)單個(gè)數(shù)據(jù)文件設(shè)置容量上限,并對(duì)單個(gè)數(shù)據(jù)文件進(jìn)行基本信息編碼,為檢索提供條件。
關(guān)鍵詞:多模態(tài)語料庫;音頻數(shù)據(jù)處理;視頻數(shù)據(jù)處理
一、前言
目前,由于技術(shù)手段和硬件設(shè)備的發(fā)展,語料庫的建設(shè)進(jìn)入高速發(fā)展的階段,針對(duì)語料庫的定量研究范式和方法也日臻成熟。大規(guī)模語料庫的使用使語言的使用形式得以窮盡式挖掘和呈現(xiàn)。國內(nèi)外學(xué)界先后建成為數(shù)眾多的翻譯語料庫、平行語料庫和可比語料庫,并以這些語料庫為平臺(tái),開展翻譯共性、翻譯語言特征、譯者風(fēng)格及翻譯教學(xué)等領(lǐng)域的研究。然而,上述領(lǐng)域均以筆譯語料庫為研究平臺(tái),以單一的文字語料作為研究對(duì)象。
口譯語料庫研究可以追溯到1998年,經(jīng)過20多年的研究,總文獻(xiàn)數(shù)超過百篇,主要包括不同類型的口譯語料庫應(yīng)用介紹、建庫機(jī)制研究、基于口譯語料庫的口譯產(chǎn)品研究等。多模態(tài)語料數(shù)據(jù)庫是指由音頻、視頻和文字語料等多種信息集成,研究者可以通過多模態(tài)方式進(jìn)行加工、檢索和統(tǒng)計(jì)等相關(guān)研究的語料庫[1]。多模態(tài)的含義包括用戶調(diào)用多模態(tài)進(jìn)行語料處理(如視覺、聽覺等)以及檢索方式是多模態(tài)(如觸覺、視覺、聽覺等)的。多模態(tài)語料庫具有可實(shí)現(xiàn)語境化、言語活動(dòng)信息豐富、語料可信度高、語料來源容易確認(rèn)等優(yōu)點(diǎn),有助于人們對(duì)語言活動(dòng)本質(zhì)的研究以及對(duì)語言用法的習(xí)得[2]。多模態(tài)語料庫可以最大限度地反映語料產(chǎn)生過程的真實(shí)情景及過程,包括各種語音信息(音高、音色、音長(zhǎng)等)、副語言信息(停頓 、語言拖長(zhǎng)等)、視覺信息以及其他背景聲音畫面。
二、國內(nèi)外口譯多模態(tài)語料庫現(xiàn)狀
口譯研究群體相對(duì)較小。相較于筆譯,口譯具有同步性、在場(chǎng)性和復(fù)語性的特點(diǎn)。與口譯過程直接相關(guān)的現(xiàn)實(shí)因素有機(jī)構(gòu)保密性、獲取途徑、口譯時(shí)長(zhǎng)或周期性等,還有錄音質(zhì)量、語料轉(zhuǎn)寫、非文本信息標(biāo)注等技術(shù)障礙。這些因素在很大程度上制約了口譯語料庫的建設(shè)和開發(fā)。
近年來,國內(nèi)學(xué)者對(duì)自建多模態(tài)語料庫展開了持續(xù)的探索,研究熱點(diǎn)主要集中在口語教學(xué)、寫作教學(xué)、詞匯教學(xué)、句法、語法和語用等方面。如,外語課堂教學(xué)多模態(tài)語料庫MCCT、理工科大學(xué)生英語口語多模態(tài)語料庫構(gòu)建研究、基于多模態(tài)語料庫的大學(xué)英語互動(dòng)式教學(xué)的研究、語料庫輔助英語教學(xué)模式及其應(yīng)用效果評(píng)價(jià)等,這些多模態(tài)語料庫均是為特殊研究目的建設(shè)并且不公開為社會(huì)其他機(jī)構(gòu)使用。由于建庫難度較大,國內(nèi)外建成或在建的口譯語料庫不到10個(gè),目前已建成最大的同傳口譯語料庫是英日同傳語料庫(CIAIR),共計(jì)182小時(shí),轉(zhuǎn)寫文字100萬字。在國際上,現(xiàn)有成熟的語料庫多為單模態(tài)的,例如,COCA(Corpus of Contemporary American English)、SkELL(Sketch Engine for Language Learning)、WebCorp均為文本數(shù)據(jù)語料庫,Santa Barbara Corpus of Spoken American English、Michigan Corpus of Academic Spoken English(MICASE)為音頻數(shù)據(jù)語料庫。少數(shù)涉及多模態(tài),現(xiàn)有將歐洲不同國籍13至18歲青年人的話語訪談進(jìn)行轉(zhuǎn)寫和多模態(tài)標(biāo)注的小型語料庫SACODEYL。意大利博洛尼亞大學(xué)建成的“歐洲議會(huì)口譯語料庫”(簡(jiǎn)稱EPIC),該語料庫涵蓋英語、意大利語和西班牙語三種語言,根據(jù)真實(shí)的歐盟議會(huì)全體會(huì)議的口譯錄音轉(zhuǎn)寫為文字而成,總庫容超過45萬字。EPIC在語料庫設(shè)計(jì)上綜合考慮了語言、副語言和超語言等變量因素,在轉(zhuǎn)寫后的文本中以篇頭信息的方式予以體現(xiàn),方便后續(xù)檢索。為了滿足開展口譯策略和認(rèn)知加工等研究的需要,EPIC還包含音視頻的文本對(duì)齊。通過文獻(xiàn)的梳理,可以發(fā)現(xiàn),前期國內(nèi)的研究暫時(shí)沒有初具規(guī)模的多模態(tài)語料庫成功發(fā)布并投入使用。
三、口譯多模態(tài)語料庫建設(shè)的必要性
口譯是一種集視、聽、說、寫、讀多種能力的綜合性語言操作活動(dòng)。視指譯員須具有觀察捕捉說話者的臉部表情、手勢(shì)體姿、情緒變化等非語言因素的能力。聽是指譯員會(huì)譯說話者帶各種地方口音和語速的話語的能力。說是指譯員的母語表達(dá)能力和外語表達(dá)能力。寫是指譯員在口譯時(shí)的雙語速記能力。讀是指譯員在視譯時(shí)的閱讀理解能力??谧g技術(shù)是在口譯實(shí)踐、口譯培訓(xùn)中使用的綜合技術(shù),包括對(duì)口譯過程(編碼、輸出、傳遞、輸入、解碼、貯存)進(jìn)行輔助及處理的技術(shù)。每次口譯的跨越式增長(zhǎng)都與口譯技術(shù)進(jìn)步息息相關(guān)。語料庫技術(shù)為口譯技術(shù)的一種,口譯員利用語料庫技術(shù)可以在短時(shí)間內(nèi)熟悉并掌握某領(lǐng)域的專業(yè)術(shù)語、專業(yè)知識(shí)和背景信息。據(jù)調(diào)查統(tǒng)計(jì),受訪口譯者中有45.1%使用在線語料庫,32.2%使用專業(yè)數(shù)據(jù)庫,并且比例呈逐年增長(zhǎng)的趨勢(shì)。傳統(tǒng)的文字語料庫以及由口譯錄音轉(zhuǎn)寫成文字的口譯語料庫無法提供語音信息、副語言信息、視覺信息等,無法真實(shí)地反映口譯過程的全貌[3]。因此傳統(tǒng)的文字語料庫以及由口譯錄音轉(zhuǎn)寫成文字的口譯語料庫無法完全滿足口譯學(xué)習(xí)和研究的需要[4]。而口譯多模態(tài)語料能夠更整體和客觀地呈現(xiàn)口譯的整個(gè)過程。多模態(tài)語料庫存儲(chǔ)的語料數(shù)據(jù)類型豐富,本文從音頻和視頻語料數(shù)據(jù)入手,探討數(shù)據(jù)的采集加工和檢索。
四、音頻語料數(shù)據(jù)的采集、加工
由于是初次進(jìn)行多模態(tài)語料庫的建設(shè),本研究將語料范圍確定在十二屆全國人大第一、二、三、四、五次會(huì)議記者會(huì)和十三屆全國人大第一、二、三、四次會(huì)議記者會(huì),主要利用網(wǎng)絡(luò)上官方發(fā)布的音視頻來進(jìn)行處理。為了確保讀入的音頻數(shù)據(jù)格式統(tǒng)一,對(duì)不同格式保存的音頻數(shù)據(jù)都會(huì)統(tǒng)一轉(zhuǎn)化為WMA音頻格式,選擇WMA格式的原因是WMA格式能以減少數(shù)據(jù)流量但保持音質(zhì)的方式來實(shí)現(xiàn)更高的壓縮率,壓縮率一般能達(dá)到18:1,并且支持音頻流技術(shù),適合在網(wǎng)絡(luò)上在線播放。為保證音頻內(nèi)容的完整性和數(shù)據(jù)量的平衡性,要求每段音頻長(zhǎng)度介于2秒—30秒之間,首次采集的原始音頻需要經(jīng)過分割來達(dá)到樣本大小基本一致的標(biāo)準(zhǔn)。較長(zhǎng)的原始音頻數(shù)據(jù)被切割成合適大小的多個(gè)可存儲(chǔ)的音頻樣本,每個(gè)樣本都應(yīng)能夠按照分類標(biāo)準(zhǔn)進(jìn)行歸類。經(jīng)過分割后,樣本數(shù)據(jù)文件數(shù)量會(huì)大幅增加,因此為降低系統(tǒng)檢索樣本的難度,樣本本身一定要被嚴(yán)格歸類。音頻樣本庫中,除了音頻本身,還包含用于標(biāo)識(shí)音頻樣本歸類信息的文件,文件的內(nèi)容可以根據(jù)研究的需要設(shè)置為音頻類別、聲音發(fā)起者、聲音高低、聲音語義等特征信息。由于csv文件的廣泛應(yīng)用是在程序之間轉(zhuǎn)移表格數(shù)據(jù),為了減少數(shù)據(jù)冗余,增強(qiáng)數(shù)據(jù)的兼容性,消除數(shù)據(jù)的修改異常、入庫異常和讀取異常,將音頻數(shù)據(jù)樣本相關(guān)信息統(tǒng)一放入csv文件,以行為單位,每行包含一個(gè)樣本的相關(guān)信息。
樣本特征信息中編碼的設(shè)計(jì)還需要根據(jù)研究進(jìn)一步細(xì)化,這里簡(jiǎn)單舉幾個(gè)例子。如,1.原始文件名:使用字符作為ID表示,能夠唯一標(biāo)識(shí)一個(gè)樣本,不能為空,可以以字母A-Z的順序依次命名,也可以字母輔以數(shù)字的形式。根據(jù)預(yù)先設(shè)計(jì)語料庫大小給出ID的位數(shù),并標(biāo)明WMA文件類型。2.聲音類別:使用字符作為ID表示,每種類別應(yīng)具有唯一ID,針對(duì)語音可以使用語音識(shí)別文本關(guān)鍵詞進(jìn)行歸類,如新聞?dòng)肗EWS。3.切割后文件名:[原始文件ID]-[聲音類別ID]-[聲音片段起始時(shí)間標(biāo)識(shí)]。其中聲音片段序號(hào)使用時(shí)間型數(shù)據(jù)作為ID表示,從分割的起點(diǎn)時(shí)間開始至分割結(jié)束時(shí)間。來自不同原始文件的切割文件聲音片段序號(hào)互不相關(guān),都重新計(jì)數(shù)。4.存放文件夾名:使用字符型數(shù)據(jù)作為ID表示,以文件的主要內(nèi)容形成關(guān)鍵字來命名。5.關(guān)鍵語義信息:使用字符型數(shù)據(jù)作為ID表示,內(nèi)容可以是音頻對(duì)應(yīng)的完整語義。
利用語音識(shí)別技術(shù)把語音轉(zhuǎn)化為文本,進(jìn)而可以利用文本檢索的方法進(jìn)行檢索。盡管由于語音來源者發(fā)音等客觀因素導(dǎo)致識(shí)別率不高,進(jìn)行初次識(shí)別仍然能為信息檢索提供必要的語音特征,因?yàn)闄z索過程只是匹配包含在音頻數(shù)據(jù)中的某個(gè)查詢?cè)~句,而不是大篇幅的整體文章。對(duì)語音進(jìn)行人工審核和修正也是必要的[5]。
五、視頻語料數(shù)據(jù)的采集、加工
與音頻語料一樣,視頻語料對(duì)數(shù)據(jù)存儲(chǔ)的方式方法也有統(tǒng)一的要求,不同格式的視頻數(shù)據(jù)處理也會(huì)不同,因此需要統(tǒng)一將所有視頻轉(zhuǎn)換成 WMV格式進(jìn)行存儲(chǔ),也同樣需要對(duì)視頻數(shù)據(jù)文件進(jìn)行切割。將原視頻分成5到10分鐘不等的視頻片段,并對(duì)拆分的視頻片段進(jìn)行信息標(biāo)注,形成相應(yīng)的csv文件。
樣本信息的編碼可以按如下方法:1.原始文件名:使用字符作為ID表示,能夠唯一標(biāo)識(shí)一個(gè)樣本,不能為空,可以以字母A-Z的順序依次命名,也可以字母輔以數(shù)字的形式。根據(jù)預(yù)先設(shè)計(jì)語料庫大小給出ID的位數(shù)。并標(biāo)明WMV文件類型。2.視頻類別:使用字符作為ID表示,每種類別應(yīng)具有唯一ID,針對(duì)視頻可以使用視頻元數(shù)據(jù)進(jìn)行歸類。3.切割后文件名:[原始文件ID]-[視頻類別ID]-[視頻片段起始時(shí)間標(biāo)識(shí)]。其中視頻片段序號(hào)使用時(shí)間型數(shù)據(jù)作為ID表示,從分割的起點(diǎn)時(shí)間開始至分割結(jié)束時(shí)間。來自不同原始文件的切割文件視頻片段序號(hào)互不相關(guān),都重新計(jì)數(shù)。4.存放文件夾名:使用字符型數(shù)據(jù)作為ID表示,以視頻文件的主要內(nèi)容形成關(guān)鍵字來命名。5.關(guān)鍵場(chǎng)景及語義信息:使用字符型數(shù)據(jù)作為ID表示,內(nèi)容可以是場(chǎng)景的文字描述或是視頻語音對(duì)應(yīng)的完整語義。
視頻中的信息非常豐富。一個(gè)完整的視頻可以包括標(biāo)題(文本)、聲道(語音和非語音的)以及以固定速率連續(xù)錄制或播放的圖像。所以把視頻當(dāng)成是文本、音頻和具有時(shí)間維的圖像結(jié)合來考慮。除此之外,一些元數(shù)據(jù),如視頻標(biāo)題和作者、制作者、導(dǎo)演等都與視頻有關(guān),因此在視頻索引和檢索中應(yīng)使用下面的方法。1.基于元數(shù)據(jù)的方法:視頻是使用傳統(tǒng)的DBMS并根據(jù)結(jié)構(gòu)化的元數(shù)據(jù)進(jìn)行索引和檢索的。常見的元數(shù)據(jù)有視頻標(biāo)題、作者、制作者、導(dǎo)演、生產(chǎn)日期和視頻類型。2.基于文本的方法:基于相關(guān)的副標(biāo)題可對(duì)視頻進(jìn)行索引和檢索。副本和副標(biāo)題通常已存在于新聞節(jié)目和電影等多種類型的視頻中,不需要進(jìn)行人工注釋。為了把文本與相關(guān)的幀聯(lián)系起來應(yīng)包括時(shí)間信息。3.基于音頻的方法:可以采用本文中關(guān)于音頻檢索的方法。對(duì)視頻聲道中語音部分使用語音識(shí)別可獲得發(fā)聲詞匯,然后基于這些發(fā)聲詞匯對(duì)視頻進(jìn)行索引和檢索。另外,為了把聲音與幀聯(lián)系起來也應(yīng)包含時(shí)間信息。
在進(jìn)行視頻分割的預(yù)處理時(shí)可以用到軟件ELAN。ELAN是一款多媒體轉(zhuǎn)寫標(biāo)注軟件,能實(shí)現(xiàn)對(duì)視頻文件的多層級(jí)同步標(biāo)注,可支持導(dǎo)入和輸出多種文件格式,其中就包括csv格式。ELAN內(nèi)嵌hyperSql數(shù)據(jù)庫引擎,理論上最高支持達(dá)64T的數(shù)據(jù)量。
六、音視頻語料數(shù)據(jù)的檢索模型
現(xiàn)階段,音視頻數(shù)據(jù)呈現(xiàn)多樣化和異構(gòu)化的特點(diǎn),但基于口譯多模態(tài)語料庫的音視頻數(shù)據(jù)更多地關(guān)注音視頻數(shù)據(jù)體現(xiàn)在口譯方面的價(jià)值,因此口譯多模態(tài)語料庫的音視頻數(shù)據(jù)檢索技術(shù)主要采用基于文本的檢索。音頻和視頻源數(shù)據(jù)在預(yù)處理過程中,通過特征提取和語義標(biāo)注進(jìn)行結(jié)構(gòu)化處理和索引,為后期檢索服務(wù)提供支持。
基于文本的音視頻數(shù)據(jù)檢索使用傳統(tǒng)數(shù)據(jù)庫來管理音視頻數(shù)據(jù)。首先對(duì)音視頻數(shù)據(jù)進(jìn)行人工分析,抽象出一些能夠反映其物理屬性和內(nèi)容屬性的文本信息。然后,人工分析將這些文本信息按照語音分類,或者提取關(guān)鍵詞進(jìn)行標(biāo)記。最終,音視頻數(shù)據(jù)的檢索將轉(zhuǎn)變?yōu)槲谋拘畔⒌臋z索。實(shí)際上,音視頻數(shù)據(jù)本身并沒有被放入數(shù)據(jù)庫,而是將包含音視頻數(shù)據(jù)特征的文本放入數(shù)據(jù)庫,然后結(jié)合文件管理系統(tǒng)、傳統(tǒng)數(shù)據(jù)庫管理,將傳統(tǒng)數(shù)據(jù)與常規(guī)數(shù)據(jù)庫管理相結(jié)合,并根據(jù)相應(yīng)操作系統(tǒng)的要求處理音視頻數(shù)據(jù),如圖1所示。
七、大數(shù)據(jù)時(shí)代多模態(tài)語料庫建設(shè)挑戰(zhàn)及技術(shù)趨勢(shì)
現(xiàn)代社會(huì),語料采集設(shè)備小型化、數(shù)字化、智能化、普及化,存儲(chǔ)設(shè)備廉價(jià)化,生產(chǎn)方式大眾化,以往生產(chǎn)局限于電視臺(tái)、廣播電臺(tái)、專業(yè)機(jī)構(gòu)等,現(xiàn)在“人人皆主播”多媒體數(shù)據(jù)處理技術(shù)的先進(jìn)化,如視頻壓縮格式經(jīng)歷了MJPEG、MPEG-4、H.264/AVS、H.265、MPEG-5,在保證視頻質(zhì)量的前提下,平均比特率降低,解碼時(shí)間減少。各種因素和社會(huì)需求使得可用多模態(tài)語料數(shù)據(jù)飛速增長(zhǎng),同時(shí)多模態(tài)語料庫仍舊面臨著“存不下”“搜不準(zhǔn)”“查不快”“傳不動(dòng)”的挑戰(zhàn)。
多模態(tài)語料庫數(shù)據(jù)為多媒體數(shù)據(jù),多媒體數(shù)據(jù)的高密度特性決定了其數(shù)據(jù)量極大,即使當(dāng)前存儲(chǔ)設(shè)備成本已較低,但仍存在不能完全保存數(shù)據(jù)的困擾,即“存不下”?,F(xiàn)階段,為了解決這一方面的難題,產(chǎn)生了分級(jí)存儲(chǔ)技術(shù),即根據(jù)數(shù)據(jù)的重要性、創(chuàng)建時(shí)間、訪問頻率、最后的訪問時(shí)間等對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分層,較重要、創(chuàng)建時(shí)間較近、訪問頻率較高、最后訪問時(shí)間較近的數(shù)據(jù)為熱數(shù)據(jù),反之為冷數(shù)據(jù),將熱數(shù)據(jù)放在閃存中,冷數(shù)據(jù)放在大容量、低成本的磁盤中,以可接受范圍內(nèi)的性能損失換取冷數(shù)據(jù)存儲(chǔ)成本的降低。
現(xiàn)有的多媒體神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展日新月異,但從文字到圖像、從語義到聽覺視覺特征的理解鴻溝依然存在,此為“搜不準(zhǔn)”。在基于文本的檢索和基于內(nèi)容的檢索兩者中。多媒體數(shù)據(jù)信息密度大的特性決定了用戶需要更多的是基于內(nèi)容的檢索,不論是哪種檢索都需要進(jìn)行特征提取,深度人工神經(jīng)網(wǎng)絡(luò)模型的特征提取在各個(gè)多媒體應(yīng)用中逐漸占據(jù)統(tǒng)治地位,它通過增加模型的深度,提高網(wǎng)絡(luò)對(duì)于非線性問題的學(xué)習(xí)能力。
多媒體數(shù)據(jù)為高信息密度數(shù)據(jù),一般情況下存儲(chǔ)的維度極高,難于索引,多媒體數(shù)據(jù)的多模態(tài)形式使得同一事物會(huì)有多種不同模態(tài)數(shù)據(jù)的描述。這些數(shù)據(jù)雖然在形式上“異構(gòu)多源”,語義上卻是相互關(guān)聯(lián)的。如何提高對(duì)描述同一事物的各種模態(tài)數(shù)據(jù)的查詢檢索效果和效率,或者是如何提高通過其中一種模態(tài)數(shù)據(jù)來查詢檢索相關(guān)聯(lián)的其他不同模態(tài)的補(bǔ)充數(shù)據(jù)的效果和效率,即解決“查不快”的問題。現(xiàn)階段,通過區(qū)分不同檢索目的來平衡檢索速度和檢索精準(zhǔn)度,從而在有限犧牲檢索精準(zhǔn)度的條件下提高檢索速度。
最后,多媒體壓縮技術(shù)的發(fā)展遠(yuǎn)遠(yuǎn)慢于多媒體數(shù)據(jù)增長(zhǎng)的速度,如何高效、高速傳輸多媒體數(shù)據(jù)是亟待解決的“傳不動(dòng)”難題?,F(xiàn)階段,使用內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)來解決這一方面的難題,傳輸內(nèi)容從根服務(wù)器緩存到不同地區(qū)的緩存服務(wù)器,用算法尋找最優(yōu)訪問鏈路,實(shí)現(xiàn)就近訪問原則,協(xié)調(diào)負(fù)載均衡充分利用各地的帶寬和服務(wù)器資源,避免單節(jié)點(diǎn)成為瓶頸,同時(shí)設(shè)置故障屏蔽機(jī)制,通過多級(jí)緩存來提升并發(fā)性能。
八、結(jié)語
口譯多模態(tài)語料庫是重要的口譯技術(shù),也是計(jì)算機(jī)輔助翻譯的一個(gè)有效手段,與傳統(tǒng)的文本語料庫相比,能更完整地反映口譯活動(dòng)的原過程,但建設(shè)的難度也是不言而喻的。本文通過對(duì)口譯多模態(tài)語料庫中兩種模態(tài)數(shù)據(jù)即音頻和視頻數(shù)據(jù)處理的探討給出多模態(tài)語料庫數(shù)據(jù)處理的一種方案,但依然需要進(jìn)行大量的人工處理和校對(duì)。在將來口譯多模態(tài)語料庫建設(shè)的過程中,多模態(tài)語料庫的人工智能多模態(tài)檢索仍將是值得研究的重要問題。
參考文獻(xiàn)
[1]顧曰國.多媒體、多模態(tài)學(xué)習(xí)剖析[J].外語電化教學(xué),2007(02):3-12.
[2]周忠良.輸入模態(tài)與練習(xí)頻次對(duì)口譯質(zhì)量的影響——一項(xiàng)基于認(rèn)知負(fù)荷理論的研究[J].語言教育,2020(01):8-14.
[3]付光輝.英語多模態(tài)網(wǎng)絡(luò)課堂自主學(xué)習(xí)與多模態(tài)教學(xué)模式研究——評(píng)《基于多模態(tài)語料庫的語力研究:多模態(tài)語用學(xué)新探索》[J].外語電化教學(xué),2020(04):118.
[4]張威.中國口譯學(xué)習(xí)者語料庫建設(shè)與研究:理論與實(shí)踐的若干思考[J].中國翻譯,2017,38(01):53-60.
[5]李曉靖,林娜.數(shù)據(jù)庫中多媒體數(shù)據(jù)處理的方法研究[J].科技傳播,2014,6(06):215+218.
作者單位:江漢大學(xué)外國語學(xué)院語言實(shí)驗(yàn)中心
■ 責(zé)任編輯:尚丹