高亢
摘要:口譯多模態(tài)語料數(shù)據(jù)庫是指語料由記錄口譯過程的文本、圖片、音頻和視頻等多種文件組成,并能夠通過多模態(tài)方式進行加工、檢索和統(tǒng)計等操作的語料庫。其中,音頻和視頻語料的采集、加工和檢索是語料庫建設的重點和難點之一。介紹了國內(nèi)外多模態(tài)語料庫建設和研究的現(xiàn)狀,并針對音頻和視頻語料數(shù)據(jù)的采集、加工和檢索進行初步的探索研究。數(shù)據(jù)加工過程中以滿足內(nèi)容完整性為基本的數(shù)據(jù)分割依據(jù),對單個數(shù)據(jù)文件設置容量上限,并對單個數(shù)據(jù)文件進行基本信息編碼,為檢索提供條件。
關鍵詞:多模態(tài)語料庫;音頻數(shù)據(jù)處理;視頻數(shù)據(jù)處理
一、前言
目前,由于技術手段和硬件設備的發(fā)展,語料庫的建設進入高速發(fā)展的階段,針對語料庫的定量研究范式和方法也日臻成熟。大規(guī)模語料庫的使用使語言的使用形式得以窮盡式挖掘和呈現(xiàn)。國內(nèi)外學界先后建成為數(shù)眾多的翻譯語料庫、平行語料庫和可比語料庫,并以這些語料庫為平臺,開展翻譯共性、翻譯語言特征、譯者風格及翻譯教學等領域的研究。然而,上述領域均以筆譯語料庫為研究平臺,以單一的文字語料作為研究對象。
口譯語料庫研究可以追溯到1998年,經(jīng)過20多年的研究,總文獻數(shù)超過百篇,主要包括不同類型的口譯語料庫應用介紹、建庫機制研究、基于口譯語料庫的口譯產(chǎn)品研究等。多模態(tài)語料數(shù)據(jù)庫是指由音頻、視頻和文字語料等多種信息集成,研究者可以通過多模態(tài)方式進行加工、檢索和統(tǒng)計等相關研究的語料庫[1]。多模態(tài)的含義包括用戶調(diào)用多模態(tài)進行語料處理(如視覺、聽覺等)以及檢索方式是多模態(tài)(如觸覺、視覺、聽覺等)的。多模態(tài)語料庫具有可實現(xiàn)語境化、言語活動信息豐富、語料可信度高、語料來源容易確認等優(yōu)點,有助于人們對語言活動本質(zhì)的研究以及對語言用法的習得[2]。多模態(tài)語料庫可以最大限度地反映語料產(chǎn)生過程的真實情景及過程,包括各種語音信息(音高、音色、音長等)、副語言信息(停頓 、語言拖長等)、視覺信息以及其他背景聲音畫面。
二、國內(nèi)外口譯多模態(tài)語料庫現(xiàn)狀
口譯研究群體相對較小。相較于筆譯,口譯具有同步性、在場性和復語性的特點。與口譯過程直接相關的現(xiàn)實因素有機構(gòu)保密性、獲取途徑、口譯時長或周期性等,還有錄音質(zhì)量、語料轉(zhuǎn)寫、非文本信息標注等技術障礙。這些因素在很大程度上制約了口譯語料庫的建設和開發(fā)。
近年來,國內(nèi)學者對自建多模態(tài)語料庫展開了持續(xù)的探索,研究熱點主要集中在口語教學、寫作教學、詞匯教學、句法、語法和語用等方面。如,外語課堂教學多模態(tài)語料庫MCCT、理工科大學生英語口語多模態(tài)語料庫構(gòu)建研究、基于多模態(tài)語料庫的大學英語互動式教學的研究、語料庫輔助英語教學模式及其應用效果評價等,這些多模態(tài)語料庫均是為特殊研究目的建設并且不公開為社會其他機構(gòu)使用。由于建庫難度較大,國內(nèi)外建成或在建的口譯語料庫不到10個,目前已建成最大的同傳口譯語料庫是英日同傳語料庫(CIAIR),共計182小時,轉(zhuǎn)寫文字100萬字。在國際上,現(xiàn)有成熟的語料庫多為單模態(tài)的,例如,COCA(Corpus of Contemporary American English)、SkELL(Sketch Engine for Language Learning)、WebCorp均為文本數(shù)據(jù)語料庫,Santa Barbara Corpus of Spoken American English、Michigan Corpus of Academic Spoken English(MICASE)為音頻數(shù)據(jù)語料庫。少數(shù)涉及多模態(tài),現(xiàn)有將歐洲不同國籍13至18歲青年人的話語訪談進行轉(zhuǎn)寫和多模態(tài)標注的小型語料庫SACODEYL。意大利博洛尼亞大學建成的“歐洲議會口譯語料庫”(簡稱EPIC),該語料庫涵蓋英語、意大利語和西班牙語三種語言,根據(jù)真實的歐盟議會全體會議的口譯錄音轉(zhuǎn)寫為文字而成,總庫容超過45萬字。EPIC在語料庫設計上綜合考慮了語言、副語言和超語言等變量因素,在轉(zhuǎn)寫后的文本中以篇頭信息的方式予以體現(xiàn),方便后續(xù)檢索。為了滿足開展口譯策略和認知加工等研究的需要,EPIC還包含音視頻的文本對齊。通過文獻的梳理,可以發(fā)現(xiàn),前期國內(nèi)的研究暫時沒有初具規(guī)模的多模態(tài)語料庫成功發(fā)布并投入使用。
三、口譯多模態(tài)語料庫建設的必要性
口譯是一種集視、聽、說、寫、讀多種能力的綜合性語言操作活動。視指譯員須具有觀察捕捉說話者的臉部表情、手勢體姿、情緒變化等非語言因素的能力。聽是指譯員會譯說話者帶各種地方口音和語速的話語的能力。說是指譯員的母語表達能力和外語表達能力。寫是指譯員在口譯時的雙語速記能力。讀是指譯員在視譯時的閱讀理解能力??谧g技術是在口譯實踐、口譯培訓中使用的綜合技術,包括對口譯過程(編碼、輸出、傳遞、輸入、解碼、貯存)進行輔助及處理的技術。每次口譯的跨越式增長都與口譯技術進步息息相關。語料庫技術為口譯技術的一種,口譯員利用語料庫技術可以在短時間內(nèi)熟悉并掌握某領域的專業(yè)術語、專業(yè)知識和背景信息。據(jù)調(diào)查統(tǒng)計,受訪口譯者中有45.1%使用在線語料庫,32.2%使用專業(yè)數(shù)據(jù)庫,并且比例呈逐年增長的趨勢。傳統(tǒng)的文字語料庫以及由口譯錄音轉(zhuǎn)寫成文字的口譯語料庫無法提供語音信息、副語言信息、視覺信息等,無法真實地反映口譯過程的全貌[3]。因此傳統(tǒng)的文字語料庫以及由口譯錄音轉(zhuǎn)寫成文字的口譯語料庫無法完全滿足口譯學習和研究的需要[4]。而口譯多模態(tài)語料能夠更整體和客觀地呈現(xiàn)口譯的整個過程。多模態(tài)語料庫存儲的語料數(shù)據(jù)類型豐富,本文從音頻和視頻語料數(shù)據(jù)入手,探討數(shù)據(jù)的采集加工和檢索。
四、音頻語料數(shù)據(jù)的采集、加工
由于是初次進行多模態(tài)語料庫的建設,本研究將語料范圍確定在十二屆全國人大第一、二、三、四、五次會議記者會和十三屆全國人大第一、二、三、四次會議記者會,主要利用網(wǎng)絡上官方發(fā)布的音視頻來進行處理。為了確保讀入的音頻數(shù)據(jù)格式統(tǒng)一,對不同格式保存的音頻數(shù)據(jù)都會統(tǒng)一轉(zhuǎn)化為WMA音頻格式,選擇WMA格式的原因是WMA格式能以減少數(shù)據(jù)流量但保持音質(zhì)的方式來實現(xiàn)更高的壓縮率,壓縮率一般能達到18:1,并且支持音頻流技術,適合在網(wǎng)絡上在線播放。為保證音頻內(nèi)容的完整性和數(shù)據(jù)量的平衡性,要求每段音頻長度介于2秒—30秒之間,首次采集的原始音頻需要經(jīng)過分割來達到樣本大小基本一致的標準。較長的原始音頻數(shù)據(jù)被切割成合適大小的多個可存儲的音頻樣本,每個樣本都應能夠按照分類標準進行歸類。經(jīng)過分割后,樣本數(shù)據(jù)文件數(shù)量會大幅增加,因此為降低系統(tǒng)檢索樣本的難度,樣本本身一定要被嚴格歸類。音頻樣本庫中,除了音頻本身,還包含用于標識音頻樣本歸類信息的文件,文件的內(nèi)容可以根據(jù)研究的需要設置為音頻類別、聲音發(fā)起者、聲音高低、聲音語義等特征信息。由于csv文件的廣泛應用是在程序之間轉(zhuǎn)移表格數(shù)據(jù),為了減少數(shù)據(jù)冗余,增強數(shù)據(jù)的兼容性,消除數(shù)據(jù)的修改異常、入庫異常和讀取異常,將音頻數(shù)據(jù)樣本相關信息統(tǒng)一放入csv文件,以行為單位,每行包含一個樣本的相關信息。
樣本特征信息中編碼的設計還需要根據(jù)研究進一步細化,這里簡單舉幾個例子。如,1.原始文件名:使用字符作為ID表示,能夠唯一標識一個樣本,不能為空,可以以字母A-Z的順序依次命名,也可以字母輔以數(shù)字的形式。根據(jù)預先設計語料庫大小給出ID的位數(shù),并標明WMA文件類型。2.聲音類別:使用字符作為ID表示,每種類別應具有唯一ID,針對語音可以使用語音識別文本關鍵詞進行歸類,如新聞用NEWS。3.切割后文件名:[原始文件ID]-[聲音類別ID]-[聲音片段起始時間標識]。其中聲音片段序號使用時間型數(shù)據(jù)作為ID表示,從分割的起點時間開始至分割結(jié)束時間。來自不同原始文件的切割文件聲音片段序號互不相關,都重新計數(shù)。4.存放文件夾名:使用字符型數(shù)據(jù)作為ID表示,以文件的主要內(nèi)容形成關鍵字來命名。5.關鍵語義信息:使用字符型數(shù)據(jù)作為ID表示,內(nèi)容可以是音頻對應的完整語義。
利用語音識別技術把語音轉(zhuǎn)化為文本,進而可以利用文本檢索的方法進行檢索。盡管由于語音來源者發(fā)音等客觀因素導致識別率不高,進行初次識別仍然能為信息檢索提供必要的語音特征,因為檢索過程只是匹配包含在音頻數(shù)據(jù)中的某個查詢詞句,而不是大篇幅的整體文章。對語音進行人工審核和修正也是必要的[5]。
五、視頻語料數(shù)據(jù)的采集、加工
與音頻語料一樣,視頻語料對數(shù)據(jù)存儲的方式方法也有統(tǒng)一的要求,不同格式的視頻數(shù)據(jù)處理也會不同,因此需要統(tǒng)一將所有視頻轉(zhuǎn)換成 WMV格式進行存儲,也同樣需要對視頻數(shù)據(jù)文件進行切割。將原視頻分成5到10分鐘不等的視頻片段,并對拆分的視頻片段進行信息標注,形成相應的csv文件。
樣本信息的編碼可以按如下方法:1.原始文件名:使用字符作為ID表示,能夠唯一標識一個樣本,不能為空,可以以字母A-Z的順序依次命名,也可以字母輔以數(shù)字的形式。根據(jù)預先設計語料庫大小給出ID的位數(shù)。并標明WMV文件類型。2.視頻類別:使用字符作為ID表示,每種類別應具有唯一ID,針對視頻可以使用視頻元數(shù)據(jù)進行歸類。3.切割后文件名:[原始文件ID]-[視頻類別ID]-[視頻片段起始時間標識]。其中視頻片段序號使用時間型數(shù)據(jù)作為ID表示,從分割的起點時間開始至分割結(jié)束時間。來自不同原始文件的切割文件視頻片段序號互不相關,都重新計數(shù)。4.存放文件夾名:使用字符型數(shù)據(jù)作為ID表示,以視頻文件的主要內(nèi)容形成關鍵字來命名。5.關鍵場景及語義信息:使用字符型數(shù)據(jù)作為ID表示,內(nèi)容可以是場景的文字描述或是視頻語音對應的完整語義。
視頻中的信息非常豐富。一個完整的視頻可以包括標題(文本)、聲道(語音和非語音的)以及以固定速率連續(xù)錄制或播放的圖像。所以把視頻當成是文本、音頻和具有時間維的圖像結(jié)合來考慮。除此之外,一些元數(shù)據(jù),如視頻標題和作者、制作者、導演等都與視頻有關,因此在視頻索引和檢索中應使用下面的方法。1.基于元數(shù)據(jù)的方法:視頻是使用傳統(tǒng)的DBMS并根據(jù)結(jié)構(gòu)化的元數(shù)據(jù)進行索引和檢索的。常見的元數(shù)據(jù)有視頻標題、作者、制作者、導演、生產(chǎn)日期和視頻類型。2.基于文本的方法:基于相關的副標題可對視頻進行索引和檢索。副本和副標題通常已存在于新聞節(jié)目和電影等多種類型的視頻中,不需要進行人工注釋。為了把文本與相關的幀聯(lián)系起來應包括時間信息。3.基于音頻的方法:可以采用本文中關于音頻檢索的方法。對視頻聲道中語音部分使用語音識別可獲得發(fā)聲詞匯,然后基于這些發(fā)聲詞匯對視頻進行索引和檢索。另外,為了把聲音與幀聯(lián)系起來也應包含時間信息。
在進行視頻分割的預處理時可以用到軟件ELAN。ELAN是一款多媒體轉(zhuǎn)寫標注軟件,能實現(xiàn)對視頻文件的多層級同步標注,可支持導入和輸出多種文件格式,其中就包括csv格式。ELAN內(nèi)嵌hyperSql數(shù)據(jù)庫引擎,理論上最高支持達64T的數(shù)據(jù)量。
六、音視頻語料數(shù)據(jù)的檢索模型
現(xiàn)階段,音視頻數(shù)據(jù)呈現(xiàn)多樣化和異構(gòu)化的特點,但基于口譯多模態(tài)語料庫的音視頻數(shù)據(jù)更多地關注音視頻數(shù)據(jù)體現(xiàn)在口譯方面的價值,因此口譯多模態(tài)語料庫的音視頻數(shù)據(jù)檢索技術主要采用基于文本的檢索。音頻和視頻源數(shù)據(jù)在預處理過程中,通過特征提取和語義標注進行結(jié)構(gòu)化處理和索引,為后期檢索服務提供支持。
基于文本的音視頻數(shù)據(jù)檢索使用傳統(tǒng)數(shù)據(jù)庫來管理音視頻數(shù)據(jù)。首先對音視頻數(shù)據(jù)進行人工分析,抽象出一些能夠反映其物理屬性和內(nèi)容屬性的文本信息。然后,人工分析將這些文本信息按照語音分類,或者提取關鍵詞進行標記。最終,音視頻數(shù)據(jù)的檢索將轉(zhuǎn)變?yōu)槲谋拘畔⒌臋z索。實際上,音視頻數(shù)據(jù)本身并沒有被放入數(shù)據(jù)庫,而是將包含音視頻數(shù)據(jù)特征的文本放入數(shù)據(jù)庫,然后結(jié)合文件管理系統(tǒng)、傳統(tǒng)數(shù)據(jù)庫管理,將傳統(tǒng)數(shù)據(jù)與常規(guī)數(shù)據(jù)庫管理相結(jié)合,并根據(jù)相應操作系統(tǒng)的要求處理音視頻數(shù)據(jù),如圖1所示。
七、大數(shù)據(jù)時代多模態(tài)語料庫建設挑戰(zhàn)及技術趨勢
現(xiàn)代社會,語料采集設備小型化、數(shù)字化、智能化、普及化,存儲設備廉價化,生產(chǎn)方式大眾化,以往生產(chǎn)局限于電視臺、廣播電臺、專業(yè)機構(gòu)等,現(xiàn)在“人人皆主播”多媒體數(shù)據(jù)處理技術的先進化,如視頻壓縮格式經(jīng)歷了MJPEG、MPEG-4、H.264/AVS、H.265、MPEG-5,在保證視頻質(zhì)量的前提下,平均比特率降低,解碼時間減少。各種因素和社會需求使得可用多模態(tài)語料數(shù)據(jù)飛速增長,同時多模態(tài)語料庫仍舊面臨著“存不下”“搜不準”“查不快”“傳不動”的挑戰(zhàn)。
多模態(tài)語料庫數(shù)據(jù)為多媒體數(shù)據(jù),多媒體數(shù)據(jù)的高密度特性決定了其數(shù)據(jù)量極大,即使當前存儲設備成本已較低,但仍存在不能完全保存數(shù)據(jù)的困擾,即“存不下”?,F(xiàn)階段,為了解決這一方面的難題,產(chǎn)生了分級存儲技術,即根據(jù)數(shù)據(jù)的重要性、創(chuàng)建時間、訪問頻率、最后的訪問時間等對數(shù)據(jù)進行自動分層,較重要、創(chuàng)建時間較近、訪問頻率較高、最后訪問時間較近的數(shù)據(jù)為熱數(shù)據(jù),反之為冷數(shù)據(jù),將熱數(shù)據(jù)放在閃存中,冷數(shù)據(jù)放在大容量、低成本的磁盤中,以可接受范圍內(nèi)的性能損失換取冷數(shù)據(jù)存儲成本的降低。
現(xiàn)有的多媒體神經(jīng)網(wǎng)絡技術發(fā)展日新月異,但從文字到圖像、從語義到聽覺視覺特征的理解鴻溝依然存在,此為“搜不準”。在基于文本的檢索和基于內(nèi)容的檢索兩者中。多媒體數(shù)據(jù)信息密度大的特性決定了用戶需要更多的是基于內(nèi)容的檢索,不論是哪種檢索都需要進行特征提取,深度人工神經(jīng)網(wǎng)絡模型的特征提取在各個多媒體應用中逐漸占據(jù)統(tǒng)治地位,它通過增加模型的深度,提高網(wǎng)絡對于非線性問題的學習能力。
多媒體數(shù)據(jù)為高信息密度數(shù)據(jù),一般情況下存儲的維度極高,難于索引,多媒體數(shù)據(jù)的多模態(tài)形式使得同一事物會有多種不同模態(tài)數(shù)據(jù)的描述。這些數(shù)據(jù)雖然在形式上“異構(gòu)多源”,語義上卻是相互關聯(lián)的。如何提高對描述同一事物的各種模態(tài)數(shù)據(jù)的查詢檢索效果和效率,或者是如何提高通過其中一種模態(tài)數(shù)據(jù)來查詢檢索相關聯(lián)的其他不同模態(tài)的補充數(shù)據(jù)的效果和效率,即解決“查不快”的問題?,F(xiàn)階段,通過區(qū)分不同檢索目的來平衡檢索速度和檢索精準度,從而在有限犧牲檢索精準度的條件下提高檢索速度。
最后,多媒體壓縮技術的發(fā)展遠遠慢于多媒體數(shù)據(jù)增長的速度,如何高效、高速傳輸多媒體數(shù)據(jù)是亟待解決的“傳不動”難題?,F(xiàn)階段,使用內(nèi)容分發(fā)網(wǎng)絡(CDN)來解決這一方面的難題,傳輸內(nèi)容從根服務器緩存到不同地區(qū)的緩存服務器,用算法尋找最優(yōu)訪問鏈路,實現(xiàn)就近訪問原則,協(xié)調(diào)負載均衡充分利用各地的帶寬和服務器資源,避免單節(jié)點成為瓶頸,同時設置故障屏蔽機制,通過多級緩存來提升并發(fā)性能。
八、結(jié)語
口譯多模態(tài)語料庫是重要的口譯技術,也是計算機輔助翻譯的一個有效手段,與傳統(tǒng)的文本語料庫相比,能更完整地反映口譯活動的原過程,但建設的難度也是不言而喻的。本文通過對口譯多模態(tài)語料庫中兩種模態(tài)數(shù)據(jù)即音頻和視頻數(shù)據(jù)處理的探討給出多模態(tài)語料庫數(shù)據(jù)處理的一種方案,但依然需要進行大量的人工處理和校對。在將來口譯多模態(tài)語料庫建設的過程中,多模態(tài)語料庫的人工智能多模態(tài)檢索仍將是值得研究的重要問題。
參考文獻
[1]顧曰國.多媒體、多模態(tài)學習剖析[J].外語電化教學,2007(02):3-12.
[2]周忠良.輸入模態(tài)與練習頻次對口譯質(zhì)量的影響——一項基于認知負荷理論的研究[J].語言教育,2020(01):8-14.
[3]付光輝.英語多模態(tài)網(wǎng)絡課堂自主學習與多模態(tài)教學模式研究——評《基于多模態(tài)語料庫的語力研究:多模態(tài)語用學新探索》[J].外語電化教學,2020(04):118.
[4]張威.中國口譯學習者語料庫建設與研究:理論與實踐的若干思考[J].中國翻譯,2017,38(01):53-60.
[5]李曉靖,林娜.數(shù)據(jù)庫中多媒體數(shù)據(jù)處理的方法研究[J].科技傳播,2014,6(06):215+218.
作者單位:江漢大學外國語學院語言實驗中心
■ 責任編輯:尚丹
信息系統(tǒng)工程2023年11期