鄭麗芳,唐朝輝
(廈門理工學院外國語學院,福建 廈門 361024)
潛在語義分析的英漢口譯語料庫挖掘
鄭麗芳,唐朝輝
(廈門理工學院外國語學院,福建 廈門 361024)
分析潛在語義分析的理論基礎,結合英漢口譯語料庫的相關特點,提出了基于潛在語義分析的口譯語料相似度的度量方法.基于PACCEL英漢口譯語料庫的實驗表明,該方法的檢索精度為0.79,召回率為0.59,F(xiàn)1為0.68,檢索時間為1.124 s,在檢索精度、召回率、F1值以及時間效率上均顯著優(yōu)于實驗的參照方法.該方法能為用戶提供更有效的檢索推薦以及在擴展語料庫時自動探析語料庫存在的數(shù)據(jù)冗余,為語料庫的構建和擴展提供了有效指導.
語料庫;英漢口譯;知識挖掘;潛在語義分析
1998年基于語料庫的口譯研究由Miriam Shlesinger首次提出[1].日本名古屋大學從1999年至2003年研究并開發(fā)了包含英語、日語的同傳語料庫(簡稱CIAIR),收錄的撰寫材料達到100萬字,是當前規(guī)模最大的同聲傳譯語料庫[2].意大利博洛尼亞大學于2004年研發(fā)了“歐洲議會口譯語料庫”(簡稱EPIC)[3],庫容約18萬字,是一個包含英語、西班牙語、意大利語的多語平行同聲傳譯語料庫.除上述兩個大型口譯語料庫之外,國外部分研究者開始獨自研發(fā)中小型專題語料庫,用實證研究的方式來補充傳統(tǒng)的思辨內省模式的口譯研究方式.
國內關于口譯語料庫的研究起步相對較晚,于2007年才陸續(xù)出現(xiàn)這方面的研究成果[4-6].目前依據(jù)語料庫語言學通行模式建成并投入使用的口譯語料庫只有2個.2008年,文秋芳教授主持建立了中國大學生英漢漢英口筆譯語料庫(簡稱PACCEL)[7],是中國首個僅有的學習者口譯語料庫.由于其語料缺少充分標注,基于該語料庫的口譯研究較少.2010年,上海交通大學胡開寶教授主持研發(fā)了“漢英會議口譯語料庫”[4](簡稱CECIC),該語料庫分為3部分:新聞發(fā)布會漢英平行語料子庫、新聞發(fā)布會英語原創(chuàng)語料子庫和政府工作報告漢英平行語料子庫.語料來源為國內外新聞發(fā)布會口譯活動,庫容已從初期的19萬字左右擴展為約54萬字.文獻[8]探討了大規(guī)模英漢平行語料庫的開發(fā)與其實用性,但目前基于該語料庫的研究主要集中在翻譯共性及漢英口譯語言特征等領域,尚未涉及其在口譯教學與培訓中的應用.
雖然目前已經存在一定數(shù)量的英漢口譯語料庫,但對語料庫的挖掘研究還相對較少.目前對知識庫進行挖掘的模型中,統(tǒng)計語言模型是一種較為成熟、應用最為廣泛的工具[9-12].針對英漢口譯語料庫的特點,本文結合潛在語義分析的理論,提出了基于潛在語義分析的英漢口譯語料庫挖掘方法,通過理論分析、實例推演以及實驗證明了該方法的有效性.
潛在語義分析方法基于統(tǒng)計學,具有嚴格的數(shù)學證明與理論推導,通過對統(tǒng)計信息對應的矩陣進行奇異值分解,提取數(shù)據(jù)的語義信息.在計算機不足以理解數(shù)據(jù)語義的情況下,潛在語義分析可以為數(shù)據(jù)“語義"的提取提供有力的支持.
1.1矩陣奇異值分解
奇異值分解(singular value decomposition,SVD)是線性代數(shù)中一種很重要的矩陣分解,多用于信號處理、自然語言處理等領域[13].
假設M是一個m×n的矩陣,其中的元素全部屬于實數(shù)域,則矩陣可以表示成矩陣乘積,記為M=USVT,其中:U是m×m階酉矩陣;S是半正定m×n階對角矩陣;VT是n×n階酉矩陣.把M=USVT稱作矩陣U的奇異值分解.S對角線上的元素為矩陣M的奇異值,在求解矩陣奇異值分解時通常將奇異值由大而小排列,如下所示:
1.2語義空間與語義子空間
在對統(tǒng)計數(shù)據(jù)進行語義分析之前,要先構造統(tǒng)計信息對應的矩陣M,然后利用矩陣的SVD分解M=USVT來獲取統(tǒng)計數(shù)據(jù)對應的語義子空間U與VT,處理過程中通常只需要取語義空間U,VT的前幾列.
英漢口譯語料庫的英語語料可以表示成“語料-詞匯”矩陣的形式,矩陣中的每個值表示檢索詞匯在語料中的出現(xiàn)頻率,如表1所示.通過使用矩陣SVD分解來提取“語料-詞匯"矩陣的語義空間,從語義空間提取的語料相似度是語料中詞匯對應的上下文語境統(tǒng)計信息的綜合體現(xiàn),從而可以更有效地計算出語料之間的語義相似度.處理過程如圖1所示,具體處理流程如下:
表1 一個簡化的英漢口譯語料庫英文語料
Itembabychildguidehealthhomeinfantproofingsafetytoddlerx1000001001x2110010000x3010010010x4100101011x5100000100x6001000100x7101000000
1)通過語料庫獲取“語料-詞匯”矩陣M.當語料庫具備一定的規(guī)模,這個過程通常會比較耗時,因為需要確定整個語料庫的所有檢索詞匯表并計算出這些檢索詞匯在每個語料庫中的出現(xiàn)頻率.易知,該矩陣是高度稀疏的,即矩陣中存在很多的0.
2)對矩陣M進行奇異值分解M=USVT,得到語料語義空間以及詞匯語義空間.其中:U表示語料語義空間;VT表示詞匯語義空間;S中的值為“語料-詞匯”矩陣M的非零奇異值,當以降序排列這些非零奇異值,同時取最大幾個奇異值所對應的U的列與VT的行分別作為語料語義子空間、詞匯語義子空間.通常當語料庫達到一定的規(guī)模,語義子空間的存儲規(guī)模至少要比M的存儲規(guī)模小3個數(shù)量級(1 000倍).
3)在語料子空間計算兩兩語料之間、兩兩詞匯之間的語義距離相似度/距離.在低維語料語義空間計算出來的語料之間的相似度,與在M中計算相似度相比,其計算速率和計算精度都會有很大的提高.
4)通過計算出來的語料語義相似度/距離,可以為語料庫的使用者提供更準確有效的檢索推薦.同時當有新的語料添加時,可以通過SVD分解的逆運算,計算出新的語料在原有詞匯語義空間的投影,便可以得到該語料的語義向量,從而可以得出新語料與語料庫原有語料的語義相似度,使得語料庫的維護者可以更有效地維護語料庫,不至于出現(xiàn)太多無效的語料冗余.
本節(jié)通過實例推導與在實際語料庫上的實驗效果來驗證基于潛在語義分析的英漢口譯語料庫挖掘方法的有效性.
為便于闡述,本文首先采用包含7個語料、9個檢索詞匯的一個簡單英漢口譯語料庫,并且只考慮每個語料的英文部分.因為英漢口譯語料庫中語料相似度的度量通常是基于英文語料.如表1所示,其中xi表示英漢口譯語料庫中的一個英語語料,baby、child、guide、health、home、infant、proofing、safety、toddler表示語料庫包含的詞匯,表中每個值代表詞匯在對應英文語料中出現(xiàn)的頻率.最后在實際的語料庫中驗證潛在語義分析方法的有效性.
3.1基于語料語義子空間的語料相似度的度量
對表1對應的“語料-詞匯”矩陣M進行奇異值分解,其結果對應的U、S、VT矩陣分別如下:
不失一般性,本例中取語義子空間的維度為2,記為δ=2,則U、VT中用方框圈起來的部分就是語料“語義”子空間,VT矩陣對應就是詞匯“語義”子空間.
由U矩陣可知,7個語料在語料語義子空間的坐標分別為(0.252 7,-0.442 1)、(0.419 7,0.543 4)、(0.338 2,0.468 6)、(0.702 5,-0.498 5)、(0.267 2,0.121 7)、(0.096 1,0.107 9)、(0.267 2,0.121 7).
因為對稱性,所以只需要計算對角線一邊就可以了.距離越小,代表對應的語料相似度越大,反之亦然.
表2 語料在語料語義子空間中的距離度量結果
3.2基于詞匯語義子空間的詞匯相似度的度量
基于VT對應的詞匯語義空間,可以計算出9個詞匯在詞匯語義子空間的坐標分別為(0.602 6,0.275 7)、(0.139 8,0.490 6)、(0.378 3,-0.298 3)、(-0.660 4,0.119 5)、(0.000 0,0.000 0)、(0.096 1,0.107 9)、(0.267 2,0.121 7).
同上,可以計算出9個詞匯在詞匯語義子空間中的語義相似度.這種詞匯相似度計算方式的優(yōu)勢在于它不是基于詞典中詞條的解釋,而是基于詞語在所有語料中的上下文統(tǒng)計信息.可以看到,要有效計算出詞匯的語義相似度,需要大量的語料上下文環(huán)境.本例中只有7個語料,不能很有效地獲取足夠多的詞匯在語料上下文中的統(tǒng)計信息,因而無法有效計算出詞匯間的語義相似度,但當語料庫逐漸擴展到一定的規(guī)模,這種計算方法的優(yōu)勢將變得明顯.
3.3潛在語義分析在PACCEL上的實驗效果
《中國大學生英漢漢英口筆譯語料庫》[7],簡稱PACCEL,是國內目前使用較為廣泛的語料庫.本節(jié)實驗采用的英漢口譯語料庫從PACCEL中抽取,將潛在語義分析方法應用到從PACCEL上抽取的英漢口譯語料庫;潛在語義分析的矩陣奇異值分解是離線處理,處理時間不必計入在線檢索時間,且語義空間維度δ=3.
檢索的任務是將語料庫中的語料標記為檢索語料的相似類(positive)或不相似類(negative).因此有4種情況:如果一個語料與檢索語料相似并且也被預測成相似類,即為真相似類(truepositive),滿足這類條件的語料個數(shù)記為TP;如果語料與檢索語料不相似,但預測為相似類,則稱之為假相似類(falsepositive),個數(shù)記為FP;如果語料與檢索語料不相似并且該語料被預測成不相似類,稱之為真不相似類(truenegative),個數(shù)記為TN;相似類被預測成不相似類則為假不相似類(falsenegative),個數(shù)記為FN.
表3 在PACCEL使用潛在語義分析的檢索性能(δ=3)Table3 RetrievalinPACCELusingLSA(δ=3)性能指標常規(guī)檢索方法潛在語義分析方法P0.630.79R0.320.59F10.420.68平均檢索時間/s1.7321.124
實驗采用檢索精度(P)、召回率(R)以及P與R的加權平均F1值來衡量本文所提方法在PACCEL上的檢索性能.計算公式分別為P=TP/(TP+FP),R=TP/(TP+FN),F1=2(P-1+R-1)-1.檢索性能測試結果如表3所示.
由表3可知,潛在語義分析方法在PACCEL英漢口譯語料庫中的檢索精度、召回率、F1值以及時間效率上均較顯著地優(yōu)于常規(guī)檢索方法.由此可見,采用潛在語義分析方法挖掘英漢口譯語料庫,可以大大提高語料庫的檢索性能和效率;當語料庫規(guī)模增大時,潛在語義分析方法的時間性能與檢索性能會有相應的提升,因為語料會被更充分的統(tǒng)計,因而語義空間會更緊湊、更準確.
本文通過引入潛在語義分析技術對所有英語語料對應的“語料-詞匯”矩陣進行分析,得出“語料-詞匯”矩陣的“語義”子空間;在得到的“語義”子空間進行英語語料之間的語義相似度度量、新語料與語料庫中語料的相似度度量以及詞匯之間的語義相似度度量,不但可以提高處理的時間效率,同時還可以提高計算的精度.實例證明,本文提出的基于潛在語義分析的英漢口譯語料庫挖掘方法對于具有一定規(guī)模的語料庫是有效可行的.由于漢語語料處理存在分詞上的困難,本方法在處理漢語語料時不能有效獲取漢語語料的潛在語義,因此在后續(xù)的研究中將引入適當?shù)闹形姆衷~機制以有效獲取中文語料的潛在語義,從而提高英漢雙語語料庫的挖掘精度與效率.
[1]SHLESINGERM.Corpus-basedinterpretingstudiesasanoffshootofcorpus-basedtranslationstudies[J].Meta,1998(4):486- 493.
[2]張威.近十年來口譯語料庫的研究現(xiàn)狀及發(fā)展趨勢[J].浙江大學學報:人文社會科學版,2012,42(2):136-143.
[3]MONTIC,BENDAZZOLIC,SANDRELLIA,etal.Studyingdirectionalityinsimultaneousinterpretingthroughanelectroniccorpus:EPIC(Europeanparliamentinterpretingcorpus)[J].Meta,2005(4):114-129.
[4]胡開寶,吳勇,陶慶.語料庫與譯學研究:趨勢與問題[J].外國語,2007(5):64-69.
[5]張威.口譯語料庫的開發(fā)與建設:理論與實踐的若干問題[J].中國翻譯,2009(3):54-59.
[6]胡開寶,陶慶.漢英會議語料庫的創(chuàng)建與應用研究[J].中國翻譯,2010(5):49-56.
[7]文秋芳,王金銓.中國大學生英漢漢英口筆譯語料庫[M].北京:外語教學與研究出版社,2008.
[8]趙巍,王雷.大規(guī)模英漢平行語料庫的開發(fā)與實用性探討[J].牡丹江師范學院學報:哲學社會科學版,2014(4):117-118.
[9]ZHOUGD,LUAKIMTENG.Interpolationofn-gramandmutual-informationbasedtriggerpairlanguagemodelsformandarinspeechrecognition[J].ComputerSpeechandLanguage,1999,13(2):125-141.
[10]STANLEYFCHEN.Buildingprobabilisticmodelsfornaturallanguage[D].Cambridge:HarvardUniversity,1996.
[11]NIESLERTR,CWOODLANDP.Variable-lengthcategoryn-gramlanguagemodels[J].ComputerSpeechandLanguage,1999,13(1):99-124.
[12]袁里馳.基于統(tǒng)計的句法分析方法[J].中南大學學報:自然科學版,2014,45(8):2 669-2 674.
[13]VIRGINIACKLEMA,ALANJLAUB.Thesingularvaluedecomposition:itscomputationandsomeapplications[J].IEEETransactiononAutomaticControl,1980,25(2):164-175.
(責任編輯雨松)
LSA-based Mining of English-Chinese Interpreting Corpus
ZHENG Li-fang,TANG Chao-hui
(SchoolofInternationalLanguages,XiamenUniversityofTechnology,Xiamen361024,China)
LSA-baseddatasimilaritymetricsintheinterpretingcorpusisthusproposedonanin-depthanalysisofthetheoreticalbasisoflatentsemanticanalysisinviewofthecharacteristicsofEnglish-ChineseInterpretingCorpus.ExperimentresultsbasedonPACCELshowthat:P=0.79,R=0.59,F1=0.68,t=1.124s,sothemethodissignificantlybetterthanthereferencedmethodformininginterpretingcorpusinretrievalprecision,recallrate,F1andtimeefficiency.Themethodprovidesmoreeffectivesearchrecommendationsandmakesautomaticdetectingofdataredundancywhenthecorpusisextended.
corpus;English-Chineseinterpreting;knowledgemining;latentsemanticanalysis
2014-10-01
2015-01-15
福建省教育廳科技項目(JB12252S,JB14082);廈門理工學院教改項目(JGY201315);國家級大學生創(chuàng)新項目(201411062043)
鄭麗芳(1983-),女,講師,碩士,研究方向為英語語料庫.E-mail:2011110301@xmut.edu.cn
TP181;H315
A
1673-4432(2015)01-0086-05