黃笑菡
(湖州職業(yè)技術(shù)學(xué)院,浙江 湖州 313000)
研究任何一門語言都需要一種適當(dāng)規(guī)模的語料庫(kù)來幫助研究者分析總結(jié),語料庫(kù)的產(chǎn)生需要經(jīng)過專業(yè)人士的科學(xué)收集、分類與標(biāo)注,經(jīng)過長(zhǎng)時(shí)間的研究而成。語料庫(kù)反映了語言的實(shí)際使用情況,能夠幫助人們分析并研究語言系統(tǒng)的規(guī)律[1-3]。而SWECCL 就是一個(gè)典型的學(xué)習(xí)者語料庫(kù),SWECCL語料庫(kù)全稱為中國(guó)學(xué)生英語語料庫(kù),具有較全的學(xué)習(xí)工具與研究資料,將其應(yīng)用在雙向在線英語翻譯輔助系統(tǒng)中有著重要意義[4]。
雙向英語在線輔助翻譯系統(tǒng)是針對(duì)專業(yè)用途英語學(xué)習(xí)設(shè)計(jì)的系統(tǒng),ESP具有目標(biāo)明確、針對(duì)性強(qiáng)、實(shí)用價(jià)值高的,能夠滿足不同學(xué)習(xí)者的不同需求,提高學(xué)習(xí)效果[5]。但是傳統(tǒng)的ESP英語翻譯輔助系統(tǒng)使用的多數(shù)為COCA語料庫(kù),COCA語料庫(kù)中的詞匯復(fù)雜度較高,使用系統(tǒng)翻譯時(shí)出現(xiàn)的多數(shù)為非常見詞匯,部分標(biāo)記語頻率分布失衡,對(duì)于學(xué)習(xí)者來說,學(xué)習(xí)ESP英語較為困難。人機(jī)交互技術(shù)(Human-Computer Interaction Techniques)是一種通過計(jì)算機(jī)輸入、輸出設(shè)備,以有效的方式實(shí)現(xiàn)人與計(jì)算機(jī)對(duì)話的技術(shù),人通過輸入設(shè)備給機(jī)器輸入有關(guān)信息,回答問題及提示反應(yīng)等。近些年人機(jī)交互技術(shù)已經(jīng)是計(jì)算機(jī)用戶界面設(shè)計(jì)中的重要內(nèi)容之一。
基于此,設(shè)計(jì)基于人機(jī)交互的雙向英語在線輔助翻譯系統(tǒng),用SWECCL 語料庫(kù)代替原有的COCA 語料庫(kù),同時(shí)對(duì)系統(tǒng)的翻譯功能進(jìn)行改進(jìn),使得系統(tǒng)更能滿足使用者的各種需求,提高學(xué)習(xí)者學(xué)習(xí)能力。
基于人機(jī)交互的雙向英語在線輔助翻譯系統(tǒng)采用的是B/S 三層體系架構(gòu),以此實(shí)現(xiàn)前端和后臺(tái)處理層次分明的設(shè)計(jì)效果,遵循模塊化設(shè)計(jì),根據(jù)用戶角色規(guī)劃整個(gè)系統(tǒng)功能模塊,遵循系統(tǒng)的實(shí)際需求,規(guī)劃的具體模塊如圖1所示。
圖1 英語在線輔助翻譯系統(tǒng)模塊圖
按照?qǐng)D中的各個(gè)模塊規(guī)劃,設(shè)計(jì)在線英語輔助翻譯系統(tǒng)頁(yè)面、檢索功能及數(shù)據(jù)庫(kù)。
依據(jù)上述中的系統(tǒng)模塊圖,對(duì)圖中的各個(gè)模塊的頁(yè)面和功能的實(shí)現(xiàn)進(jìn)行詳細(xì)設(shè)計(jì)。
為了提高系統(tǒng)的交互性,針對(duì)不同的使用者設(shè)置不同的權(quán)限,用戶需通過后臺(tái)登錄才能登錄至相應(yīng)的界面。利用JSP技術(shù),采用AJAX方式驗(yàn)證用戶權(quán)限,在前端獲取用戶賬號(hào)、密碼及登錄類型,點(diǎn)擊登錄后,通過AJAX 方式,后臺(tái)進(jìn)行驗(yàn)證,實(shí)現(xiàn)頁(yè)面無刷新的用戶登錄。登錄實(shí)現(xiàn)的流程圖如圖2所示。
圖2 登錄流程圖
通過Spring 提供對(duì)Action 與DAO 的管理,Hibernate 提供對(duì)象、關(guān)系映射及數(shù)據(jù)管理。當(dāng)數(shù)據(jù)庫(kù)內(nèi)存在該用戶的賬號(hào)和密碼時(shí),登錄成功,頁(yè)面跳轉(zhuǎn)至系統(tǒng)首頁(yè)index.jsp,否則返回至登錄界面,重新獲取用戶登錄信息。登錄驗(yàn)證通過后,根據(jù)權(quán)限的不同跳轉(zhuǎn)至不同的功能頁(yè)面。若登錄系統(tǒng)的用戶為教師,則可執(zhí)行上傳資料、查詢學(xué)生信息等操作;若登錄為學(xué)生,則可進(jìn)行英語資料的翻譯和互動(dòng)等[6]。以上均通過jsp技術(shù)實(shí)現(xiàn),通過action控制用戶行為,將用戶行為的結(jié)果封裝在DAO 中,對(duì)用戶的行為及時(shí)響應(yīng),實(shí)現(xiàn)不同的功能操作。
系統(tǒng)的翻譯功能以系統(tǒng)的主要功能為目標(biāo),通過用戶手工輸入詞匯,與SWECCL語料庫(kù)中的詞匯進(jìn)行相關(guān)計(jì)算,加權(quán)函數(shù)值計(jì)算翻譯詞項(xiàng),確定翻譯詞匯與SWECCL語料庫(kù)中詞匯的相似性,最后顯示系統(tǒng)頁(yè)面中用戶需要的信息。
假設(shè)用戶手動(dòng)輸入的詞匯為q,SWECCL 語料庫(kù)中的詞匯為p,則兩者的相似度κ(q,p)計(jì)算公式的基本形式如下:
公式中,e表示詞項(xiàng),ε(e,p)表示e在p中的權(quán)重,ε(e,q)表示e在q中的權(quán)重。因詞匯q已經(jīng)確定,計(jì)算時(shí)可忽略其權(quán)重。定義e的權(quán)重為εe=log結(jié)合詞項(xiàng)的加權(quán)函數(shù)值,帶入到公式1中,得到公式2:
公式中,ε(si)e表示詞項(xiàng)e對(duì)應(yīng)節(jié)點(diǎn)的加權(quán)si值,表示詞項(xiàng)的重要性。為了防止詞項(xiàng)的重要性對(duì)相似度計(jì)算的影響,對(duì)si做log 處理,得到基于加權(quán)網(wǎng)絡(luò)的信息翻譯模型相似度計(jì)算基本公式:
通過上式計(jì)算出,用戶手動(dòng)輸入詞匯與SWECCL語料庫(kù)中的詞匯之間的相似度,將相似度較大的結(jié)果展示在系統(tǒng)頁(yè)面中實(shí)現(xiàn)詞匯翻譯。翻譯功能主要翻譯的目標(biāo)是SWECCL 語料庫(kù),將SWECCL 語料庫(kù)應(yīng)用在系統(tǒng)的數(shù)據(jù)中。
為提高翻譯的高效性和準(zhǔn)確性,對(duì)數(shù)據(jù)庫(kù)進(jìn)行設(shè)計(jì)。將SWECCL語料庫(kù)引用到系統(tǒng)的數(shù)據(jù)庫(kù)內(nèi),替換原有的英語學(xué)習(xí)資料庫(kù),基于原有的系統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行修改和整理,提高數(shù)據(jù)庫(kù)內(nèi)對(duì)象分類的精度和各對(duì)象間的關(guān)聯(lián)度,并以用戶輸入的信息作為源數(shù)據(jù)載入數(shù)據(jù),完成數(shù)據(jù)庫(kù)的迭代更新。在MOODLE的環(huán)境下,實(shí)現(xiàn)數(shù)據(jù)庫(kù)的安裝與設(shè)置[7]。
根據(jù)對(duì)系統(tǒng)內(nèi)的類、對(duì)象和關(guān)聯(lián)分析后,構(gòu)建數(shù)據(jù)字典靜態(tài)關(guān)聯(lián)圖,如圖3所示。圖中只給出了接口類,并且只表示了屬性和數(shù)據(jù)類型。
圖3 數(shù)據(jù)字典靜態(tài)關(guān)聯(lián)圖
如圖3所示,在數(shù)據(jù)字典靜態(tài)關(guān)聯(lián)下設(shè)計(jì)數(shù)據(jù)庫(kù)。通過JDBC技術(shù)將系統(tǒng)與數(shù)據(jù)庫(kù)相連[8]。在工程中導(dǎo)入對(duì)應(yīng)的數(shù)據(jù)庫(kù)的jar 包,用Class.forName()方法加載驅(qū)動(dòng)程序,再用DriverMananger的getConnection()方法創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)連接,并在Hibernate 的主配置文件中,配置數(shù)據(jù)庫(kù)的連接驅(qū)動(dòng)、URL及登錄數(shù)據(jù)庫(kù)的用戶名和密碼,通過上述過程完成數(shù)據(jù)庫(kù)與系統(tǒng)的連接。
將設(shè)計(jì)的數(shù)據(jù)庫(kù)與英語在線翻譯輔助系統(tǒng)相連,用戶可在對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行翻譯的同時(shí),實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的更新。至此,完成基于人機(jī)交互的雙向英語在線輔助翻譯系統(tǒng)設(shè)計(jì)。
測(cè)試使用的計(jì)算機(jī)操作系統(tǒng)均為常見的Windows10,其相關(guān)配置為2G顯卡,120G高速固態(tài)硬盤,Intel芯片主板B75,處理器為四核酷睿i5,3.7Ghz高頻性能。
將構(gòu)建的基于人機(jī)交互的雙向英語在線輔助翻譯系統(tǒng)作為主要測(cè)試系統(tǒng),應(yīng)用基于COCA 語料庫(kù)的英語翻譯輔助系統(tǒng)作為對(duì)照,使用以上計(jì)算機(jī)進(jìn)行測(cè)試。
測(cè)試中選擇4類標(biāo)記語作為測(cè)試對(duì)象,分別為對(duì)比性標(biāo)記語、闡發(fā)性標(biāo)記語、推導(dǎo)性標(biāo)記語和主題變化標(biāo)記語,選擇的具體詞匯如表1所示。
表1 不同類型標(biāo)記語
測(cè)試使用統(tǒng)計(jì)軟件SPSS對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)兩個(gè)輔助系統(tǒng)中的話語標(biāo)記語使用的總數(shù)量、使用標(biāo)記語的種類以及每一類話語標(biāo)記使用的頻率分布。
通過SPSS統(tǒng)計(jì)軟件統(tǒng)計(jì)的測(cè)試結(jié)果如表2所示。
表2 四類標(biāo)記語在不同輔助系統(tǒng)中的頻率分布
分別觀察四種不同類型的標(biāo)記語測(cè)試結(jié)果,在基于COCA的輔助系統(tǒng)中,其中對(duì)比性標(biāo)記語測(cè)試結(jié)果顯示,標(biāo)記語in contrast 所占頻率比最低,為1.3,But 所占頻率比最高,為49.9;闡發(fā)性標(biāo)記語測(cè)試結(jié)果顯示,F(xiàn)or another thing 所占頻率最低,為0.01,Moreover 所占頻率最高,為49.8;推導(dǎo)性標(biāo)記語測(cè)試結(jié)果中顯示,As a result 所占頻率最低,為0.7,So 所占頻率最高,為71.8;主題變化標(biāo)記語測(cè)試結(jié)果中顯示,標(biāo)記語Incidentally所占比例最低,Anyway所占比例最高,為70.6。
在基于人機(jī)交互的輔助翻譯系統(tǒng)中,測(cè)試結(jié)果顯示,各個(gè)類型中的不同標(biāo)記語的頻率分布比較均勻,大多數(shù)處于15.0~35.0之間,沒有出現(xiàn)差距較大的頻率比。
為驗(yàn)證所提設(shè)計(jì)的有效性,對(duì)于兩個(gè)系統(tǒng)輸入相同翻譯詞匯200個(gè),翻譯結(jié)果如表3所示。
表3 翻譯結(jié)果對(duì)比
從表3中可以看出,對(duì)比傳統(tǒng)的基于COCA 的輔助系統(tǒng),設(shè)計(jì)的優(yōu)化系統(tǒng)的翻譯表現(xiàn)出更高的翻譯精度和效率,能夠更加快速精準(zhǔn)地在數(shù)據(jù)庫(kù)中提取出與翻譯詞匯關(guān)聯(lián)度較高的內(nèi)容,并且檢出結(jié)果所涉及的數(shù)據(jù)類別更加全面。這主要是因?yàn)樗岱椒▽?duì)翻譯詞項(xiàng)進(jìn)行了加權(quán)函數(shù)值計(jì)算,并實(shí)現(xiàn)了數(shù)據(jù)庫(kù)內(nèi)的信息關(guān)聯(lián)度的構(gòu)建與迭代更新。
綜合以上數(shù)據(jù)分析可知,傳統(tǒng)的基于COCA 的輔助系統(tǒng)中標(biāo)記語頻率分布不均勻,標(biāo)記語的頻率比差距較大,說明在該系統(tǒng)中存在標(biāo)記語使用過度的情況,在使用過程中,標(biāo)記語比較單一,缺少多樣性。而基于人機(jī)交互的輔助系統(tǒng)中,各個(gè)類型的標(biāo)記語頻率分布比較均勻,具有較好的多樣性,翻譯效率和精度也優(yōu)于傳統(tǒng)系統(tǒng),更適合學(xué)習(xí)者使用。
英語輔助系統(tǒng)設(shè)計(jì)的最大信息載體是專業(yè)詞匯,不是普通詞匯,當(dāng)教師講解專業(yè)術(shù)語時(shí),利用具有針對(duì)性的語料庫(kù)翻譯能夠更好地幫助學(xué)生加深對(duì)專業(yè)術(shù)語的理解。傳統(tǒng)的基于COCA的翻譯輔助系統(tǒng)存在部分標(biāo)記語頻率分布失衡的問題,引用SWECCL語料庫(kù)有助于解決這一問題。根據(jù)對(duì)比結(jié)果可知,設(shè)計(jì)的教學(xué)輔助系統(tǒng)明顯優(yōu)于傳統(tǒng)的教學(xué)輔助系統(tǒng),SWECCL語料庫(kù)中標(biāo)注語頻率分布均勻,翻譯效率高且翻譯精度準(zhǔn)確,有助于學(xué)生的學(xué)習(xí),避免了學(xué)生對(duì)語言學(xué)習(xí)思維模式的固化,使學(xué)習(xí)更加靈活,提高學(xué)習(xí)效率。
自動(dòng)化技術(shù)與應(yīng)用2022年3期