摘要:當前,各種技術下的機器輔助翻譯系統(tǒng)存在翻譯速度慢、翻譯精確率不高等問題,嚴重影響了使用者的體驗度。隨著計算機技術的發(fā)展和進步,分布式計算技術已日趨成熟,而云計算的應用也大大提升了系統(tǒng)的運算能力,文章提出構建基于分布式計算技術的機器輔助翻譯系統(tǒng),以此來提高機器輔助翻譯系統(tǒng)的性能。
關鍵詞:分布式計算技術;機器輔助;翻譯系統(tǒng)
中圖分類號:TP311 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)31-0107-03
電子信息技術時代中,信息網(wǎng)絡實現(xiàn)全面普及,智能手機、平板電腦、臺式計算機等各種電子通信設備得以廣泛運用,人們獲取信息的方式日益便捷和多元化,人們的生活、工作、學習也因此更為便利。為了解決人們的各種使用需求,各類計算機軟件系統(tǒng)也不斷被開發(fā)出來,但系統(tǒng)在投入使用的過程中,或多或少都會存在一定的缺陷或者問題,影響了用戶的體驗度[1]。機器翻譯系統(tǒng)是由英國工程師 Booth 和美國工程師Weaver最早提出并研究成功的語言翻譯系統(tǒng),該系統(tǒng)發(fā)展至今,形成了兩種體系結構,即:基于語言規(guī)則的翻譯體系和基于語言數(shù)據(jù)庫的翻譯體系[2]。這兩種體系的最大優(yōu)點是覆蓋范圍廣和翻譯能力超強,其缺點是無法有效適應開放性和靈活性的自然語言,致使翻譯出的某些文本不夠準確,不符合需要。有學者研究用語料庫獲得統(tǒng)計數(shù)據(jù)與語言實例來構建翻譯系統(tǒng),該系統(tǒng)的靈活性較高,但是由于這項技術運用的時間短,語料庫的積累量不高,極大地限制了系統(tǒng)的使用功能[3]?;诜植际接嬎慵夹g發(fā)展了十多年,已日趨成熟,能將龐大的工程數(shù)據(jù)分割成為多個小塊,并分配給不同計算機分別計算,以此提高計算機的性能,通過構建基于分布式計算技術的機器輔助翻譯系統(tǒng),以期解決以往此類系統(tǒng)存在的瓶頸。
1 機器輔助翻譯系統(tǒng)的軟件設計
1.1 機器輔助翻譯系統(tǒng)的框架
機器輔助翻譯系統(tǒng)就是用知識推理并表示的過程,知識表示又分為兩種:即內(nèi)部知識表示和外部知識表示[4]。內(nèi)部知識表示是知識在編程語言或者開發(fā)工具中的表現(xiàn)方式,外部知識表示是各種各樣知識表示模式,并存儲于知識庫中,語言工作人員能夠對規(guī)則庫、詞典等知識進行管理;翻譯時生成翻譯工作,實現(xiàn)對翻譯句子語法、語義特征、詞法等各種知識進行語義網(wǎng)絡、特征結構、樹形圖描述[5]。本系統(tǒng)中的知識庫設計了專業(yè)漢語詞典與雙語詞典、語言模型、規(guī)則庫、實例庫,并將英漢雙語實例和有關信息存儲于實例庫中。除了進行知識庫的設計,還設置了用戶設置、英漢互譯、歷史信息查詢、詞庫信息查詢和修改、增刪、語音翻譯模塊這幾項功能。機器輔助翻譯系統(tǒng)功能模塊如圖1所示。
用戶設置功能包括顯示界面的調(diào)節(jié),用戶可以根據(jù)自己的喜好和需求調(diào)整顯示界面的顏色、字體大小、顯示跨度等類型。英漢互譯模塊包含在線翻譯和離線翻譯兩種類型,聯(lián)網(wǎng)狀態(tài)下系統(tǒng)進行在線翻譯,在斷網(wǎng)狀態(tài)下系統(tǒng)內(nèi)部進行翻譯[6]。歷史信息查詢能夠對用戶學習的知識進行時段的統(tǒng)計,幫助用戶查詢學習過的知識,同時軟件也會根據(jù)用戶的學習經(jīng)驗設置將來的學習計劃表,有利于用戶做出學習計劃。發(fā)音模塊是用戶輸入語種時模塊發(fā)出像真人一樣的語音,增強了用戶的使用體驗。
1.2 機器輔助翻譯系統(tǒng)的工作流程
先是用戶點擊進入系統(tǒng),等待系統(tǒng)開啟,如果是首次運行程序會等待詞庫加載,非首次運行直接進入系統(tǒng)主界面,進入界面后界面上部顯示出單詞查詢、詞庫管理、單詞翻譯和單詞本生成這幾個板塊。例如單詞查詢模塊支持在線查詢和離線查詢,單詞本中支持生詞添加、刪除,詞庫管理支持詞庫的設置、添加和刪除,單詞翻譯選擇翻譯的語言類型。界面下面便是每個板塊下的主要內(nèi)容界面,當點擊進入翻譯界面,機器輔助翻譯系統(tǒng)就會開啟翻譯的工作流程。一是翻譯前的準備工作,先是各種類型源文件開始格式過濾并進行句段的切分工作,其次對齊原文和已存在譯文及構建記憶庫,最后是為預翻譯、編輯做準備,抽取原文中的翻譯術語并構建術語庫。二是翻譯中實施過程,在翻譯過程中利用記憶庫、術語庫兩種輔助工具進行預翻譯,以此落實真實翻譯工作量和匹配效率,從而確定譯文的一體性風格和正確的表述語言。三是翻譯后處理過程,這是翻譯完成的最后過程,主要任務是語料回收、桌面排版、項目管理等工作,以此確保譯文滿足用戶需求。
1.3 機器輔助翻譯系統(tǒng)的數(shù)據(jù)庫設計
機器輔助翻譯系統(tǒng)的數(shù)據(jù)庫是整個系統(tǒng)開發(fā)的基礎保障。為了滿足機器輔助翻譯系統(tǒng)的多樣性功能,數(shù)據(jù)庫中設計了雙語語料庫、系統(tǒng)記憶庫、多語語料庫、單語語料庫、術語中英詞典與程序所需數(shù)據(jù)。其中,語料庫作為數(shù)據(jù)庫中的重要類型之一,是在語言實際使用過程中真實再現(xiàn)的語言數(shù)據(jù)信息。單語語料庫、雙語語料庫和多語語料庫能夠實現(xiàn)索引工具、文件查看、索引定位、詞單和關鍵詞單等功能,但是每個語料庫又有各自的特點,單語語料庫適合處理體量小的文件,進行語料檢索、詞頻統(tǒng)計和信息篩選等任務。雙語語料庫和多語語料庫適合處理體量大的文件,支持用戶上傳、創(chuàng)建和合并語料庫等功能。針對機器輔助翻譯系統(tǒng)的數(shù)據(jù)庫的特點,數(shù)據(jù)庫構建了系統(tǒng)創(chuàng)建項目文件、文件內(nèi)容、項目數(shù)據(jù)資料和文件段落等表格。為了滿足復雜查詢的需要,同時提高執(zhí)行程序速度,降低網(wǎng)絡通信量,系統(tǒng)建立了有關的視圖,能夠清楚直觀地顯示各類信息,并且還確保了數(shù)據(jù)的安全性。
2 機器輔助翻譯系統(tǒng)的硬件設計
機器輔助翻譯系統(tǒng)的數(shù)據(jù)庫中包括了雙語語料、單語語料、術語中英詞典等大量語言資料,這樣會增加系統(tǒng)工作的復雜程度和信息的交互過程,影響了大規(guī)模語言數(shù)據(jù)進行翻譯時的質(zhì)量[7]。為了實現(xiàn)高質(zhì)量高效的翻譯,就務必要減小系統(tǒng)的信息交互和工作過程復雜程度,因此本文利用分布式計算機技術將文件以各種方式存儲,針對各樣的語言類別設計別樣的翻譯方式,對量小而簡單的語言類型使用直接翻譯,對量大而復雜多樣的語言使用分布式翻譯,減小了數(shù)據(jù)庫的負擔,有效提高了系統(tǒng)的翻譯效率。基于分布式計算技術下的機器輔助翻譯系統(tǒng)硬件結構如圖2所示。
從圖2可見,機器輔助翻譯系統(tǒng)硬件結構為用戶層、服務層、存儲層和計算層。用戶層主要是提供文件上傳下載服務、內(nèi)容查看、在線翻譯、界面檢索服務。服務層向用戶提供翻譯索引和語言檢索的功能。計算層是利用云計算技術計算翻譯信息,并采取合并、分離和均衡三種方式處理計算后的不同信息。存儲層主要完成文本存儲、目錄存儲與索引存儲功能。
首先是存儲設計。存儲結構的設計是采用類似于分布式框架,各種各樣的數(shù)據(jù)都能存儲其中,并且能反復被讀取,可以有效減小客戶端與軟件系統(tǒng)的交互,降低服務器的數(shù)據(jù)吞吐頻次。為了有利于用戶的查詢,采用目錄來分類存儲數(shù)據(jù),目錄不但醒目,而且里面詳盡地記錄了被存儲的數(shù)據(jù)名稱。 其次是檢索設計。檢索工作是關鍵詞和目錄數(shù)據(jù)中索引匹配的過程,匹配成功則顯示檢索結果,反之則不顯示檢索結果。當前檢索方式有關鍵詞檢索、多屬性組合檢索和IPC分類檢索。由于被翻譯的語言類型多種多樣,因此通過增加多個詞典以實現(xiàn)跨域語種檢索。檢索模塊如圖3所示。
從圖3可知,檢索模塊引入了多個數(shù)據(jù)庫,其作用就是能同時調(diào)動不同詞典中的數(shù)據(jù)信息,確保檢索的結果和關鍵詞檢索下的內(nèi)容相匹配,同時獲得多樣性的檢索結果,更有利于用戶在極短時間內(nèi)獲得各種有關的信息資源,使翻譯結果更加精準。
3 機器輔助翻譯系統(tǒng)的測試
為了測試基于分布式計算技術的機器輔助翻譯系統(tǒng)的實際使用效果,選用Matlab平臺進行翻譯仿真測試,通過測試來實現(xiàn)系統(tǒng)的應用。選擇以下系統(tǒng)運行環(huán)境:操作系統(tǒng)是Windows 10,64位操作系統(tǒng),壓縮技術Gzip,內(nèi)存8G,硬盤容量512G,工作模式MVC,CPU是 i5-12400,工作協(xié)議HTTP。通過測試翻譯系統(tǒng)能正常翻譯運行,翻譯結果如圖4所示。
為了測試翻譯精準率,語料資料選擇了Corpus of Contemporary American English(COCA) 和現(xiàn)代漢語平衡語料庫,也有來自政府文獻、法律、新聞等部門整理而來,文章通過從170萬句漢英雙語平行語料庫中隨機選取了1500條BLUE值,測試所得結果如表1和表2所示。
從表1和表2測試結果來看,基于分布式計算技術的機器輔助翻譯系統(tǒng)有較高的翻譯精準率。從系統(tǒng)使用來看,系統(tǒng)可以自動處理文本分句,點擊原文句子鏈接可以展示出句子目標語言譯文。假設譯者對譯文不滿意,可以再次翻譯和矯正來源翻譯實例、統(tǒng)計、記憶庫的譯文,翻譯完成后譯者還可以導出目標語言文檔,查看譯文。
其次,為了測試翻譯時間的快慢,分別使用基于語言數(shù)據(jù)庫的機器翻譯系統(tǒng)、基于語言規(guī)則的翻譯系統(tǒng)和基于分布式計算機技術的機器翻譯系統(tǒng)來翻譯不同大小的文件,處理文件的大小分別為10 KB、1 MB、10MB,結果顯示三種翻譯系統(tǒng)在翻譯10KB的文件時所用的時間一致,在翻譯1MB的文件用時依次為:149s、118s、107s,而翻譯10MB的文件用時依次為:346s、328s、319s。從翻譯處理時間來看,各翻譯系統(tǒng)都存在翻譯用時隨著翻譯文件的增大而增多的現(xiàn)象,而基于分布式計算機技術的機器翻譯系統(tǒng)在處理10 KB、1 MB、10MB翻譯文件的用時最少。
4 結束語
基于分布式計算技術的機器輔助翻譯系統(tǒng)是為解決傳統(tǒng)翻譯系統(tǒng)問題而提出的一種新的機器輔助翻譯系統(tǒng),該系統(tǒng)彌補了傳統(tǒng)系統(tǒng)的缺點,在一定程度上提高了翻譯的精確度和準確率。該系統(tǒng)雖有所進步,但依然存在不少現(xiàn)實問題亟待優(yōu)化:詞典量雖有所增大,但規(guī)范度不足,因此需要提高一些被選取詞典的質(zhì)量;系統(tǒng)的相似度計算機研究不足,各個語種沒有深層次探究。要解決這些問題需要花費一定的時間來積累、糾正,但是并不影響系統(tǒng)的使用,較之傳統(tǒng)的機器輔助翻譯系統(tǒng)已經(jīng)有了明顯的進步。
參考文獻:
[1] 李明東,房愛東,盧彪,等.基于機器學習的硬件數(shù)據(jù)分析系統(tǒng)的實現(xiàn)[J].通化師范學院學報,2019,40(8):6-9.
[2] 王志.基于云計算和大數(shù)據(jù)的可視化環(huán)保設備監(jiān)管系統(tǒng)研究[J].山東工業(yè)技術,2017(12):165.
[3] 劉俊鵬,宋鼎新,張一鳴,等.多種數(shù)據(jù)泛化策略融合的神經(jīng)機器翻譯系統(tǒng)[J].江西師范大學學報(自然科學版),2020,44(1):39-45.
[4] 范敏.計算機輔助翻譯研究的語篇觀[J].復旦外國語言文學論叢,2018(1):154-161.
[5] 高夢璐.多策略融合的機器翻譯系統(tǒng)研究[J].校園英語,2018(15):239-240.
[6] 王明松.基于云計算的離岸船舶信息管理系統(tǒng)優(yōu)化設計[J].艦船科學技術,2018,40(2):172-174.
[7] 林寒.基于多語言交互的英語翻譯在線輔助系統(tǒng)設計[J].現(xiàn)代電子技術,2019,42(6):22-25.
【通聯(lián)編輯:代影】
收稿日期:2022-08-02
作者簡介:李春鳳(1979—) ,女,陜西彬州人,碩士,主要研究方向為翻譯系統(tǒng)構建。