• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    國內(nèi)外機器翻譯比較研究—基于百度和谷歌在線翻譯調(diào)查

    2018-06-05 10:18:28施雪琴吳蘭香魯明易
    卷宗 2018年8期
    關鍵詞:機器翻譯

    施雪琴?吳蘭香?魯明易

    摘 要:國內(nèi)外人工智能飛速發(fā)展,機器翻譯質(zhì)量近幾年有了明顯提升。通過短語,句子和段落三個層面分析對比谷歌和百度在線翻譯,分析國內(nèi)機器翻譯的不足之處,在此基礎上提出建議,以期為國內(nèi)的機器翻譯發(fā)展提供些許啟發(fā)。

    關鍵詞:機器翻譯;百度翻譯;谷歌翻譯;機器翻譯比較

    基金項目:中央高?;究蒲袠I(yè)務費專項資金資助和江蘇省研究生科研與實踐創(chuàng)新計劃項目(SJCX17_0080)

    一、前沿

    機器翻譯是利用計算機把一種自然語言轉化成另一種自然語言的過程。機器翻譯研究有著重大的社會,經(jīng)濟和科學價值。近年來,隨著科學技術的迅猛發(fā)展,各國交流頻繁,克服語言障礙,實現(xiàn)跨語言的自由溝通的需求逐漸增強。機器翻譯涉及到人類對自身翻譯的認知,也涉及到人工智能和軟件工程等眾多其他學科。

    據(jù)戴新宇(2004)所言,機器翻譯是上世紀40年代英美工程師提出的用計算機進行翻譯的方法。隨著國際性的關于機器翻譯研究會議的頻繁召開,很多外國互聯(lián)網(wǎng)企業(yè)都對機器翻譯進行投資。常寶寶(1998)在《機器翻譯研究的現(xiàn)狀和發(fā)展趨勢》提到我國對計算機研究開始于1956年,1987年軍事科學院成功研制出“科譯1號”,這一切標志著我國在機器翻譯上的極大進步。對于機器翻譯的研究中國在近幾年也是投入了大量人力和物力。劉洋(2017)談到早在2015年百度就已經(jīng)發(fā)布了基于深度神經(jīng)網(wǎng)絡的端到端翻譯系統(tǒng),微軟的必應翻譯也同樣使用神經(jīng)網(wǎng)絡技術來改善自身的翻譯質(zhì)量。楊森(2011)形容當時的谷歌在線翻譯質(zhì)量雖然無法達到令人滿意的程度,但前景極其樂觀。龐斌(2016)則提到谷歌公司于2016年最新發(fā)布的神經(jīng)機器翻譯系統(tǒng)使用了當前最先進的訓練技術,能夠實現(xiàn)當下機器翻譯質(zhì)量上最大的提升。與傳統(tǒng)的基于短語的翻譯相比,基于神經(jīng)網(wǎng)絡的翻譯系統(tǒng)對輸入的整個句子進行編碼,能夠更充分的利用上下文信息,生成較高質(zhì)量的譯文。目前所采用的神經(jīng)機器系統(tǒng)的翻譯確實好于以前的短語翻譯,但就翻譯的準確度來說,還是與人工翻譯存在差距。張周(2013)曾就谷歌和百度漢譯英的翻譯文本進行比較,更加全面的指出并分析了國內(nèi)外機器翻譯的水平和現(xiàn)狀。杜金華(2013)認為,機器翻譯技術只有真正實用化才能體現(xiàn)其價值。要更多地從用戶角度去開發(fā)和應用機器翻譯系統(tǒng),才能更好地爭取用戶,服務社會。胡宇涵(2013)認為目前的機器翻譯仍然無法達到全自動高質(zhì)量的目標。馮靜(2009)提出雖然國內(nèi)的機器翻譯能夠提供一定質(zhì)量的譯文,但其準確性和可讀性仍然不強。鄒玥俐(2016)指出隨著人工智能技術的不斷進步,國內(nèi)外的機器翻譯研究都會有更大的發(fā)展。

    本研究通過查找相關的文獻和資料,對比谷歌和百度在線翻譯的文本。同時進行訪問調(diào)查、對比研究谷歌和百度翻譯軟件。從短語、句子和段落三個層面對這兩類在線翻譯軟件的精確度進行比較,分析對比谷歌和百度在線翻譯。在此基礎上,分析當前國內(nèi)機器翻譯存在的局限性,同時針對這些問題提出解決方案,為中國機器翻譯的發(fā)展提供一些可行性建議。

    二、國內(nèi)外機器翻譯現(xiàn)狀

    最早的機器翻譯就是基于詞和語法規(guī)則,隨后出現(xiàn)統(tǒng)計機器翻譯方法,通過統(tǒng)計分析大量的平行語料庫,發(fā)現(xiàn)詞組規(guī)則,進行精準翻譯。雖然詞語翻譯基本可以做到準確,但是句子和段落翻譯還是存在很多誤譯的地方。直到近幾年神經(jīng)網(wǎng)絡翻譯的推出,機器翻譯可以模擬人腦神經(jīng)的層級結構,對信息進行抽象分析,自動識別語言規(guī)則和模式,做到精準翻譯。谷歌和百度在線翻譯是目前國內(nèi)用戶首選的兩類翻譯軟件。谷歌翻譯是谷歌公司推出的針對文本、語音和圖像等多語種的翻譯。谷歌翻譯的工作本質(zhì)是基于多種語言的平行語料庫,結合統(tǒng)計和數(shù)學的方法,構建大數(shù)據(jù)分析模型挖掘各種語言間的內(nèi)在規(guī)律。谷歌翻譯不受原文字數(shù)的限制,具有超強的檢索功能,可以從事幾乎所有行業(yè)的翻譯。在2016年,谷歌公司將全產(chǎn)品線的翻譯算法換成了基于神經(jīng)網(wǎng)絡的機器翻譯系統(tǒng),使用最先進的訓練技術,翻譯質(zhì)量有了較大提升。深度神經(jīng)網(wǎng)絡提倡的是用深層的網(wǎng)絡結構去直接學習擬合源語言到目標語言的概率。百度在線翻譯曾在2015年獲國家科技進步獎。就目前而言,百度翻譯突破了機器翻譯領域內(nèi)的四大世界難題:提出基于大數(shù)據(jù)的互聯(lián)網(wǎng)機器翻譯模型,快速響應高負荷翻譯需求;基于大數(shù)據(jù)的翻譯知識獲取,克服語言數(shù)據(jù)噪聲問題;通過深度語義分析和翻譯技術,減少語義歧義;提出樞軸語言機器翻譯技術,實現(xiàn)了稀缺語種的多語言翻譯。百度和谷歌先后推出神經(jīng)網(wǎng)絡翻譯系統(tǒng),相比之前短語翻譯的優(yōu)勢,現(xiàn)在的神經(jīng)網(wǎng)絡翻譯更加擅長處理句子翻譯?;谏疃葘W習的神經(jīng)網(wǎng)絡,可以更好的學習人類的語序模式,長句翻譯更加流暢。無論是谷歌還是百度翻譯,其前景都是一片光明。

    三、谷歌和百度翻譯文本比較

    這次文本選擇是中譯英和英譯中的通用類文本,句子結構不復雜,邏輯清楚,無生僻的詞語。從短語、句子和段落三個層面來進行分析。

    在短語方面,筆者采用了通用的專有詞語,進行翻譯比較。中譯英翻譯“跑龍?zhí)住保俣确g為“play a bit role”,谷歌的翻譯則為“play a small role”。在這里,百度和谷歌翻譯其實相差不大,基本上把詞語的意思已經(jīng)解釋出來?!耙获R當先”,百度和百度的解釋都為“take the lead”,兩個翻譯軟件的四字成語的解釋英譯中的詞語翻譯,筆者首先選擇了英文常見的習語,而非簡單的生活用語?!癓ike father like son”百度和谷歌翻譯的解釋都為“有其父必有其子”,接著筆者繼續(xù)測試其他英語通用類的詞語短語,谷歌和百度翻譯的輸出結果都不錯。就常用詞語層面來說,百度和谷歌翻譯已經(jīng)做到準確無誤的進行翻譯??紤]到谷歌十年前發(fā)布的谷歌翻譯,核心算法就是基于短語的機器翻譯,到目前為止,谷歌和百度在短語方面的中譯英和英譯中翻譯,都能夠做到準確無誤。

    在句子方面,筆者采用一些常用的中英文句子進行翻譯比較。中譯英 “對于未來,我有很多期待”,百度解釋為“I have a lot of expectations for the future”,谷歌的解釋為“For the future, I have many expectations”,谷歌和百度對這一句話的解釋,可以說是基本一致。當然句子本身難度不大,不存在專業(yè)詞匯和文化內(nèi)涵。而中譯英“創(chuàng)業(yè)能成功,就是既要能吃豬肉,也要能跟豬跑”,百度的翻譯為“The success of a business is not only to eat pork but also to run with the pig.”而谷歌的翻譯則為“Entrepreneurship can be successful, it is necessary to eat pork, but also with the pig run”。對于這句話的翻譯百度明顯好于谷歌。谷歌這句翻譯存在語法錯誤,過于緊貼原文,雖然將意思表達出來了,但語法錯誤明顯。百度兼顧語意和語法,準確地將這個句子翻譯出來。英譯中的句子“this is by far the largest cake in the world” 的百度翻譯為“這是目前世界上最大的蛋糕了”,而谷歌的翻譯為“這是迄今為止世界上最大的蛋糕”。兩個翻譯軟件在這里都能夠準確翻譯,當然此句無復雜的從句和單詞,句子比較簡單。英譯中的句子“The people who get on in this world are the people who get up and look for circumstances they want, and if they cannot find them, make them.” 百度翻譯為“人的誰得到在在這世界是的人誰得到了和看為情況他們想,和如果他們不能找到他們,使他們”。谷歌的翻譯為“誰在這個世界上取得成功的人是誰起床去尋找他們想要的機會,如果他們無法找到他們,讓他們”。就原句翻譯來說,谷歌和百度的翻譯都沒有準確將意思表達出來,但谷歌已經(jīng)將句子大意翻譯出來,百度存在明顯語病,整句翻譯無任何邏輯性,屬于誤譯。雖然谷歌的翻譯與人工翻譯存在一定差距,但已基本遵從原句翻譯出來。翻譯的原則是忠實原文,其次才可以根據(jù)原文翻譯進行修飾。顯然,谷歌英譯中做得比百度好一些。

    中譯英段落翻譯,筆者選取了一篇介紹新疆風土人情的報道。用詞簡單,無長難句?!靶陆吞锏貐^(qū)是維吾爾族群眾聚居地,人均耕地面積不足1畝。地處邊遠,交通不便,遠離國際、國內(nèi)市場,嚴酷的氣候條件,頻繁的風沙災害,惡劣的生態(tài)環(huán)境,是造成和田貧困的客觀因素之一?!卑俣确g的解釋為“Xinjiang Hetian area is a habitation of Uygur people, and the per capita arable land is less than 1 mu. Remote location, inconvenient transportation, far away from international and domestic market, severe climate conditions, frequent wind and sand disasters, and harsh ecological environment are one of the objective factors causing poverty in Hotan.”谷歌翻譯的解釋為“The Hetian area in Xinjiang is a Uighur populace, with arable land per capita of less than 1 mu. It is one of the objective factors causing Wada poverty because of its remoteness and inaccessibility. It is far away from international and domestic markets, harsh climatic conditions, frequent sandstorms and harsh ecological environment.”百度和谷歌對此句的解釋都準確,只不過采用不同的語法。百度是兩個并列句,谷歌則是用了主語加狀語從句。而且百度翻譯將大量名詞短語前置,造成頭重腳輕之感,而谷歌則將原文句子,直接斷開,存在理解偏差,在這里,百度的解釋好于谷歌。

    英譯中 “Slowing economic growth, an anti-corruption campaign that greatly reduced liquor ads, and tightened advertising regulations for pharmaceutical products all contributed to a drop in advertising revenue this year.”百度翻譯為“經(jīng)濟增長放緩,一場大大減少了酒類廣告的反腐敗運動,以及對藥品廣告的嚴格監(jiān)管,都促成了今年廣告收入的下降。”谷歌的翻譯為“經(jīng)濟增長放緩,大幅度減少酒類廣告的反腐運動以及收緊藥品廣告法規(guī)等都促成了今年廣告收入的下滑?!睙o論是谷歌翻譯還是百度翻譯,都能夠做到忠實原文,準確翻譯。兩個翻譯軟件的區(qū)別就在于中文語言層面的表達,對第一個名詞短語,兩個翻譯軟件譯文相同,第二個名詞短語翻譯,而谷歌對第三個名詞的短語的翻譯,緊貼原文,采用收緊法規(guī),并非地道的中文表達。英譯中段落翻譯“With Chinas economy slowing, net advertising revenue growth slowed from 16 percent in 2014 to 7 percent in 2015. Reaching just 375.2 billion Chinese yuan ($64.1 billion), the industry fell to single-digit growth for the first time since 2010”,百度的翻譯為“隨著中國經(jīng)濟的放緩,網(wǎng)絡廣告收入增長從16%下降到2014 7% 2015。僅3752億元人民幣(641億美元),該行業(yè)自2010以來首次跌至單位數(shù)增長”,谷歌的翻譯為“隨著中國經(jīng)濟增長放緩,廣告收入凈增長率從2014年的16%下降到2015年的7%。僅達到3752億元人民幣(合641億美元),2010年以來首次出現(xiàn)了單位數(shù)增長”。這段包含數(shù)字的英譯中翻譯里,谷歌的翻譯版本明顯比百度的版本通暢,整段話無任何生僻詞匯以及復雜句型。

    筆者除測試了以上所舉例子外,也測試大量的詞語,句子和段落在百度和谷歌的翻譯解釋,同時參考部分文獻,最后得出結論:雖然機器翻譯的整體質(zhì)量還需要進一步提高,但是谷歌翻譯的綜合質(zhì)量好于百度翻譯。谷歌的翻譯系統(tǒng)是基于神經(jīng)網(wǎng)絡,并且不斷采取優(yōu)化措施解決神經(jīng)網(wǎng)絡的弱點,例如:使用了低精度的算法;加入了長度規(guī)范化和獎勵懲罰,對翻譯過程中產(chǎn)生的長度不同的句子處理更高效,并且減少了模型的漏翻。

    四、國內(nèi)機器翻譯的局限性

    (一)、翻譯質(zhì)量

    基于上述分析,國內(nèi)機器翻譯質(zhì)量仍存在以下兩個問題。第一,存在歧義的語句,即相同的句子可能存在幾種解釋。句子歧義可能由斷詞,句法和語意造成。例如,句法完全相同的句子翻譯,需要依靠常識選擇最準確的翻譯,而非文字的字面意思。此外,有些歧義句的翻譯,需要結合上下文語境進行分析,人工翻譯以篇章為單位,可以兼顧原文的主旨和意境。而且,機器翻譯一般都是遵從逐句翻譯,缺少意譯。第二,不符合正常的語法。在日常交流中,除了一些用詞嚴謹要求甚高的專業(yè)文章,有些文章會選擇術語行話。此外,一些文章也會存在單詞拼寫錯誤,或者選用最新的專有名詞。人工譯員在具備該學科背景的條件下,可以減少這一類的翻譯錯誤。當機器翻譯面對含有不明詞匯的短語,或存在拼寫錯誤的單詞,或不符合文法的語句時,其翻譯結果經(jīng)常是直接跳過該詞語翻譯,或者翻譯出的語句存在明顯的語法錯誤。

    (二)、翻譯算法

    百度和谷歌翻譯先后推出了神經(jīng)網(wǎng)絡算法,可以對整個句子的信息解碼編碼,生成出最后的結果。谷歌翻譯基于神經(jīng)網(wǎng)絡的翻譯算法,可以較好的學習到語序模式,長句翻譯可以做到更流暢。百度的神經(jīng)網(wǎng)絡算法生成整句內(nèi)容。這是因為算法把句子當做單獨的序列,所以無論短語和單詞是否正確,都必須生成句子。并且,語位關系與動詞的翻譯經(jīng)常出錯。百度翻譯很難判斷這一類的常識問題,而對于句子的理解,很多時候是依靠常識,而神經(jīng)網(wǎng)絡算法則是依照語法規(guī)則進行翻譯,翻譯結果會存在歧義。神經(jīng)網(wǎng)絡算法很難辨別不同的文體,這也是機器翻譯最難學習的一部分。

    四、建議

    (一)、強化數(shù)據(jù)庫

    百度和谷歌的競爭存在差異化,谷歌由于覆蓋全球市場,因此不可能在各個國家都實現(xiàn)最優(yōu),而百度則更注重國內(nèi)市場。國內(nèi)機器翻譯需結合自身優(yōu)勢,利用好中英語料庫,更好地為中英翻譯者服務。例如,強化機器學習使用的用戶數(shù)據(jù)庫,激發(fā)互動。在機器學習的原理當中,最好的學習途徑是對錯誤樣本進行糾錯。調(diào)動用戶主動糾錯翻譯結果,并據(jù)此建立數(shù)據(jù)庫,或許是非常便捷的辦法。并且國內(nèi)機器翻譯公司應該加大投資,進一步建立垂直領域數(shù)據(jù)庫,提高自身的硬實力。

    (二)、引進其他人工智能技術

    近階段,關于機器翻譯的技術突破往往來自其他人工智能領域。比如注意力模型,是來自Deepmind在機器視覺領域的技術構想。國內(nèi)機器翻譯公司應主動引入其他領域的算法和模型,并應用在翻譯領域,可能會有意想不到的效果。

    (三)、嘗試弱監(jiān)督學習:目前,國內(nèi)的神經(jīng)網(wǎng)絡算法,歸根結底是個有監(jiān)督的學習過程。國內(nèi)機器翻譯公司可以嘗試一些深度學習架構,讓翻譯系統(tǒng)自我優(yōu)化,提高翻譯文本的質(zhì)量。

    五、總結

    雖然機器翻譯前景一片光明,有著很好的發(fā)展?jié)摿?,但是國?nèi)的機器翻譯相比國外的機器翻譯,翻譯的文本之間仍有一定的差距。國內(nèi)機器翻譯應強化自身優(yōu)勢,發(fā)現(xiàn)不足,提高翻譯質(zhì)量和算法。本文在實踐調(diào)查的基礎之上提出一系列建議,以期為國內(nèi)的機器翻譯發(fā)展提供些許啟發(fā)。

    參考文獻

    [1]常寶寶, 張偉.機器翻譯研究的現(xiàn)狀和發(fā)展趨勢[J].產(chǎn)品安全與召回, 1998(2):32-35.

    [2]戴新宇, 尹存燕, 陳家駿,等.機器翻譯研究現(xiàn)狀與展望[J].計算機科學, 2004, 31(11):176-179.

    [3]馮靜.談我國幾種機器翻譯軟件[J].商業(yè)文化月刊, 2009(4):289.

    [4]胡宇涵.機器翻譯的現(xiàn)狀及面臨的問題[J].商丘職業(yè)技術學院學報, 2013, 12(1):81-82.

    [5]黎斌, 唐躍勤.談我國機器翻譯軟件[J].成都師范學院學報, 2004, 20(3):52-53.

    [6]劉洋.神經(jīng)機器翻譯前沿進展[J].計算機研究與發(fā)展, 2017.

    [7]龐斌.機器翻譯——從統(tǒng)計學方法到神經(jīng)網(wǎng)絡[J].數(shù)字通信世界, 2016(12).

    [8]楊森.談機器翻譯系統(tǒng)的使用心得——以谷歌在線翻譯為例[J].濟寧學院學報, 2011, 32(6):122-125.

    [9]張周.百度翻譯和谷歌翻譯的較量——以漢譯英翻譯為例[J].科海故事博覽·智慧教育, 2013.

    [10]鄒玥俐. 機器翻譯不可盲取[J]. 科教導刊:電子版, 2016(23):100-101.

    猜你喜歡
    機器翻譯
    海量數(shù)據(jù)機器單詞中關鍵語義篩選方法研究
    機器翻譯不可盲取
    青春歲月(2017年1期)2017-03-14 11:28:47
    信息時代下機器翻譯的“可譯”與“不可譯”
    互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
    考試周刊(2017年2期)2017-01-19 09:13:50
    “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復興
    考試周刊(2017年2期)2017-01-19 09:12:54
    大數(shù)據(jù)背景下石油科技翻譯
    智富時代(2016年12期)2016-12-01 17:03:10
    機器翻譯不可盲取
    基于免費在線翻譯工具的機器翻譯缺陷探討
    漢哈機器翻譯中的文字轉換技術研究
    機器翻譯句法錯誤分析
    达日县| 永泰县| 嘉兴市| 乐陵市| 东乌珠穆沁旗| 怀柔区| 岳阳市| 隆子县| 田东县| 年辖:市辖区| 息烽县| 安溪县| 大冶市| 朔州市| 改则县| 莱阳市| 常山县| 浑源县| 英吉沙县| 昭苏县| 杭锦后旗| 中山市| 浦县| 湟中县| 育儿| 双峰县| 红安县| 平潭县| 扎囊县| 毕节市| 海林市| 双城市| 巴彦县| 蓝山县| 南雄市| 巴彦县| 锦州市| 囊谦县| 商河县| 阜新| 安化县|