柴晨陽
摘要:自然語言處理中的一個重要內容是機器翻譯,為了滿足人們日常生活與工作中的各種語言需求,自然語言處理技術經過發(fā)展與不斷的改進,最后與機器語言相融合,在此基礎上對處理其他自然語言任務也發(fā)揮著重要的作用。本文首先闡述了自然處理的基本理念,隨后通過相關的案例說明如何運用自然語言處理在機器翻譯中發(fā)揮作用。做出對機器翻譯發(fā)展的預判,使得人們能夠更加深刻的理解自然語言與機器翻譯之間的聯系,為日后相關研究奠定基礎。
關鍵詞:自然語言處理;機器翻譯;運用?中圖分類號:TU?文獻標識碼:A?文章編號:(2021)-06-146
前言:自然語言作為一門較為冷門的學科,基于語言學、計算機、數學的發(fā)展而來,目前該學科與機器翻譯之間有著深刻的聯系,成為人工智能中需要迫切解決的重要問題之一,同時自然語言的發(fā)展奠定了基礎,兩者之間的關系變得更加緊密。隨著社會時代的發(fā)展,機器翻譯的需求日益增大,在人工智能的發(fā)展壯大過程中,機器翻譯理論成為未來發(fā)展的重要方向。
一、自然語言處理概要
自然語言處理的概念
自然語言處理又稱作為計算語言學,主要是以計算為基礎對自然語言進行處理的學科。自然語言處理可以簡單理解成通過研究人類間的語言交流來發(fā)展到人與計算機交流中,通過對自然語言的處理,建立常見的語言模型。結合日常人與人的交流特征對語言框架不斷進行優(yōu)化,同時在語言模型的基礎上,建立起完整的測評技術。
自然語言處理的過程
研究人員首先要總結人與人交流的語言習慣,將語言習慣轉變成語言搜集的問題。其次針對每一個語言問題,設計完整且系統(tǒng)的算法,然后根據算法來建立自然語言處理的模型。這種模型的建立需要不斷的測試與優(yōu)化,在處理過程中,應當深刻認識到自然語言處理涉獵的范圍非常廣泛,包括心理學、計算機、統(tǒng)計學等多種學科。把握自然語言處理的過程,能夠更好的理解自然語言如何運用在機器翻譯中。
自然語言處理的主要內容
自然語言處理包括的內容廣泛,如對內容進行細化,則可以將自然語言處理分為:語言、詞匯、語義等幾個重要方面。隨著計算機語言的快速發(fā)展,為自然語言處理提供了豐富的基礎,其中包括理論基礎,語言資源以及技術經驗。當前計算機行業(yè)已將語音識別運用于日常服務中,例如在乘坐飛機或者在電話聯系物流客服時,計算機能夠識別人類語言,然后根據已經建立的語言庫,對于常見問題進行機器式的回復。實現了智能的語言處理功能。目前如何完成計算機翻譯問題,是研究自然語言處理最大的問題。
二、自然語言處理的研究方式
自然語言處理的研究方法
自然語言處理的重要基礎之一是提供強大的數據支持,由于自然語言處理的主要方式基于對數據庫進行大量的統(tǒng)計,形成對文本處理的進一步拆分和理解,數據庫的不斷擴大依托于NLP應用的不斷發(fā)展。自然語言處理流程主要包括五個關鍵性步驟,其一是獲取相關的預料、其二是對已經獲取的物料進行預處理,包括對結構的拆分與詞匯的分析、其三是對物料進行量化與特征化,使得物料其中的規(guī)律能夠被自然語言處理系統(tǒng)識別、其四是數據模型的反復驗證,其中包括人工監(jiān)督,半人工監(jiān)督和無人工監(jiān)督的學習模型,通過大量的數據練習,來糾正自然語言處理過程中存在的一些問題、其五是對完善的數據模型效果進行評價,常用的評價標準主要包括:準確率、召回率等。
2.自然語言處理基礎研究之詞法分析
詞法分析的關鍵是對詞性的識別和詞義的解釋,主要流程是先對物料進行分詞、其次對物料中詞的詞性進行確認,最后識別詞的含義。詞性作為詞匯最重要的語法屬性,必須要根據具體的語境,能夠消除詞匯的歧義。其主要依托于分詞的準確性,在對特殊的詞匯例如人名、專有詞匯的標注。自然語言處理的詞法分析是通過已掌握的規(guī)則,基于龐大的數據不斷進行統(tǒng)計與學習的方式,來完善自然語言處理能力。
3.自然語言處理基礎研究之句法分析
句法分析的主要目的是為了確定句子中每個詞匯之間的規(guī)律,研究句子的句法結構,能夠真正技術上實現對句子結構關系的分析,對于具體的句法分析包括了完全句法分析和局部句法分析。完全的句法分析是根據現有數據模型中的分析方式來對句法進行解析,而局部分析僅需要對簡單的詞法進行分析。
4.自然語言處理基礎研究之語義分析
語義的分析基于不同的語言單位,在語義處理中,必須先對此進行詞義消除歧義,以及對特殊意義的詞匯進行標注。語義分析作為NLP發(fā)展的重要方向,還在不斷的研究與完善中發(fā)展。
5.自然語言處理基礎研究之語用分析
語用分析需要將文本中的文字描述與實際真實含義相對應,形成表意結果。發(fā)話者、受話者、話語內容與語境是語法分析的重要因素,發(fā)話者與受話者主要是指句子的發(fā)出者與接收者,而話語內容是指發(fā)話者的具體表達的結構,語境代表著話語內容傳遞過程中所處的環(huán)境。
三、機器語言及自然語言處理的發(fā)展策略
結合機器語言發(fā)展的歷程,我們可以感受到方法論與模型構建的核心技術是機器翻譯取得進步的動力來源,而其中提高進步的“物質基礎”主要是特殊的大數據,即雙語語料庫。在機器翻譯取得矚目成果的同時不難發(fā)現其依舊存在較大的局限性,主要體現在由于經濟市場互聯網公司的高速發(fā)展,其科研水平也具有較高的水平,使得高校的研究內容競爭力下降的情況。主要是由于以下問題:其一基于通用的計算裝置的內容,在通常情況下,神經機器翻譯模型在帶有attention機制的循環(huán)神經網絡中運行。通俗來說,機器翻譯中的源語言內容構成了序列對,而這個模型也是集中研究序列對。其次神經機器翻譯模型的性能在一定程度上取決于雙語語料庫的大小,高校受限于工程的能力與條件,其獲得數據庫的能力將會遜色于互聯網公司。最后設計并訓練神經機器翻譯模型需要以高強度的計算能力為基礎,進行不斷的摸索與實驗,才能真正得出相關的數據,而高效的計算能力有效且相關實驗手段與環(huán)境較差,相關烈度試驗在實施過程中難度較大。由此可以得出相關結論,高校對于神經機器機器翻譯的研究在各種基礎條件的限定下,其研究成果難以超過大型的互聯網公司,其次互聯網公司在人才方面也將比高校更具有優(yōu)勢,由于其較高的薪水與足夠的研發(fā)費用,使得高校在大數據模型的計算能力與分析能力上處于劣勢。國家應當就目前的狀況,對相關高校研究單位加大投入,才能使得機器翻譯能夠在未來的發(fā)展歷程中更加順利。國家需要從以下幾個方面入手,主要包括:其一是建立起國家級別的大規(guī)模學習計算平臺,通過規(guī)模龐大的計算平臺,能夠真正解決計算能力的局限。其二是建設國家級別的高水平豐富資料的雙語語料庫,語料庫也是開展機器翻譯研究的重要內容之一。其三應當加強對于創(chuàng)新技術的鼓勵,設立相關獎項,鼓勵相關研究人員發(fā)揮主觀能動性更加積極的投入到機器翻譯研究過程中。最后應當對特點條件下的神經機器翻譯模型進行改進設計,在面臨新的詞匯情況下,機器翻譯無法識別這些內容,而數據庫已有的數據模型無法對新型的詞匯進行識別,因而在研究設計過程中應當加強對機器翻譯模型的不斷更新,使其跟上時代快速發(fā)展的步伐才能做到真正為人類所用。但不斷對機器翻譯模型進行創(chuàng)新也是對于研究人員來說面臨著巨大的挑戰(zhàn)。
四、自然語言處理在機器翻譯中的實際運用
1.機器學習
通過機器來學習獲取額外的語言知識是自然語言處理的一個重要特征。機器學習為研究計算提供的方式,簡單的闡述即是:通過計算機采集的大數據中得到模型的算法,然后讓系統(tǒng)學習算法,最后將新的數據傳遞給計算機,在計算機中出現新的數據時,計算機可以根據現有的模型作出判斷,為人類節(jié)約了時間??偠灾瑱C器學習是為了提高效率,從而減少對大量數據的計算,最后基于大量數據的情況下建立模型,能夠科學為人類生活提供便利,并且在人類不斷使用與反饋中對模型不斷調整不斷完善,使得自然語言處理更加強大。
2.機器翻譯
機器翻譯是指在無人工的幫助下,將一種自然語言轉化成另一種自然語言。機器翻譯是自然語言處理研究課題中最主要的部分,其中的主要過程包括:數據的發(fā)掘、詞與字的分割、句法理解與分析等,機器翻譯是一項正在發(fā)展過程中的龐大工程。其中基于目前的翻譯方法可以將機器翻譯分為兩類:基于規(guī)則的機器翻譯方法和基于語言資料庫的機器翻譯方法。在機器翻譯中,在數據庫的基礎上進行翻譯的話,需要龐大的數據訓練庫來構建訓練模型。此外不同的數據類型將被優(yōu)化整合到對應的數據模型,語言模型真正建立后,將會提高翻譯的質量。
3.機器翻譯與人工翻譯的結合
機器翻譯作為人工翻譯的進階版,能夠協助人工翻譯減少相關工作人員的工作量,且在日常生活中提供便利。但機器翻譯在某些方面有待完善,需要人工翻譯才能真正理解待翻譯內容的含義。當前情況下,應當將機器翻譯與人工翻譯相結合,并且對兩者做出不同的分工,將會大大體會到機器翻譯帶來的便利程度。在未來計算機技術的發(fā)展過程中,翻譯智能水平將會得到質的飛越。但是目前情況下人工智能遠不能獨立服務于人類,需要與人工翻譯結合才能發(fā)揮出最佳效益。
五、自然語言處理應用與機器翻譯的研究趨勢
在目前來看,無論使用人工翻譯還是機器翻譯,翻譯的水準與翻譯者的目標差距較大,例如日常使用的谷歌翻譯、百度翻譯、金山詞霸等軟件。由于中英文語法差異較大,但軟件翻譯更多側重于對詞的翻譯,很難體現出對句子用法的翻譯,導致翻譯出的句子,語言結構混亂。促進語言翻譯優(yōu)化的主要目標是不斷進行自然語言處理,隨著時代的不斷發(fā)展,算法的不斷變革,數據規(guī)模將會越來越大,數據模型也將會更加完善。由于數據規(guī)模的不斷擴大,自然語言處理將會減少在數據挖掘方面的工作。而是更多依賴機器進行篩選。這些數據的采集并不能被即刻使用且做出進一步的研究結果,但未來的研究提供了更多的可能性。其次算法將會跟隨時代的發(fā)展潮流不斷革新,深度學習的方法也將運用到自然語言處理的發(fā)展中,最終產生更加完善與系統(tǒng)的機器翻譯方式,為翻譯結果的準確性提供保障。最后計算機的研究將更深層次的與機器翻譯技術結合,使得翻譯的質量與速度得到進一步發(fā)展。最終為消費市場所使用,使得人們的日常生活更加便利。
結束語:自然語言處理在計算機的快速發(fā)展中,與機器翻譯相聯系,在此領域中不斷得到新的突破,并且為其創(chuàng)新提供了方向。自然語言處理在機器翻譯中的創(chuàng)新運用,簡單介紹了自然語言處理的概念與特點。結合現代化的發(fā)展歷程,在未來計算機更加成熟的發(fā)展過程中,將會根據人類的特定需求,不斷完善其中的算法與模型,使其能夠更加智能化的服務于人類的生活與工作。
參考文獻
[1]陸正揚.基于計算機自然語言處理的機器翻譯技術應用與簡介[J].科技傳播,2019,11(22):140-141.
[2]葛運東,陳洪梅,姚建民.自然語言處理的技術和產業(yè)應用現狀與趨勢分析[J].產業(yè)與科技論壇,2019,18(17):113-114.
[3]趙園丁.淺談人工智能時代背景下自然語言處理技術的發(fā)展應用[J].辦公自動化,2019,24(10):63-64.
基金:江西省社會科學基金項目(基于語句數字表達式的機器翻譯研究,編號:18YY07)
江西財經大學?江西南昌?330013