胡惟儀 郭心宇 周子奇 安冠華 孫睿
【摘要】自然語言處理(NLP)作為人工智能(AI)的子領(lǐng)域,近年來發(fā)展勢頭迅猛,而自然語言處理在語言學(xué)發(fā)展和社會發(fā)展層面也功不可沒,本文旨在研究NLP在上述兩個層面發(fā)展歷程極其意義。
【關(guān)鍵詞】自然語言處理;語言學(xué);發(fā)展影響
【作者簡介】胡惟儀(1998.08.09-),女,東北林業(yè)大學(xué)外國語學(xué)院,本科;郭心宇,周子奇,安冠華,孫睿,東北林業(yè)大學(xué)大學(xué)外國語學(xué)院。
【基金項目】本論文為東北林業(yè)大學(xué)大學(xué)生創(chuàng)新訓(xùn)練項目成果(項目編號:201910255275)。
一、NLP定義
NLP(Natural Language Processing),即自然語言處理,是人工智能領(lǐng)域以及計算機科學(xué)領(lǐng)域的一個重要研究與運用對象。自然語言處理的主要研究目標和內(nèi)容為人類與計算機之間如何運用自然語言進行真實而有效的溝通。
二、NLP發(fā)展歷程
眾所周知,語言行為是人類區(qū)別其他動物的本質(zhì)特性,語言承載著人類的邏輯思維方式,是交流溝通的重要渠道。從語言的發(fā)生與目的角度來看,語言行為也可看成是一項施動行為。在該層面下,從嚴格意義上來講,語言等同于人類溝通過程中所使用的指令,即自然語言。而隨著科學(xué)技術(shù)的日益發(fā)展與壯大,人類與計算機之間進行真實有效溝通的目的、僅憑計算機語言的應(yīng)用已無法全面達成與滿足。因此,無論是從計算機科學(xué)發(fā)展的角度,還是從人類更好地掌握與操控計算機的角度去思考,利用自然語言實現(xiàn)計算機的運行需求亟待滿足,這也就是將自然語言跨界運用到計算機科學(xué)領(lǐng)域這一重大突破的伊始。這一將人類日常生活中所使用的自然語言融合到計算機科學(xué)中、從而達到人與機器自由交流的過程即為NLP,自然語言處理。自然語言處理作為一個多邊緣的交叉學(xué)科,其研究以語言學(xué)為主,涉及計算機科學(xué)、數(shù)學(xué)、心理學(xué)、哲學(xué)、邏輯學(xué)、統(tǒng)計學(xué)、電子工程學(xué)、生物學(xué)等各個領(lǐng)域。其所涉及學(xué)科的多樣性造就了研究自然語言處理的復(fù)雜性與特殊性,也注定了實現(xiàn)人與機器交流的過程必將是困難重重的。從現(xiàn)已掌握的理論和技術(shù)方面來看,研究出高效的、優(yōu)質(zhì)的自然語言處理系統(tǒng),仍然是科學(xué)界需要長期努力達成的目標。但是針對一些較低需求的應(yīng)用,具備基本自然語言處理能力的實用性系統(tǒng)已經(jīng)成功研制出,有些甚至已經(jīng)商品化、普遍化,甚至開始產(chǎn)業(yè)化。人類日常生活中典型的運用自然語言處理系統(tǒng)的例子有:各種機器翻譯系統(tǒng)、手機語音助手、自動文摘系統(tǒng)等。這些產(chǎn)品的普遍應(yīng)用便是自然語言處理在計算機科學(xué)下所達成成就的見證。
迄今為止,自然語言處理的發(fā)展已歷經(jīng)了四個重要時期,分別為萌芽期、快速發(fā)展期、低谷發(fā)展期以及復(fù)蘇融合期。1956年以前可看作是自然語言處理的初生萌芽期,一方面,人類文明經(jīng)過幾千年的發(fā)展,在語言學(xué)、數(shù)學(xué)、物理學(xué)等方面積累了大量的原始材料,夯實了自然語言處理的基礎(chǔ)理論知識。另一方面,第一代電子計算機的誕生不僅為自然語言處理的應(yīng)用提供了物質(zhì)基礎(chǔ),還引發(fā)了社會層面對機器翻譯的需求,推動了自然語言處理的基礎(chǔ)研究。另外,1952年貝爾實驗室對語音識別系統(tǒng)的研究以及1956年人工智能的誕生等該時期內(nèi)的相關(guān)研究的發(fā)展也為自然語言處理提供了技術(shù)鋪墊。第二個階段為1957年至1970年的快速發(fā)展時期,在這一時期內(nèi)自然語言處理以極快的發(fā)展趨勢迅速融入了人工智能領(lǐng)域。其主要研究人員也因研究方法的不同而被分為兩派,一派是基于規(guī)則方法的符號派;一派是采用概率方法的隨機派。符號派學(xué)者著重于形式語言理論以及生成句法的研究,于60年代末期又進行了形式邏輯系統(tǒng)的研究。而隨機派學(xué)者采用基于貝葉斯方法的統(tǒng)計學(xué)研究方法,在這一時期也取得了很大的進步。在隨后的1971年至1993年間,自然語言處理的研究因人們逐漸發(fā)覺自然語言處理的應(yīng)用難以實現(xiàn)而到達了低速發(fā)展時期,難以取得重大研究成果。90年代中期之后,受計算機飛速發(fā)展以及網(wǎng)絡(luò)技術(shù)日益完備的刺激,自然語言處理的研究得到了復(fù)蘇與發(fā)展。至今已取得了諸如NLP的神經(jīng)網(wǎng)絡(luò)、注意力機制、預(yù)訓(xùn)練語言模型等多項具有里程碑意義的研究成果。
三、NLP四方面影響
自然語言處理,作為人工智能(AI)的子領(lǐng)域,是一種高科技新興技術(shù)。而自然語言處理的意義在于深度學(xué)習(xí),快速應(yīng)用,提供就業(yè)崗位,對語言學(xué)發(fā)展的反饋。1.從自然語言處理這個研究領(lǐng)域發(fā)展出一批極具增長潛力的有用的應(yīng)用程序。以下是其中幾個:拼寫檢查,關(guān)鍵字搜索,查找同義詞,從網(wǎng)站提取信息,分析機器翻譯口語對話系統(tǒng),復(fù)雜的問答系統(tǒng)。事實上,這些應(yīng)用程序已經(jīng)在工業(yè)中得到了廣泛應(yīng)用,例如,從搜索(書面和口頭)到在線廣告匹配。2.具有先進功能和改進性能的新模型和算法:其能夠靈活地表示算法本身,更有效地端到端聯(lián)合系統(tǒng)學(xué)習(xí),更有效地在各項任務(wù)之間的轉(zhuǎn)移學(xué)習(xí)方法,以及更好地正則化和優(yōu)化方法。大多數(shù)機器學(xué)習(xí)方法都能很好的工作。深度學(xué)習(xí)提供了一個非常靈活,通用且可學(xué)習(xí)的框架,用于呈現(xiàn)視覺和語言信息的世界。3.人工智能的發(fā)展是大勢所趨,當前從事互聯(lián)網(wǎng)的人們已經(jīng)制造出了海量的數(shù)據(jù),未來還將繼續(xù)持續(xù),其中包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)、云計算技術(shù)共同整合使得結(jié)構(gòu)化數(shù)據(jù)技術(shù)基本趨向成熟和穩(wěn)定,而半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),因其自身的復(fù)雜性,在當前和未來更多領(lǐng)域應(yīng)用都具有很大的困難和挑戰(zhàn)。而當前市場對于 NLP 技術(shù)人才的需求又非常急切,而且這種狀態(tài)將持續(xù)5-10年,大部分企業(yè)需要懂NLP技術(shù)的人來處理海量非結(jié)構(gòu)數(shù)據(jù)。在這個市場缺口下,這種技術(shù)將會催生很多人才。這不僅是對自己的肯定,也是對自己未來的規(guī)劃的認同。這種人才無疑是搶手的、待遇好的、發(fā)展?jié)摿Υ蟮?。在BOSS直聘上,對 NLP 技術(shù)人員的待遇需求中,僅僅是NLP開發(fā)工程師的薪資在30-60k。4.一般認為,自然語言處理是人工智能和語言學(xué)的交叉學(xué)科。但是,從其發(fā)展歷程上來看,基本上還是由計算機科學(xué)家主導(dǎo)的一個研究領(lǐng)域,語言學(xué)家往往是起到輔助性的作用。甚至于,在其發(fā)展歷史的許多階段都沒有語言學(xué)家的直接參與。然而,無論從其發(fā)展歷程、現(xiàn)狀和發(fā)展策略上來看,似乎都可以看到語言學(xué)理論的影子。目前,計算機學(xué)習(xí)和使用自然語言的研究成果會對語言習(xí)得、語言學(xué)習(xí)和語言使用的研究提供新的啟發(fā)。
四、結(jié)語
由此可以看到,在人工智能發(fā)展得如火如荼的今天,自然語言處理似乎被人們揭開了神秘的面紗,本文只是列舉了很少的一部分,但相信也會有待查明的理論問世,到那時自然語言處理就更會為我們的生活增添上濃墨重彩的一筆!
參考文獻:
[1]馮志偉.自然語言處理的學(xué)科定位[J].解放軍外國語學(xué)院學(xué)報, 28,3,2005,5.
[2]Byte貓.自然語言處理的發(fā)展歷程[J].簡書,2019,3.
[3]百度百科NLP詞條[OL].
[4]易水寒.NLP的介紹和如何利用機器學(xué)習(xí)進行NLP以及三種NLP技術(shù)的詳細介紹,2018,6.
[5]Boss直聘NLP相關(guān)數(shù)據(jù)[OL].
[6]徐大明.語言學(xué)理論對自然語言處理的影響和作用[J].云南師范大學(xué)學(xué)報,2017,5.
[7]張一凡,徐蔚然.基于文檔頻率的分級主題模型[D].北京郵電大學(xué),2011.