孫偉博 張斌
摘要:本文介紹自然語言處理的相關(guān)技術(shù)和應(yīng)用,進(jìn)一步探索自然語言處理技術(shù)的發(fā)展前景,以促進(jìn)自然語言處理技術(shù)的不斷發(fā)展,應(yīng)對新時代的諸多挑戰(zhàn)。
關(guān)鍵詞:計算機技術(shù);自然語言;處理技術(shù);編程語言
自然語言處理技術(shù)就是使用計算機對自然語言的聲音、形狀和含義進(jìn)行處理。它以單詞,句子和文本為對象來執(zhí)行一系列的操作和處理,包括輸入、輸入、識別、分析、理解、生成等,自然語言處理過程主要涉及兩個方面:理解和生成。第一個涉及使用計算機實現(xiàn)自然語言理解,第二個涉及使用計算機支持的自然語言來表達(dá)意圖。
1 自然語言處理
1.1 自然語言處理技術(shù)概述
自然語言處理技術(shù)由于其巨大的應(yīng)用環(huán)境和發(fā)展?jié)摿?,己成為語言學(xué)、計算機科學(xué)和數(shù)學(xué)等專業(yè)的交叉學(xué)科。人類可以使用自然語言來傳達(dá)思想,并在人際交流和社會組成中發(fā)揮巨大作用。此外,人類還使用自然語言來思考和理解事物的本質(zhì)和規(guī)律。人類沒有表達(dá)手段就無法思考,人類每次思考實際上就等于與自己對話??梢哉f,沒有自然語言,人類社會的科學(xué)技術(shù)的發(fā)展就不可能有序地進(jìn)行。自計算機誕生以來,人與計算機之間的交互只能通過以編程語言(例如Basic,Pascal,C,Lisp和其他計算機編程語言)編寫的代碼來實現(xiàn)。就計算機而言,它只能基于二進(jìn)制指令來響應(yīng)不同的行為。程序員通常在此過程中扮演翻譯角色,計算機可以完成我們想做的任務(wù),但是不懂我們的語言。如果計算機能夠直接理解我們的命令,這就是為什么自然語言處理是人與計算機之間的橋梁。
1.2 自然語言處理技術(shù)困難
為了解釋自然語言處理過程中遇到的困難,我們可以從編程語言和自然語言之間的區(qū)別入手。用編程語言編寫代碼實際上是使用該語言提供的元結(jié)構(gòu)來組織、構(gòu)建和創(chuàng)建新模型。所謂的元結(jié)構(gòu)是編程語言中必不可少的基本指令集。程序員可以使用這些指令集執(zhí)行復(fù)雜的組合,以實現(xiàn)其所需的功能。從邏輯的角度來看,程序的設(shè)計必須非常嚴(yán)格,因此,這些元結(jié)構(gòu)在開發(fā)之初就具有固定且嚴(yán)格的邏輯含義,并且這些元結(jié)構(gòu)的數(shù)量是有限的。人類使用的自然語言最大區(qū)別在于其邏輯局限性。由于自然語言不是組織開發(fā)的,因此它在日常生活中不斷變化。因此,任何自然語言的詞匯都會增長,并且隨著社會的不斷變化,詞匯也會表現(xiàn)出歧義或改變。數(shù)據(jù)的巨大增長增加了自然語言處理的復(fù)雜性。與只能具有數(shù)百個元結(jié)構(gòu)的編程語言相比,自然語言處理的困難顯而易見。但是,這只是詞匯問題。更為困難的問題是自然語言在邏輯上并不嚴(yán)格??梢允褂孟嗤恼Z法規(guī)范組合大量詞匯并具有有不同的含義。大量的元結(jié)構(gòu)和難以分析的語法為計算機識別自然語言帶來了巨大的問題。
1.3 自然語言處理技術(shù)嘗試
科學(xué)家普遍認(rèn)為,要使計算機理解我們的語言,首先必須具有人類智能,并且計算機理解自然語言的方式必須與人類相同或類似。受傳統(tǒng)語言學(xué)的影響,分析句子和導(dǎo)出語義是一種普遍的做法。首先將單詞的含義轉(zhuǎn)換為映射關(guān)系,然后使用語法規(guī)則對其進(jìn)行分析。在此之前,人類必須手動概括語法規(guī)則,然后輸入適當(dāng)?shù)囊?guī)則,以便計算機可以理解它們。但是,在實踐中,發(fā)現(xiàn)一些易于理解的句子包含大量的語法規(guī)則。這種方法更像是一種笨拙的系統(tǒng),對于己定義的規(guī)則,人類通常認(rèn)為這些語法規(guī)則很難理解。本質(zhì)上,這是因為自然語言是通過使用出現(xiàn)的,而不是由規(guī)則定義的,即使可以完整地找到這樣的語法規(guī)則,也很難在計算機上使用它們。另外,對語法和單詞含義的分析仍然不能解決自然語言的上下文相關(guān)特征。當(dāng)使用編程語言時,由于語法的邏輯非常嚴(yán)格,并且設(shè)計過程是設(shè)計者將其思想轉(zhuǎn)換為程序可以理解的句子,因此這些功能使計算機可以理解編程語言。就自然語言而言,除了上述問題外,它還與自然語言的語境有關(guān)。由于使用自然語言句子來促進(jìn)人與人之間的交流,因此計算機是否理解它們并不重要。因此,該句子在邏輯上并不嚴(yán)格,在這種情況下,通常必須理解該句子的含義,即使了一句話,也包含了人類社會建立的一些常識或經(jīng)驗。例如:“幫我把書拿到桌上?!比绻谜Z法分析它,很明顯,不知道是誰幫助了誰或誰拿了這本書,也就是說,不知道主語和賓語。但是,此類句子通常以自然語言出現(xiàn)。人類當(dāng)然可以在使用句子時根據(jù)上下文知道該句子屬于誰,并且他們還可以推斷該句子一定是一本“我”的書。某些隱藏信息不會在文本中反映出來,因為人類在看到這些單詞時總是可以思考他們在說什么。如果他們需要添加這些隱藏的信息,例如“請幫助我將書從桌子上拿下來”,盡管這是正確的,但在現(xiàn)實生活中似乎有些延遲。更重要的是,如果由于實現(xiàn)上的困難而限制了句子的解析范圍,顯然與自然語言處理的初衷相去甚遠(yuǎn)。為了使計算機具有這種感知知識,人類嘗試使用邏輯規(guī)則來定義這種感知知識。面臨以上困境以下介紹當(dāng)前研究中使用人工智能進(jìn)行自然語言識別的原理。
2 在自然語言處理技術(shù)中的應(yīng)用
2.1人工智能概述
人工智能指人造機器展現(xiàn)的智能。通常,這種類型的智能是指計算機智能。顧名思義,人工智能的目標(biāo)是使計算機能夠通過整個系統(tǒng)的分析和設(shè)計來顯示類似于人類的功能。在本文中,我們將探討人工智能在自然語言處理中的應(yīng)用。
2.2 控制論與大腦模擬
正是因為人類的發(fā)明都源于對自然界中現(xiàn)有結(jié)構(gòu)的模仿,因此人腦是實施智能腦系統(tǒng)的最佳指南??刂普摵痛竽X模擬的方法是研究神經(jīng)學(xué)、信息論和控制論之間的聯(lián)系,以在計算機中實現(xiàn)像人類神經(jīng)系統(tǒng)這樣的智能系統(tǒng)。實際上,這是生物過程的計算機模擬。但是由于人腦過于復(fù)雜,人類仍處于大腦研究的愚昧階段。模仿的前提是必須完全理解。人工智能可以在這個方向上實現(xiàn)什么,很大程度上取決于人腦研究的進(jìn)展。顯然,目前這種研究人工智能的方法無法給出良好的結(jié)果。
2.3 字符處理
得益于計算機設(shè)計語言的成功,人類開始研究“智能”的實現(xiàn)是否可以由類似于計算機設(shè)計語言的邏輯符號表示,這些邏輯符號與開始時介紹的傳統(tǒng)自然語言處理技術(shù)類似。但是,無論是智能實現(xiàn)還是自然語言處理,都非常復(fù)雜且邏輯上并不嚴(yán)格。這些特征與字符處理的邏輯定義和表達(dá)相沖突。因此,許多人認(rèn)為字符處理永遠(yuǎn)無法模仿人類的認(rèn)知過程,尤其是與學(xué)習(xí)和感知有關(guān)的一些非理性部分。
2.4 統(tǒng)計學(xué)方法
當(dāng)前,在人工智能領(lǐng)域中,使用復(fù)雜的數(shù)學(xué)工具來解決特定的拆分問題是一種流行的研究方法。其中,一種著名的算法是機器學(xué)習(xí)算法,它是一種自動分析數(shù)據(jù)從中提取規(guī)則并使用規(guī)則預(yù)測位置數(shù)據(jù)的算法。從機器學(xué)習(xí)實現(xiàn)的一般概念可以看出,機器學(xué)習(xí)與輸出統(tǒng)計尤其相關(guān)。該算法不需要對大腦模擬,也不需要人工集成或字符處理,僅使用大量數(shù)據(jù),計算機可以自行學(xué)習(xí),從而大大降低了開發(fā)人工智能相關(guān)問題的復(fù)雜性。通常,機器學(xué)習(xí)課程分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。兩者之間的區(qū)別在于用于訓(xùn)練的數(shù)據(jù)是否手動標(biāo)記。監(jiān)督學(xué)習(xí)通常使用以下步驟從數(shù)據(jù)集中構(gòu)建評分系統(tǒng),訓(xùn)練有素的人工智能系統(tǒng)會根據(jù)給定的數(shù)據(jù)集做出判斷,然后手動評估得出的判斷,更正確的判斷將給結(jié)果更高的分?jǐn)?shù),相反,更低的分?jǐn)?shù)是不希望的結(jié)果。通過這種不斷的反饋和調(diào)整,對AI系統(tǒng)進(jìn)行訓(xùn)練,使其做出傾向于給出更高等級的判斷并執(zhí)行類似于人類的判斷,即常規(guī)意義上的“智能”。對于無監(jiān)督學(xué)習(xí),系統(tǒng)通常使用聚類分析來自動檢測未標(biāo)記數(shù)據(jù)集的固有關(guān)系(也就是說,數(shù)據(jù)結(jié)果尚未經(jīng)過任何手動預(yù)處理)。此外,由于這兩種方法缺乏精確的線索和結(jié)果,它將為每個可預(yù)測的步驟和行為提供反饋,從而增強了系統(tǒng)做出更“智能”選擇的趨勢。
3 自然語言處理技術(shù)的應(yīng)用
3.1 個性化智能推薦
在電子商務(wù)的發(fā)展中,信息處理面臨著信息過載的問題。用戶如何在快速增長的資源中準(zhǔn)確找到所需的信息是一個重要的問題,就像公司必須為用戶提供準(zhǔn)確且相關(guān)的服務(wù)一樣,有一定的困難。推薦系統(tǒng)的出現(xiàn)在一定程度上解決了這個問題。在系統(tǒng)運行時,它可以監(jiān)視用戶行為,提供產(chǎn)品建議并改善用戶決策。個性化推薦可以促進(jìn)企業(yè)與用戶之間的交流并改善交互。在新聞服務(wù)領(lǐng)域,將根據(jù)用戶讀取的信息內(nèi)容,篇幅和評論以及其他偏好來更詳細(xì)地進(jìn)行數(shù)據(jù)分析。對關(guān)鍵信息源和關(guān)鍵信息詞匯,新聞組織和促銷以及個性化新聞服務(wù)進(jìn)行全面,專業(yè)的分析,以確保用戶體驗得到顯著改善。
3.2 語音識別技術(shù)
基本上,語音識別技術(shù)是為了使機器能夠理解人類語言并為人類發(fā)展做出貢獻(xiàn)。根據(jù)應(yīng)用程序的要求將語音內(nèi)容轉(zhuǎn)換為機器可讀數(shù)據(jù)。在此過程中,有必要智能地分解連續(xù)語音并建立規(guī)則以準(zhǔn)確理解語義。降噪、語音剪切和裁剪都是語音識別技術(shù)中的重要過程。該框架可以分為三個方面:聲學(xué)模型,語言模型和解碼。通過不斷使用智能技術(shù),人類可是實現(xiàn)智能家居生活,家用電器可以通過紅外遙控器進(jìn)行控制,但是空間位置通常會影響紅外輻射的傳輸。集成設(shè)備自動切斷電源并自動管理通道,實現(xiàn)了多個遠(yuǎn)程控制設(shè)備的集中化,并且可以通過語音控制實現(xiàn)通用功能。在智能技術(shù)的實際應(yīng)用中,可以實現(xiàn)與智能揚聲器的語音交互,并執(zhí)行各種操作,例如遠(yuǎn)程控制、問答和在線購物。淋浴期間,可以使用聲音調(diào)節(jié)水溫和室外空調(diào)的溫度。在開車時,手機會不斷顯示地圖并通過智能揚聲器撥打電話,這可以減少對駕駛員的干擾。
3.3 機器翻譯技術(shù)
機器翻譯具有強大的自動化功能,在計算機技術(shù)的支持下,它將源語言轉(zhuǎn)換為目標(biāo)語言。隨著跨境電子商務(wù)的飛速發(fā)展,網(wǎng)站上跨境電子商務(wù)的發(fā)展與網(wǎng)站和應(yīng)用程序的多語言化緊密相關(guān),用戶傾向于在搜索過程中使用自己的語言,但是對于跨境電子商務(wù)網(wǎng)站,就不可能進(jìn)行大量投資來滿足用戶的獨特搜索引擎需求。用戶想要找到的類別可以通過網(wǎng)站的內(nèi)部導(dǎo)航來闡明他們需要的產(chǎn)品。通常,在查看標(biāo)題后,用戶會仔細(xì)閱讀特定的說明和相關(guān)的注釋,以獲得對產(chǎn)品的更完整的了解。如果語言受到影響,用戶將無法訪問他們,會毫不猶豫地關(guān)閉頁面,這將導(dǎo)致用戶流失。隨著大量信息的產(chǎn)生,信息交互的需求已大大增加。大數(shù)據(jù)可以用機器翻譯,每天在線翻譯的實際量超過1萬億個單詞。
4 自然語言處理中人工智能框架
通常智能有兩個層次的理解:第一層次是基于自我意識,并且具有非常復(fù)雜的理性處理能力,例如用數(shù)學(xué)邏輯推理能力,抽象思維等。第二層次是基于無意識的,內(nèi)容涉及體驗日常生活的能力,例如步行,感知物體和日?;顒???梢钥闯觯胀▌游锞哂械诙壷悄?,而第一級智能人類可用。智能的定義應(yīng)包括對這兩種智能的理解。因此,人工智能的目的可以被認(rèn)為是提供一種可以解釋意圖性的一般類別及其基礎(chǔ)的系統(tǒng)理論,使用語言是智能的重要特征。深入探索自然語言理解非常有用。從更廣泛的角度來看,理解自然語言需要哲學(xué)家、語言學(xué)家、心理語言學(xué)家和計算機科學(xué)家的合作。所使用的知識是多層次的,包括語音知識、詞形知識、句法知識、語義知識、語用知識和世界知識。從務(wù)實的角度來看,理解自然語言是主體以感知形式對世界的表示,它具體反映了主體對世界的感知程度及其表達(dá)方式,充滿了個性。建立自然語言處理系統(tǒng)的統(tǒng)計可能性顯然是困難且無限的,因此,如果自然語言處理的研究取得重大進(jìn)展,則顯然需要在人工智能結(jié)構(gòu)上取得重大突破。換句話說,句子語義信息的完整表達(dá)不僅取決于句子詞匯的統(tǒng)計概率(仿生假設(shè)),而且還包括參考信息(物理符號的假設(shè))和主題信息(上下文、背景、常識、主題思維)。因此,概率,參考和對象的三位一體代表了一種自然語言處理的人工智能框架。
5 自然語言處理的發(fā)展前景
自然語言處理技術(shù)為低成本,高效率的社會群體的工作和生活帶來了許多便利。比如極其翻譯技術(shù),將文件輸入翻譯程序,將立即收到翻譯文件,而且是免費的。如果對網(wǎng)頁的要求不高,則可以通過Intemet搜索源語言文件。與手動翻譯相比,機器翻譯具有顯著的優(yōu)勢,但是,無法完全理解比人工智能弱的人類語言,即在翻譯過程中,說話者的語氣,語調(diào)和肢體語言無法得到充分利用,這在一定程度上影響了翻譯的真實效果。機器翻譯非常適合復(fù)雜性低和重復(fù)性高的任務(wù),但仍不能代替專業(yè)翻譯,尤其是文學(xué)作品的翻譯,通常需要更高的翻譯要求。
6 結(jié)束語
在尖端技術(shù)的支持下網(wǎng)絡(luò)平臺都在不斷擴展其功能并優(yōu)化其體驗。這與收集和分析用戶數(shù)據(jù)以確保順利實現(xiàn)個性化密不可分。在人工智能時代的背景下,自然語言處理技術(shù)的應(yīng)用和開發(fā)仍然面臨許多挑戰(zhàn)。
參考文獻(xiàn)
[1]劉鵬,人工智能輔助裁判理論思考與路徑選擇——以自然語言處理為例[J].法治論壇,2019 (01):108-122.
[2]軒中,中國的自然語言處理領(lǐng)域的人工智能公司[J].互聯(lián)網(wǎng)周刊,2018 (15):62-64.
[3]李彥峰.人工智能在自然語言處理中的應(yīng)用[J].襄陽職業(yè)技術(shù)學(xué)院學(xué)報,2018,17 (04):71-74+78.
[4]蔡艷婧,程顯毅,潘燕.面向自然語言處理的人工智能框架[J].微電子學(xué)與計算機,2011,28 (10):173-17 6+180.
作者簡介
孫偉博(1990-),男,吉林省長春市人。碩士學(xué)位。研究方向為自然語言處理。
張斌(1985-),男,河北省石家莊市人。大學(xué)本科學(xué)歷。研究方向為通信方向。