王丁
摘? ?要:在大數(shù)據(jù)時代下,自然語言處理技術是高效獲取數(shù)據(jù)的關鍵技術,也是人工智能領域的重要研究方向。自然語言處理涵蓋學科領域較廣,涉及數(shù)學、語言學、計算機等多學科知識,其實質是在計算機科學與人工智能融合發(fā)展背景下形成的一種信息處理技術。本文分析了自然語言處理技術體系的整體框架,以及自然語言處理技術的主流方法,并研究了自然語言處理技術的應用領域,期望對推進自然語言處理技術的發(fā)展與應用有所幫助。
關鍵詞:自然語言處理技術? 機器學習? 深度學習? 卷積神經(jīng)網(wǎng)絡
中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)03(a)-0141-02
隨著機器學習方法的不斷發(fā)展,傳統(tǒng)的機器學習與深度學習都對自然語言處理技術產(chǎn)生了深遠影響。與傳統(tǒng)的機器學習相比,基于深度學習的自然語言處理技術更具有應用優(yōu)勢,可通過運用卷積神經(jīng)網(wǎng)絡實現(xiàn)對語言特征的自動學習,適用于復雜的自然語言處理領域,使自然語言處理技術在信息檢索、智能問答、機器翻譯等方面發(fā)揮出更大的應用價值。
1? 自然語言處理技術體系的整體框架
自然語言處理技術是讓計算機學習、理解并生成人類語言的一種技術,以實現(xiàn)對人類語言的智能化處理,提高數(shù)據(jù)處理效率,輔助人們解決各種文本處理問題。自然語言處理的整體框架主要包括以下四個方面:(1)篇章級。包括適用于單文檔分析的文檔分類技術、文檔主題抽取技術、文檔結構分析技術、文檔語義表示技術,以及適用于多文檔分析的文檔聚類技術、文本相似度技術、PLSA主題模型技術等。(2)短串級。包括是適用于短串變換的同義詞替換技術、語義歸一化技術、糾錯技術、省略技術,適用于短串解析的結構分析技術、Term重要性技術,以及適用于短串語義表示的短串語義表示技術、短串主題分析技術等。(3)Term級。包括適用于詞法分析的分詞技術、未登錄詞識別技術、詞性標注技術,適用于Term語義表示的屬性、語義,以及適用于Term關系的antology構建技術、詞匯關系計算技術、同義關系技術等。(4)數(shù)據(jù)。主要來源于底層資源、公共數(shù)據(jù)、知識庫和詞典。
2? 自然語言處理技術的主流方法
2.1 基于傳統(tǒng)機器學習的自然語言處理技術
自然語言處理可將處理任務進行分類,形成多個子任務,傳統(tǒng)的機械學習方法可利用SVM(支持向量機模型)、Markov(馬爾科夫模型)、CRF(條件隨機場模型)等方法對自然語言中多個子任務進行處理,進一步提高處理結果的精度。但是,從實際應用效果上來看,仍存在著以下不足:(1)傳統(tǒng)機器學習訓練模型的性能過于依賴訓練集的質量,需要人工標注訓練集,降低了訓練效率。(2)傳統(tǒng)機器學習模型中的訓練集在不同領域應用會出現(xiàn)差異較大的應用效果,削弱了訓練的適用性,暴露出學習方法單一的弊端。若想讓訓練數(shù)據(jù)集適用于多個不同領域,則要耗費大量人力資源進行人工標注。(3)在處理更高階、更抽象的自然語言時,機器學習無法人工標注出來這些自然語言特征,使得傳統(tǒng)機器學習只能學習預先制定的規(guī)則,而不能學規(guī)則之外的復雜語言特征。
2.2 基于深度學習的自然語言處理技術
深度學習是機器學習的一大分支,在自然語言處理中需應用深度學習模型,如卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等,通過對生成的詞向量進行學習,以完成自然語言分類、理解的過程。與傳統(tǒng)的機器學習相比,基于深度學習的自然語言處理技術具備以下優(yōu)勢:(1)深度學習能夠以詞或句子的向量化為前提,不斷學習語言特征,掌握更高層次、更加抽象的語言特征,滿足大量特征工程的自然語言處理要求。(2)深度學習無需專家人工定義訓練集,可通過神經(jīng)網(wǎng)絡自動學習高層次特征。
以短文本情感分析為例,在基于傳統(tǒng)機器學習的自然語言處理中,普遍存在著因多義詞引起的歧義問題,以及上下文信息缺乏問題,降低了短文本情感分析結果的準確性。而基于卷積神經(jīng)網(wǎng)絡的自然語言處理技術,能夠對傳統(tǒng)基于單詞層面的卷積神經(jīng)網(wǎng)絡模型進行優(yōu)化,加入單詞和句子方面的特征,構建起基于單詞加句子的卷積神經(jīng)網(wǎng)絡模型,通過輸入向量化后的句子矩陣,提取更高抽象度的特征,并對相應的分類函數(shù)和全連接層進行結果分類,從句子整體角度出發(fā)理解多義詞的含義以及整句語義,以完成文本情感分析過程。由此可見,基于卷積神經(jīng)網(wǎng)絡的自然語言處理技術能夠減少網(wǎng)絡模型的工作量,提高對比分析的性能。
3? 自然語言處理技術的應用領域
3.1 應用于檢索領域
在檢索領域中,自然語言處理技術的應用體現(xiàn)在提高檢索結果精確度方面。常規(guī)的搜索引擎存在如下缺陷,即用戶以關鍵詞的方式進行檢索時,會出現(xiàn)大量無關的信息,不但影響了檢索效率,而且還會占用一定的資源。而自然語言處理技術的應用,能夠使搜索引擎更好地理解用戶需求,檢索效率隨之提升。通過自然語言處理技術能夠使搜索引擎變得更加智能化。
3.2 應用于數(shù)據(jù)整合領域
在數(shù)據(jù)整合領域中,自然語言處理技術的應用體現(xiàn)在提高數(shù)據(jù)處理質量方面。通過建立語料庫,可對不同類型的自然語言進行處理,在此基礎上能夠使出輸出的指令得到優(yōu)化,給IT技術的擴展應用創(chuàng)造有利條件。同時,依托自然語言處理技術搭建相關的平臺,按照具體的交互需要,構建相應的處理系統(tǒng),在深入研究語法、語義等技術的基礎上,增強平臺的實用性,由此可使數(shù)據(jù)處理質量得到大幅度提升,自然語言處理技術的應用優(yōu)勢在此得以顯現(xiàn)。
3.3 應用于語音識別領域
在語音識別領域中,自然語言處理技術的應用主要體現(xiàn)在提高語音識別系統(tǒng)有效性方面,借助語音能夠對智能設備進行操控。如在飛機的飛行控制系統(tǒng)中應用語音控制操縱桿系統(tǒng)后,飛行員只需要輸入語音指令,便可對飛機的飛行進行操控。由于不同的飛行員具有不同的語音習慣,為對語音進行準確識別,系統(tǒng)能夠在線學習,對相關的數(shù)據(jù)進行整合。該系統(tǒng)在飛機上的運用,為智能化飛行任務的完成提供了條件,彰顯出自然語言處理技術的價值。
3.4 應用于醫(yī)學領域
在醫(yī)學領域中,自然語言處理技術的應用主要體現(xiàn)在醫(yī)學影像報告的信息提取中。通過自然語言處理技術能夠將報告中有利用價值的信息提取出來,并進行整合,從而發(fā)現(xiàn)報告與臨床信息之間存在的聯(lián)系,為醫(yī)師分析影像報告提供幫助。在應用自然語言處理技術對影像報告中的信息進行提取時,計算機會先對詞匯進行分割,并對詞根進行判別,完成詞匯概念的識別,通過分析詞匯的語義,得到相應的醫(yī)學概念;特征提取完畢后,計算機會對提取結果進行自動檢索,看其中是否存在目標概念,并判斷是否能夠基于這一概念推導出臨床結局;完成特征加工后,要為計算機提供標準數(shù)據(jù)進行訓練,提高其穩(wěn)定性和準確性。
4? 結語
總而言之,自然語言處理技術是信息檢索和人工智能研究領域中的關鍵技術。自然語言處理技術要基于深度學習方法進行不斷改進,以期在自然語言處理任務上達到更好的處理效果,并確保自然語言處理技術能夠廣泛應用于信息檢索、數(shù)據(jù)整合、語言識別和醫(yī)學等領域,從而促進人工智能在更多領域得以成功應用。
參考文獻
[1] 王凌燕.自然語言處理技術的重要性研究[J].信息通信,2019(11):102-103.
[2] 麥家健,朱凌峰,莫毅宇,等.基于自然語言處理技術的警務情報文本挖掘分析[J].中國安防,2019(9):142-143.
[3] 葛運東,陳洪梅,姚建民.自然語言處理的技術和產(chǎn)業(yè)應用現(xiàn)狀與趨勢分析[J].產(chǎn)業(yè)與科技論壇,2019(9):150-151.
[4] 許鑫.自然語言處理技術在電網(wǎng)預案生成中的應用[J].云南電力技術,2019(8):82-83.
[5] 鄧金.基于自然語言處理技術的郵件檢測系統(tǒng)[J].數(shù)字技術與應用,2019(6):24-25.