(河北建筑工程學(xué)院,河北 張家口 075000)
目前在所有的信息技術(shù)中,自然語言處理技術(shù)是最先進(jìn)的技術(shù),其出現(xiàn)實(shí)現(xiàn)了我國整個人工智能體系的突破,在一定程度上決定著我國人工智能的發(fā)展方向。而深度學(xué)習(xí)的出現(xiàn),其以多層的非線性映射結(jié)構(gòu)的優(yōu)勢應(yīng)用在語言、圖像、以及文本的數(shù)據(jù)處理中,有效地提高了處理的效率。將其應(yīng)用在自然語言處理技術(shù)中,可以改變其傳統(tǒng)的處理模式,快速的識別命名、意圖、句法、語音等,并對進(jìn)行模型式的計算,有效地提高了計算效率[1]。在深度學(xué)習(xí)的應(yīng)用下,自然語言處理技術(shù)不再是專門的實(shí)驗(yàn)室里具備探索性的技術(shù),而是具備了工業(yè)化的條件,有效地應(yīng)用在我國各行各業(yè)中。因此本文對于深度學(xué)習(xí)在自然語言處理NLP中應(yīng)用的研究具有非?,F(xiàn)實(shí)的指導(dǎo)意義。
深度學(xué)習(xí)是2006年提出的基于機(jī)器學(xué)習(xí)的概念,其框架在于通過模擬人腦的神經(jīng)網(wǎng)絡(luò),在進(jìn)行分析、學(xué)習(xí)、解釋,屬于一種含有多層、隱層的學(xué)習(xí)結(jié)構(gòu)。其跟淺層學(xué)習(xí)不同,因?yàn)槠渌⒌哪P徒Y(jié)構(gòu)足夠的深,一般都有3層以上的隱層節(jié)點(diǎn),最高可達(dá)10層以上,可以完成非常復(fù)雜的函數(shù)分析,詳見表1。并且其強(qiáng)調(diào)了特征學(xué)習(xí),因?yàn)樯疃葘W(xué)習(xí)屬于無監(jiān)督的一種,通過非監(jiān)督預(yù)訓(xùn)練算法,將原始的樣本通過輸入的方式來映射到一個新的特征空間,從而更好的實(shí)現(xiàn)預(yù)測、分類等。此外,其有效性跟淺層學(xué)習(xí)相比也比較強(qiáng),一些在淺層結(jié)構(gòu)無法表達(dá)的函數(shù),可能在深層結(jié)構(gòu)中解釋的更好,因此深度學(xué)習(xí)被廣泛的應(yīng)用在我國的各個行業(yè)中。
表1 淺層和深層模型的對比分析
傳統(tǒng)的自然語言處理技術(shù)存在于實(shí)驗(yàn)室,其主要是以統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)算法為基礎(chǔ)來對圖片、音頻、文本等進(jìn)行處理。深度學(xué)習(xí)的出現(xiàn),使得其具備了工業(yè)化應(yīng)用的條件,近幾年除了取得了革命性的進(jìn)展,還滲透到了我國的各行各業(yè)中,取得了不錯的成效。
2015年Tomas Mikolov提出了Word2vec的算法,這是一種新的構(gòu)建詞向量的方法,屬于以深度學(xué)習(xí)為基礎(chǔ)的自然語言處理技術(shù)的發(fā)端。該方法有兩種模型,一種是Skip-gram模型,一種是CBOW模型,其中Skip-gram模型是通過輸入某個單詞來預(yù)測周圍的上下文語境,而CBOW模型是通過輸入某個詞語上下文的語境來預(yù)測這個詞語的本身,所產(chǎn)生的詞向量就是神經(jīng)網(wǎng)絡(luò)模型的輸入向量。由此可以看出,Word2ve已經(jīng)具備了一定的理解能力,也具備了以往IT-IDF無法實(shí)現(xiàn)的一些功能,也意味著自然語言處理技術(shù)有了無需人工處理干預(yù)就可以直接解釋和理解文本語境的能力[2-3]。緊接著,我國掀起了研究自然語言處理算法的熱潮,一些模擬word2vec詞向量的計算模型也相繼被提出,深度學(xué)習(xí)也被應(yīng)用到其中,有了將詞性和命名實(shí)體標(biāo)簽與word2vec融合的sense2vec的算法。
在應(yīng)用深度學(xué)習(xí)在自然語言處理中,可以采用梯度下降法,具體的步驟如下:(1)構(gòu)建基本的模型框架。根據(jù)要處理的實(shí)際內(nèi)容,選擇合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也就是構(gòu)建基本的深度學(xué)習(xí)模型框架。(2)模型檢查。采用梯度下降法來對模型進(jìn)行檢查,檢查其漏洞,以及是否符合處理要求。(3)模型初始化。根據(jù)檢查出來的漏洞和不足對模型進(jìn)行優(yōu)化,主要是調(diào)整模型的參數(shù)。(4)模型調(diào)整。采用正則化方法來對沒有滿足擬合要求的模型參數(shù)進(jìn)行調(diào)整,調(diào)整到符合擬合要求為止[4]。
(1)分詞和詞性標(biāo)注。分詞主要是根據(jù)規(guī)范來將連續(xù)的字序進(jìn)行重新組合,并將其組合成新的詞序列的過程。而詞性標(biāo)注就是正確的標(biāo)注該詞的詞性,如該次屬于形容詞、動詞、名詞等。目前應(yīng)用深度學(xué)習(xí)法可以同時處理詞性標(biāo)注、語義角色標(biāo)注、語塊切分、以及命名實(shí)體識別等典型的自然語言處理任務(wù)。
(2)句法分析。就是對句子的語法、以及語法之間的關(guān)系進(jìn)行分析。應(yīng)用深度學(xué)習(xí)法可以自動、快速的識別句子的句法單位、以及句法單位之間的關(guān)系,具體的做法就是輸入一個給定的句子,利用其語法特征來構(gòu)建短語結(jié)構(gòu)樹以此來進(jìn)行分析和處理。
(3)詞義學(xué)習(xí)。在應(yīng)用深度學(xué)習(xí)在詞義學(xué)習(xí)上,是應(yīng)用了其無監(jiān)督的學(xué)習(xí)機(jī)制。其通過構(gòu)建深度的神經(jīng)網(wǎng)絡(luò)模型,在利用該模型綜合的對文本的上下文、以及全局進(jìn)行分析,以此來找出詞義更好的表達(dá)方式,并且找出詞義隱藏的詞匯,來更好對同名歧義的詞進(jìn)行解釋。而且如果是多個多義性的詞向量還可以通過改進(jìn)模型的方式,豐富詞向量的語義,讓其表達(dá)的更加的清晰[5]。
(4)情感分析。應(yīng)用深度學(xué)習(xí)來對情感進(jìn)行分析,就是通過構(gòu)建情感分析模型,在利用深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練部分來對情感標(biāo)簽的句子進(jìn)行標(biāo)注,并結(jié)合全局的規(guī)律、以及上下文的特征,來預(yù)測標(biāo)注外句子的情感特征,以此來實(shí)現(xiàn)文檔級、語句級、以及觀點(diǎn)級的情感色彩分析。這種分析屬于自然語言處理任務(wù)中的高級情感分析,由此可以看出,深度學(xué)習(xí)應(yīng)用在自然語言處理中可以有效的提高處理效果。
雖然深度學(xué)習(xí)應(yīng)用在自然語言處理中可以有效的提高處理效果,但是依然存在著一些局限性,未來還需要進(jìn)一步優(yōu)化技術(shù)進(jìn)行突破。
目前根據(jù)基于深度學(xué)習(xí)的自然語言處理的數(shù)據(jù)表示中,主要是Word embedding概念,而word的表示單位在不同的語言中有不同的說法,如英文中,word可以是個單詞,也可以是個詞綴,而中文就是字,或者詞組,在本質(zhì)上都是通過某種映射規(guī)則來將word進(jìn)行轉(zhuǎn)換,以向量的形式表示,實(shí)際上并沒有什么轉(zhuǎn)換規(guī)律可以遵循。未來建議可以添加半監(jiān)督學(xué)習(xí)系統(tǒng),這樣更加有利于深度學(xué)習(xí)和自然語言處理任務(wù)的應(yīng)用和結(jié)合。
雖然自然語言處理應(yīng)用了深度學(xué)習(xí)算法模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、以及卷積神經(jīng)網(wǎng)絡(luò)等,而且效果顯著,但是目前我國面向自然語言處理深度學(xué)習(xí)的研究和應(yīng)用還處于起步階段,還存在著很多局限,如深度網(wǎng)絡(luò)層數(shù)、正則化問題及網(wǎng)絡(luò)學(xué)習(xí)速率等,因此未來還有更廣闊的發(fā)展空間。未來還需要優(yōu)化算法、提升網(wǎng)絡(luò)訓(xùn)練速度等[6]。
深度學(xué)習(xí)的無監(jiān)督學(xué)習(xí)機(jī)制目前已經(jīng)應(yīng)用到自然語言處理中,并且可以圍繞數(shù)據(jù)表示及特征提取問題,但是在具體的實(shí)踐中,如果將如人工選取的明顯特征規(guī)律這樣的已有面向的特定應(yīng)用領(lǐng)域跟訓(xùn)練過程融合卻依然有一定的難度。如問題領(lǐng)域、人類知識的融合等,需要根據(jù)自然語言的語義選擇合適的深度模型結(jié)構(gòu),在知識融合時選擇在第一層為融合的進(jìn)入點(diǎn)等,以此來讓模型具備自我學(xué)習(xí)的能力。
自然語言的局限主要是取決于其不確定性。因?yàn)榻?jīng)常會出現(xiàn)一詞多義的問題,雖然可以應(yīng)用深度學(xué)習(xí)的詞向量技術(shù)來進(jìn)行信號處理,但是卻不能將原始的信息輸入到深度學(xué)習(xí)的模型中,這是因?yàn)樽匀徽Z言的不確定性造成的。這種不確定性會產(chǎn)生誤差,甚至?xí)趥鬟f中,經(jīng)過深度學(xué)習(xí)模型中的各個層次變得更加的不確定。因此未來還需要突破自然語言的不確定性,如字、詞、短語、小句等不確定性,綜合篇章來進(jìn)行深層語義理解和處理[7]。
綜上所述,深度學(xué)習(xí)是新一代的機(jī)器學(xué)習(xí)技術(shù),通過模擬人腦機(jī)制,建立深層的神經(jīng)網(wǎng)絡(luò),來對圖像、文本、語音等進(jìn)行分析和解釋,因此被廣泛的應(yīng)用在各個領(lǐng)域中。目前在自然語言處理中,深度學(xué)習(xí)已經(jīng)被用在了語義學(xué)習(xí)、分詞和詞性標(biāo)注、句法分析、以及情感分析等領(lǐng)域,但是依然存在著一些局限性。未來還需要進(jìn)行深入的研究,就目前來看,其依然是自然語言處理最好的應(yīng)用模型。