隨著NLP技術(shù)越發(fā)成熟,人類開(kāi)始將它與其他技術(shù)相結(jié)合并應(yīng)用到不同領(lǐng)域,有效提升計(jì)算機(jī)自然語(yǔ)言處理技術(shù),使其變得更具有人工智能,符合計(jì)算機(jī)綜合應(yīng)用。通過(guò)采用TCT技術(shù),能夠使得NLP技術(shù)更加精準(zhǔn)地翻譯出不同的語(yǔ)言,從而更加適應(yīng)人類信息化社會(huì)的發(fā)展。在互聯(lián)網(wǎng)中存在著海量信息,這些信息與自然語(yǔ)言有著很強(qiáng)的聯(lián)系,可以通過(guò)應(yīng)用自然語(yǔ)言處理技術(shù)來(lái)實(shí)現(xiàn)語(yǔ)言翻譯,給人類的生活、學(xué)習(xí)、工作帶來(lái)很大便利,不斷升級(jí)和改善NLP技術(shù)能夠使其更加適應(yīng)市場(chǎng)需求,滿足用戶的翻譯體驗(yàn)。
自然語(yǔ)言是人們?nèi)粘I钪兴褂玫恼Z(yǔ)言,如我國(guó)普通話(漢語(yǔ))、國(guó)際用語(yǔ)(英語(yǔ))等,自然語(yǔ)言處理技術(shù)指的是通過(guò)利用計(jì)算機(jī)技術(shù)對(duì)自然語(yǔ)言進(jìn)行處理和運(yùn)用,是基于人工智能和語(yǔ)言學(xué)基礎(chǔ)上的一門(mén)學(xué)科,能夠?qū)崿F(xiàn)人機(jī)交互。語(yǔ)言是人類的表達(dá)工具,計(jì)算機(jī)要想掌握自然語(yǔ)言的處理能力,必須要從多個(gè)方面出發(fā),可以分成三個(gè)基礎(chǔ)部分:認(rèn)知模塊、理解模塊、生成模塊[1]。其中,認(rèn)知和理解起到的作用是將輸入的自然語(yǔ)言與計(jì)算機(jī)符號(hào)相連接,然后根據(jù)用戶需求進(jìn)行處理;生成是將計(jì)算機(jī)中的信息轉(zhuǎn)化成為自然語(yǔ)言。通過(guò)三者互相作用,就可以幫助用戶通過(guò)自然語(yǔ)言與計(jì)算機(jī)進(jìn)行交互,提高計(jì)算機(jī)的智能程度。
基于詞聯(lián)接的自然語(yǔ)言處理技術(shù)就是一種自然語(yǔ)言規(guī)則處理技術(shù),能夠通過(guò)語(yǔ)言規(guī)則來(lái)分析翻譯語(yǔ)言的正確性,進(jìn)而建立語(yǔ)言規(guī)則庫(kù)。語(yǔ)言規(guī)則分為語(yǔ)義規(guī)則和語(yǔ)法規(guī)則兩個(gè)方面,是基于喬母斯基的形式主義語(yǔ)言學(xué)發(fā)展而來(lái)的。通過(guò)將形式主義語(yǔ)言學(xué)應(yīng)用到自然語(yǔ)言處理技術(shù)中,能夠加快對(duì)詞語(yǔ)關(guān)聯(lián)和句法關(guān)聯(lián)的處理,準(zhǔn)確得出相應(yīng)的自然語(yǔ)言。在應(yīng)用過(guò)程中,通過(guò)在計(jì)算機(jī)硬件部分強(qiáng)化真實(shí)文本處理,就能通過(guò)統(tǒng)計(jì)的方式來(lái)分析自然語(yǔ)言的正確性。由此可以看出基于詞聯(lián)接的自然語(yǔ)言處理技術(shù)具有重要地位。
自然語(yǔ)言處理技術(shù)會(huì)受到自然語(yǔ)言環(huán)境的限制,而傳統(tǒng)的處理方法不能對(duì)當(dāng)前語(yǔ)言環(huán)境進(jìn)行有效分析,導(dǎo)致翻譯出來(lái)的語(yǔ)言缺乏技巧,甚至是詞不達(dá)意。而TCT技術(shù)通過(guò)將結(jié)構(gòu)主義語(yǔ)言學(xué)與認(rèn)知語(yǔ)言學(xué)結(jié)合起來(lái),構(gòu)建一個(gè)更加全面的語(yǔ)言處理模型。在這個(gè)處理模型中,需要在受限語(yǔ)言環(huán)境中建立動(dòng)態(tài)語(yǔ)料庫(kù),然后語(yǔ)料庫(kù)分為高級(jí)知識(shí)和實(shí)例知識(shí),其中主體是高級(jí)知識(shí),實(shí)例知識(shí)是對(duì)高級(jí)知識(shí)的重要補(bǔ)充。另外,在一定環(huán)境下,實(shí)例知識(shí)可以轉(zhuǎn)化為高級(jí)知識(shí)。
第一,具有受限性。TCT是一種語(yǔ)言智能仿知技術(shù),它的語(yǔ)料庫(kù)需要依賴于自然語(yǔ)言環(huán)境,會(huì)受到語(yǔ)言環(huán)境的限制。因此,在進(jìn)行TCT改進(jìn)時(shí)需要將語(yǔ)言環(huán)境合理劃分,可以將其按照?qǐng)鼍啊⒙殬I(yè)、功能等因素劃分成各種小環(huán)境,就能更加確保TCT的語(yǔ)言操作性,高效處理各種自然語(yǔ)言信息;第二,具有動(dòng)態(tài)性。人在進(jìn)行語(yǔ)言表達(dá)時(shí)就處于一個(gè)動(dòng)態(tài)過(guò)程,語(yǔ)料庫(kù)的建設(shè)也是一個(gè)動(dòng)態(tài)過(guò)程。因?yàn)殡S著時(shí)間的變化,自然語(yǔ)言也在不斷的發(fā)展進(jìn)化,要想保持高準(zhǔn)確率就必須及時(shí)更新語(yǔ)料庫(kù)。統(tǒng)計(jì)學(xué)的出現(xiàn)能夠加快信息處理效率,進(jìn)一步加強(qiáng)語(yǔ)言智能機(jī)器對(duì)自然語(yǔ)言的處理效率。第三,具有經(jīng)驗(yàn)性。TCT的知識(shí)獲取是通過(guò)實(shí)例知識(shí)來(lái)建造的語(yǔ)料庫(kù),然后基于實(shí)例知識(shí)和語(yǔ)料庫(kù)轉(zhuǎn)化成高級(jí)知識(shí),因此它的知識(shí)獲取是自底向上的,具有一定的經(jīng)驗(yàn)性。第四,具有綜合性。TCT的知識(shí)獲取需要應(yīng)用到多種計(jì)算機(jī)技術(shù),常見(jiàn)的技術(shù)有統(tǒng)計(jì)技術(shù)、語(yǔ)言規(guī)則技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)等,通過(guò)使用這些技術(shù)來(lái)綜合運(yùn)用高級(jí)知識(shí)和實(shí)例知識(shí)。TCT的核心技術(shù)是實(shí)例技術(shù),是基于實(shí)例知識(shí)建立的語(yǔ)言處理技術(shù)[2],通常會(huì)以詞聯(lián)接為實(shí)例知識(shí),詞聯(lián)接能夠明確句子的詞序安排,更快更好的翻譯出句子的意思。
在自然語(yǔ)言中,不同環(huán)境下的同個(gè)詞語(yǔ)會(huì)有不一樣的意思,就拿我們漢語(yǔ)來(lái)說(shuō),在語(yǔ)言文本和對(duì)話中會(huì)存在很多具有歧義或多義的詞語(yǔ),例如“一行行,行行行,一行不行,行行不行”同樣是“行”字,但是讀音不同就會(huì)有不同的意思,因此就會(huì)加大自然語(yǔ)言的處理難度,怎樣消除歧義和進(jìn)行語(yǔ)義分析成為一個(gè)大難題??偟膩?lái)說(shuō),要想消除歧義就必須積累大量知識(shí),這樣才能提高語(yǔ)言信息處理技術(shù)的處理效率。舉個(gè)例子,在常見(jiàn)的英文對(duì)話中“Thanks”是謝謝的意思,但是如果對(duì)話是問(wèn):“Would you like some water?”答:“Oh thanks”,這代表的不是謝謝的意思,而是拒絕的意思,因此,翻譯機(jī)器需要擁有一定的背景知識(shí)庫(kù),這樣才能精準(zhǔn)地翻譯出對(duì)話。
人類的活動(dòng)和表達(dá)都非常復(fù)雜,常常通過(guò)有限的詞匯轉(zhuǎn)化成不同的意思,這就導(dǎo)致有時(shí)候同一種語(yǔ)言形式可以表達(dá)出不同的含義[3]。就拿我們漢語(yǔ)來(lái)說(shuō),漢語(yǔ)是以字為基礎(chǔ),通過(guò)字與字相結(jié)合組成詞語(yǔ),然后在通過(guò)詞語(yǔ)組成句子,再由句子組成段落,最后由段落組成文章,在組合過(guò)程中包含了多層意思的轉(zhuǎn)換,就容易導(dǎo)致同樣的語(yǔ)句在不同語(yǔ)境下有著不同的意義,另外,相對(duì)于英語(yǔ)來(lái)說(shuō),漢語(yǔ)還有分詞難題,而NLP技術(shù)的最小承載語(yǔ)義是單詞,因此還需要解決分詞問(wèn)題。在進(jìn)行口語(yǔ)表達(dá)時(shí),漢語(yǔ)的詞語(yǔ)詞之間是具有連貫性的,為中文處理增添以一層處理障礙。在NLP技術(shù)中,會(huì)通過(guò)分隔符來(lái)進(jìn)行詞語(yǔ)的處理,但有時(shí)候句子存在歧義,就會(huì)加大分詞難度,舉個(gè)例子,“南京市長(zhǎng)江大橋”如果在不同地方使用分詞符,就會(huì)變成不同的意思,如在“市”后面進(jìn)行分隔,就可以將其理解為南京市的長(zhǎng)江大橋,但如果在“長(zhǎng)”后進(jìn)行分隔,就會(huì)變成南京有一位市長(zhǎng)的名字將江大橋。因此,如何正確分詞成為NLP技術(shù)的處理難題,但總的來(lái)說(shuō),需要根據(jù)語(yǔ)境進(jìn)行分詞,通過(guò)掌握文本語(yǔ)義進(jìn)行翻譯能夠提升翻譯的正確性。分詞問(wèn)題同樣適用與短語(yǔ),比如“控制電腦”可以理解成我控制了這臺(tái)電腦,也可以理解成具有控制功能的電腦。另外,如何正確獲取上下文內(nèi)容也是一個(gè)難題。本文一直強(qiáng)調(diào),需要結(jié)合語(yǔ)境分析詞組的意思,因此在理解一句話時(shí)需要結(jié)合前后文,這樣才能準(zhǔn)確掌握句子的語(yǔ)境然后推斷出句子的含義。在漢語(yǔ)中代詞就是一種需要結(jié)合前后文來(lái)推斷的典型代表,比如“我從小羽手里拿走一個(gè)橘子給小剛,他可高興了。”這句話中的他代表的是小剛,由此可見(jiàn)在進(jìn)行語(yǔ)言分析時(shí)也需要結(jié)合前后文,這樣才能將自然語(yǔ)言準(zhǔn)確反映出來(lái)。
由于自然語(yǔ)言在應(yīng)用過(guò)程中會(huì)存在很多限制和不足,為了能夠減輕這些限制就必須要改進(jìn)TCT處理技術(shù)。改進(jìn)的方向主要在于提高對(duì)單詞邊界的識(shí)別能力、解決詞類和詞性的模糊性等方面。第一,在漢語(yǔ)中,最常見(jiàn)的詞匯是雙音節(jié)詞語(yǔ),同時(shí),三音節(jié)詞語(yǔ)和四音節(jié)成語(yǔ)也是較為常見(jiàn)的詞組,這些詞語(yǔ)的界定還是一個(gè)問(wèn)題,計(jì)算機(jī)很難將其界定為詞語(yǔ)、成語(yǔ)或短語(yǔ)。因此,在進(jìn)行詞聯(lián)接自然語(yǔ)言處理技術(shù)改進(jìn)時(shí)需要強(qiáng)化詞組的界定邊界;第二,日常交流的詞類和詞性具有一定的模糊性,如同一個(gè)詞組既能是動(dòng)詞又能是名詞,怎樣判斷詞組的詞類和詞性成為語(yǔ)言處理技術(shù)的難題。這時(shí)候就需要構(gòu)建一個(gè)基于詞聯(lián)接自然語(yǔ)言處理技術(shù)改進(jìn)模型,充實(shí)語(yǔ)料庫(kù)的詞匯量和實(shí)例知識(shí)。在改進(jìn)模型中,需要包括自然原因知識(shí)表述、語(yǔ)言分析和語(yǔ)言生成3種模塊,這樣就能對(duì)輸入語(yǔ)言進(jìn)行有效整合分析和輸出整理。另外,在改進(jìn)模型中要增加知識(shí)獲取、評(píng)價(jià)及修改功能,就能最大限度的對(duì)自然語(yǔ)言進(jìn)行分析及修改,保證語(yǔ)料庫(kù)語(yǔ)言知識(shí)的準(zhǔn)確性。其中,知識(shí)表述是對(duì)自然語(yǔ)言處理技術(shù)的綜合改進(jìn),能夠提高對(duì)主體的幫助,也能夠幫助主體獲得相關(guān)知識(shí),建立一個(gè)完善的知識(shí)體系。知識(shí)具有無(wú)限性,自然語(yǔ)言一直處于發(fā)展中,是一個(gè)動(dòng)態(tài)過(guò)程,但是用于儲(chǔ)存知識(shí)的計(jì)算機(jī)對(duì)知識(shí)的認(rèn)識(shí)有限,為了能夠提升對(duì)知識(shí)的掌握度,需要不斷升級(jí)知識(shí)儲(chǔ)存主體,豐富其內(nèi)在語(yǔ)料庫(kù)。
自然語(yǔ)言是人類交際的主要語(yǔ)言,它承載著人類知識(shí)和信息。通常來(lái)說(shuō),自然語(yǔ)言的結(jié)構(gòu)有五個(gè)部分組成,分別是字、詞、句、篇和章,通過(guò)采用TCT技術(shù),能夠增加詞聯(lián)接,提升其他五個(gè)部分的關(guān)聯(lián)性,有效改善自然語(yǔ)言處理技術(shù),而且能夠?qū)?fù)雜的句子轉(zhuǎn)化成由詞聯(lián)接的句子,可以明確字與句子的關(guān)系,準(zhǔn)確表達(dá)出該句子的含義,確保詞義的準(zhǔn)確性。
在改進(jìn)TCT技術(shù)時(shí),需要明確規(guī)避詞義模糊和不確定的缺點(diǎn),通過(guò)將詞聯(lián)接加入到語(yǔ)言成分結(jié)構(gòu)體系中,能夠簡(jiǎn)化句子的分詞,可以有效降低詞義模糊的弊端,進(jìn)而能夠提升自然語(yǔ)言處理技術(shù)的應(yīng)用效率。根據(jù)TCT技術(shù)特點(diǎn),可以將其應(yīng)用到自然語(yǔ)言的處理中,也可以將其應(yīng)用到文學(xué)語(yǔ)言處理、詞匯應(yīng)用技巧、修辭概念手法等領(lǐng)域中。在人類生活的幾千年中,人類之所以能夠不斷發(fā)展強(qiáng)大,主要依靠的就是對(duì)知識(shí)的學(xué)習(xí)和音樂(lè),隨著人類不斷積累技能和經(jīng)驗(yàn),才能更好地創(chuàng)造幸福家園和文明社會(huì)。而知識(shí)的獲取需要依賴于載體,在計(jì)算機(jī)中應(yīng)用NLP技術(shù)也需要遵循同樣的道理,而采用詞聯(lián)接技術(shù)能夠豐富和充實(shí)自然語(yǔ)言,加快自然語(yǔ)言處理技術(shù)的發(fā)展和改進(jìn)。
通過(guò)采用TCT技術(shù)能夠獲得更多的間接知識(shí)。人類獲得的知識(shí)可以分為直接知識(shí)和間接知識(shí),其中,直接知識(shí)指的是人類直接從自然界中實(shí)踐得出的經(jīng)驗(yàn),通過(guò)不斷積累經(jīng)驗(yàn),使其轉(zhuǎn)變成為一種知識(shí)體系,這樣的知識(shí)獲取需要耗費(fèi)大量的人力、物力和時(shí)間。隨著人類生活水平提高,人類創(chuàng)造的自然語(yǔ)言也得到不斷升級(jí)和改進(jìn),也增加了人類獲取知識(shí)的方式,就是間接知識(shí)的獲取。間接知識(shí)是建立在直接知識(shí)基礎(chǔ)上,可以滿足人們直接拿來(lái)使用的需求,間接知識(shí)是對(duì)直接知識(shí)的概括和歸納,具有很強(qiáng)的使用意義,能夠豐富自然語(yǔ)言知識(shí)。因此,可以通過(guò)改進(jìn)自然語(yǔ)言處理技術(shù)的方式來(lái)改變知識(shí)獲取途徑,這樣就能有效擴(kuò)展人類獲取知識(shí)的途徑,也能方便人類直接利用知識(shí)。
通過(guò)應(yīng)用TCT技術(shù)能夠讓語(yǔ)言應(yīng)用變得更加科學(xué),從而構(gòu)建一個(gè)完善的語(yǔ)言體系,促進(jìn)人們對(duì)語(yǔ)言的應(yīng)用更加準(zhǔn)確。采用TCT技術(shù)還可以豐富自然語(yǔ)言語(yǔ)料庫(kù),而且通過(guò)加工、整合的方式來(lái)對(duì)語(yǔ)料庫(kù)的知識(shí)進(jìn)行重新整合,可以有效標(biāo)注出容易出錯(cuò)的和具有歧義的內(nèi)容,并完善不同的語(yǔ)境下詞匯的含義,提升自然語(yǔ)言處理效率。另外,通過(guò)對(duì)語(yǔ)料進(jìn)行加工,能夠讓被加工的語(yǔ)言更加規(guī)范完整,使得字詞更加具有邏輯性和修辭性,為人類提供富有多元化語(yǔ)料注釋,讓知識(shí)的翻譯更加人性化和個(gè)性化。
怎樣提升語(yǔ)言規(guī)則的規(guī)范性也是自然語(yǔ)言處理技術(shù)需要著重升級(jí)的一個(gè)重要內(nèi)容,通過(guò)采用TCT技術(shù),就能增強(qiáng)詞與詞之間的關(guān)聯(lián)性,也就能能夠升級(jí)語(yǔ)言規(guī)則的規(guī)范性。在現(xiàn)實(shí)中,人類是先有語(yǔ)言,然后才有語(yǔ)言規(guī)則,語(yǔ)言規(guī)則的出現(xiàn)是為了強(qiáng)化語(yǔ)言的使用邏輯,能夠讓人們?cè)诮涣髦兄苯泳珳?zhǔn)的理解對(duì)方的意思。因此,語(yǔ)言規(guī)則的規(guī)范性也是能夠提升自然語(yǔ)言處理技術(shù)的重要因素。如果在語(yǔ)料中增加語(yǔ)言邏輯思維,就能讓詞組按照一定的邏輯性組裝成句,在通過(guò)句與句的組合構(gòu)成一個(gè)表述清晰的段落。采用TCT技術(shù)就能讓每個(gè)句子按照一定的邏輯體系進(jìn)行排列,從而形成才能語(yǔ)義完整的文章,
將TCT應(yīng)用到人們?nèi)粘I罱浑H中,能夠幫助人類組織邏輯性強(qiáng)的話語(yǔ),可以增加對(duì)話的趣味性,也能讓對(duì)方更容易理解自己要表達(dá)的意思。在人際交往中,對(duì)話是最能增進(jìn)感情、提高認(rèn)識(shí)的方式,要想給別人留下一個(gè)良好印象,就必須要確保話語(yǔ)的邏輯性,不能常常說(shuō)一些詞不達(dá)意的話,這樣容易形成雞同鴨講的局面,不僅會(huì)降低對(duì)方對(duì)自己的印象,還會(huì)讓對(duì)方覺(jué)得說(shuō)話的人沒(méi)有內(nèi)涵。而應(yīng)用TCT技術(shù)能夠讓說(shuō)話人的思維更加清晰,然后可以在大腦中演練好對(duì)話過(guò)程,使其表達(dá)能夠形成一個(gè)完整的結(jié)構(gòu)。
自然語(yǔ)言處理是一門(mén)新興學(xué)科,同時(shí)它也是一門(mén)重要學(xué)科。隨著信息技術(shù)不斷發(fā)展,人類的生活已經(jīng)離不開(kāi)信息技術(shù),這時(shí)候自然語(yǔ)言處理技術(shù)能夠?qū)崿F(xiàn)人機(jī)交互,是不可缺少的重要技術(shù)。采用基于詞聯(lián)接的自然語(yǔ)言信息處理技術(shù)能夠提升NLP技術(shù)的活力,使其更加適應(yīng)現(xiàn)代化生活,也為NLP技術(shù)的發(fā)展帶來(lái)更加光明的未來(lái)。