柴海倫
(杭州師范大學(xué),浙江 杭州 310000)
自然語(yǔ)言處理是研究“如何使人和計(jì)算機(jī)二者之間采取自然語(yǔ)言并進(jìn)行合理有效溝通”的集語(yǔ)言學(xué)以及計(jì)算機(jī)科學(xué)為一體的數(shù)據(jù)科學(xué),簡(jiǎn)而言之就是:機(jī)器語(yǔ)言能和自然語(yǔ)言之間有效切換交流、溝通的一座橋梁,用來(lái)實(shí)現(xiàn)“人機(jī)交流”的目的。它并不是一般的自然語(yǔ)言,而是針對(duì)人工智能以及計(jì)算機(jī)科學(xué)領(lǐng)域的重要發(fā)展方向。它是數(shù)據(jù)科學(xué)領(lǐng)域最受歡迎,也是最熱門(mén)的課題之一。
自然語(yǔ)言處理主要應(yīng)用于:信息搜索、機(jī)翻、問(wèn)答自動(dòng)化、語(yǔ)音識(shí)別、文本自動(dòng)摘要以及情感分析等,隨著不斷地發(fā)展,將會(huì)有更多要應(yīng)用的領(lǐng)域[1]。
自然語(yǔ)言處理的核心任務(wù)就是:期望人工智能機(jī)器如同人一樣,與人類(lèi)能產(chǎn)生正常的語(yǔ)言和理解能力。將非人類(lèi)語(yǔ)言的數(shù)據(jù)轉(zhuǎn)換成人類(lèi)能理解的語(yǔ)言格式。
美國(guó)工程師韋弗最先提出自然語(yǔ)言處理技術(shù)中的“機(jī)器翻譯”的方案。按當(dāng)時(shí)社會(huì)環(huán)境而言,自然語(yǔ)言處理最先產(chǎn)生于語(yǔ)言翻譯領(lǐng)域,在計(jì)算機(jī)未被發(fā)明出來(lái)前,翻譯工作都是由人工承擔(dān)的,但隨著對(duì)自然語(yǔ)言處理的客觀(guān)需求,促使了人們對(duì)計(jì)算機(jī)語(yǔ)言翻譯工作的提出和改進(jìn)。
20世紀(jì)中期,法國(guó)數(shù)學(xué)家沃古瓦在原有的基礎(chǔ)上,創(chuàng)建出了一套全新完整的計(jì)算機(jī)翻譯步驟,并將其運(yùn)用到了實(shí)際的法語(yǔ)和俄語(yǔ)的翻譯工作中,獲得了較好的成果。但由于人類(lèi)自然語(yǔ)言的不同,以及即便是相同詞語(yǔ),其表達(dá)出的意思也可能不同,從而導(dǎo)致翻譯出來(lái)的語(yǔ)句原意差異性非常大。1974年,英國(guó)人工智能專(zhuān)家Y.A.威爾克斯設(shè)計(jì)出的另一套翻譯系統(tǒng),可讀性較高最具代表性,在當(dāng)時(shí)的環(huán)境以及對(duì)未來(lái)的發(fā)展中具有非常大的突破性。
上述工作主要是自然語(yǔ)言處理技術(shù)的“機(jī)器翻譯”。1972年,維諾格拉德的SHRDLU系統(tǒng)將語(yǔ)言分析和知識(shí)推理結(jié)合在了一起,這對(duì)于自然語(yǔ)言處理的研究方向邁出了一大步。同年,伍茲提出擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(ATN),并建成了LUNAR系統(tǒng)。ATN還成了現(xiàn)今自然語(yǔ)言處理研究中廣泛采用的方法。
20世紀(jì)末,自然語(yǔ)言處理技術(shù)終于從誕生走向繁榮,并具有兩大特征:規(guī)模性大以及真實(shí)可用性強(qiáng)。規(guī)模性大意味對(duì)該技術(shù)的發(fā)展和改革需要有更深層次的要求;真實(shí)可用性強(qiáng)說(shuō)明對(duì)于文本處理內(nèi)容需要更加的豐富。由此可見(jiàn),規(guī)模性和真實(shí)可用性二者缺一不可,相輔相成。而該技術(shù)之所以能夠不斷改革和發(fā)展進(jìn)入繁榮期,也說(shuō)明了人們的生活已離不開(kāi)科技,進(jìn)而促使了網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和壯大。而且計(jì)算機(jī)技術(shù)也必將會(huì)隨著國(guó)際互聯(lián)網(wǎng)的日益發(fā)展逐漸走向成熟。
現(xiàn)階段,自然語(yǔ)言處理技術(shù)的主要發(fā)展趨向是:人工智能、語(yǔ)言工程、數(shù)據(jù)處理以及科學(xué)認(rèn)知。從目前來(lái)看,除數(shù)據(jù)處理之外,其他三類(lèi)主要受實(shí)驗(yàn)室的限制,而數(shù)據(jù)處理則有可能是未來(lái)應(yīng)用方向發(fā)展最多的技術(shù)。
如今專(zhuān)業(yè)領(lǐng)域上的文本翻譯、搜索引擎、文字錄入等研究成果已經(jīng)很大程度為人類(lèi)提供了可靠的輔助性幫助。但隨著日漸增長(zhǎng)的迫切需求,如信息服務(wù)、情報(bào)信息處理、國(guó)家安全和通信、網(wǎng)站內(nèi)容管理,語(yǔ)義表示與計(jì)算等,針對(duì)這些方面的研究工作仍任重道遠(yuǎn)。目前正在進(jìn)行中的部分研究也還缺少堅(jiān)實(shí)的理論基礎(chǔ),從而暴露出很多問(wèn)題。要想發(fā)展出真正更加實(shí)用的技術(shù)還需要很長(zhǎng)時(shí)間,在此基礎(chǔ)上也需要針對(duì)這些理論知識(shí)進(jìn)行更深入的探討。
第一,跨模態(tài)語(yǔ)言理解(語(yǔ)言智能)存在局限性。機(jī)器人和人類(lèi)對(duì)于常識(shí)性問(wèn)題無(wú)法產(chǎn)生“共鳴”。人可以直接對(duì)手機(jī)發(fā)出具體指令,如“查找附近餐飲店”,手機(jī)助手就會(huì)標(biāo)注出附近餐飲的全部位置。但若人對(duì)手機(jī)發(fā)出“餓了”的指令,手機(jī)助手則會(huì)無(wú)動(dòng)于衷。就是因?yàn)闄C(jī)器人無(wú)法擁有和人類(lèi)相同的常識(shí),除非將所有常識(shí)性問(wèn)題搬到系統(tǒng)中。但設(shè)計(jì)者不可能做到把所有人類(lèi)常識(shí)問(wèn)題總結(jié)出來(lái)并輸入到AI系統(tǒng)中,這對(duì)目前來(lái)說(shuō)是不現(xiàn)實(shí)的。換言之,目前的系統(tǒng)可能連三四歲孩童的語(yǔ)言和理解能力都達(dá)不到。
第二,低資源問(wèn)題。對(duì)于標(biāo)注數(shù)據(jù)資源缺乏的問(wèn)題,自然語(yǔ)言處理還沒(méi)有辦法能夠解決。針對(duì)這些不能被解決的資源問(wèn)題,除卻專(zhuān)業(yè)知識(shí)的加入整合,人工標(biāo)注數(shù)據(jù)也不失為一個(gè)好方法,也能對(duì)數(shù)據(jù)加強(qiáng)有一定的幫助。這點(diǎn)是如何讓自然語(yǔ)言處理技術(shù)變得更“廣”的問(wèn)題。
目測(cè)從現(xiàn)在以及未來(lái)很長(zhǎng)一段時(shí)間,人類(lèi)都將處于大數(shù)據(jù)時(shí)代的階段。而大數(shù)據(jù)想要體現(xiàn)出其本身的價(jià)值,就肯定離不開(kāi)人工智能技術(shù)以及機(jī)器的學(xué)習(xí);同樣人工智能想要體現(xiàn)出優(yōu)勢(shì)也必須以大數(shù)據(jù)為基礎(chǔ),二者相輔相成。很多大企業(yè)雖然都擁有屬于自己的海量數(shù)據(jù)庫(kù),并運(yùn)用人工智能技術(shù)進(jìn)而展現(xiàn)出它的價(jià)值。但若單從數(shù)據(jù)量本身來(lái)看,或許目前最大的數(shù)據(jù)量應(yīng)該是互聯(lián)網(wǎng)上的茫茫網(wǎng)頁(yè),目前針對(duì)這些網(wǎng)頁(yè)的利用率還是比較淺的,還具備很大的挖掘價(jià)值,每個(gè)網(wǎng)頁(yè)幾乎都有定量的文本內(nèi)容,這些網(wǎng)頁(yè)絕大部分得靠文本來(lái)展現(xiàn)其核心內(nèi)容,這些文本內(nèi)容都是自然語(yǔ)言。那么研究自然語(yǔ)言處理的價(jià)值就相當(dāng)大了,只有更好的自然語(yǔ)言處理方法才能深度挖掘網(wǎng)頁(yè)價(jià)值并創(chuàng)造出更大的價(jià)值。
根據(jù)目前情況來(lái)看,人工智能技術(shù)的發(fā)展情況很不錯(cuò),最火的應(yīng)用應(yīng)屬于圖像、語(yǔ)言方向等,在文本處理方面相對(duì)還比較欠缺。因此,對(duì)于圖像和語(yǔ)言方向無(wú)論是技術(shù)還是人才都將進(jìn)入相對(duì)平緩的階段,文本處理即將登上舞臺(tái)。
機(jī)器理解自然語(yǔ)言的含義對(duì)人工智能來(lái)說(shuō)是非常重要的,機(jī)器要實(shí)現(xiàn)智能化,若連人類(lèi)語(yǔ)言都無(wú)法理解,如何才能體現(xiàn)出其智能之處,難道讓兩個(gè)機(jī)器之間交流信息便稱(chēng)這就是智能?總而言之,對(duì)于自然語(yǔ)言處理的研究會(huì)讓大家的生活越來(lái)越方便,金融、電商或醫(yī)療等各大領(lǐng)域也讓自然語(yǔ)言處理技術(shù)得到了廣泛的應(yīng)用。
針對(duì)自然語(yǔ)言處理的研究方向以及涉及范圍非常廣。如信息提取、系統(tǒng)問(wèn)答、機(jī)翻、文字校對(duì)或編輯、語(yǔ)音合成或識(shí)別等。
第一,提取信息。從特定的文本中提取出如人物、時(shí)間、地點(diǎn)、原因以及結(jié)果等重要信息。換言之就是要讓機(jī)器了解某人在某時(shí)因某原因做了某事,以及產(chǎn)生了何種結(jié)果。
第二,文本生成。讓機(jī)器人如同人類(lèi)一般能夠使用自然語(yǔ)言進(jìn)行表達(dá)和寫(xiě)作。
第三,問(wèn)答系統(tǒng)。人為通過(guò)對(duì)計(jì)算機(jī)提出問(wèn)題,由計(jì)算機(jī)的問(wèn)答系統(tǒng)利用自動(dòng)搜索等方法作出精準(zhǔn)的答案。這需要計(jì)算機(jī)對(duì)自然語(yǔ)言查詢(xún)語(yǔ)句進(jìn)行語(yǔ)義分析,從而在眾多候選答案中找出最佳答案。
第四,對(duì)話(huà)系統(tǒng)。可通過(guò)與用戶(hù)進(jìn)行問(wèn)答聊天完成任務(wù)。為了能更智能化需要系統(tǒng)具備多輪對(duì)話(huà)的能力。
第五,機(jī)器翻譯。將源語(yǔ)言文本輸入到系統(tǒng)內(nèi),從而自動(dòng)獲得另一種想要的語(yǔ)言文本。機(jī)翻的方法截止到目前已逐漸形成了比較嚴(yán)謹(jǐn)?shù)囊惶左w系。
第六,輿情分析。將收集到的海量信息,通過(guò)系統(tǒng)自動(dòng)化對(duì)互聯(lián)網(wǎng)上的輿論導(dǎo)向加以分析,以此來(lái)實(shí)現(xiàn)能及時(shí)應(yīng)對(duì)輿情的目的。
第七,信息過(guò)濾。通過(guò)系統(tǒng)將符合條件的信息進(jìn)行自動(dòng)識(shí)別和過(guò)濾。如將互聯(lián)網(wǎng)有害信息的自動(dòng)化過(guò)濾,保護(hù)信息安全做好防護(hù)工作。
為了了解顧客對(duì)自己店面的真實(shí)反饋并與顧客進(jìn)行真實(shí)互動(dòng),美國(guó)一家連鎖酒店使用NLP技術(shù)支持的人工智能系統(tǒng)進(jìn)行網(wǎng)絡(luò)跟蹤,并根據(jù)顧客在互聯(lián)網(wǎng)上留下的評(píng)論等反饋信息進(jìn)行相應(yīng)的整改。到目前為止,AI系統(tǒng)已經(jīng)做出了95%的準(zhǔn)確判斷,幫助門(mén)店實(shí)現(xiàn)了良好的“溝通”效果。
美國(guó)某IT集團(tuán)每個(gè)月都會(huì)收到近10萬(wàn)個(gè)入站請(qǐng)求,出于這個(gè)原因,他們創(chuàng)建了“數(shù)字工作者”的智能機(jī)器,用來(lái)閱讀這些電子郵件,讀取并單獨(dú)回復(fù)。對(duì)于更復(fù)雜的問(wèn)題,則交給人類(lèi)工程師解決。自該數(shù)字工人“上崗”以來(lái),每月為工程師節(jié)省了近1萬(wàn)小時(shí)的工作時(shí)間,大大提高了工作效率。
NLP語(yǔ)音識(shí)別技術(shù)正變得越來(lái)越成熟,因此被應(yīng)用于醫(yī)療臨床。這項(xiàng)技術(shù)與醫(yī)學(xué)領(lǐng)域的深入結(jié)合使醫(yī)生從繁重的電子健康記錄中解放出來(lái),在護(hù)理病人方面更有效。
站在新時(shí)代的互聯(lián)網(wǎng)“風(fēng)口”,自然語(yǔ)言處理技術(shù)在未來(lái)幾年將產(chǎn)生整體動(dòng)態(tài)影響,發(fā)展趨勢(shì)將不可限量。對(duì)于跨模態(tài)的融合以及對(duì)各專(zhuān)業(yè)領(lǐng)域的需求及解決方案,人機(jī)智能互動(dòng)也將有突破性的變化。
自然語(yǔ)言處理是由詞匯和符號(hào)體現(xiàn)的,因此當(dāng)出現(xiàn)兩個(gè)詞性接近,但詞形不同的詞語(yǔ)時(shí),計(jì)算機(jī)就會(huì)判定它們是不同的詞語(yǔ)。這給現(xiàn)實(shí)中的應(yīng)用帶來(lái)了很大的不便。因此,如果在一個(gè)語(yǔ)義當(dāng)中,改變傳統(tǒng)的思路,采用組合詞語(yǔ)相結(jié)合的方法,就能計(jì)算出不同級(jí)別的語(yǔ)言單元間的相似性。運(yùn)用這種新型方法再進(jìn)行深度學(xué)習(xí)也會(huì)帶來(lái)很大的轉(zhuǎn)變。
淺層學(xué)習(xí)是按步驟走,可能還僅停留在低級(jí)認(rèn)知的層次;直接的深層學(xué)習(xí)則是一步到位的端到端(end—to—end),而從淺到深的學(xué)習(xí)基于對(duì)淺層模型的學(xué)習(xí)。大部分語(yǔ)言信息用“稀疏”表示,從而會(huì)導(dǎo)致“維數(shù)災(zāi)難”類(lèi)的問(wèn)題;而“密集向量”表示則取得了較好的效果。這一大趨勢(shì)是由詞嵌入和深度學(xué)習(xí)模式的成功引發(fā)的。
NLP技術(shù)非常復(fù)雜,不僅要處理與之相關(guān)的專(zhuān)業(yè)性問(wèn)題,還要考慮到和其他領(lǐng)域相結(jié)合可能產(chǎn)生的問(wèn)題,所以就顯得更加瑣碎。NLP技術(shù)領(lǐng)域的研究數(shù)據(jù)和程序從以前的封閉,程序員不愿分享成果,到如今的開(kāi)放狀態(tài),都揭示了其使用門(mén)檻越來(lái)越低,無(wú)論是大型企業(yè)還是各大高校也都愿意提供更多的平臺(tái)。從另一角度來(lái)看,NLP技術(shù)的發(fā)展也將會(huì)越來(lái)越好。
美國(guó)某公司預(yù)做金融預(yù)測(cè),結(jié)果只招聘與計(jì)算機(jī)和數(shù)學(xué)方面的人才。這恰好說(shuō)明一個(gè)問(wèn)題:計(jì)算機(jī)是運(yùn)用現(xiàn)有算法解決存在的問(wèn)題,并非是同人類(lèi)高手進(jìn)行對(duì)決學(xué)習(xí)。從人工創(chuàng)建到自動(dòng)化構(gòu)建NLP技術(shù)領(lǐng)域,以前需要的大量顯性知識(shí),如今可采用自動(dòng)化方法來(lái)構(gòu)建,比如自動(dòng)發(fā)現(xiàn)詞匯與詞匯之間的關(guān)系,像人類(lèi)身上的血管一般融入各個(gè)方面。
自從助手Siri“出道”后,國(guó)內(nèi)也開(kāi)始跟隨潮流做語(yǔ)音助手,但因?yàn)椤爸荒苈?tīng)得到,但卻聽(tīng)不懂”所以很快就下馬了,這也導(dǎo)致后續(xù)服務(wù)跟不上,實(shí)用性也不夠強(qiáng)。如今是將特定場(chǎng)景和機(jī)器人結(jié)合一起,進(jìn)行人機(jī)對(duì)話(huà)的任務(wù),非常具有趣味性和實(shí)用價(jià)值。
谷歌推出的自動(dòng)化測(cè)試機(jī)器人,已經(jīng)識(shí)別并報(bào)告出廣泛使用的項(xiàng)目中存在的漏洞。該技術(shù)的工作原理是:通過(guò)讓其閱讀并查找軟件應(yīng)用程序中的大量隨機(jī)數(shù)據(jù)并進(jìn)行分析其輸出異常的問(wèn)題,從而測(cè)試它是否能解決出現(xiàn)的BUG,反過(guò)來(lái)也能為開(kāi)發(fā)人員提供可能存在的錯(cuò)誤應(yīng)用程序代碼。這非常具有難度,但也證明了該技術(shù)的重要性。
目前文本情感分析已涵蓋了文本挖掘、抽取信息、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域,而且這一技術(shù)已經(jīng)得到了較為廣泛的應(yīng)用,如商業(yè)和輿情方面。相較于事實(shí)性文本,文本情感分析更受群眾歡迎。
從傳統(tǒng)媒體過(guò)渡到社交媒體說(shuō)明互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,如今人們還會(huì)用社交媒體做股票以及票房的預(yù)測(cè),它與日常生活更加息息相關(guān)。從長(zhǎng)遠(yuǎn)角度來(lái)看,人文社會(huì)和互聯(lián)網(wǎng)技術(shù)相結(jié)合更具有歷史意義。自然語(yǔ)言處理作為最基礎(chǔ)也最為重要的技術(shù),其未來(lái)的發(fā)展前景自然是無(wú)限與廣闊的。
近幾年文本生成作為NLP領(lǐng)域的另一大重要技術(shù),從利用范本構(gòu)建文本轉(zhuǎn)變成如今的自由文本,研究?jī)r(jià)值和其意義都是非常大的。
隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,目前已被廣泛應(yīng)用到各個(gè)行業(yè)中。因這些專(zhuān)業(yè)領(lǐng)域?qū)LP技術(shù)的需求非常大,所以NLP技術(shù)勢(shì)必會(huì)發(fā)展得越來(lái)越好。
在如今21世紀(jì)的信息科技化時(shí)代,隨著互聯(lián)網(wǎng)的不斷進(jìn)步和發(fā)展,自然語(yǔ)言處理技術(shù)也會(huì)被不斷的拓展到不同領(lǐng)域及應(yīng)用,更會(huì)成為引領(lǐng)科技領(lǐng)域發(fā)展的焦點(diǎn)。它對(duì)我國(guó)科技乃至世界科技的進(jìn)步和發(fā)展都具有極大的意義并具有深遠(yuǎn)影響。從人類(lèi)日常生活到其他專(zhuān)業(yè)領(lǐng)域都離不開(kāi)它。上述對(duì)于自然語(yǔ)言處理技術(shù)的現(xiàn)狀研究以及未來(lái)發(fā)展均展開(kāi)了深入探析,從中可以得知:對(duì)于自然語(yǔ)言處理的研究,未來(lái)更著重于與多領(lǐng)域的結(jié)合以及未來(lái)的實(shí)用性,此研究對(duì)未來(lái)的發(fā)展極具重要意義。