劉子琦
(天津英華實(shí)驗(yàn)學(xué)校,天津 301799)
現(xiàn)在,有很多網(wǎng)站都提供用戶與客服在線聊天的窗口,但其實(shí)并不是每個(gè)網(wǎng)站都有一個(gè)真人提供實(shí)時(shí)服務(wù)。所謂的在線客服,往往僅是一種初級的人工智能,大多聊天機(jī)器人無異于自動應(yīng)答器。這其中運(yùn)用到的便是人工智能(Artificial Intelligence, AI)技術(shù)。其中最有趣也最困難的是,這些聊天機(jī)器人必須擅于“理解”自然語言。當(dāng)下社會,各行各業(yè)對于人工智能方面的人才需求也在不斷增加,可見人工智能專業(yè)的未來發(fā)展空間還是很可觀的。
人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,是以仿制人類智能的方式研制出的技術(shù),該領(lǐng)域的研究包括機(jī)器人、圖像、語言識別、自然語言處理和專家系統(tǒng)等,這些復(fù)雜多樣的技術(shù)研究使其可以幫助我們完成更復(fù)雜的工作[1]。人工智能技術(shù)使得其能像人類一樣思考問題并做出反應(yīng),對于更為高級的人工智能而言,它們的智能可能正在逐漸超越人類。
那么,人工智能領(lǐng)域的熱門研究方向又是什么呢?人工智能作為科技創(chuàng)新產(chǎn)物,促進(jìn)人類社會進(jìn)步,提升人類生活水平,在方方面面都起著至關(guān)重要的作用。此時(shí),不得不談的便是人工智能自然語言處理這一研究技術(shù)。顧名思義,它與語言學(xué)有著密不可分的聯(lián)系,但又有著至關(guān)重要的區(qū)別,這一技術(shù)的實(shí)質(zhì)在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng)中的軟件系統(tǒng)。更深奧地說,自然語言處理技術(shù)是在計(jì)算機(jī)的支持下對語言信息進(jìn)行定量化的研究,并提供可供人與計(jì)算機(jī)之間能共同使用的語言描寫[2]。
自然語言處理技術(shù)的發(fā)展脈絡(luò)可被分為萌芽期、快速發(fā)展期、低速發(fā)展期和復(fù)蘇融合期等階段[3]。
1956 年以前屬于自然語言處理的萌芽期。一方面,人類文明經(jīng)過了幾千年的發(fā)展,積累了大量的數(shù)學(xué)、語言學(xué)和物理學(xué)知識。這些知識不僅是計(jì)算機(jī)誕生的必要條件,同時(shí)也是自然語言處理的理論基礎(chǔ);另一方面,“圖靈機(jī)”這個(gè)觀念由阿蘭·圖靈于1936 年首先提出。“圖靈機(jī)”是真正意義上的電子計(jì)算機(jī)產(chǎn)生于1946 年的重要原因。而電子計(jì)算機(jī)的出現(xiàn),也為后來的機(jī)器翻譯及后續(xù)的自然語言加工奠定了堅(jiān)實(shí)的基礎(chǔ)。在1943 年,Shannon提出了一個(gè)基于離散馬爾可夫的可能性模式來表示該語言的自動機(jī)。然后,他在“熵”這個(gè)熱力學(xué)的定義中引入了一個(gè)概率運(yùn)算。20 世紀(jì)50 年代初期,Kleene 開始對有限自動機(jī)和規(guī)則表示進(jìn)行了深入的探討。在1956 年,Chomsky 還將語境獨(dú)立的語法引入到了自然語言的加工中。他們的研究結(jié)果導(dǎo)致了兩種以規(guī)則為基礎(chǔ)的、以概率為基礎(chǔ)的不同技術(shù)方法的產(chǎn)生。
1957 年至1970 年屬快速發(fā)展期,由于有基于規(guī)則和基于概率這兩種不同方法的存在,自然語言處理的研究在這一時(shí)期分為了兩大陣營:一個(gè)是基于規(guī)則方法的符號派(symbolic),另一個(gè)是采用概率方法的隨機(jī)派(stochastic)。在此期間,兩者的理論和實(shí)踐都有了很大的進(jìn)展。50 年代中葉至60 年代中葉,象征主義學(xué)派以喬姆斯基為首,在形式語言學(xué)和產(chǎn)生語法方面展開了一系列的探索。而在此期間,貝葉斯統(tǒng)計(jì)分析的隨機(jī)性理論也有了長足的發(fā)展。該階段主要的研究結(jié)果有:賓夕法尼亞大學(xué)于1959 年開發(fā)出TDAP,并在此基礎(chǔ)上構(gòu)建了布朗美國英語語料庫。1967 年,美國心理學(xué)家Neisser 提出認(rèn)知心理學(xué)的概念,直接把自然語言處理與人類的認(rèn)知聯(lián)系起來了。
1971 年至1993 年屬低速發(fā)展期,隨著研究深入,一連串新問題接連涌出,導(dǎo)致許多人對此喪失了信心,自此,信息處理進(jìn)入了低谷期。盡管如此,研究仍在不斷進(jìn)行,并有很多新的發(fā)展。之后,自然語言處理研究者對于過去的研究進(jìn)行了反思,事態(tài)逐漸有了起色,研究也在慢慢復(fù)蘇。
1994 年至今屬復(fù)蘇融合期,互聯(lián)網(wǎng)的商業(yè)化和同期網(wǎng)絡(luò)技術(shù)的發(fā)展使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。同時(shí),計(jì)算機(jī)的速度和存儲量的大幅增加,使得語音和語言處理的商品化開發(fā)成為可能。
談及國內(nèi)發(fā)展,中國阿里達(dá)摩院的自然語言處理研究團(tuán)隊(duì)最近提出一種名為StructBERT 的優(yōu)化模型[4],它能讓機(jī)器更好地掌握人類語法,加深對自然語言的理解。使用該模型好比給機(jī)器內(nèi)置一個(gè)“語法識別器”,使機(jī)器在面對語序錯亂或不符合語法習(xí)慣的詞句時(shí),仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng),大大提高機(jī)器對詞語、句子以及語言整體的理解力。這一技術(shù)已廣泛使用于阿里旗下阿里小蜜、螞蟻金服、優(yōu)酷等業(yè)務(wù)。阿里達(dá)摩院的語言模型和閱讀理解技術(shù)也被用于行業(yè)賦能,推進(jìn)人工智能技術(shù)在醫(yī)療、電力、金融等行業(yè)的落地。據(jù)悉,StructBERT 模型日前被評為全球性能最強(qiáng)的自然語言處理系統(tǒng)。
自然語言處理技術(shù)(Natural Language Processing,NLP)是在計(jì)算機(jī)的支持下對語言信息進(jìn)行定量化的研究,并提供可供人與計(jì)算機(jī)之間能共同使用的語言描寫。它能夠?qū)崿F(xiàn)人與計(jì)算機(jī)之間用簡單語言進(jìn)行有效交流的各種理論和方法。其中自然語言即人類語言,是人類交流的主要工具,也對人類文明產(chǎn)生了深遠(yuǎn)的影響。定量化研究就是將實(shí)驗(yàn)和以數(shù)字為基礎(chǔ)的數(shù)據(jù)聯(lián)系在一起的研究。
自然語言處理通常通過機(jī)器學(xué)習(xí)進(jìn)行工作。機(jī)器學(xué)習(xí)系統(tǒng)像其他任何形式的數(shù)據(jù)一樣存儲單詞及其組合方式。短語、句子、有時(shí)甚至整本書的內(nèi)容都被輸入機(jī)器學(xué)習(xí)引擎,并在其中使用語法規(guī)則或人們的現(xiàn)實(shí)語言習(xí)慣,或兩者兼而有之進(jìn)行處理。然后,計(jì)算機(jī)使用這些數(shù)據(jù)來查找模式并推斷出接下來的結(jié)果。自然語言處理技術(shù)在生活中有著許多應(yīng)用,機(jī)器翻譯、聊天機(jī)器人和其他人工智能的聊天軟件,這些都依賴于語言處理技術(shù)在后臺運(yùn)行[5]。
語音識別就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的一種技術(shù)。其原理主要是:通過對聲音波形分幀構(gòu)態(tài),對語言特征進(jìn)行處理分析,經(jīng)由音素系統(tǒng)對其進(jìn)行相應(yīng)的算法處理。通常,語音識別有以下4 種方法:第一,基于語言學(xué)和聲學(xué)的方法;第二,隨機(jī)模型;第三,利用人工神經(jīng)網(wǎng)絡(luò);第四,概率語法分析。語音識別會對收集到的目標(biāo)進(jìn)行預(yù)處理,其中包括語音信號采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等多個(gè)步驟,而這些也涉及語音識別技術(shù)的算法。把語言變?yōu)槲淖中枰崛『推ヅ?,自學(xué)習(xí)系統(tǒng)就是對這兩個(gè)數(shù)據(jù)庫進(jìn)行訓(xùn)練分析。
Sarash Borys 采用隨韻律而定的音位變體模型的言語識別,說明韻律因素在音素建模及其在言語識別應(yīng)用方面的重要性。王作英和肖熙等在漢語的語音識別中,利用了音段時(shí)長的信息,大大提高了識別率。但是,總的來說,怎樣在漢語自動語音識別的框架中利用語音學(xué)知識仍然是個(gè)新的課題與挑戰(zhàn)。隨著我國科技的進(jìn)一步發(fā)展,自動語音識別這一技術(shù)必然會蒸蒸日上,為我國科技發(fā)展服務(wù),為國家奠定科技基礎(chǔ)[6]。
聊天機(jī)器人是通過后臺智能分析輸出,模擬人類發(fā)出語音信號從而進(jìn)行交談的一種計(jì)算機(jī)程序。其社交原理是大多數(shù)聊天機(jī)器人會搭載自然語言處理技術(shù),再通過從數(shù)據(jù)庫找到能與問題相匹配的最合適應(yīng)答句。他們就如同客服和你聊天,24h 在線,并且研發(fā)人員會將大量網(wǎng)絡(luò)流行用語加入詞庫以保證時(shí)效性而不會被社會所淘汰,這也使得對話機(jī)器人能夠更精確地理解人們的意思。中規(guī)中矩的話語不會引起人們的青睞,這也是聊天機(jī)器人廣受大眾喜愛的緣由之一。與早期人工智能相比,現(xiàn)在的人工智能必須有智慧和邏輯推理的能力,必須更快、更強(qiáng)。它的應(yīng)用也大多使用于對話與通訊,廣泛運(yùn)用于即時(shí)通訊平臺,如臉書、微信等軟件,以娛樂、零售行銷、以及客服為目的。墨西哥航空利用人工智能售票、回答問題,墨航和荷蘭皇家航空并且提供航班資訊,處理乘客報(bào)到,發(fā)出行動登機(jī)證,推薦旅館、餐廳、目的地行程。中國的旅行社在此之前已用微信等軟件來提供這些服務(wù)。
智能寫作是以人工智能程序?yàn)閷懽髦黧w,模仿人類的寫作行為和機(jī)制,自動或半自動地生成文學(xué)作品,也被稱為人工智能文學(xué)。它的實(shí)質(zhì)就是利用AI 技術(shù)寫作,即通過計(jì)算機(jī)程序,針對獲取的輸入內(nèi)容,進(jìn)行一系列具有較強(qiáng)自動化的處理和生成工作,最終得到有一定創(chuàng)新特色的、全新的輸出內(nèi)容。目前,AI 寫作技術(shù)正處于一段蓬勃發(fā)展的時(shí)期。它的基石是自然語言處理技術(shù),這一技術(shù)與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識圖譜等多種AI 技術(shù)有很強(qiáng)的關(guān)聯(lián)性。從原理上來說,可將AI 寫作分為3 種模式:板塊式寫稿機(jī)器人、抽取式機(jī)器人和生成式NLG。接下來分別介紹這3 種不同模式的具體方法。
板塊式寫稿機(jī)器人是當(dāng)前最成熟的一種模式。這一模式會在完成內(nèi)容前,先存放一定量的寫作用模板,這些模板與對應(yīng)的給定材料內(nèi)容匹配,在組合后產(chǎn)生新的文本內(nèi)容。抽取式機(jī)器人在目前主要被用于摘要自動生成、新聞實(shí)時(shí)自動報(bào)道等領(lǐng)域。這一模式會自動對獲取得到的文本進(jìn)行一系列的語義分析,對其中的多余信息進(jìn)行識別與排除,對其中較為重要的內(nèi)容進(jìn)行提取,再將這些重要信息集中起來,生成新的摘要內(nèi)容。生成式NLG 模式是目前較為流行的一種模式,它借助人工智能領(lǐng)域中深度學(xué)習(xí)的方法,通過巨量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練(這些訓(xùn)練數(shù)據(jù)一般是由已有的文學(xué)作品構(gòu)成),針對不同的寫作內(nèi)容和文本風(fēng)格建立多種不同的模型。在實(shí)際的不同需求和風(fēng)格應(yīng)用中,能得到對應(yīng)的輸出文本。這一方法創(chuàng)造性更強(qiáng)、生成的結(jié)果更有多種多樣的風(fēng)格。
從現(xiàn)階段來看,模板式和抽取式寫稿機(jī)器人的技術(shù)已經(jīng)趨于成熟,在市場上得到了廣泛的應(yīng)用;生成式NLG技術(shù)更加多樣化,也是當(dāng)前NLG 技術(shù)中更為高級的目標(biāo)。
情緒識別指AI 通過收取分析人類的生理或非生理信號而進(jìn)行推測辨別的一項(xiàng)技術(shù)。情緒識別的研究內(nèi)容非常豐富,包括面部微表情、微小動作、心理、語言、心率、行為等方面。目前,面部表情識別多采用圖像識別的方法來實(shí)現(xiàn),也有通過語音識別技術(shù)進(jìn)行情緒識別的方法。
人類的情緒是具有多樣性的,也是非常多變的。情緒是可以被掩飾或改變的。要去識別情緒,首先就要了解情緒表現(xiàn)的來源和識別這些情緒表現(xiàn)的方法。對于不同來源的情緒表現(xiàn),識別它們的方法也相應(yīng)地有多種方法。其中,最主要的是基于非生理信號的識別和基于生理信號的識別這兩種。基于非生理信號的識別有多種方式,目前主要采用對面部表情的識別或?qū)φZ音語調(diào)的識別。對面部表情的識別從屬于圖像識別領(lǐng)域,通常根據(jù)人在特定情況下產(chǎn)生的特定表情肌肉運(yùn)動來識別,在此不贅述。而對語音語調(diào)識別需要的信息更加少,只用獲取聲音就能識別。其原理是:擁有不同的情緒時(shí),人表達(dá)語言的方式(語音、語調(diào)等)會發(fā)生一系列變化,這種變化會傳遞出表達(dá)人自有的情緒特征,比如開心的人的語氣比激昂,傷心的人的語氣比較低沉。這些都屬于基于非生理信號的識別方法。這類方法雖然具有操作便捷、無需設(shè)備的優(yōu)點(diǎn),卻也具有可靠性差的缺陷。因?yàn)椋藗兛梢酝ㄟ^偽裝表情或者語氣來掩飾自己的真實(shí)情緒,這種掩飾在現(xiàn)階段較難被人工智能方法成功識別出來[7]。
從1956 年至今,自然語言處理技術(shù)已經(jīng)歷了萌芽期、快速發(fā)展期、低速發(fā)展期和復(fù)蘇融合期等階段的發(fā)展。這一技術(shù)的原理是基于人工智能技術(shù),通過機(jī)器學(xué)習(xí)、模擬分析等方法推斷出結(jié)果。自然語言處理技術(shù)有語音識別、聊天機(jī)器人、智能寫作和情緒識別諸多應(yīng)用領(lǐng)域,在機(jī)器翻譯、信息提取等多方面幫助著人類。在理論研究方面,自然語言處理技術(shù)發(fā)揮巨大作用,很有前瞻性和挑戰(zhàn)性;在社會影響方面,該技術(shù)可以幫助那些想要以適當(dāng)形式表達(dá)自己想法的人。