(中移互聯(lián)網(wǎng)有限公司,廣東 廣州 510000)
近年來,科學(xué)技術(shù)的不斷進(jìn)步,科技影響著人類生活的生活方方面面,與此同時(shí),聊天機(jī)器人技術(shù)也隨之發(fā)展,許多科技公司紛紛投入聊天機(jī)器人技術(shù)的研發(fā),探討聊天機(jī)器人技術(shù),對(duì)于理解對(duì)話與問題和推進(jìn)人機(jī)交流具有重大意義。
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,人們獲取信息的主要來源是搜索引擎,作為搜索引擎的一種延伸,問答系統(tǒng)可依據(jù)用戶輸入的關(guān)鍵詞提供一份明確的答案,問答系統(tǒng)可根據(jù)答題范圍可區(qū)分為閉域問答系統(tǒng)和開域問答系統(tǒng)。開域回答設(shè)計(jì)的范圍較廣,回答也豐富多樣,閉域回答的是用戶提出的較為固定領(lǐng)域的問題。過去,被限制的數(shù)據(jù)資源導(dǎo)致問答系統(tǒng)多為閉域,同時(shí)系統(tǒng)為專門的任務(wù)而設(shè)置,因此也稱之為任務(wù)式作答系統(tǒng),深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)的廣泛應(yīng)用的同時(shí)非任務(wù)型開域聊天機(jī)器人也隨之發(fā)展,產(chǎn)業(yè)界和學(xué)術(shù)界也愈發(fā)關(guān)注聊天機(jī)器人相關(guān)技術(shù)。
21世紀(jì)是信息化與數(shù)據(jù)化飛速發(fā)展的時(shí)代,Nature在2008年推出《BigData》與Science在2010年推出《DealingwithData》,都充分證明大數(shù)據(jù)時(shí)代的到來,人們?cè)诖髷?shù)據(jù)時(shí)代慣用數(shù)據(jù)形式時(shí)文本數(shù)據(jù)。文本數(shù)據(jù)主要由人類對(duì)話數(shù)據(jù)組成,人類每天大量的對(duì)話數(shù)據(jù)都經(jīng)由互聯(lián)網(wǎng)產(chǎn)生,聊天機(jī)器人的產(chǎn)生以對(duì)話數(shù)據(jù)為基礎(chǔ),如,在著名的社交網(wǎng)絡(luò)豆瓣社區(qū)收集了豆瓣對(duì)話語料,是關(guān)于豆瓣用戶真實(shí)而準(zhǔn)確地對(duì)話文本數(shù)據(jù),其中涉及一百多萬種關(guān)于各種主題對(duì)話的問答數(shù)據(jù)。在經(jīng)過人工的標(biāo)示以后,可由聊天機(jī)器人廣泛應(yīng)用此語料。因而,聊天機(jī)器人相關(guān)技術(shù)的研究是由于大數(shù)據(jù)時(shí)代推進(jìn)的。
聊天機(jī)器人技術(shù)在國(guó)內(nèi)的研究尚未成熟,加之與國(guó)外的研究相比起步較晚。有兩方面的難題需要解決,首先是語言造成的難題,由于在信息處理上中文的特殊性,在中文語言系統(tǒng)里不能直接運(yùn)用國(guó)外優(yōu)秀或已經(jīng)成熟的研究成果。其次,對(duì)于語言處理機(jī)制的相關(guān)研究比較匱乏,例如相關(guān)的知識(shí)庫(kù)、評(píng)價(jià)機(jī)制、語料庫(kù)等。但由于當(dāng)代科技進(jìn)步,聊天機(jī)器人技術(shù)也隨之有了較大的發(fā)展,與此同時(shí)聊天機(jī)器人技術(shù)在國(guó)內(nèi)也有顯著進(jìn)展。微軟于2014推出的聊天機(jī)器人小冰一舉成為當(dāng)年的熱門話題,大量的語料相關(guān)資料累計(jì)于聊天機(jī)器人和用戶的對(duì)話中。與此同時(shí),由于在自然語言分析、深度神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和大數(shù)據(jù)等方面技術(shù)的進(jìn)步,微軟公司又對(duì)小冰進(jìn)行了升級(jí)修復(fù),提高了小冰與人溝通對(duì)話能力。此后,其他企業(yè)研究機(jī)構(gòu)也紛紛效仿,各種聊天機(jī)器人由此誕生,例如,公子小白、holoera、百度度秘等。
在國(guó)外,聊天機(jī)器人相關(guān)研究比較成熟,許多科研機(jī)構(gòu)和大學(xué)對(duì)于聊天機(jī)器人的研究都有較為深入的研究。對(duì)聊天機(jī)器人的研究最初可以追溯到一位著名英國(guó)數(shù)學(xué)家圖靈于1950年在《Mind》上發(fā)表的論文《計(jì)算機(jī)器與智能》?!皺C(jī)器智能”的命題于這篇著名的論文中提出,關(guān)于計(jì)算機(jī)能否進(jìn)行智能實(shí)驗(yàn)的方法圖靈測(cè)試也在此文中提出。真正開發(fā)出世界上第一個(gè)命名為Eliza聊天機(jī)器人是在1966年來自麻省理工學(xué)院的科學(xué)家JosephWeizenbaum,Eliza可以對(duì)精神病人開展輔助治療,此后聊天機(jī)器人的時(shí)代被正式開啟。在一系列關(guān)于聊天機(jī)器人競(jìng)賽與人工智能競(jìng)賽的推動(dòng)下,聊天機(jī)器人相關(guān)研究愈發(fā)受到科學(xué)家以及研究人員的關(guān)注,人工智能機(jī)器人ALICE在1995年誕生,獲得了多項(xiàng)競(jìng)賽的獎(jiǎng)項(xiàng),并在修復(fù)改進(jìn)以后,可實(shí)現(xiàn)用中文進(jìn)行溝通對(duì)話。在線聊天系統(tǒng)Talk-Bot在1998年發(fā)布,促進(jìn)了聊天機(jī)器人研究的發(fā)展。
在21世紀(jì),科技的進(jìn)步為聊天機(jī)器人的發(fā)展提供支撐,聊天機(jī)器人的市場(chǎng)不斷擴(kuò)大,更多企業(yè)商業(yè)巨頭開始了聊天嗎機(jī)器人的研制,例如,IBM沃森系統(tǒng)、谷歌的GoogleNow、蘋果語音助手Siri、亞馬遜的Alexa、Rasa等。Rasa作為聊天機(jī)器人,是一個(gè)基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)多輪對(duì)話的開源機(jī)器人框架,包括Rasa-Core與Rasa-Nlu兩個(gè)模塊,Rasa-Core是關(guān)于對(duì)話管理的平臺(tái),它主要用于決定接下來及其該返回什么內(nèi)容給用戶,Rasa-Nlu是自然語言理解模型集合,主要包括實(shí)體識(shí)別、意圖識(shí)別,將用戶的輸入轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)。
基于生成的技術(shù)和基于檢索的技術(shù)是建構(gòu)聊天機(jī)器人的主流技術(shù),關(guān)于檢索的聊天機(jī)器人研究的難點(diǎn)與熱點(diǎn)是基于檢索的多輪對(duì)話建模技術(shù),因?yàn)槟7铝巳祟悓W(xué)習(xí)語言過程的基于生成的對(duì)話技術(shù)而受到廣泛關(guān)注。雖然聊天機(jī)器人問答系統(tǒng)在當(dāng)代的發(fā)展尤為迅猛,但仍未達(dá)到相關(guān)用戶和普及推廣的要求,相關(guān)技術(shù)依舊面臨著挑戰(zhàn),例如怎樣用好未標(biāo)注數(shù)據(jù)、如何在問答系統(tǒng)中加入常識(shí)庫(kù)等。
筆者認(rèn)為,基于現(xiàn)有聊天機(jī)器人應(yīng)用情況與市場(chǎng)需求來看,其未來發(fā)展方向包括以下幾個(gè)方面:(1)預(yù)訓(xùn)練,在問答系統(tǒng)中加入關(guān)于常識(shí)的部分,利用未標(biāo)注數(shù)據(jù),是未來的可行趨勢(shì)之一;如google的bert的預(yù)訓(xùn)練模型為NLP帶來里程碑式的改變。(2)通用模型,問答系統(tǒng)需要掌握處理多方面領(lǐng)域問題的能力,學(xué)會(huì)主動(dòng)式學(xué)習(xí)和學(xué)習(xí)遷移是相關(guān)技術(shù)發(fā)展的趨勢(shì)之一;(3)深度推理,未來聊天機(jī)器人需獲取用戶對(duì)話的真實(shí)含義,不再只停留于字面也是其發(fā)展需要突破的重要問題。
本文在聊天機(jī)器人現(xiàn)有的發(fā)展成果上,對(duì)聊天機(jī)器人問答系統(tǒng)發(fā)展的背景、影響因素及國(guó)內(nèi)外發(fā)展現(xiàn)狀進(jìn)行總結(jié)。聊天機(jī)器人是在大數(shù)據(jù)的催化下迅速發(fā)展的,并在當(dāng)前信息化時(shí)代中具有良好的發(fā)展前景。就發(fā)展現(xiàn)狀比較來看,國(guó)外的聊天機(jī)器人技術(shù)發(fā)展更為成熟,但是國(guó)內(nèi)外相關(guān)技術(shù)的發(fā)展仍有需要改進(jìn)的方面,其與理想仍存在一定差距,但只要繼續(xù)加大研究力度,未來聊天機(jī)器人一定會(huì)朝著人類的多元需求發(fā)展。