李嘉文
2017年12月,浙江外國語學院國際學院,來自俄羅斯、韓國、贊比亞等6個國家的11位外國留學生各自完成了一篇題為《我的愛好》的中文作文。最終,對于其中一篇不到200字的文章,“老師”圈出了8處語法和用詞錯誤,比如它指出了“會教給外國人學習中文”中的“會教給”有語序錯誤,應改為“教會”—整個批改時間只用了幾十秒。
沒錯,這篇作文的批改工作是由一位特殊的老師—阿里巴巴的人工智能(AI)系統(tǒng)完成的,這是為了測試系統(tǒng)中的自然語言處理能力而做的一次嘗試。
或許你還記得2017年6月,人工智能系統(tǒng)參加過中國的高考(詳情請參見2017年6月19日刊《機器人考生來了,但它可能更想當老師》),半年后,它不僅已從“考生”升級到了“老師”,還挑戰(zhàn)了對于計算機系統(tǒng)來說更難處理的作文—要知道,此前的人工智能解答的可都是數(shù)學題,即使如此,一旦遇到文字過多的題目就很容易讀不懂。
在圖像識別、聲音識別這兩個領域,AI技術已經發(fā)展得比較成熟了。系統(tǒng)處理圖像和聲音的錯誤率基本低于5%,這樣的錯誤率代表著機器在這方面的能力已經可以超越人類。而此次AI批閱中文作文,則意味著AI對于人類語言的處理也開始變得越來越精準。
據(jù)阿里巴巴的相關工程師介紹,AI系統(tǒng)閱卷的第一步即掃描試卷,隨后將掃描圖像轉化為文字顯示在電腦上,接下來AI系統(tǒng)會對中文語言部分作出處理,采用代表不同意義的符號在試卷內容上圈出多詞、缺詞、錯詞和詞序等錯誤。
此前,阿里巴巴的AI系統(tǒng)已經學習了幾十萬字的中文語言,通過掃描儀讀取試卷信息,利用文本識別技術將信息轉換成文本,之后啟動自然語言處理算法分析,并識別出錯位類型和位置,最后批注在試卷上。
這其中包括手寫文字圖像識別轉化、識別用詞以及語法錯誤等步驟。針對第一步手寫文字的圖像轉化,阿里巴巴團隊使用的文本識別方式是光學字符(OCR)識別技術。這并非新興技術。早在1960年代,關于字符識別的研究就開始了。不過目前識別難度依舊存在。因為每個人手寫的文字都各不相同,有的人寫字很潦草,而有的人書寫風格自成一體,甚至有些手寫字連人類都很難識別出來,對于機器來說,要窮盡各種各樣的個性化字體是很難的。
批閱的第二步是讓機器理解語言,即語義分析。人類的語言非常復雜,有時候文字傳達的并不是字面意思本身,一句話背后還可能隱藏了高興、憤怒、驚喜這樣的情感,而有時語言背后還有專業(yè)領域,比方說天體物理、量子物理,很多表述是在一個完整的知識體系中的表述?!八匀绾巫層嬎銠C理解一個多樣化的人類世界的語言,要做到正確識別它,正確回應它,還需要進一步優(yōu)化?!卑⒗锇桶蚷DST-NLP團隊的自然語言基礎技術高級算法專家李林琳對《第一財經周刊》說。
阿里巴巴iDST-NLP團隊負責人、自然語言處理首席科學家司羅在接受媒體采訪時也認為,中文語法診斷的挑戰(zhàn)性就在于中文語言知識豐富、語法多樣,而人在判斷一句話是否有錯誤時,會用到長期積累的知識體系,比如一句話是否通順、兩個詞是否可以搭配、語義上是否成立等。相比之下,機器目前接受的訓練數(shù)據(jù)有限,要達到人類水準還是有很大的差距。這或許也是為什么“AI老師”如今只能批改詞句相對簡單的留學生作文的原因。
實際上,在阿里巴巴的AI系統(tǒng)批改作文之前,微軟的人工智能語音助手“小冰”已在2016年嘗試過寫作文,甚至還在2017年出版了詩集。
“小冰”的寫詩能力基于對1920年后519位現(xiàn)代詩人創(chuàng)作的上千首詩的學習,其訓練次數(shù)達到1萬次,一次學習時間大約是0.6分鐘。據(jù)“小冰”全球項目負責人李笛介紹,“小冰”已具備包括文本、語音、圖像、視頻和全時語音感官等在內的完整的人工智能感官系統(tǒng),以及知識圖譜,所以在經過數(shù)次迭代后,它已擁有人工智能創(chuàng)作者所需要的特征。
但不同于能被證明的命題或能被推論的定理,人工智能系統(tǒng)目前還無法像人一樣自主地聯(lián)想,而且,文學創(chuàng)作會調動寫作者的經歷、追憶、愿景等元素,這些在AI創(chuàng)作的作品中是無法體現(xiàn)出來的—正如AI批改作文時遇到的問題。但拋開創(chuàng)意性的部分,語言畢竟有一定規(guī)律可循,而這是系統(tǒng)可以掌握的。
阿里巴巴的AI系統(tǒng)也接受了語義理解的訓練,其學習資料大部分來自于阿里巴巴各大事業(yè)部積累的數(shù)據(jù)。
比如最主要的電商平臺。一個電商平臺會積累大量商家和消費者端的數(shù)據(jù)—商品、品牌以及型號數(shù)據(jù),以及用戶在平臺產生的購買行為數(shù)據(jù)。例如,用戶在購買了一個單反相機后又購買了一個鏡頭,那么平臺就會產生一種數(shù)據(jù)之間的邏輯:單反相機和鏡頭之間有某種屬性的關系。在一定的處理和標記下,這些都可以作為AI系統(tǒng)平常的學習素材。
當然,對于技術解決方案來說,數(shù)據(jù)的獲取僅僅是開端,要把這部分數(shù)據(jù)利用起來還需要技術團隊做好“標注”工作。目前很多公司會采用人工標注手段。李林琳認為,對訓練數(shù)據(jù)做全面的整體標注還是需要尋找專業(yè)人士甚至是語言學家,但這種方式會帶來很大的成本和較長的周期。因此,阿里巴巴團隊會盡量減少全人工標注的數(shù)據(jù)量,采用一種更高效和經濟的方式—從海量的用戶行為日志中挖掘半標注數(shù)據(jù)。
還是以電商平臺為例。比如用戶在淘寶等平臺上搜索的關鍵字是“三生三世十里桃花手鏈”,而用戶實際點擊的商品的標題是“三生三世十里桃花楊冪同款手鏈”,其中重疊字符串“三生三世十里桃花”就很可能成為AI系統(tǒng)掌握的一個新概念。也就是說,通過海量的用戶行為數(shù)據(jù),自動生成了機器學習模型依賴的數(shù)據(jù)。
這也顯示出AI提高文本識別精確率后的商用場景。在阿里巴巴集團內部,通過利用這種技術識別錯別字或文字缺漏,可以優(yōu)化電商平臺的搜索體驗。很多電商用戶在搜索產品時經常會打錯別字,還會出現(xiàn)讀音相近帶來的錯誤,“舉個例子,比如二年醇常會被說成二娘醇,我們的語法診斷糾錯技術可以對這種錯別字做識別?!崩盍至照f。
由此,它還可以擴展到應用范圍更廣的客戶服務領域。由于電商和O2O平臺的發(fā)展,很多公司對客服人員的需求不斷加大,但與此同時它們卻長期面臨客服人員的缺口?!叭绻幸粋€可以精準理解人類語言的工具幫助企業(yè)減輕客戶服務負擔,對于企業(yè)來說,他們肯定有很強的采購意愿?!崩盍至照f。目前市場上已經有了小i機器人、智齒科技、網(wǎng)易七魚這些產品,它們背后都采用了自然語言技術。
當然,在李林琳的眼中,經過不斷進化的“AI老師”,另一個目標是能走入教育市場,甚至有一天進入媒體及出版行業(yè),成為我們身邊的“校對老師”—相比創(chuàng)意性寫作,這可能是人工智能在該領域更切實地應 用。