張瑞飛
我們在2014年與中國工商銀行做了一項實際測試,嘗試用深度學習的方法對工商銀行的電話咨詢原因進行分析,通過學術算法應用到實際中,我們發(fā)現(xiàn)所產(chǎn)生的結果并不一致。機器很難識別同義和反義詞,并且對于評價對象和評價內(nèi)容的區(qū)分等問題在實際應用當中一直存在。
解決此項問題的基礎,首先要解決的是計算機處理語言符號和語義的認知技術,能夠將普通人看到的詞語分成概念符號和定義,通過這樣的分解我們定義了在深度學習中非常重要的概念—語言理解的最深度數(shù)據(jù)結構是什么?是語言本體加語言范疇加語言表述。以這個為基礎我們在深度學習中嘗試增加了一些理解漢語歧義的能力,如果在兩種以上的場景里使用,能否為多種歧義語言增加應用空間?通過這樣的理解我們進行了與傳統(tǒng)自然語言處理不同的方式,把傳統(tǒng)的符號化作為基本單元理解成為語義網(wǎng)絡的計算方式并進行改革。
人工智能同樣沒有免費的午餐,在智能語言識別中還需要更多的積累,目前我們積累了83000個語言庫概念單元,在句法上總結了8類基本句類和3192個混合句類,根據(jù)語境單元標注標簽,根據(jù)語言篇章進行記憶表述,可以求出更準確的中英文翻譯結果。神州泰岳在人工智能發(fā)展中的特色是什么?第一,我們用三種不同的語義挖掘方法進行概念計算、統(tǒng)計計算、關聯(lián)計算。概念計算是把語義符號轉換成概念,統(tǒng)計計算是深度學習和機器學習的方法,關聯(lián)計算是關系圖譜的計算,同時調(diào)用了兩種資源,一是建立8萬個多個語義、語言基礎庫資源,二是增加了算法資源,以實時、批量、可流通等三種方式進行調(diào)換。在這個過程中我們意識到,人工智能的發(fā)展不能依靠一家企業(yè)來完成人推廣。我們希望用生態(tài)取代平臺概念,我們開發(fā)了很多系統(tǒng),包括大數(shù)據(jù)管理平臺、大數(shù)據(jù)應用模板、大數(shù)據(jù)挖掘模型等,我們希望生態(tài)是任何企業(yè)或個人都能進入到系統(tǒng)中,隨時隨地與我們產(chǎn)生合作。
目前只有一種方法能實現(xiàn)這樣的愿景,把我們所開發(fā)的產(chǎn)品變成服務來標準化應用到服務接口上,方便每一個合作伙伴去利用,這樣就形成了生態(tài)的第一個概念。
第二個概念,當進行行業(yè)應用時,行業(yè)的優(yōu)秀經(jīng)驗需要被分享。但是需要給該行業(yè)什么工具,怎么把該行業(yè)的數(shù)據(jù)、技術能力和業(yè)務能力一起分享?這是我們?nèi)〈鷳B(tài)平臺,所進行的研究方向。
第三個概念,用數(shù)據(jù)消費取代數(shù)據(jù)管理。當企業(yè)進行數(shù)據(jù)表、數(shù)據(jù)試點、數(shù)據(jù)視圖等大量基礎工作時,生成一個報表需要一個月的時間?,F(xiàn)在大數(shù)據(jù)的狀態(tài)是倡導數(shù)據(jù)的時效性,我們希望在新的系統(tǒng)設計里,運用數(shù)據(jù)消費去取代數(shù)據(jù)管理。
第四個概念,打通所有的信息孤島。我們與企業(yè)合作當中,有三種信息孤島類型。第一,結構化與非結構化信息孤島;第二,外部互聯(lián)網(wǎng)數(shù)據(jù)和企業(yè)內(nèi)部信息孤島;第三,企業(yè)交易數(shù)據(jù)和第三方交易數(shù)據(jù)。
第五個概念,在業(yè)務創(chuàng)新平臺的開發(fā)中,我們希望業(yè)務人員能夠主動參與進來,在平臺應用的孵化器中不斷進行創(chuàng)新。2016年8月,我們在平臺上進行了五個應用的開發(fā),每三個月都會開發(fā)一款新型產(chǎn)品,應用到企業(yè)中,方便企業(yè)使用。
結合平臺設計理念,我們嘗試把機器學習、語義分析和互聯(lián)網(wǎng)大數(shù)據(jù),以及數(shù)據(jù)模型統(tǒng)一起來,建立共享生態(tài)圈,以數(shù)據(jù)采集、業(yè)務流程和業(yè)務邏輯、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化,將多層API全部打開,來滿足基礎調(diào)用能力,形成整個社區(qū)生態(tài)圈,提供不同的工具給社區(qū)技術人員或業(yè)務人員以及增值服務商。
2014年Google提出大數(shù)據(jù)流水線概念,使用加工算法,在數(shù)據(jù)采集、清洗加工、融合利用、數(shù)據(jù)供給四個領域做到實時處理,雖然這種概念與傳統(tǒng)數(shù)據(jù)相似,但是用于實際應用領域卻非常陌生,怎么進行實時數(shù)據(jù)供給和融合?實時流水線幾乎涵蓋一切數(shù)據(jù),從工控到文件,全部以毫秒級處理。
基于這個能力我們與亞馬遜合作,把數(shù)據(jù)流水線開發(fā)成可視化數(shù)據(jù),取代傳統(tǒng)的API調(diào)用方式。在取得數(shù)據(jù)以后,則需要更快更強的數(shù)據(jù)處理方式,通過對spark底層進行實時優(yōu)化,包括數(shù)據(jù)緩存中上、下文的兼容、序列器、操作等,將spark性能提升20倍,在這個基礎上,能夠利用大數(shù)據(jù)集群同時完成流水處理所有的數(shù)據(jù)任務。
為了開發(fā)人工智能數(shù)據(jù)分析引擎,我們開發(fā)了算法工程,包括數(shù)據(jù)處理、特征工程、特征學習、特征比對、自動調(diào)參、模型優(yōu)化、模型部署以及整個人工智能模型建模的工程開發(fā)。而智能語言業(yè)務有很多流程,我們具備高速的流程引擎,可同時在機器學習算法上添加實時操作應用來實現(xiàn)機器人客服。
而機器人需要支持多輪對話,我們重新編寫了機器人底層的知識結構,把知識分成普通的問答知識、要素型知識、列表型知識、矩陣型知識,形成機器人的本能反應,這樣機器人就可以從事客服工作。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)endprint