人類社會(huì)已經(jīng)進(jìn)入智能時(shí)代,智能時(shí)代的社會(huì)發(fā)展催生了大量的智能化應(yīng)用,智能化應(yīng)用對機(jī)器的認(rèn)知智能化水平提出了前所未有的要求,而機(jī)器認(rèn)知智能的實(shí)現(xiàn)依賴于知識圖譜技術(shù)。
知識圖譜自2012年提出至今,發(fā)展迅速,如今已經(jīng)成為人工智能領(lǐng)域的熱門問題之一,并在一系列實(shí)際應(yīng)用中取得了較好的落地效果,產(chǎn)生了巨大的社會(huì)與經(jīng)濟(jì)效益。以知識圖譜為代表的符號主義有日漸復(fù)興的跡象,成為以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義在近幾年大發(fā)展后人工智能另一個(gè)值得期待的方向。
經(jīng)過從2012年開始的一波大數(shù)據(jù)浪潮,各行各業(yè)都積累了非常多的數(shù)據(jù)。但是,數(shù)據(jù)并沒有像我們想象的那樣創(chuàng)造出我們期待的價(jià)值,很多時(shí)候甚至變成負(fù)擔(dān),不僅需要增加運(yùn)維人員,還需要增加設(shè)備來存儲這些數(shù)據(jù)。數(shù)據(jù)如果不能夠變現(xiàn),那就是負(fù)資產(chǎn)。然而,大數(shù)據(jù)變現(xiàn)困難重重,就好比高射炮打蚊子,大材小用。缺乏有效的智能化手段是阻礙大數(shù)據(jù)價(jià)值變現(xiàn)的根本原因。
那么,我們需要怎樣的智能化手段?計(jì)算機(jī)解決問題一直以來有兩個(gè)基本的觀念,一是靠統(tǒng)計(jì)管理解決問題,二是靠符號推理解決問題。例如,如果問3乘以4等于幾?很多人可以脫口而出答案是12。這是因?yàn)榇蠹以谛r(shí)候都記住了九九乘法運(yùn)算表,已經(jīng)把3乘以4跟12建立了非常強(qiáng)的統(tǒng)計(jì)關(guān)聯(lián)。所謂題海戰(zhàn)術(shù),其實(shí)就是建立題目與解題之間較強(qiáng)的統(tǒng)計(jì)關(guān)聯(lián)來解決問題。當(dāng)然,很多時(shí)候還需要用符號推理來解決問題。例如,如果問345乘以123等于幾?估計(jì)很少有人能夠立刻給出答案。這時(shí),大家通常會(huì)拿出筆和紙,把符號寫下來,然后運(yùn)用學(xué)習(xí)過的乘法運(yùn)算規(guī)則一步步求解,這實(shí)際上就是利用了符號推理在解決問題。
事實(shí)上,人工智能的發(fā)展從20世紀(jì)90年代后期開始,以挖掘統(tǒng)計(jì)中統(tǒng)計(jì)模式為主,這也成就了今天的機(jī)器學(xué)習(xí)。但是,僅用統(tǒng)計(jì)學(xué)習(xí)不足以支撐智能化實(shí)現(xiàn)。符號知識對于智能化實(shí)現(xiàn)是不可或缺的,因?yàn)榉栔R使機(jī)器具備可解釋能力,也使機(jī)器具備語言“理解”能力。因此,我們必須讓機(jī)器學(xué)會(huì)利用符號知識解決問題,實(shí)現(xiàn)認(rèn)知智能。
所謂讓機(jī)器具備認(rèn)知智能,其核心就是讓機(jī)器具備理解和解釋能力。這種能力的實(shí)現(xiàn)與知識庫、符號化的知識是密不可分的。一直以來,社會(huì)科學(xué)家還不能精準(zhǔn)回答什么是理解、什么是解釋。但是,人工智能的研究迫切需要定義這些問題。在我看來,所謂的理解離不開知識庫,機(jī)器理解數(shù)據(jù)在某種程度上就是建立起從數(shù)據(jù)到知識庫中實(shí)體、概念、關(guān)系的映射。解釋數(shù)據(jù),是指利用知識庫中實(shí)體、概念、關(guān)系解釋現(xiàn)象的過程。
知識圖譜發(fā)展到今天已經(jīng)不僅僅作為語義網(wǎng)絡(luò),而是作為一個(gè)技術(shù)體系,這是大數(shù)據(jù)時(shí)代知識工程的代表性進(jìn)展。
既然符號知識這么重要,那么符號知識在應(yīng)用中的具體抓手到底是什么?符號知識的一系列應(yīng)用體現(xiàn)為新一代的知識工程。知識工程是以專家系統(tǒng)構(gòu)建為核心內(nèi)容,研究知識表示、處理和應(yīng)用的方法和開發(fā)工具的學(xué)科。在大數(shù)據(jù)時(shí)代,知識工程實(shí)際上是由知識圖譜來引領(lǐng)的。知識圖譜富含實(shí)體、概念、屬性、關(guān)系等信息,使得機(jī)器理解與解釋成為可能。簡單來說,知識圖譜就是大規(guī)模語義網(wǎng)絡(luò),這是大數(shù)據(jù)時(shí)代知識表示的重要方式之一。但是,知識圖譜發(fā)展到今天已經(jīng)不僅僅作為語義網(wǎng)絡(luò),而是作為一個(gè)技術(shù)體系,這是大數(shù)據(jù)時(shí)代知識工程的代表性進(jìn)展。回顧過去,知識圖譜是從符號主義演化而來的,符號主義是人工智能最早的一個(gè)思潮和流派。符號主義的主要觀點(diǎn)包括:認(rèn)知就是計(jì)算;知識是信息的一種形式,是構(gòu)成智能的基礎(chǔ);知識的表示、推理和運(yùn)用是人工智能的核心。
傳統(tǒng)知識工程在規(guī)則明確、邊界清晰、應(yīng)用封閉的應(yīng)用場景取得了巨大成功。例如,AlphoGo很成功,正是因?yàn)橄缕迨欠忾]的,它只需要使用下棋的規(guī)則,絕對不會(huì)用其他開放世界的知識。那么,為什么人工智能應(yīng)用會(huì)有這么苛刻的條件?這是因?yàn)閭鹘y(tǒng)知識工程嚴(yán)重依賴專家和人的干預(yù)。但是,隱性知識、過程知識等難以表達(dá)。例如,如何表達(dá)做蛋炒飯的知識?老中醫(yī)看病用到了哪些知識?而且,領(lǐng)域知識的形式化表達(dá)也較為困難。專家知識不可避免地存在主觀性,不同專家之間知識可能存在不一致性。認(rèn)知心理學(xué)里有一個(gè)家族相似性的理論,比如一個(gè)杯子矮一點(diǎn)可能還叫杯子,矮到一定程度上到底是叫杯子還是叫碗就說不清楚了。也就是說,不同人看同一個(gè)事物得出的結(jié)論是不一樣的。此外,知識表達(dá)存在模糊性,而且難以完備,缺漏是常態(tài)。
傳統(tǒng)知識工程到了大數(shù)據(jù)時(shí)代,就不再適應(yīng)大數(shù)據(jù)時(shí)代的應(yīng)用需求了。那么,大數(shù)據(jù)時(shí)代的應(yīng)用有什么特點(diǎn)?以谷歌、百度搜索引擎為例,這是一種典型大規(guī)模開放性應(yīng)用,我們永遠(yuǎn)都不知道用戶下一個(gè)搜索的關(guān)鍵字會(huì)是什么,用戶不斷在創(chuàng)造新的搜索需求。但是,用戶對精度要求不高,搜索引擎從來不需要保證每個(gè)搜索的理解和檢索都是正確的。此外,大部分搜索的理解與回答只需要實(shí)現(xiàn)簡單的推理。
將符號知識用于實(shí)現(xiàn)機(jī)器智能,是對人類智慧最重要的繼承方式之一
那么,互聯(lián)網(wǎng)時(shí)代大規(guī)模開放性應(yīng)用需要什么?答案是需要足夠量、足夠?qū)捯约案采w面足夠廣,但還要非常簡單、非常輕量級的知識表示。因此,谷歌公司提出了知識圖譜,以滿足搜索中知識應(yīng)用的需求。知識圖譜跟傳統(tǒng)知識功能的本質(zhì)不同,就是在于它使大規(guī)模、自動(dòng)化的知識獲取成為可能。
大規(guī)模知識圖譜的出現(xiàn)基本上宣告了大數(shù)據(jù)知識工程時(shí)代的到來,傳統(tǒng)知識圖譜的瓶頸問題也將被突破。知識圖譜發(fā)展到今天已經(jīng)越來越多地承擔(dān)起各行各業(yè)升級和發(fā)展的使命,可以說,整個(gè)大規(guī)模知識工程面臨前所未有的機(jī)遇,當(dāng)然也存在不少挑戰(zhàn)。
那么,知識圖譜對各行業(yè)有什么用?首先,對很多行業(yè)大數(shù)據(jù)來講,它可以補(bǔ)齊缺失的因果鏈條。萬事萬物都處在一個(gè)復(fù)雜的因果網(wǎng)絡(luò)中。很多業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)只是用戶最終行為結(jié)果的數(shù)據(jù),但缺乏產(chǎn)生這些數(shù)據(jù)的背景或原因,知其然不知其所以然。例如,美國一家大型超市經(jīng)過調(diào)查發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,購買尿布的顧客經(jīng)常會(huì)同時(shí)購買啤酒。于是,超市就在尿布旁邊放上啤酒,結(jié)果尿布銷量大增,啤酒一搶而空。啤酒和尿布,看似毫無關(guān)聯(lián)的兩件事,實(shí)際上有很強(qiáng)的統(tǒng)計(jì)關(guān)聯(lián),蘊(yùn)藏著巨大的商機(jī)。如果我們不滿足于只是發(fā)現(xiàn)啤酒和尿布之間存在較強(qiáng)的統(tǒng)計(jì)關(guān)聯(lián),而是進(jìn)一步追問為什么,就會(huì)更有意思。我們會(huì)發(fā)現(xiàn),啤酒和尿布之間的統(tǒng)計(jì)關(guān)聯(lián)是有原因的,買尿布意味著家里有新生兒,產(chǎn)婦剛剛生產(chǎn)行動(dòng)不便,因此都是父親去買尿布。一個(gè)要去買尿布的新手父親,家里剛剛有了新生兒,自然很緊張,因此很可能買啤酒緩解壓力。如果能夠知道用戶是出于什么原因產(chǎn)生這些數(shù)據(jù),那么這些數(shù)據(jù)的威力將會(huì)充分發(fā)揮出來。由此可見,如果能把場景和背景知識建立出來,那么數(shù)據(jù)就會(huì)產(chǎn)生非常巨大的價(jià)值,這就是現(xiàn)在整個(gè)互聯(lián)網(wǎng)行業(yè)在做的事情。其次,知識圖譜可以對碎片化的數(shù)據(jù)進(jìn)行關(guān)聯(lián)和融合。知識圖譜為融合提供元數(shù)據(jù),使得自主、普適融合成為可能。此外,知識圖譜能夠深化行業(yè)數(shù)據(jù)的理解與洞察?;谛袠I(yè)知識圖譜,可以形成行業(yè)數(shù)據(jù)理解能力,實(shí)現(xiàn)數(shù)據(jù)中的實(shí)體、概念、主題認(rèn)知,實(shí)現(xiàn)可視化洞察。
在各行業(yè)的智能化發(fā)展進(jìn)程中,AI賦能成為傳統(tǒng)行業(yè)智能化升級和轉(zhuǎn)型的一個(gè)基本模式。傳統(tǒng)行業(yè)面臨非常多的機(jī)遇,增加收入、降低成本、提高效率和安全保障等一系列核心問題都將受益于智能化技術(shù)。
通過構(gòu)建電商認(rèn)知知識圖譜,將用戶-場景-貨物進(jìn)行有效的關(guān)聯(lián),可以挖掘出更多的用戶標(biāo)簽,精準(zhǔn)感知用戶場景,從而使電商搜索和推薦更加準(zhǔn)確,有效提高貨品轉(zhuǎn)化率。根據(jù)招投標(biāo)信息構(gòu)建的商情圖譜,并基于商情圖譜為用戶推薦相似招投標(biāo)項(xiàng)目,能讓用戶發(fā)現(xiàn)商機(jī)。基于知識圖譜推理,還可以幫助客戶發(fā)現(xiàn)更多的二次商機(jī)。這樣既能有效提升企業(yè)的業(yè)務(wù)量,又能增加企業(yè)營收。
現(xiàn)在,智能客服系統(tǒng)已經(jīng)在很多行業(yè)大規(guī)模應(yīng)用,尤其是在金融、電商領(lǐng)域以及電信行業(yè)等。智能客服的實(shí)現(xiàn)正是依賴于行業(yè)知識圖譜,讓機(jī)器能真正聽懂用戶的話,極大地減少企業(yè)的客服人力成本。一些大型企業(yè)和政府機(jī)構(gòu)每天都會(huì)產(chǎn)生大量工單,對于相同產(chǎn)品會(huì)存在大量重復(fù)采購、同類產(chǎn)品故障單重復(fù)出現(xiàn)等問題。構(gòu)建供應(yīng)商的產(chǎn)品圖譜,自動(dòng)挖掘抽取工單信息,并通過關(guān)聯(lián)分析檢測重復(fù)工單。例如,北歐部門遇到了一個(gè)產(chǎn)品故障,該產(chǎn)品故障同時(shí)在北非出現(xiàn)并被解決。通過重復(fù)工單檢測即可復(fù)用該經(jīng)驗(yàn),從而減少人力成本。
司法知識圖譜將法律文書信息以結(jié)構(gòu)化形式呈現(xiàn),通過抽取案件文書中相關(guān)信息,判斷案件繁簡程度,進(jìn)行繁簡分流。這能幫助從業(yè)人員快速地在線檢索相關(guān)的法務(wù)內(nèi)容,提高法院審判工作質(zhì)量和效率。
將企業(yè)內(nèi)部數(shù)據(jù)整合,打通數(shù)據(jù)孤島,構(gòu)建企業(yè)知識圖譜,可以把人員、項(xiàng)目、產(chǎn)品等關(guān)聯(lián)起來?;谥R圖譜的語義搜索能力,能使搜索結(jié)果更準(zhǔn)、更全?;趫D譜的個(gè)性化推薦系統(tǒng),可以實(shí)現(xiàn)知識精準(zhǔn)傳播和主動(dòng)傳播,讓知識找人。這些應(yīng)用都促進(jìn)了沉淀知識的有效使用,極大地提高了工作效率。
銀行利用知識圖譜可以進(jìn)行借貸反欺詐。把與借款人相關(guān)的所有的數(shù)據(jù)源打通,并構(gòu)建包含多數(shù)據(jù)源的知識圖譜,把借款人的消費(fèi)記錄、行為記錄、關(guān)系信息、線上日志信息等整合到反欺詐知識圖譜里,從而進(jìn)行分析和預(yù)測,可以挖掘識別出欺詐案件,如身份造假、團(tuán)體欺詐、代辦包裝等。
知識圖譜還可以進(jìn)行合同風(fēng)險(xiǎn)識別。通過自動(dòng)提取文檔內(nèi)容的關(guān)鍵信息,協(xié)助企業(yè)工作人員完成內(nèi)容一致性檢查等工作,自動(dòng)生成對比結(jié)果報(bào)告。知識圖譜能夠自動(dòng)識別數(shù)十種常見內(nèi)置風(fēng)險(xiǎn),根據(jù)不同行業(yè)特性支持個(gè)性化定制風(fēng)險(xiǎn)審核項(xiàng)。目前,知識圖譜已經(jīng)廣泛應(yīng)用于金融、制造、通信、法律、審計(jì)、政府等多種文字密集型行業(yè),有效幫助識別風(fēng)險(xiǎn)。
當(dāng)然,我們現(xiàn)在還面臨很多挑戰(zhàn)。讓機(jī)器“掌握”一定的知識,并利用這些知識更好地為人類服務(wù)已經(jīng)是服務(wù)機(jī)器人產(chǎn)業(yè)乃至整個(gè)人工智能產(chǎn)業(yè)進(jìn)一步發(fā)展所面臨的重大問題。首先是知識表達(dá)困難重重。例如,如何在一個(gè)統(tǒng)一的表示空間表達(dá)多模態(tài)的數(shù)據(jù)與知識?如何將知識的向量表示與符號表示相融合?這個(gè)問題本質(zhì)上是大規(guī)模符號接地(Symbol Grounding),這是我們現(xiàn)在正在開展的工作,這跟圖片、語音、視頻都有關(guān)系。其次是知識獲取任重道遠(yuǎn)。雖然大數(shù)據(jù)時(shí)代為知識獲取帶來了量的提升,但是質(zhì)的方面還有很大的上升空間。元知識獲取依舊缺乏有效的方法,常識在語料中的稀疏造成了常識獲取的巨大困難。此外,知識庫的應(yīng)用仍需深化,自動(dòng)知識適配仍然十分困難。如何協(xié)同各類不同的知識表示形成有效的推理機(jī)制,有待進(jìn)一步研究。
總之,知識的沉淀與傳承,鑄就了人類文明的輝煌,也將成為機(jī)器智能持續(xù)提升的必經(jīng)道路。只是對機(jī)器而言,知識的沉淀變成了知識的表示,知識的傳承變成了知識的應(yīng)用。
互聯(lián)網(wǎng)時(shí)代的大規(guī)模開放性應(yīng)用需要全新的知識表示,谷歌知識圖譜誕生使知識工程邁入大數(shù)據(jù)時(shí)代。