劉瑞寶
目前,在市場中的知識圖譜有很多,這些知識圖譜給我們的應(yīng)用帶來大量的數(shù)據(jù)基礎(chǔ),同時(shí)我們利用這些知識圖譜的過程,也會給我們帶來巨大的價(jià)值。市場中對知識圖譜的定義有很多,而我們認(rèn)為知識圖譜是AI進(jìn)步的階梯。人類的進(jìn)步其實(shí)也是知識的積累過程,而知識圖譜也需要通過神經(jīng)網(wǎng)絡(luò)技術(shù),讓機(jī)器自動學(xué)習(xí),但是只建立知識圖譜的自動學(xué)習(xí)還遠(yuǎn)遠(yuǎn)不夠。
我們發(fā)現(xiàn)在無監(jiān)督的情況下,知識圖譜的自動學(xué)習(xí)有可能會出現(xiàn)學(xué)習(xí)錯(cuò)誤的情況。所以我們建立了有監(jiān)督的知識圖譜器學(xué)習(xí),并添加固定模型專家系統(tǒng),形成人與機(jī)器相互合作的閉環(huán)狀態(tài)。提到知識圖譜就不得不提知識體系,而知識體系的搭建需要從知識獲取開始,然后過渡到知識圖譜的建設(shè)。在建設(shè)知識圖譜體系之初,需要工具對它進(jìn)行編輯,但是依靠工具無法完成知識圖譜的建設(shè),還需要提出一個(gè)動態(tài)體系理念。對于動態(tài)本體而言,我們需要找到兩個(gè)部分。第一,屬性。第二,關(guān)系。通過屬性和關(guān)系來產(chǎn)生知識,這是我們建立知識圖譜的主要流程。
拓爾思在建立知識圖譜體系的過程中,也遵循了這一路線,先從知識獲取開始。同時(shí)我們開發(fā)了自己的產(chǎn)品,包括內(nèi)容抽取、ETL等,并且我們知識圖譜中添加了知識理解,包括自然語言處理、自動抽取、自動分類、自動聚類等,同時(shí)建立關(guān)聯(lián)圖譜。
那么知識圖譜系統(tǒng)應(yīng)當(dāng)如何構(gòu)建?我們構(gòu)建系統(tǒng)的過程中,采用多層結(jié)構(gòu)的方法,包括各種數(shù)據(jù)來源,在體系中進(jìn)行融合和整合,最終形成數(shù)據(jù)中心和知識中心,我們通過數(shù)據(jù)中心和知識中心進(jìn)行圖譜的應(yīng)用。同時(shí),我們依靠多年的經(jīng)驗(yàn)積累建立了一整套體系。比如我們針對知識圖譜系統(tǒng)的構(gòu)建,應(yīng)用了NLB和自然語言處理等技術(shù)。在案件偵破方面,機(jī)器可以自動對案件筆錄進(jìn)行知識抽取,并抽取案件發(fā)生的時(shí)間、地點(diǎn)、人物、作案手段等信息。然后機(jī)器會自動定位地址信息,再通過機(jī)器學(xué)習(xí)的方式將案件類型和級別進(jìn)行分類。
什么是開源情報(bào)?在互聯(lián)網(wǎng)中有很多信息是公開的,而這些公開的信息就可以作為我們的情報(bào),所以我們可以針對這些情報(bào),將它們轉(zhuǎn)變成知識,最后我們會建立圖譜。我們開發(fā)了知識圖譜的工具—水晶球。該工具可完成從知識到圖譜的建立過程。比如水晶球可隨時(shí)進(jìn)行知識拖動、知識抽取、知識感知、知識統(tǒng)計(jì)、知識分析以及建立時(shí)間軸等。該工具可以使我們建立知識圖譜的流程變得更加便利,在建立知識圖譜過程中它可以將知識合并和融合形成新的知識。
那么是否可以將所有信息放在圖譜中?其實(shí)并沒有必要。我們在管理知識圖譜時(shí),第一需要建立匯聚庫。在匯聚庫中存儲了大量數(shù)據(jù),我們并不是把大量數(shù)據(jù)直接存儲在知識圖譜中。第二我們在中間環(huán)節(jié)建立了動態(tài)體本建模系統(tǒng)。在該系統(tǒng)中我們可以進(jìn)行建模,在建模后我們將有價(jià)值的數(shù)據(jù),導(dǎo)入到知識圖譜系統(tǒng)中最終形成閉環(huán)。比如知識圖譜一定以目標(biāo)為中心,然后將數(shù)據(jù)進(jìn)行加工,并建立數(shù)據(jù)之間的關(guān)系,后通過水晶球?qū)δ繕?biāo)進(jìn)行分析。除此之外,我們針對社交軟件也建立了圖譜,該圖譜可以分析社交軟件中人與人之間的關(guān)系和關(guān)鍵點(diǎn),最終形成情報(bào)。
比如在媒體領(lǐng)域,各種信息都是以文本的方式構(gòu)成,我們可對文本信息進(jìn)行抽取,最后將時(shí)間點(diǎn)和關(guān)鍵的信息形成圖譜。同時(shí)我們針對金融企業(yè),開發(fā)了自動關(guān)聯(lián)和自動分類系統(tǒng),我們可以通過機(jī)器學(xué)習(xí)技術(shù),來抽取該行業(yè)的知識點(diǎn),并建立企業(yè)與企業(yè)之間的關(guān)系,最后將金融企業(yè)進(jìn)行分類,并將該項(xiàng)應(yīng)用作用到打擊金融犯罪等領(lǐng)域。
此外,我們也開發(fā)了專業(yè)的智能審查系統(tǒng),眾所周知專利是以文本的方式構(gòu)成的,但是文本中的知識較為分散。我們可以把文本、圖像抽取出來,之后按照專利的需求進(jìn)行自動分析,形成專利的自動審查。在知識點(diǎn)關(guān)聯(lián)方面,我們開發(fā)了知識圖譜問答系統(tǒng),來完善如稅務(wù)、銀行等專業(yè)領(lǐng)域系統(tǒng)內(nèi)部的知識匯聚和統(tǒng)計(jì)。
同時(shí)我們也開發(fā)了中醫(yī)知識挖掘系統(tǒng),在中醫(yī)的文本中,很多散落的文本對于計(jì)算機(jī)而言很難理解。所以我們把中醫(yī)所有文本讓計(jì)算機(jī)進(jìn)行分析,讓計(jì)算機(jī)尋找出病理與癥狀之間的關(guān)系,同時(shí)尋找出治療某種病理所需要的藥物和藥方,最后分析出藥物之間的相通性。而且我們還開發(fā)了網(wǎng)絡(luò)態(tài)勢感知,可以針對網(wǎng)絡(luò)中的信息種類、來源和訪問進(jìn)行分析。
介紹一下水晶球的使用方法。當(dāng)我們得到一份郵件時(shí),便可以交給水晶球。水晶球可以識別出發(fā)件人與收件人之間的關(guān)系,并可以顯示出某一個(gè)人的屬性,以及郵件中的知識點(diǎn),來分析知識與知識之間的聯(lián)系,最后將其他行業(yè)的相關(guān)數(shù)據(jù)全部關(guān)聯(lián)起來,形成數(shù)據(jù)融合。通過這項(xiàng)操作,我們便可以追蹤某個(gè)人的活動情況與活動范圍,并建立該人物的時(shí)間軸,同時(shí)我們可依靠郵件來發(fā)現(xiàn)所追蹤的對象與其他人的關(guān)系,然后尋找出人與人之間的共同點(diǎn)包括時(shí)間、地點(diǎn)、屬性等,最終形成知識圖譜,可隨時(shí)進(jìn)行點(diǎn)擊查看。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)