施水才
我主要講三方面的內(nèi)容:第一、大數(shù)據(jù)技術(shù)和商業(yè)模式創(chuàng)新;第二、大知識;第三、我們的實踐。
大數(shù)據(jù)和傳統(tǒng)的信息化最大區(qū)別在于,大數(shù)據(jù)具備分析、預測和決策功能;另外,大數(shù)據(jù)和傳統(tǒng)海量信息處理的區(qū)別在于,大數(shù)據(jù)具有三大本質(zhì)特性—計算實時化、數(shù)據(jù)關(guān)聯(lián)化以及應用跨界化。
技術(shù)雖然很重要,但不是最重要的;數(shù)據(jù)也很重要,但也不是最重要的。最重要的是應用場景。和創(chuàng)新型的公司相比,我們非常關(guān)心是否落地。但就現(xiàn)在來說,很多大數(shù)據(jù)應用場景還是大數(shù)據(jù)公司“想象”出來的。
大數(shù)據(jù)還存在一些問題。首先,數(shù)據(jù)本身存在問題,包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)開放,商業(yè)模式,是否建立數(shù)據(jù)聯(lián)盟等。誰也無法擁有全量的數(shù)據(jù),數(shù)據(jù)的積累和優(yōu)化是個長期過程。
其次,不能脫離應用談數(shù)據(jù)。我們的數(shù)據(jù)銀行有很多數(shù)據(jù),但不是所有數(shù)據(jù)都有價值。一個應用到底需要什么類型的數(shù)據(jù),這是個非常復雜的問題。
再次,光有數(shù)據(jù)不行,還得有知識。如對非結(jié)構(gòu)化的數(shù)據(jù)進行結(jié)構(gòu)化處理,要依靠大量新興的技術(shù),最終形成的是一種知識。
大數(shù)據(jù)賣什么?有賣基礎(chǔ)設施的,有賣技術(shù)的,有賣解決方案的,也有賣數(shù)據(jù)的,如數(shù)據(jù)堂。但賣什么并不重要,重要的是在商業(yè)模式上要有大數(shù)據(jù)的思維。
受大數(shù)據(jù)驅(qū)動的商業(yè)模式,主要有四種:第一、免費增值云存儲或云盤。要想獲得數(shù)據(jù),就要免費讓用戶存儲;第二、平臺型的商業(yè)模式,如滴滴、Facebook;第三、開放型的模式,像知乎、HealthTap;第四、長尾商業(yè)模式,如kindle電子書、視頻網(wǎng)站。
大數(shù)據(jù)的技術(shù)發(fā)展趨勢:第一個趨勢,從技術(shù)上講主要是開源,柔性選擇,整個架構(gòu)上有彈性。第二個趨勢,從數(shù)據(jù)搜集管理轉(zhuǎn)向分析挖掘預測。第三個趨勢,人工智能技術(shù)的應用。人工智能產(chǎn)業(yè)發(fā)展:一是從把握、感知到智慧決策;二是當前人工智能應用的熱點基本集中在營銷、安全、金融和公共服務領(lǐng)域,未來將應用到教育、醫(yī)療、健康和金融科技行業(yè)。
我認為,大數(shù)據(jù)下一階段的三個關(guān)鍵詞就是“大知識”、“互聯(lián)網(wǎng)”和“人工智能”。
大數(shù)據(jù)在過去的四年發(fā)生了三個變化:第一、從技術(shù)上,從通用架構(gòu)到需求細分;第二、從計算分析到學習理解,增加了很多機器學習和人工智能;第三、從分析數(shù)據(jù)到構(gòu)建知識,包括知識庫、知識模型、知識圖譜。
根據(jù)VentureScanner的統(tǒng)計,截至到2016 年初,全球共有957家人工智能公司,美國以499家位列第一。覆蓋了深度學習/機器學習(通用)、深度學習/機器學習(應用)、自然語言處理(通用)、自然語言處理(語音識別)、計算機視覺/圖像識別(通用)、計算機視覺/圖像識別(應用)、手勢控制、虛擬私人助手、智能機器人、推薦引擎和協(xié)助過濾算法、情境感知計算、語音翻譯、視頻內(nèi)容自動識別等13個細分行業(yè)。
從大數(shù)據(jù)到大知識,搜索引擎的智能化包括利用知識圖譜,就是一個很好的案例。如用百度搜索馬云,會顯示阿里巴巴的創(chuàng)始團隊、企業(yè)家;用搜狗搜索馬云,第一個出來是他的關(guān)系圖譜,這就是大規(guī)模的知識圖譜在起作用,而且是自動機器學習所致。
第二個案例是即將到來的虛擬機器人時代BOTs時代,主要涉及機器學習、NLP和知識圖譜。很多公司在推出相關(guān)產(chǎn)品和技術(shù),如智能機器人客服“小i機器人”。
第三個案例是Palantir。Palantir因拉登和龐氏騙局而被神化,對應的兩個產(chǎn)品是Gotham和Metropolis。作為排名第三的私有化公司,Palantir的核心就是知識管理和協(xié)作。
三個案例突顯了知識圖譜、NLP(自然語言處理)這兩個核心技術(shù)的重要性。無論是智能搜索、虛擬聊天機器人,還是大數(shù)據(jù)獨角獸Palantir,都不離開知識圖譜。而知識圖譜的基礎(chǔ)是大數(shù)據(jù),大數(shù)據(jù)有分析的能力,從大數(shù)據(jù)上建立的大知識,能使大數(shù)據(jù)真正活起來。
有了大數(shù)據(jù)和深度學習之后,NLP技術(shù)領(lǐng)域?qū)⒚媾R一些新的機會和突破。關(guān)鍵是兩點:深度學習在NLP領(lǐng)域應用;問答機器人將有可能成為一個類似操作系統(tǒng)的新平臺,目前一些公司正投入巨資研究問答機器人。
拓爾思是首批在A股上市的大數(shù)據(jù)公司之一。2011年,我們在大數(shù)據(jù)的精準營銷、征信、安全等領(lǐng)域投資了10億元。我們的核心業(yè)務是大數(shù)據(jù)核心技術(shù)和基礎(chǔ)軟件平臺。包括智能信息處理軟件包、TRS海貝大數(shù)據(jù)管理系統(tǒng)、TRS水晶分布式數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)采集交換和共享平臺等。
行業(yè)應用解決方案。包括集約化政府公共服務云平臺、融媒體智能傳播服務平臺、面向安全的大數(shù)據(jù)分析和挖掘平臺、金融行業(yè)風控和監(jiān)管平臺、水晶球大數(shù)據(jù)分析師平臺。
互聯(lián)網(wǎng)營銷服務及大數(shù)據(jù)分析云平臺。包括網(wǎng)站及全網(wǎng)口碑優(yōu)化整合營銷服務、輿情分析挖掘云服務、“數(shù)家”數(shù)據(jù)服務、網(wǎng)脈網(wǎng)站數(shù)據(jù)分析平臺、思圖大數(shù)據(jù)可視化云工具。
CKM中文自然語言文本挖掘平臺??梢赃M行情感分析,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化提取。例如將文本文件中犯罪嫌疑人的名字、組織、電話號碼、車牌號、銀行卡號、QQ和微信號都結(jié)構(gòu)化提取。如何利用自然原處理技術(shù),從海量的文本中挖掘出真正有價值的知識,并且把知識關(guān)聯(lián)起來,這是非常重要的。
水晶球大數(shù)據(jù)分析師平臺。可以稱之為中國版Palantir,將全面取代i2。這個平臺最關(guān)鍵的是知識圖譜,它比傳統(tǒng)的知識圖譜更具有擴展性。如可以把不同數(shù)據(jù)源的信息進行關(guān)聯(lián),與地理信息系統(tǒng)或其它系統(tǒng)進行集成。水晶球的定位在于公共安全、國家安全、金融的反欺詐、軍事情報和公共關(guān)系等。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)