白劍波
智慧星光在成立短短4年半的時(shí)間里獲得了高速發(fā)展:2012年成立之后,正式簽約了100多個(gè)客戶,2013年增加到了200多個(gè)客戶,2014年我們的產(chǎn)品,特別是我們的數(shù)據(jù)能力得到了快速發(fā)展,客戶數(shù)達(dá)到800多個(gè),這一數(shù)字在2015年達(dá)到1100多個(gè),在平臺(tái)上,我們集聚了更多用戶使用我們提供的各種產(chǎn)品。
核心競(jìng)爭(zhēng)力
智慧星光之所以能夠得到如此快速的發(fā)展,取決于我們一直堅(jiān)持的兩個(gè)核心:第一是以客戶為核心。我們所做的是滿足和超越客戶對(duì)我們的希望。第二是以精準(zhǔn)化信息服務(wù)為核心,我們的目的、使命,是以此為前提。同時(shí)堅(jiān)持“四化”,即全面實(shí)現(xiàn)基礎(chǔ)化、智能化、標(biāo)準(zhǔn)化和可視化。
另外,智慧星光有兩個(gè)最核心的能力,第一是數(shù)據(jù)獲取能力或數(shù)據(jù)采集能力,特別是針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)。我們每天能采集到的互聯(lián)網(wǎng)原創(chuàng)文章超過(guò)5000~6000萬(wàn)篇,類型涵蓋互聯(lián)網(wǎng)上所有類型,包括新聞、論壇、微博、微信等。第二,是我們的處理能力。這個(gè)處理能力所采集的數(shù)據(jù)都以秒級(jí)的速度進(jìn)行處理,同時(shí)分類打印標(biāo)簽,以我們的方式放到數(shù)據(jù)存儲(chǔ)系統(tǒng),為前端的各個(gè)應(yīng)用提供基礎(chǔ),這是智慧星光的兩個(gè)核心能力。
結(jié)合兩個(gè)核心能力,我們?yōu)榭蛻籼峁└鞣N服務(wù),包括提供最原始的原數(shù)據(jù)加工服務(wù)、輿情監(jiān)測(cè)服務(wù)、人物畫像等。目前,我們所有數(shù)據(jù)都保存在儲(chǔ)存系統(tǒng)里,積累了超過(guò)500億條的互聯(lián)網(wǎng)文本數(shù)據(jù),超過(guò)6億網(wǎng)民的評(píng)論。原創(chuàng)數(shù)據(jù)以超過(guò)5000萬(wàn)條的速度增長(zhǎng)。
大數(shù)據(jù)融合實(shí)力
在大數(shù)據(jù)融合方面,我們也有自己的理解。我們通過(guò)五官去感覺(jué)外部世界,當(dāng)我們的感官獲得了外部世界的信息之后,我們要將其進(jìn)行匯總、融合,同時(shí)結(jié)合我們的經(jīng)驗(yàn)知識(shí),對(duì)外部做一個(gè)判斷,判斷之后再?zèng)Q定采取什么行動(dòng),這是人類感知世界的過(guò)程。
在大數(shù)據(jù)時(shí)代,面對(duì)如此龐大、復(fù)雜的數(shù)據(jù),我們?cè)撊绾芜M(jìn)行有效處理,有效融合?幫助我們的企業(yè)、組織機(jī)構(gòu),做出正確判斷,并且選擇一個(gè)正確的決定,從而采取更加有效的行動(dòng),這是做大數(shù)據(jù)融合的一些初衷和原因。
在做大數(shù)據(jù)融合時(shí)候,我們認(rèn)為有三個(gè)數(shù)據(jù)來(lái)源,基本上分為三大類。第一類,企業(yè)或者是組織內(nèi)部的數(shù)據(jù);第二類,來(lái)自于外部互聯(lián)網(wǎng)的數(shù)據(jù)。其數(shù)據(jù)量大,增長(zhǎng)迅速,類型多;第三類,來(lái)自第三方的數(shù)據(jù),包括一些行業(yè)統(tǒng)計(jì)、調(diào)研報(bào)告、數(shù)據(jù)交易中心等提供的數(shù)據(jù)。
那么,在應(yīng)用層面,我們?nèi)绾伟堰@些不同的數(shù)據(jù)融合到一起、應(yīng)用到不同行業(yè)中去呢?基本上分為兩大類型:第一個(gè)是政府的機(jī)構(gòu),包括一些提供公共服務(wù)的機(jī)構(gòu),如水電燃?xì)忸愋偷墓卜?wù)部門;第二個(gè)是企業(yè)的用戶,可以看到在金融、電信、零售、電商、物流等各個(gè)行業(yè)里,大數(shù)據(jù)融合的應(yīng)用需求是非常強(qiáng)烈的,我們已經(jīng)看到了非常多的市場(chǎng)機(jī)會(huì)和行業(yè)需求。
大數(shù)據(jù)平臺(tái)服務(wù)
當(dāng)前,智慧星光有一個(gè)大數(shù)據(jù)的平臺(tái),可以針對(duì)多元的、異構(gòu)數(shù)據(jù)進(jìn)行有效的融合。這些融合的數(shù)據(jù)都包括什么呢?我們通過(guò)數(shù)據(jù)采集和分析的能力,將互聯(lián)網(wǎng)數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)、第三方的互聯(lián)網(wǎng)采集的數(shù)據(jù),其他的數(shù)據(jù)源融合到星光搭建的平臺(tái)里,包括企業(yè)內(nèi)部數(shù)據(jù),包括企業(yè)的運(yùn)營(yíng)數(shù)據(jù)甚至自己采集的數(shù)據(jù)或者他所采購(gòu)的第三方數(shù)據(jù)都可以放在平臺(tái)里面進(jìn)行各種各樣的計(jì)算,如關(guān)聯(lián)的計(jì)算、關(guān)聯(lián)的檢索等等。
智慧星光搭建的平臺(tái),從提供的功能和服務(wù)上包括信息的有效檢索。在數(shù)百億條數(shù)據(jù)里,我們根據(jù)用戶輸入的條件進(jìn)行有效檢索,以不超過(guò)分鐘級(jí)的速度,就能夠有效檢索出提供用戶下載、滿足檢測(cè)級(jí)別用戶需求,并可以分布式存儲(chǔ)進(jìn)行有效的擴(kuò)展的數(shù)據(jù),目前已經(jīng)接近TB級(jí)的存儲(chǔ)能力,通過(guò)平行擴(kuò)展可以突破更高的極限。
我們的引擎,把算法、引擎融合到大數(shù)據(jù)里面,讓我們的用戶可以使用大數(shù)據(jù)平臺(tái)模型去做各種有效運(yùn)算,我們自己應(yīng)用也是使用這些模型進(jìn)行計(jì)算。
此外在互聯(lián)網(wǎng)的文本數(shù)據(jù)方面建立文本數(shù)據(jù)平臺(tái)。我們自己的產(chǎn)品也基于這個(gè)平臺(tái)交付,同時(shí)我們也有這個(gè)能力把數(shù)據(jù)提供給客戶。讓文本大數(shù)據(jù)給各行業(yè)發(fā)展帶來(lái)無(wú)限價(jià)值。比如,我們的合作伙伴可以通過(guò)API的方式或者數(shù)據(jù)下載的方式獲取,同時(shí)也提供采購(gòu)的方式;此外,也支持創(chuàng)業(yè),以參股的方式我們把數(shù)據(jù)提供給我們的創(chuàng)業(yè)伙伴。研究機(jī)構(gòu)跟我們合作,共享我們的免費(fèi)數(shù)據(jù),共享我們的研究成果,這是我們數(shù)據(jù)平臺(tái)服務(wù)可對(duì)各方提供的。
新技術(shù)應(yīng)用
在新技術(shù)使用上,我們不斷去嘗試,比如最近火熱的深度學(xué)習(xí)。深度學(xué)習(xí)在文本處理方面,特別是無(wú)監(jiān)督的自然語(yǔ)言理解上,可以幫助我們進(jìn)行海量運(yùn)行處理時(shí)更高效、更準(zhǔn)確。例如,我們?cè)跀?shù)據(jù)監(jiān)測(cè)時(shí),假如100條負(fù)面新聞,我們能監(jiān)測(cè)出97條,只有3條監(jiān)測(cè)失敗,這樣的準(zhǔn)確性是很高的。
另外,我們通過(guò)大規(guī)模的知識(shí)圖譜可以構(gòu)造有效的關(guān)聯(lián)分析,也可以在一些實(shí)體抽取之后再做關(guān)聯(lián)分析,幫助我們應(yīng)用到各種各樣的大數(shù)據(jù)應(yīng)用場(chǎng)景去,根據(jù)我們的算法引擎確定一些算法、模型。比如文本處理最基本的模型,包括我們各種各樣的基于關(guān)鍵詞匹配的模型、我們做的實(shí)體抽取的模型等等,這些都是我們基本的分析能力。憑借這些能力,公司已經(jīng)與國(guó)內(nèi)眾多行業(yè)領(lǐng)軍企業(yè)開展全面合作,(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)