齊紅威
數(shù)據(jù)堂成立于2011年9月。2014年底,數(shù)據(jù)堂掛牌新三板,市值為25~28億元。目前公司擁有45000套數(shù)據(jù),已達近2000TB的存儲規(guī)模,每一套數(shù)據(jù)可單獨完成一件事。
數(shù)據(jù)堂的商業(yè)模式—“數(shù)據(jù)銀行”能夠融合和盤活各類大數(shù)據(jù)資源,實現(xiàn)數(shù)據(jù)價值最大化,推動相關(guān)技術(shù)、應(yīng)用和產(chǎn)業(yè)的創(chuàng)新。
目前,大數(shù)據(jù)企業(yè)分為三個領(lǐng)域:數(shù)據(jù)源、數(shù)據(jù)技術(shù)和數(shù)據(jù)應(yīng)用。數(shù)據(jù)堂是做數(shù)據(jù)源的企業(yè),通過“數(shù)據(jù)銀行”模式,將數(shù)據(jù)擁有方和數(shù)據(jù)需求方之間打通,讓數(shù)據(jù)流通起來。解決“有數(shù)據(jù)的企業(yè)不以數(shù)據(jù)盈利,想做數(shù)據(jù)的企業(yè)又沒有數(shù)據(jù)”的行業(yè)痛點。
要打通數(shù)據(jù),就要獲取數(shù)據(jù),并進行分析處理和產(chǎn)品化,再把標(biāo)準(zhǔn)化數(shù)據(jù)提供給客戶。這涉及到三個問題:第一、我們擁有哪些數(shù)據(jù),這些數(shù)據(jù)是怎么獲取的?第二、如何進行數(shù)據(jù)處理?第三、數(shù)據(jù)是怎樣服務(wù)的,客戶如何享受和應(yīng)用這些數(shù)據(jù)?
第一、我們有哪些數(shù)據(jù)。從2011年開始至今,數(shù)據(jù)堂整合了5個領(lǐng)域的數(shù)據(jù)。首先是征信和金融領(lǐng)域。我們擁有一定規(guī)模的基礎(chǔ)數(shù)據(jù),包括身份信息、出行信息、保險信息、金融社交數(shù)據(jù)和水電數(shù)據(jù)等;其次是IT智能化領(lǐng)域。我們在人工智能領(lǐng)域積累了有關(guān)語音、頭像和文本等的大部分?jǐn)?shù)據(jù);再有,數(shù)據(jù)堂在精準(zhǔn)營銷、醫(yī)療健康和智能交通等領(lǐng)域也獲取了大量數(shù)據(jù)。解決數(shù)據(jù)源是做大數(shù)據(jù)唯一出路。在獲取數(shù)據(jù)方面,我們主要有四類來源:眾包數(shù)據(jù)、行業(yè)數(shù)據(jù)、政府?dāng)?shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。
眾包大數(shù)據(jù)。數(shù)據(jù)堂以眾包模式為基礎(chǔ),能大規(guī)模、快速地獲取線下數(shù)據(jù)。目前數(shù)據(jù)堂的眾包平臺“眾客堂”擁有50多萬名眾客,并有大量實名兼職人員負責(zé)采集線下數(shù)據(jù)。如典型案例“采購小票”是反映線下商業(yè)活動的媒介,眾客堂用戶可以直接掃描小票、拍照給我們,我們運用小票(圖像)OCR的核心技術(shù),將小票上的價格、銷售關(guān)聯(lián)、時間和地域等數(shù)據(jù),提供給政府CPI部門和供應(yīng)商。
行業(yè)大數(shù)據(jù)。數(shù)據(jù)堂擁有近300家數(shù)據(jù)提供伙伴。部分行業(yè)在做主營業(yè)務(wù)時會同時產(chǎn)生很多業(yè)務(wù),這些業(yè)務(wù)對行業(yè)本身而言是附產(chǎn)品,但可以釋放巨大的價值。我們在2015年所融的資金基本上用于行業(yè)大數(shù)據(jù),通過與行業(yè)客戶深度合作,共同挖掘數(shù)據(jù)的價值。如出租車實時的位置數(shù)據(jù)對出租行業(yè)是一個附產(chǎn)品,但對路況統(tǒng)計或市政規(guī)劃建設(shè)則有著巨大的價值。
政府大數(shù)據(jù)。從2014年底開始,政府?dāng)?shù)據(jù)逐漸開放。目前政府?dāng)?shù)據(jù)開放的力度和速度超乎想象,政府?dāng)?shù)據(jù)開放是大勢所趨,需跟進布局。我們通過和政府部門合作,獲取了高速公路、身份、出行數(shù)據(jù)。另外,政府部門包括工商、稅務(wù)、交管、民政和衛(wèi)計的數(shù)據(jù),有著巨大的價值,但如何在安全可靠的前提下釋放數(shù)據(jù)的價值,這個問題需要共同探討。
互聯(lián)網(wǎng)數(shù)據(jù)。這個是線上數(shù)據(jù),分為開放的數(shù)據(jù)和非開放的數(shù)據(jù)。開放的數(shù)據(jù)都能通過爬蟲在互聯(lián)網(wǎng)上抓取,這類數(shù)據(jù)只能用于宏觀或者中觀的分析,數(shù)據(jù)價值相對較低。如果用于深度分析,需要對數(shù)據(jù)進行深度清洗和抽取分析,代價較高、挑戰(zhàn)也很大。而非開放的數(shù)據(jù)極具價值,但比政府?dāng)?shù)據(jù)更難開放。
第二、獲取數(shù)據(jù)之后如何處理?可以將我們獲取的數(shù)據(jù)比作原油,需要進行處理才能使用。第一步,對數(shù)據(jù)進行清洗、脫敏。第二步,非結(jié)構(gòu)化到結(jié)構(gòu)化的處理。這是技術(shù)上最為關(guān)鍵而又最具挑戰(zhàn)的環(huán)節(jié)。
80%以上的線上數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),這是大數(shù)據(jù)和海量數(shù)據(jù)、大規(guī)模數(shù)據(jù)的本質(zhì)區(qū)別。這些非結(jié)構(gòu)化數(shù)據(jù)主要包括圖像、語音、視頻和文本等數(shù)據(jù),在對之進行分析前,需要進行結(jié)構(gòu)化處理或深度處理。數(shù)據(jù)堂擁有人臉識別,小票識別,物體識別,語音、語義識別等非結(jié)構(gòu)化數(shù)據(jù)處理的關(guān)鍵技術(shù)。
將數(shù)據(jù)結(jié)構(gòu)化處理之后,要通過融合解決數(shù)據(jù)孤島問題,激發(fā)數(shù)據(jù)的關(guān)聯(lián)價值。例如,如果不將出行數(shù)據(jù)、在線交易數(shù)據(jù)和銀行數(shù)據(jù)等進行深度關(guān)聯(lián)和融合,就無法對用戶進行深度精準(zhǔn)畫像。
第三、在關(guān)聯(lián)之后,就可將數(shù)據(jù)標(biāo)準(zhǔn)化對外服務(wù)。在這方面,數(shù)據(jù)堂提供兩大自主核心技術(shù):大規(guī)模分布處理和非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)。
在數(shù)據(jù)服務(wù)的過程,我們采用兩種模式:一種模式是將數(shù)據(jù)標(biāo)準(zhǔn)化之后,以API(應(yīng)用程序編程接口)或者SDK(軟件開發(fā)工具包)的形式,嵌入客戶的應(yīng)用邏輯。換言之,數(shù)據(jù)堂只做數(shù)據(jù)資源,不做數(shù)據(jù)應(yīng)用。打個比方,我們是面粉加工場,獲取的是五谷雜糧,生產(chǎn)的產(chǎn)品是面粉,而我們的用戶是做面包的。
我們每個數(shù)據(jù)可在不同行業(yè)深度應(yīng)用。如我們高速路數(shù)據(jù)的應(yīng)用案例,除西部幾個省外,我們擁有26個省的高速路的車輛記錄數(shù)據(jù),包含上下車時間、車輛類型等。針對這個數(shù)據(jù),我們有幾個典型應(yīng)用:
一是和互聯(lián)網(wǎng)金融客戶做貨車貸。對象主要是貨車司機。貨車司機的資金周轉(zhuǎn)極其頻繁,需要對其進行評貸。我們和互聯(lián)網(wǎng)金融客戶合作,評判貨車司機的行使?fàn)顩r和模式,包括去過哪些城市,滿載率、和違章率等。
二是和保險公司、車險公司合作開發(fā)新的保費。我們專門針對經(jīng)常跑高速的車輛開發(fā)了一個新的險種“高速險”,并利用高速路數(shù)據(jù)進行旅游營銷。
三是和港口合作。港口企業(yè)有兩個需求:全國的貨物在哪些省市運到他的港口;貨物又運到了哪些地方。結(jié)合我們的高速路數(shù)據(jù),港口能精準(zhǔn)地知道貨物的去向,并知道旺季消費地點。
我們希望與大家深度合作,尤其是期待未來能在金融、精準(zhǔn)營銷、人工智能這些領(lǐng)域進行深度合作,共同發(fā)掘數(shù)據(jù)的價值。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)