郭濤
俗話說,巧婦難為無米之炊。雖然現(xiàn)階段,不論是傳統(tǒng)的IT廠商,還是初創(chuàng)的大數(shù)據(jù)廠商,都在大數(shù)據(jù)的技術(shù)和產(chǎn)品方面不斷推陳出新,但如果沒有海量的數(shù)據(jù)用于分析,那么大數(shù)據(jù)分析與挖掘只能是紙上談兵。因此,有人提出,政府相關(guān)部門、企業(yè)應(yīng)該適當(dāng)公開一些不敏感的數(shù)據(jù),以實現(xiàn)更好的數(shù)據(jù)共享,為大數(shù)據(jù)的科學(xué)研究和商業(yè)應(yīng)用提供土壤。
恰好,在近日舉行的2014中國大數(shù)據(jù)技術(shù)大會(BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議上,多位國內(nèi)外的學(xué)者、企業(yè)家都談到了數(shù)據(jù)共享這個話題,并且介紹了中外在數(shù)據(jù)共享方面的實踐。
數(shù)據(jù)共享應(yīng)成常態(tài)
記者曾經(jīng)聽美國的一些大數(shù)據(jù)企業(yè)談到,美國在數(shù)據(jù)公開方面做得非常好,這為科研院校的大數(shù)據(jù)研究、企業(yè)的大數(shù)據(jù)商業(yè)化運(yùn)行提供了便利條件。有業(yè)內(nèi)人士建議,中國政府的相關(guān)部門也應(yīng)該制定一個基本的大數(shù)據(jù)分類和使用規(guī)則,比如根據(jù)數(shù)據(jù)的敏感性、安全性要求明確定義數(shù)據(jù)的“黑、灰、白”,形成整個社會和產(chǎn)業(yè)界的數(shù)據(jù)共享機(jī)制,從而加速整個大數(shù)據(jù)產(chǎn)業(yè)和應(yīng)用的發(fā)展。
“一提到‘?dāng)?shù)據(jù)公開,大家都很敏感,所以我們可以換一個詞——數(shù)據(jù)共享?!敝袊こ淘涸菏坷顕鼙硎?,“國內(nèi)外在數(shù)據(jù)共享方面確實存在差別,這是大數(shù)據(jù)的發(fā)展水平?jīng)Q定的。是不是政府的所有數(shù)據(jù)都要公開呢?在國外,有的國家政府提出,可以把政府?dāng)?shù)據(jù)都公布出來,但是誰又有能力保證這些數(shù)據(jù)的安全,并充分利用和發(fā)揮其應(yīng)有的價值呢?”
在數(shù)據(jù)共享這個問題上,從政府到產(chǎn)業(yè)界應(yīng)該達(dá)成一種基本共識。國外一些在大數(shù)據(jù)應(yīng)用方面走在前列的國家的共識是:數(shù)據(jù)共享是常態(tài),不共享是例外。而現(xiàn)在國內(nèi)還很難達(dá)成這樣一種共識。
李國杰表示,在數(shù)據(jù)共享方面,我國可以向最先進(jìn)的美國學(xué)習(xí)。但是,如果我們能借鑒與我國自身發(fā)展水平接近的國家,比如印度、巴西的經(jīng)驗,可能更實際,效果也會立竿見影。
Conviva公司聯(lián)合創(chuàng)始人兼CEO、卡內(nèi)基梅隆大學(xué)計算機(jī)科學(xué)教授張暉表示:“大數(shù)據(jù)落地的第一件事就是要制定清楚的規(guī)則,明確數(shù)據(jù)的所有權(quán)。在美國,雖然在大數(shù)據(jù)的某些方面還存在灰色地帶,但基本規(guī)則十分清楚,而中國目前還在探討之中。第二件事就是形成大數(shù)據(jù)方面的雙贏,甚至多贏局面。這就需要整個產(chǎn)業(yè)界,包括政府、企業(yè)等,在先滿足自身利益的基礎(chǔ)上再實現(xiàn)雙贏。比如,在美國,為了科學(xué)研究的需要,一些企業(yè)通常會對數(shù)據(jù)進(jìn)行匿名化處理后公布出來?!?/p>
卡內(nèi)基梅隆大學(xué)教授、ICML 2014程序委員會主席邢波認(rèn)為,現(xiàn)在很多人糾結(jié)數(shù)據(jù)公開和共享這個問題,可能不是從大數(shù)據(jù)研究或商業(yè)化的角度去考慮這個問題,而是出于一種社會知情權(quán)的需要。一個企業(yè)有權(quán)保護(hù)自己的數(shù)據(jù)?!叭绻麖募冄芯康慕嵌葋碇v,我不覺得數(shù)據(jù)的公開與否會真正影響大數(shù)據(jù)研究的進(jìn)程,至少在學(xué)術(shù)層面還沒有到?jīng)]有數(shù)據(jù)就不能開展研究的局面。有些人質(zhì)疑的可能是有些數(shù)據(jù)你有而我沒有??蒲袡C(jī)構(gòu)可以與企業(yè)在自愿的基礎(chǔ)上簽訂一個協(xié)議,對數(shù)據(jù)的共享、研究成果的歸屬等問題做出明確約定。”邢波談了自己的觀點(diǎn)。
多方共贏
現(xiàn)在,很多互聯(lián)網(wǎng)公司、電商企業(yè)都宣稱自己就是一個大數(shù)據(jù)企業(yè)。在這些企業(yè)中,數(shù)據(jù)已成為一種極具價值的資產(chǎn),而這些企業(yè)本身就是數(shù)據(jù)金礦。如果這些企業(yè)都能在一定程度上開放并與自身所在的產(chǎn)業(yè)鏈的上下游企業(yè)共享數(shù)據(jù),那么大數(shù)據(jù)的應(yīng)用將大大提速。
但是,企業(yè)有自身的經(jīng)濟(jì)利益,它們通常不會,也不應(yīng)被迫公開自己的數(shù)據(jù)。為什么企業(yè)還要公開自己的數(shù)據(jù)呢?因為這有利于提升整個產(chǎn)業(yè)的發(fā)展水平,更有利于形成一個良好的生態(tài)系統(tǒng)。張暉介紹,其實美國的工業(yè)界、學(xué)術(shù)界和政府并沒有明文的規(guī)定要求大家公開數(shù)據(jù),但是隨著產(chǎn)業(yè)的快速發(fā)展,同時也為滿足日益增長的用戶需求,整個產(chǎn)業(yè)界自發(fā)地、慢慢地形成了當(dāng)前這種數(shù)據(jù)脫敏后的公開和共享模式。“我的一個學(xué)生,現(xiàn)在是一家創(chuàng)業(yè)公司的合伙人,他們公司就有大量的商業(yè)數(shù)據(jù)。他們就把某些數(shù)據(jù)進(jìn)行匿名化處理后交由學(xué)校來做研究。反過來,學(xué)校的科學(xué)研究成果可以反饋給公司,從而形成了雙贏的局面?!睆垥熍e例說,“我們需要政府提供一個寬容的機(jī)制,而產(chǎn)業(yè)界的人也應(yīng)該有高瞻遠(yuǎn)矚的想法,在保護(hù)自己的利益的同時,努力營造一個多贏的生態(tài)系統(tǒng)?!?/p>
邢波認(rèn)為,工業(yè)界與學(xué)術(shù)界在大數(shù)據(jù)方面的研究風(fēng)格和方法是有區(qū)別的。比如在學(xué)術(shù)界,為了更有效地進(jìn)行大數(shù)據(jù)研究,數(shù)據(jù)共享的限度可以放寬一些。另外,大數(shù)據(jù)的研究機(jī)構(gòu)也可以自己想辦法模擬大數(shù)據(jù)的環(huán)境?!霸诿绹?,學(xué)術(shù)界與工業(yè)界之間正在積極建立一種互信機(jī)制,互相爭取對方的注意力,大數(shù)據(jù)的研究成果與商業(yè)轉(zhuǎn)化形成了一個良性循環(huán)。這一點(diǎn)值得國內(nèi)的同行借鑒?!毙喜ǜ嬖V記者,“在美國,并不存在產(chǎn)業(yè)界和學(xué)術(shù)界誰領(lǐng)先誰的問題,雙方的聯(lián)系非常緊密,是互補(bǔ)的關(guān)系。很多前沿的、有一定風(fēng)險的項目通常是從大學(xué)開始,然后才將成果輸送到產(chǎn)業(yè)界。在美國是‘學(xué)而優(yōu)則教。美國許多大學(xué)的教授同時也是實體企業(yè)的骨干,這為大數(shù)據(jù)的研究和產(chǎn)業(yè)化創(chuàng)造了一個良好的氛圍?!?/p>
ETI創(chuàng)始人、美國特拉華大學(xué)電子與計算機(jī)工程系教授高光榮就是一個橫跨學(xué)術(shù)界與工業(yè)界的典型代表。他談了自己的親身經(jīng)歷:“我教的一門課要用到銀行卡的數(shù)據(jù)。我需要給學(xué)生提供與真實數(shù)據(jù)近似的數(shù)據(jù)。最后,我們采用數(shù)據(jù)模擬的方式讓學(xué)生完成了課題研究。從公司的角度看,數(shù)據(jù)公開和共享的前提是能夠讓雙方獲益。不過,即使是在這種情況下,雙方在交換數(shù)據(jù)時也要制定嚴(yán)格的保密制度或簽訂協(xié)議?!?/p>
數(shù)據(jù)共享要有法可依
在中國,企業(yè)之間的數(shù)據(jù)共享問題是當(dāng)前的一個熱點(diǎn)。有業(yè)內(nèi)人士指出,企業(yè)間的數(shù)據(jù)之所以不能共享,一方面,是因為各公司出于安全和競爭方面的考慮,不愿輕易公開自己的數(shù)據(jù); 另一方面,大家都說數(shù)據(jù)具有無限的價值,但誰也沒有能力給數(shù)據(jù)定個具體的價格,因而數(shù)據(jù)價值無限也可被理解為數(shù)據(jù)無價值,數(shù)據(jù)無價值也就無法進(jìn)行等價交換。
不過,記者了解到,在某些十分依賴數(shù)據(jù)的行業(yè),比如移動廣告業(yè),企業(yè)間數(shù)據(jù)交換的問題已經(jīng)被提上議事日程。據(jù)一位從事移動大數(shù)據(jù)分析工作的業(yè)內(nèi)人士透露,可能明年在移動廣告界就會出現(xiàn)一些類似聯(lián)盟的行業(yè)內(nèi)部組織,參與的公司會在一定規(guī)則下交換自己的數(shù)據(jù)。這些共享的數(shù)據(jù)可能由一個第三方的機(jī)構(gòu)負(fù)責(zé)保管,企業(yè)在使用完這些數(shù)據(jù)后必須將數(shù)據(jù)交還給第三方的數(shù)據(jù)托管機(jī)構(gòu)或銷毀。雖然這個數(shù)據(jù)共享計劃還在醞釀過程中,不過可以看出,數(shù)據(jù)共享對于大數(shù)據(jù)的商業(yè)化是有積極促進(jìn)作用的,也是企業(yè)所需要的。未來,無論是政府還是行業(yè)監(jiān)管機(jī)構(gòu),可以考慮制定與數(shù)據(jù)共享相關(guān)的法規(guī)或行業(yè)標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)共享,保證大數(shù)據(jù)行業(yè)的健康、有序發(fā)展。
中國科學(xué)院計算技術(shù)研究所研究員、CCF大數(shù)據(jù)專家委員會秘書長程學(xué)旗表示,大數(shù)據(jù)落地遇到的挑戰(zhàn)除了來自技術(shù)以外,數(shù)據(jù)共享問題確實不能忽視。不過,數(shù)據(jù)共享不能泛泛而談。舉例來說,當(dāng)前,許多企業(yè)內(nèi)部的部門之間就沒有形成一種共享的良性機(jī)制,而沒有數(shù)據(jù)的整合,也就談不上應(yīng)用的創(chuàng)新和發(fā)展,更無法做出正確、及時的決策。再比如說,在建設(shè)智慧城市的過程中,各政府部門、行業(yè)部門的數(shù)據(jù)沒有整合到一起,因而很難在一個統(tǒng)一的目標(biāo)下協(xié)調(diào)發(fā)展。數(shù)據(jù)的整合與共享是大數(shù)據(jù)發(fā)展必須跨越的一道門檻。
鏈接 2015大數(shù)據(jù)發(fā)展趨勢
在2014中國大數(shù)據(jù)技術(shù)大會(BDTC 2014)上,《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2014)》和《2015大數(shù)據(jù)十大發(fā)展趨勢預(yù)測》正式發(fā)布。
CCF大數(shù)據(jù)專家委員會從大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)系統(tǒng)和工程、大數(shù)據(jù)應(yīng)用、數(shù)據(jù)資源、產(chǎn)業(yè)生態(tài)環(huán)境等6個不同方面、總計54個候選項中投票選出了2015年大數(shù)據(jù)的發(fā)展趨勢:大數(shù)據(jù)與人工智能的融合,跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)分析應(yīng)用,數(shù)據(jù)科學(xué)帶動多學(xué)科融合,深度學(xué)習(xí)成為大數(shù)據(jù)智能分析的核心技術(shù),利用大數(shù)據(jù)構(gòu)建大規(guī)模和有序化、開放式的知識體系,大數(shù)據(jù)的安全持續(xù)令人擔(dān)憂,開源成為大數(shù)據(jù)技術(shù)的主流,大數(shù)據(jù)與云計算和移動互聯(lián)網(wǎng)等的綜合應(yīng)用,大數(shù)據(jù)提升政府的治理能力,大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)快速發(fā)展。