• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    感悟大數(shù)據(jù)
    —— 從數(shù)據(jù)管理和分析說起

    2017-04-21 08:06:33周傲英
    大數(shù)據(jù) 2017年2期
    關(guān)鍵詞:數(shù)據(jù)庫系統(tǒng)

    周傲英

    華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062

    感悟大數(shù)據(jù)
    —— 從數(shù)據(jù)管理和分析說起

    周傲英

    華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062

    大數(shù)據(jù)依然很熱,對其解讀也越發(fā)眾說紛紜。結(jié)合筆者長期以來的研發(fā)經(jīng)歷和深層思考,討論了對“大數(shù)據(jù)”本身、“大數(shù)據(jù)”國家戰(zhàn)略、“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的理解。在大數(shù)據(jù)語境下重提數(shù)據(jù)庫理念,說明這對于理解數(shù)據(jù)管理的發(fā)展趨勢、把握技術(shù)發(fā)展的機(jī)遇有著重要的意義。此外,從一個(gè)資深的IT學(xué)者和實(shí)踐者的角度,討論近10年來IT發(fā)展范型的變化,介紹了近5年來筆者領(lǐng)導(dǎo)研發(fā)的3個(gè)數(shù)據(jù)管理系統(tǒng),提出了分享型數(shù)據(jù)的概念,作為區(qū)塊鏈背后的基本思想的抽象。

    大數(shù)據(jù);數(shù)據(jù)庫理念;互聯(lián)網(wǎng)+;分享型數(shù)據(jù)庫

    1 引言

    已經(jīng)不記得第一次看到或聽到“大數(shù)據(jù)”這個(gè)詞是在什么時(shí)候了,應(yīng)該比2012年3月29日要早不少時(shí)日。2012年3月29日,前美國總統(tǒng)奧巴馬的科技政策辦公室(Office of Science and Technology Policy,OSTP)宣布了投資兩億美元的“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。也是在同一天,我國科學(xué)技術(shù)部發(fā)布的“‘十二五’國家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南”把大數(shù)據(jù)研究列在首位。目前,大數(shù)據(jù)的熱度似乎還在繼續(xù)攀升,廣度的延伸更是超乎預(yù)期。2012年5月28日,每年一度的數(shù)據(jù)庫審稿會(huì)暨戰(zhàn)略研討會(huì)在新疆大學(xué)召開,按照中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專家委員會(huì)(以下簡稱專委會(huì))的安排,李建中老師和筆者代表專委會(huì)給新疆大學(xué)的師生做學(xué)術(shù)交流報(bào)告。筆者當(dāng)時(shí)的報(bào)告題目是“大數(shù)據(jù)時(shí)代的若干數(shù)據(jù)管理和分析問題”,討論的話題主要包括:大數(shù)據(jù)的分類及管理、新興的開源數(shù)據(jù)管理工具以及硬件發(fā)展(特別是內(nèi)存計(jì)算)對數(shù)據(jù)管理與分析技術(shù)的影響。李老師的報(bào)告是關(guān)于大數(shù)據(jù)計(jì)算的,從李老師那里筆者了解到國內(nèi)的大數(shù)據(jù)熱已經(jīng)風(fēng)起云涌,蔓延到各個(gè)領(lǐng)域和各個(gè)層面。聽了李老師的報(bào)告,受到啟發(fā),產(chǎn)生了一種想從數(shù)據(jù)庫學(xué)者的角度來詮釋大數(shù)據(jù)研究的沖動(dòng),于是就主動(dòng)提出要在2012年10月合肥召開的第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議上作一個(gè)題為“從數(shù)據(jù)庫觀點(diǎn)看大數(shù)據(jù)研究”的大會(huì)報(bào)告。因?yàn)檫@次報(bào)告,隨后筆者多次受到邀請?jiān)诓煌瑘龊辖榻B自己的觀點(diǎn)和認(rèn)識(shí),也有機(jī)會(huì)得到更多的指點(diǎn)。專委會(huì)指派李戰(zhàn)懷、王國仁和筆者以相同的主題把觀點(diǎn)整理出來,作為提交給中國計(jì)算機(jī)學(xué)會(huì)的年度發(fā)展報(bào)告。方糧教授在了解相關(guān)內(nèi)容后,推薦筆者和各位老師將稿件發(fā)表在《計(jì)算機(jī)工程與科學(xué)》上[1]。

    作為一個(gè)數(shù)據(jù)庫學(xué)者,當(dāng)突然意識(shí)到“大數(shù)據(jù)”已經(jīng)變成人人都在說的一個(gè)熱詞的時(shí)候,感覺非常特別。首先是一種本能的抵觸,數(shù)據(jù)庫本來就是研究怎么管理數(shù)據(jù)的,為什么要提出一個(gè)新的詞,這很像2008年那場著名的關(guān)于MapReduce的辯論上數(shù)據(jù)庫學(xué)者的反應(yīng)。然后就會(huì)反思為什么在數(shù)據(jù)庫輝煌50多年之后還會(huì)再出現(xiàn)“大數(shù)據(jù)”,而且更加風(fēng)靡,Michael Stonebraker在獲得圖靈獎(jiǎng)以后的演講中也說明了這種反思[2]。2016年5月25日,貴陽數(shù)博會(huì)期間,杜小勇教授組織了“第一屆大數(shù)據(jù)科學(xué)與工程國際會(huì)議(2016)(BDSE2016)”中的“大數(shù)據(jù)分析與管理”主題論壇,筆者在會(huì)上的發(fā)言題目是:“從管理和分析說起:感悟大數(shù)據(jù)”,一是為了契合杜教授主題論壇主題,二是想分享自己這么多年的思考或曰感悟。

    從1985年本科畢業(yè)后開始讀數(shù)據(jù)庫方向的研究生算起,筆者從事數(shù)據(jù)庫學(xué)習(xí)和研究已經(jīng)30多年了,對數(shù)據(jù)庫很有感情,也有較為深刻的認(rèn)識(shí)。受Jim Gray提出的科學(xué)發(fā)現(xiàn)第四范式的啟發(fā),2007年開始申請“國家杰出青年科學(xué)基金”時(shí),就把主攻研究方向定為“支持?jǐn)?shù)據(jù)密集型計(jì)算的數(shù)據(jù)管理”,這樣算來也有10年時(shí)間了。2012年6月,在SAP公司的資助下,筆者得到華東師范大學(xué)的支持,成立了“華東師范大學(xué)云計(jì)算與大數(shù)據(jù)研究中心”,主要目的是聯(lián)合國內(nèi)高校開展內(nèi)存及數(shù)據(jù)庫等新興計(jì)算和應(yīng)用環(huán)境下的數(shù)據(jù)管理技術(shù)和系統(tǒng),云計(jì)算和大數(shù)據(jù)研究中心的根本宗旨就是踐行大數(shù)據(jù)體現(xiàn)的協(xié)同創(chuàng)新精神,迄今也有近5年。在此基礎(chǔ)上,遵照華東師范大學(xué)的要求,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院作為一個(gè)二級(jí)實(shí)體單位于2013年9月26日正式成立,以大數(shù)據(jù)為背景的數(shù)據(jù)科學(xué)與工程學(xué)院已于2016年9月26日宣布成立,開展數(shù)據(jù)科學(xué)與工程[3]這一交叉學(xué)科從本科到博士的人才培養(yǎng)。介紹這些,是想說明筆者有資格發(fā)表有關(guān)大數(shù)據(jù)的一些感悟。這里的思考和感悟主要圍繞以下幾個(gè)方面展開:大數(shù)據(jù)何以成為國家戰(zhàn)略?為什么要重提數(shù)據(jù)庫理念?IT發(fā)展范型有何改變?最后結(jié)合筆者在概念和系統(tǒng)方面的思考和實(shí)踐說明筆者在踐行大數(shù)據(jù)方面的相關(guān)理念。

    2 大數(shù)據(jù)何以成為國家戰(zhàn)略

    大數(shù)據(jù)在世界范圍內(nèi)都很熱,這是事實(shí)。據(jù)《參考消息》2012年12月12日報(bào)道,在美國的2012年十大流行詞評(píng)比中,“大數(shù)據(jù)”名列第二,排名第一的是“財(cái)政懸崖”,后者是2012年美國人最為關(guān)心的政治事件。2012年底筆者在新聞上讀到一些政府為推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,要規(guī)劃大數(shù)據(jù)產(chǎn)業(yè)園區(qū),成立大數(shù)據(jù)局,當(dāng)時(shí)還覺得似乎是反應(yīng)過度,更沒有想象到會(huì)出現(xiàn)貴陽數(shù)博會(huì)這樣的場面。無論這種潮流何去何從,筆者可以分析一下出現(xiàn)如此局面的原因。

    2.1 大數(shù)據(jù)全景圖

    一開始,對于“全民大數(shù)據(jù)”現(xiàn)象總覺得匪夷所思,認(rèn)為大數(shù)據(jù)是很技術(shù)的一件事,應(yīng)該是從事技術(shù)研發(fā)甚至是數(shù)據(jù)庫研發(fā)的人才適合談?wù)撨@一話題。仔細(xì)想想,大數(shù)據(jù)是和現(xiàn)實(shí)應(yīng)用密切相關(guān)的,而信息時(shí)代的各種應(yīng)用服務(wù)都涉及數(shù)據(jù),所有關(guān)心應(yīng)用的人談?wù)摯髷?shù)據(jù)都是合理的。也就是說“全民大數(shù)據(jù)”現(xiàn)象沒什么值得大驚小怪的。筆者喜歡用一個(gè)倒三角來描述這種場景,如圖1所示。

    圖1 大數(shù)據(jù)全景圖

    倒三角分成3層,最上面一層也是最廣泛的一層代表的就是應(yīng)用,凡是和應(yīng)用相關(guān)的人士都可以被納入大數(shù)據(jù)全景之中。這一層從右到左顏色也從淺變深,想表達(dá)的意思是真正實(shí)現(xiàn)大數(shù)據(jù)理念也是從易到難。大數(shù)據(jù)之所以能成為流行詞,深入人心,主要是因?yàn)樵诨ヂ?lián)網(wǎng)企業(yè)中取得極大成功。早期的互聯(lián)網(wǎng)企業(yè),都是起步于在線娛樂游戲、搜索引擎或是網(wǎng)上購物。這些互聯(lián)網(wǎng)應(yīng)用的共同特點(diǎn)就是:其商業(yè)模式(或曰業(yè)務(wù)模式)都是自創(chuàng)的,沒有受到線下現(xiàn)實(shí)社會(huì)的太多約束。換一句話來說,就是這些應(yīng)用是虛擬世界中的應(yīng)用,和現(xiàn)實(shí)世界關(guān)系不大,應(yīng)用涉及的業(yè)務(wù)邏輯可以自行設(shè)定,涉及的戰(zhàn)線比較短,需要的數(shù)據(jù)都是互聯(lián)網(wǎng)企業(yè)能收集和掌握到的。在我國,百度、阿里巴巴、騰訊(BAT)起家的業(yè)務(wù)模式都是這種類型,百度是做搜索引擎起家的,阿里巴巴是做電商起家的,騰訊是做即時(shí)通信和在線娛樂起家的。BAT的成功振奮人心,也給人們帶來無限的想象空間,但是要想在健康醫(yī)療和教育領(lǐng)域甚至社會(huì)治理等領(lǐng)域復(fù)制BAT的成功,困難程度遠(yuǎn)非預(yù)想。這既有戰(zhàn)線長、數(shù)據(jù)孤立、難以形成閉環(huán)的原因,也有內(nèi)生機(jī)制(也就是人們常說的互聯(lián)網(wǎng)基因)的原因。BAT依靠其在虛擬世界的成功以及這種成功帶來的資金、人才和管理方面的優(yōu)勢,強(qiáng)勢進(jìn)入現(xiàn)實(shí)世界的其他應(yīng)用領(lǐng)域,這是當(dāng)前的一種重要趨勢。國內(nèi)互聯(lián)網(wǎng)企業(yè)稱之為從線上到線下(online to offline,O2O),也就是利用互聯(lián)網(wǎng)思維滲透到線下現(xiàn)實(shí)應(yīng)用,帶來的是跨界、顛覆和倒逼。

    倒三角的最底下一層,代表大數(shù)據(jù)這個(gè)大家族中小眾的那個(gè)群體,即IT。在互聯(lián)網(wǎng)企業(yè),對應(yīng)的就是計(jì)算系統(tǒng)或計(jì)算平臺(tái)。對作為信息服務(wù)業(yè)的互聯(lián)網(wǎng)企業(yè)而言,雖然它們不是IT企業(yè),但I(xiàn)T能力是企業(yè)的核心競爭力。用倒三角的最底層表示IT恰如其分,一個(gè)倒立的三角形是不是穩(wěn)固,關(guān)鍵還是要看其IT能力夠不夠尖端,能不能很好地支撐上層的計(jì)算需求和應(yīng)用需求。

    倒三角的中間一層代表建模和算法。在互聯(lián)網(wǎng)企業(yè),隨著用戶規(guī)模的增長,與用戶相關(guān)的交易數(shù)據(jù)和交互數(shù)據(jù)(合起來可以稱為行為數(shù)據(jù))呈指數(shù)級(jí)增長,如何利用好這些數(shù)據(jù)是衡量互聯(lián)網(wǎng)企業(yè)贏利能力的關(guān)鍵。對這些數(shù)據(jù)進(jìn)行實(shí)時(shí)分析來實(shí)現(xiàn)精準(zhǔn)營銷和風(fēng)險(xiǎn)控制,是其中的典型應(yīng)用,說得直白一點(diǎn),就是常見的在線廣告和個(gè)人對個(gè)人(peer to peer,P2P)金融。與這個(gè)層面對應(yīng)的專業(yè)人士主要包括數(shù)理統(tǒng)計(jì)、矩陣計(jì)算和數(shù)值優(yōu)化等應(yīng)用數(shù)學(xué)領(lǐng)域的專家。當(dāng)然,他們最重要的作用就是基于其堅(jiān)實(shí)的數(shù)學(xué)功底,深刻理解應(yīng)用,并在底層的計(jì)算平臺(tái)上把他們的知識(shí)變成算法予以實(shí)現(xiàn)。這些專家的重要性不言而喻,人們會(huì)稱他們?yōu)椤皵?shù)據(jù)科學(xué)家”“首席科學(xué)家”。一個(gè)企業(yè)或是一個(gè)行業(yè),隨著應(yīng)用的深入,這一層面會(huì)變得越來越重要,也就越來越厚。當(dāng)下時(shí)髦的深度學(xué)習(xí)、人工智能也都是誕生于這一層面,是為了強(qiáng)調(diào)其重要性。

    2.2 大數(shù)據(jù)熱的由來

    上文用倒三角形容大數(shù)據(jù)人員群體的全景。為了說明大數(shù)據(jù)為什么會(huì)變得那么熱,首先來看看大數(shù)據(jù)這個(gè)倒三角的演化過程,如圖2所示。

    圖2為大數(shù)據(jù)的演化過程。在互聯(lián)網(wǎng)出現(xiàn)的時(shí)候,原本沒有大數(shù)據(jù)的說法,有的只是想象當(dāng)中的應(yīng)用,也就是企業(yè)家心目中的創(chuàng)新型的應(yīng)用。拿馬云來做例子,這個(gè)應(yīng)用就是免費(fèi)的eBay,或是說之后的阿里巴巴或淘寶。在最初的階段,整個(gè)倒三角就是應(yīng)用。為了實(shí)現(xiàn)企業(yè)家心目中的應(yīng)用,要有IT專業(yè)人士搭建計(jì)算機(jī)系統(tǒng)和計(jì)算平臺(tái)。在這個(gè)階段,因?yàn)橘Y金和技術(shù)都極其有限,只能用最廉價(jià)最省錢的方式完成任務(wù),就阿里巴巴而言,應(yīng)該是“十八羅漢”中的程序員用開源的軟硬件技術(shù)完成了任務(wù)。這個(gè)階段結(jié)束以后企業(yè)就可以上線了。隨著用戶的增加和收集的用戶行為數(shù)據(jù)(包括交易數(shù)據(jù)和交互數(shù)據(jù))的快速增長,下一步要做的工作就是精準(zhǔn)營銷或是風(fēng)險(xiǎn)控制,這是企業(yè)贏利和發(fā)展的關(guān)鍵所在,需要應(yīng)用型數(shù)學(xué)家的介入。正因?yàn)槠潢P(guān)鍵作用,人們用“大數(shù)據(jù)分析”“深度學(xué)習(xí)”“人工智能”描述這個(gè)過程,用“數(shù)據(jù)科學(xué)家”指代從事數(shù)據(jù)分析的人群。整個(gè)演化過程可以分成3個(gè)階段:第一個(gè)階段是應(yīng)用階段,第二個(gè)階段是IT階段,第三個(gè)階段是大數(shù)據(jù)階段。盡管大數(shù)據(jù)階段至關(guān)重要,但應(yīng)用階段的商業(yè)模式以及IT階段的平臺(tái)搭建更是決定性的。從這個(gè)演化過程不難看出,對大數(shù)據(jù)的理解和認(rèn)識(shí)不能只停留在欣賞其表面,那樣很容易使其神秘化和玄虛化,更需要了解其賴以存在的載體,即成功的業(yè)務(wù)模式和IT支撐環(huán)境。

    大數(shù)據(jù)為什么會(huì)熱起來?那是因?yàn)橛辛嘶ヂ?lián)網(wǎng)。最早討論類似大數(shù)據(jù)這樣的概念應(yīng)該是在數(shù)據(jù)庫以前,這個(gè)觀點(diǎn)在筆者翻譯的《海量數(shù)據(jù)分析前沿》[4]有論述。20世紀(jì)40年代,世界第一臺(tái)回旋加速器在美國伯克利建成運(yùn)行之后,科學(xué)數(shù)據(jù)管理就成為一個(gè)極具挑戰(zhàn)性的問題。Jim Gray生前幾年一直在倡導(dǎo)科學(xué)觀測和科學(xué)實(shí)驗(yàn)等科學(xué)大數(shù)據(jù)的研究,人們把這個(gè)總結(jié)成科學(xué)發(fā)現(xiàn)的“第四范型”[5]。但是,真正能讓大數(shù)據(jù)深入人心、讓人們喜聞樂見的原因,究其緣由,還是互聯(lián)網(wǎng)?!盎ヂ?lián)網(wǎng)改變世界”,這是20多年前很多學(xué)者向聽眾介紹互聯(lián)網(wǎng)時(shí)常說的一句話。當(dāng)時(shí)并沒有引起太多注意?;ヂ?lián)網(wǎng)改變世界的根本原因在于它改變了人與人之間的連接(people connection),并且通過注重用戶體驗(yàn)(user experience)體現(xiàn)以用戶為中心的理念。這兩點(diǎn)是革命性的改變,連接的改變不單單是距離或時(shí)間的縮短,也不單單是常說的任何人(anyone)、任何時(shí)間(anytime)和任何地點(diǎn)(anywhere),形形色色的社交網(wǎng)絡(luò)和媒體平臺(tái)都提供了人與人建立連接的渠道。因?yàn)槭窃诰€連接,用戶體驗(yàn)的改善也變成現(xiàn)實(shí)可行的。人們在線期間的顯式或隱式的反饋為分析用戶體驗(yàn)提供必要的基礎(chǔ),顯式的反饋包括用戶主動(dòng)輸入的評(píng)論或建議,隱式的反饋包括用戶的在線日志(上網(wǎng)時(shí)間、地點(diǎn)和訪問路徑等)。收集到的海量用戶數(shù)據(jù)反映了用戶的方方面面,對這些數(shù)據(jù)進(jìn)行協(xié)同過濾和深度學(xué)習(xí)等智能分析,就可以很清楚地了解用戶的喜好和意圖(所謂的用戶畫像),目的是進(jìn)行精準(zhǔn)營銷(計(jì)算廣告)和風(fēng)險(xiǎn)控制(如P2P金融)。

    大數(shù)據(jù)的本質(zhì)就是原本各自孤立的數(shù)據(jù)得以互相關(guān)聯(lián)、融合。上文討論的Web大數(shù)據(jù)是這樣,傳統(tǒng)的企業(yè)大數(shù)據(jù)也是一樣,科學(xué)大數(shù)據(jù)更是如此。大數(shù)據(jù)之所以在這個(gè)時(shí)代成為一個(gè)熱點(diǎn),是因?yàn)榛ヂ?lián)網(wǎng)為數(shù)據(jù)的匯聚提供了平臺(tái)和可能性。再用一個(gè)通俗的例子來說明,網(wǎng)上暴力“人肉搜索”就是大數(shù)據(jù)應(yīng)用的典型。當(dāng)一個(gè)人突然成為“網(wǎng)紅”,通過社交媒體或其他在線媒體得到大家的關(guān)注,激發(fā)了大家的娛樂興致,廣大網(wǎng)民通過網(wǎng)絡(luò)把原本分散在不同人手上的信息匯聚在一起,通過大家的添油加醋反復(fù)迭代的加工和處理,就會(huì)形成一波或長或短的娛樂浪潮。

    圖2 大數(shù)據(jù)演化過程

    作為一個(gè)從事數(shù)據(jù)庫系統(tǒng)研究的學(xué)者,喜歡從大數(shù)據(jù)支撐系統(tǒng)的角度把大數(shù)據(jù)分成前面提到的三大類:Web大數(shù)據(jù)、決策(或商業(yè)智能(business intelligence,BI))大數(shù)據(jù)和科學(xué)大數(shù)據(jù),因?yàn)橹芜@3類大數(shù)據(jù)的系統(tǒng)有明顯的差別。Web大數(shù)據(jù)出現(xiàn)最晚,也就十幾年的時(shí)間,與有40多年歷史、靠數(shù)據(jù)庫系統(tǒng)支撐的決策大數(shù)據(jù)以及有更長歷史、被科學(xué)和統(tǒng)計(jì)數(shù)據(jù)庫管理(SSDBM)會(huì)議關(guān)注的科學(xué)大數(shù)據(jù)相比,它的受眾(廣大網(wǎng)民)最多,目標(biāo)(贏利賺錢)也最簡單?;ヂ?lián)網(wǎng)企業(yè)特別注重用戶體驗(yàn),這有其內(nèi)生動(dòng)力,因?yàn)榛ヂ?lián)網(wǎng)經(jīng)濟(jì)本質(zhì)上就是“眼球經(jīng)濟(jì)”“粉絲經(jīng)濟(jì)”或曰“人氣經(jīng)濟(jì)”,它把“人與人連接”以及“用戶體驗(yàn)”這兩大革命性的法寶的功能發(fā)揮到極致?;ヂ?lián)網(wǎng)企業(yè)的極大成功,再加上活生生、通俗易懂的例子,告訴了人們什么是“大數(shù)據(jù)”。

    2.3 大數(shù)據(jù)國家戰(zhàn)略

    互聯(lián)網(wǎng)企業(yè)是使大數(shù)據(jù)變得炙手可熱的重要推手。除此之外,還有一些客觀原因。從技術(shù)上來說,Web大數(shù)據(jù)有Hadoop這樣的“明星”系統(tǒng),開源的Hadoop形成了不同于傳統(tǒng)模式的創(chuàng)新社區(qū)。因?yàn)橛辛薍adoop開源社區(qū)的成功,信息技術(shù)的創(chuàng)新就突破了原先由跨國IT企業(yè)主導(dǎo)的壟斷局面,形成了“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的局面。這一點(diǎn)對我國特別有意義,有啟示性的意義。在信息技術(shù)上我國企業(yè)一直受制于西方國家尤其是美國主導(dǎo)的跨國大企業(yè),幾十年來,這些企業(yè)采用“在低端慫恿盜版、在高端淘空人才”、釜底抽薪的策略,成功使得我國的信息化基礎(chǔ)設(shè)施建設(shè)嚴(yán)重依賴于他們。導(dǎo)致的結(jié)果,不僅僅是我國付出了高額的成本,嚴(yán)重影響信息化建設(shè)的推進(jìn)和廣大人民群眾對信息化成果的享受,更為重要的是,國家經(jīng)濟(jì)和社會(huì)安全存在重大隱患。近幾年來,隨著“維基泄密”和“棱鏡門”事件的發(fā)生,逐漸深刻地認(rèn)識(shí)到“沒有網(wǎng)絡(luò)安全就沒有國家安全”這個(gè)基本的道理。基于成本和安全的考慮,我國提出了“技術(shù)領(lǐng)先、企業(yè)先進(jìn)、自主可控、安全可靠”的新時(shí)期信息技術(shù)發(fā)展戰(zhàn)略。

    大數(shù)據(jù)時(shí)代信息技術(shù)的發(fā)展范型發(fā)生了根本性的變化,這一點(diǎn)在第4節(jié)還會(huì)展開討論。這一發(fā)展范型的轉(zhuǎn)變?yōu)槲覈谛畔⒓夹g(shù)領(lǐng)域趕超世界先進(jìn)水平提供了機(jī)會(huì)。傳統(tǒng)的發(fā)展范型下,我國的信息技術(shù)發(fā)展受到了極大的制約,失去了發(fā)展的機(jī)遇。互聯(lián)網(wǎng)企業(yè)的成功給我國帶來啟示,幫助人們打破一直以來對壟斷性IT企業(yè)及其產(chǎn)品的迷信。在信息技術(shù)的發(fā)展道路上,跨越式發(fā)展和彎道超車是時(shí)常發(fā)生的現(xiàn)象。對于我國的IT專業(yè)人士而言,現(xiàn)在比歷史上任何一個(gè)時(shí)期的機(jī)遇都要好,都要真實(shí)。壟斷的跨國IT企業(yè)還沉浸在以前那種在中國屢試不爽取得巨大成功的商業(yè)模式中,而中國的應(yīng)用對IT技術(shù)的需求卻發(fā)生了巨大的變化。中國的互聯(lián)網(wǎng)企業(yè)做出了重要的貢獻(xiàn)。2013年,當(dāng)阿里巴巴宣布其成功做到在IT架構(gòu)中“去IOE”時(shí),得到了廣泛的關(guān)注和認(rèn)可。去掉IBM的小型機(jī)、Oracle數(shù)據(jù)庫和EMC的高端存儲(chǔ),代之以自己基于開源軟件開發(fā)的系統(tǒng),這是互聯(lián)網(wǎng)企業(yè)在處理大數(shù)據(jù)時(shí)總結(jié)出來的經(jīng)驗(yàn),也代表了我國IT人的心聲。

    以上是從技術(shù)層面討論了大數(shù)據(jù)之所以成為國家戰(zhàn)略的原因。大數(shù)據(jù)對人們的意義不只是在技術(shù)層面。正如互聯(lián)網(wǎng)是催熱大數(shù)據(jù)的主要因素一樣,互聯(lián)網(wǎng)也是大數(shù)據(jù)成為國家戰(zhàn)略的主因。前文說到,互聯(lián)網(wǎng)的本質(zhì)體現(xiàn)在連接人和用戶體驗(yàn)兩個(gè)方面。用戶體驗(yàn)就是利用大數(shù)據(jù)進(jìn)行用戶行為分析和畫像,是實(shí)實(shí)在在的大數(shù)據(jù)分析?;ヂ?lián)網(wǎng)企業(yè)的成功就得益于其在用戶體驗(yàn)方面的精益求精以及新穎的商業(yè)模式和討巧的贏利方式?;ヂ?lián)網(wǎng)經(jīng)濟(jì)的本質(zhì)就是在各自營造的虛擬世界里聚集人氣,等有了足夠的人氣再利用收集的數(shù)據(jù)精確分析用戶行為,投其所好,注重用戶體驗(yàn),用“羊毛出在豬身上”的方式來盈利。人們起初把這種模式稱為“流量變現(xiàn)”,等認(rèn)識(shí)深刻一點(diǎn)以后,發(fā)現(xiàn)其背后真正的邏輯是“數(shù)據(jù)變現(xiàn)”。這種邏輯是早期互聯(lián)網(wǎng)企業(yè)的共同邏輯,因?yàn)榛具壿嬍且粯拥模麄兊陌l(fā)展自然就會(huì)殊途同歸。舉人們熟悉的例子,百度、阿里巴巴、騰訊是我國互聯(lián)網(wǎng)企業(yè)的成功代表,它們起步的時(shí)間差不多,但是聚焦的業(yè)務(wù)差別很大,分別是搜索引擎、電子商務(wù)和即時(shí)通信??墒牵?jīng)過21世紀(jì)初以來的十幾年的發(fā)展,三者業(yè)務(wù)卻不知不覺地變得雷同,競爭也針鋒相對。相信對2015年春節(jié)前后的支付寶和微信紅包的大戰(zhàn)還記憶猶新,原因?yàn)椋褐Ц妒腔ヂ?lián)網(wǎng)的連接功能中最緊密的一種連接,抓住了一個(gè)用戶的支付,就能更緊地把這個(gè)用戶連在自己的平臺(tái)上。對支付的競爭就是新一輪的用戶之爭、人氣之爭。業(yè)務(wù)的雷同,根本原因就是在線虛擬世界的“眼球經(jīng)濟(jì)”本質(zhì)相近,蛋糕有限,把蛋糕做大,從線上走到線下是成功后的BAT的唯一出路,所以就出現(xiàn)了中國互聯(lián)網(wǎng)世界特有的O2O這個(gè)概念。對起步于線上虛擬世界的互聯(lián)網(wǎng)企業(yè)而言,線下的現(xiàn)實(shí)世界就是其大有作為的廣闊天地。在這樣的背景下,騰訊2012年提出的“互聯(lián)網(wǎng)+”在2015年的兩會(huì)上被賦予了更廣泛的含義,成為國家層面的行動(dòng)計(jì)劃。按照以上思路來理解,“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的根本目標(biāo)就是所有行業(yè)包括政府本身,效仿互聯(lián)網(wǎng)企業(yè)的做法(或者說是遵循互聯(lián)網(wǎng)思維),利用大數(shù)據(jù)從提升用戶體驗(yàn)的角度提供產(chǎn)品或服務(wù)。在某種意義上而言,最近提出的供給側(cè)結(jié)構(gòu)性改革也遵循了同樣的思路。

    按照出現(xiàn)或提出的先后順序,從“互聯(lián)網(wǎng)”到“大數(shù)據(jù)”,再到“互聯(lián)網(wǎng)+”和“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”,直到2015年提出的“供給側(cè)結(jié)構(gòu)性改革”,它們都是一脈相承的。供給側(cè)結(jié)構(gòu)性改革更著重的是需求側(cè),想方設(shè)法滿足、釋放、激發(fā)乃至創(chuàng)造需求是其核心?;ヂ?lián)網(wǎng)企業(yè)在這方面做出了很好的榜樣,它們是充分利用了大數(shù)據(jù)才得以做到這一點(diǎn)的。從這個(gè)意義上來說,“大數(shù)據(jù)”成為國家戰(zhàn)略順理成章。

    3 重提數(shù)據(jù)庫理念的原因

    數(shù)據(jù)庫概念的誕生迄今為止已經(jīng)有50多年了,發(fā)生在計(jì)算機(jī)從最初純粹的計(jì)算領(lǐng)域轉(zhuǎn)到商業(yè)應(yīng)用領(lǐng)域的20世紀(jì)60年代。數(shù)據(jù)庫的誕生也是由應(yīng)用來推動(dòng)的,這與當(dāng)前大數(shù)據(jù)概念誕生的情景非常相似。不同點(diǎn)在于數(shù)據(jù)庫技術(shù)和系統(tǒng)成熟以后,出現(xiàn)了Oracle這樣的大型企業(yè),主導(dǎo)了數(shù)據(jù)庫技術(shù)的市場生態(tài)構(gòu)建,也影響著數(shù)據(jù)庫技術(shù)的發(fā)展和進(jìn)步。在大數(shù)據(jù)時(shí)代,代之出現(xiàn)的不再是類似Oracle這樣的企業(yè)和生態(tài),而是Hadoop這樣的開源社區(qū)和生態(tài)。還有一點(diǎn)相同之處,數(shù)據(jù)庫發(fā)展的原點(diǎn)或者說起點(diǎn)是文件系統(tǒng),初學(xué)數(shù)據(jù)庫課程時(shí),第一章的主要內(nèi)容就是比較數(shù)據(jù)庫和文件系統(tǒng)的異同點(diǎn)。作為真正意義上的第一個(gè)大數(shù)據(jù)系統(tǒng),奠定Hadoop基礎(chǔ)的第一篇論文就是2003年發(fā)表的關(guān)于谷歌文件系統(tǒng)(GFS)的文章[6],而后才有2004年為方便非專業(yè)人士編程使用的MapReduce文章發(fā)表[7]。數(shù)據(jù)庫和大數(shù)據(jù)出發(fā)的原點(diǎn)都是文件系統(tǒng),這是一個(gè)重要的認(rèn)識(shí)。認(rèn)識(shí)到這一點(diǎn)的重要意義在于,在探索支持其他業(yè)務(wù)的數(shù)據(jù)管理技術(shù)時(shí),可以參考數(shù)據(jù)庫和當(dāng)前大數(shù)據(jù)的經(jīng)驗(yàn),從原點(diǎn)的文件系統(tǒng)開始,在觀念和實(shí)踐上少走彎路。

    把數(shù)據(jù)庫和大數(shù)據(jù)放在一起來討論,是試圖站在更高的角度來看數(shù)據(jù)庫和大數(shù)據(jù)。以前筆者討論過如何站在數(shù)據(jù)庫角度看大數(shù)據(jù),也討論過如何在大數(shù)據(jù)角度來看數(shù)據(jù)庫。在這里,可以把“大數(shù)據(jù)”狹義地當(dāng)作一個(gè)技術(shù)和系統(tǒng),這樣的話,可以把數(shù)據(jù)庫和大數(shù)據(jù)放在同等的地位來比較和討論。數(shù)據(jù)庫是從文件系統(tǒng)這個(gè)原點(diǎn)出發(fā)的,走過了50多年,形成了數(shù)千億美元的巨大技術(shù)市場。大數(shù)據(jù)也是從文件系統(tǒng)這個(gè)原點(diǎn)出發(fā)的,走過了10多年,形成了當(dāng)前風(fēng)靡一時(shí)的開源生態(tài)系統(tǒng),促成了“萬眾創(chuàng)新”的局面。兩者都是因?yàn)閼?yīng)用的推動(dòng)而誕生,時(shí)下所面對的新型應(yīng)用異彩紛呈,目不暇接。在“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃和“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的號(hào)召下,傳統(tǒng)業(yè)務(wù)模式的再造和創(chuàng)新性業(yè)務(wù)模式的提出都對數(shù)據(jù)管理提出了不同于數(shù)據(jù)庫或大數(shù)據(jù)的需求。也就是說,從原點(diǎn)文件系統(tǒng)出發(fā),未來可以預(yù)期的是針對不同的應(yīng)用,會(huì)有許多類似于RDBMS、Hadoop的系統(tǒng)誕生。從原點(diǎn)出發(fā),360°的每個(gè)方向都可能走出一條路。要想理解怎么才能走出一條路,就應(yīng)該深刻理解為什么數(shù)據(jù)庫能取得如此大的成功。

    3.1 數(shù)據(jù)庫理念

    數(shù)據(jù)庫作為一類重要的系統(tǒng)軟件,在計(jì)算機(jī)系統(tǒng)中具有舉足輕重的作用,數(shù)據(jù)庫也因而發(fā)展成一個(gè)重要的學(xué)科方向。按照國際上通用的學(xué)科分類方法,計(jì)算機(jī)科學(xué)這個(gè)學(xué)科可以進(jìn)一步細(xì)分為4個(gè)分支:人工智能、程序設(shè)計(jì)語言、系統(tǒng)、理論計(jì)算機(jī)科學(xué)。系統(tǒng)包括各類軟硬件系統(tǒng)和應(yīng)用系統(tǒng),是計(jì)算機(jī)學(xué)科的重要部分,體現(xiàn)了這一學(xué)科的重要特點(diǎn)。數(shù)據(jù)庫作為系統(tǒng)分支中的一個(gè)重要方向,歷經(jīng)50多年發(fā)展,學(xué)科內(nèi)涵日趨豐富,其中最核心、最區(qū)別于其他方向的內(nèi)涵稱之為“數(shù)據(jù)庫理念(database philosophy)”,其基本含義就是真正研習(xí)數(shù)據(jù)庫、能理解數(shù)據(jù)庫精髓的人會(huì)不自覺地按照這種理念去思考問題、分析問題和解決問題??梢哉f這是數(shù)據(jù)庫人的一個(gè)基本素質(zhì)、一種習(xí)慣。在筆者看來,數(shù)據(jù)庫理念就是兩個(gè)字——“抽象”。50多年前產(chǎn)生數(shù)據(jù)庫概念和系統(tǒng),就是源自于“抽象”。對數(shù)據(jù)語義(data semantics)的抽象, Codd E F提出了關(guān)系數(shù)據(jù)模型;對業(yè)務(wù)邏輯(business logic)的抽象,Jim Gray完善了事務(wù)處理模型??v觀歷史,數(shù)據(jù)庫就是因?yàn)殛P(guān)系模型、事務(wù)處理,再加上查詢優(yōu)化(系統(tǒng)實(shí)現(xiàn)、索引等)這三大成就,造就了數(shù)據(jù)庫50多年的輝煌和數(shù)千億美元的市場。

    抽象本身就是概括和泛化,就是從具體到一般,抽取出事物的共同點(diǎn)。數(shù)據(jù)庫理念中的抽象可以歸結(jié)成兩個(gè)方面:語義抽象和業(yè)務(wù)抽象。語義抽象本質(zhì)上指語義的抽取。在一般文件系統(tǒng)中的數(shù)據(jù),其語義是完全混在數(shù)據(jù)的表示之中的,擺脫了數(shù)據(jù)的表示無法談數(shù)據(jù)的含義。在關(guān)系數(shù)據(jù)庫中,關(guān)系模型作為一個(gè)建模工具,要求在進(jìn)行數(shù)據(jù)庫設(shè)計(jì)的時(shí)候,把語義從數(shù)據(jù)的表示中完全剝離出來,數(shù)據(jù)的語義完全反映在關(guān)系模式上。用另外一句話來說就是內(nèi)容和結(jié)構(gòu)的分離,這也是所謂結(jié)構(gòu)化數(shù)據(jù)的確切含義。相比之下,在從事多媒體研究的專業(yè)人士眼里,其更多面對的是所謂的非結(jié)構(gòu)化數(shù)據(jù),諸如信息檢索、圖像處理、自然語言處理等,他們能做到的就是特征選擇或特征抽取,特征作為語義,但沒法像數(shù)據(jù)庫那樣完全分離開來。在這個(gè)意義上來說,關(guān)系數(shù)據(jù)庫的語義抽象是一個(gè)極端的例子。在業(yè)務(wù)抽象方面,事務(wù)處理也是一個(gè)極端的例子,在關(guān)系數(shù)據(jù)庫管理系統(tǒng)(relational database management system,RDBMS)早期的發(fā)展中,將記賬、訂票和銀行轉(zhuǎn)賬等業(yè)務(wù)抽象成統(tǒng)一的事務(wù)處理。當(dāng)然,隨著應(yīng)用的推廣,應(yīng)該根據(jù)對業(yè)務(wù)的理解進(jìn)行不同層次的抽象。數(shù)據(jù)庫以后出現(xiàn)的TPMonitor和事務(wù)中間件也是一種抽象,在Hadoop中,MapReduce本質(zhì)上也是一種業(yè)務(wù)抽象。

    3.2 大數(shù)據(jù)語境下的數(shù)據(jù)管理

    抽象是數(shù)據(jù)庫的基本理念,秉承這種理念來看數(shù)據(jù)管理技術(shù)和系統(tǒng)的發(fā)展脈絡(luò),可以站在更高層面理解當(dāng)前的大數(shù)據(jù)熱,也可以展望數(shù)據(jù)管理技術(shù)和系統(tǒng)的發(fā)展趨勢。數(shù)據(jù)庫是數(shù)據(jù)管理的“溫飽”階段,其信守的原則是“one size fits all”,之前的數(shù)據(jù)庫人以及其他領(lǐng)域的人都接受了這個(gè)認(rèn)識(shí)。將數(shù)據(jù)庫看作數(shù)據(jù)管理的“溫飽”階段,就是因?yàn)槿藗冋J(rèn)為所有有關(guān)數(shù)據(jù)管理的事情都要由數(shù)據(jù)庫來解決?!按髷?shù)據(jù)”概念的誕生,標(biāo)志著數(shù)據(jù)管理進(jìn)入“時(shí)尚”階段,人們?yōu)榱私鉀Q數(shù)據(jù)管理問題不再求助于數(shù)據(jù)庫系統(tǒng),開始研發(fā)適合自己的系統(tǒng)。如果說在數(shù)據(jù)庫時(shí)期,解決數(shù)據(jù)管理問題需要“削足適履”來使用數(shù)據(jù)庫系統(tǒng),那么到了大數(shù)據(jù)時(shí)代,人們開始根據(jù)每個(gè)不同的應(yīng)用度身定制自己的系統(tǒng),也就是“量足制鞋”。隨著Hadoop大數(shù)據(jù)系統(tǒng)的成功,數(shù)據(jù)庫人開始意識(shí)到“one size doesn’t fit all”。

    在經(jīng)歷短暫的迷茫和苦悶之后,數(shù)據(jù)庫界很快提出了“one size fits a bunch”的獨(dú)到見解。這一見解充分體現(xiàn)了數(shù)據(jù)庫理念。度身定制一個(gè)系統(tǒng)是谷歌公司以Jeff Dean為首的技術(shù)人員為解決快速準(zhǔn)確搜索問題而進(jìn)行的,他們的文章[6,7]發(fā)表以后,Hadoop卻出乎意料地出現(xiàn)、開源了,并且很快得到廣泛的關(guān)注,人們開始改進(jìn)和完善Hadoop,用它來解決更多其他的應(yīng)用問題。這實(shí)際上就是走了“one size fits a bunch”的道路。為了能適用一捆(a bunch)應(yīng)用,就要對應(yīng)用進(jìn)行抽象。基本的發(fā)展路徑為:最初的系統(tǒng)是因?yàn)橐獫M足具體的應(yīng)用而設(shè)計(jì)研發(fā)的,成功應(yīng)用以后可以看其他相似的應(yīng)用是否可以使用這個(gè)系統(tǒng)。隨著開源或更多人的加入,根據(jù)對相似應(yīng)用的抽象,進(jìn)一步改進(jìn)和完善系統(tǒng),這個(gè)過程是一個(gè)迭代的過程,也是一個(gè)從具體到一般的抽象過程。對于系統(tǒng)研發(fā)人員,不是數(shù)據(jù)庫時(shí)代那樣追求“one size fits all”。對于應(yīng)用開發(fā)人員,在具體應(yīng)用開發(fā)時(shí)也不需要“削足適履”,而是在開源社區(qū)里尋找合適的開源軟件作為支撐系統(tǒng)的基礎(chǔ)。

    人們在談到大數(shù)據(jù)時(shí)往往是在談數(shù)據(jù)分析,是在討論如何靠數(shù)據(jù)分析來分析用戶行為,改善用戶體驗(yàn),也就是如何利用大數(shù)據(jù)做精準(zhǔn)營銷和風(fēng)險(xiǎn)控制。這一類的數(shù)據(jù)分析不追求百分之百的精確,往往是以排序或概率的形式呈現(xiàn)結(jié)果。當(dāng)?shù)谝慌晒Φ幕ヂ?lián)網(wǎng)公司經(jīng)過十幾年的發(fā)展,逐漸走向同質(zhì)化、形成直接競爭的時(shí)候,其共同做法就是把“蛋糕”做大,從線上走到線下。與此同時(shí),在“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的號(hào)召下,越來越多的傳統(tǒng)業(yè)務(wù)會(huì)接受互聯(lián)網(wǎng)和大數(shù)據(jù)思維,立足提升用戶體驗(yàn),創(chuàng)新業(yè)務(wù)模式,從線下走到線上,稱之為反向的O2O。這兩種O2O基本構(gòu)成了“互聯(lián)網(wǎng)+”的具體實(shí)踐局面,其共同之處就是把傳統(tǒng)的線下現(xiàn)實(shí)世界中涉及人、財(cái)、物交易的情形移到互聯(lián)網(wǎng)上來實(shí)施。與典型的分析型的大數(shù)據(jù)應(yīng)用不一樣,財(cái)物的交易要做到絕對精確,要有類似數(shù)據(jù)庫系統(tǒng)那樣的恢復(fù)和容錯(cuò)機(jī)制,這就是互聯(lián)網(wǎng)級(jí)的任務(wù)關(guān)鍵型(mission-critical)應(yīng)用,或是說,面向互聯(lián)網(wǎng)級(jí)應(yīng)用的事務(wù)處理系統(tǒng)。舉例來說,在競爭日趨激烈的形勢下,金融、電信等服務(wù)行業(yè)都樂于采用類似“秒殺”這樣的互聯(lián)網(wǎng)化的促銷手段?!懊霘ⅰ敝傅氖窃谔囟〞r(shí)刻推出一定量的優(yōu)惠產(chǎn)品,通過媒體和廣告宣傳,吸引大量潛在客戶進(jìn)行搶購,從而在促銷的同時(shí)達(dá)到宣傳作用,進(jìn)而帶動(dòng)其他產(chǎn)品銷售。對于IT支撐系統(tǒng)的開發(fā)和運(yùn)維人員而言,“搶票”“秒殺”等銷售行為,由于其接入用戶量巨大,為后端的票務(wù)管理、訂單管理、物流以及支付等核心信息系統(tǒng)造成了短時(shí)超高負(fù)載。從用戶規(guī)模看,這樣的應(yīng)用是“互聯(lián)網(wǎng)級(jí)”的;從應(yīng)用特征看,它們是核心或關(guān)鍵任務(wù)應(yīng)用;從負(fù)載特征看,它們面臨的是“現(xiàn)象級(jí)(phenomenal)”的負(fù)載。這一類系統(tǒng)在我國有很大的發(fā)展空間,阿里巴巴陽振坤博士領(lǐng)導(dǎo)開發(fā)OceanBase系統(tǒng)的初衷就是為了支撐“雙十一”購物節(jié)超高頻度的交易和支付。

    在工業(yè)和信息化部、中國工業(yè)經(jīng)濟(jì)聯(lián)合會(huì)最近聯(lián)合通告的第三批制造業(yè)單項(xiàng)冠軍企業(yè)和單項(xiàng)冠軍產(chǎn)品名單上,上海市化工行業(yè)協(xié)會(huì)理事單位,浙江大華技術(shù)股份有限公司排名單項(xiàng)冠軍示范企業(yè)第18位;副會(huì)長單位,上海百金化工集團(tuán)生產(chǎn)的名牌產(chǎn)品“二硫化碳”排名單項(xiàng)冠軍產(chǎn)品第10位。

    我國的信息化程度和水平相比西方發(fā)達(dá)國家要落后一些,互聯(lián)網(wǎng)的普及使得我國有絕佳的機(jī)遇在信息化推進(jìn)方面實(shí)行跨越式發(fā)展,甚至實(shí)現(xiàn)超越。我國的人口基數(shù)以及近年來網(wǎng)民數(shù)量的劇增、新型信息服務(wù)的快速發(fā)展,對支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的系統(tǒng)的需求越來越迫切?!按怪被笔沁@些應(yīng)用的一個(gè)重要特征,即事務(wù)處理、分析處理一體化,與應(yīng)用邏輯形成閉環(huán),如圖3所示。對于金融欺詐檢測、實(shí)時(shí)信用報(bào)告查詢、電信故障報(bào)警等應(yīng)用而言,傳統(tǒng)的從事務(wù)系統(tǒng)向分析系統(tǒng)的批量導(dǎo)入、閑時(shí)導(dǎo)入方式不能滿足應(yīng)用的實(shí)時(shí)和高一致性需求。而這兩點(diǎn)正是事務(wù)處理的關(guān)鍵。因此,實(shí)時(shí)數(shù)據(jù)注入也是互聯(lián)網(wǎng)級(jí)應(yīng)用的重要需求。

    圖3 支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的數(shù)據(jù)系統(tǒng)

    3.3 關(guān)于開源軟件的聯(lián)想

    上文討論了支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的數(shù)據(jù)系統(tǒng),幾年前谷歌公司就發(fā)布了有關(guān)F1和Spanner系統(tǒng)的消息,但是都很簡單,難以窺其全貌。雖然其系統(tǒng)是與在線廣告有關(guān)的,但是由于涉及數(shù)據(jù)一致性和事務(wù)處理,對于支撐任務(wù)關(guān)鍵型應(yīng)用還是很有價(jià)值的。筆者最近得知,谷歌作為一個(gè)搜索引擎互聯(lián)網(wǎng)公司已經(jīng)開始招收大批傳統(tǒng)的數(shù)據(jù)庫學(xué)者和專家加盟,說明事務(wù)處理等傳統(tǒng)數(shù)據(jù)庫概念和技術(shù)在互聯(lián)網(wǎng)環(huán)境下重新引起了關(guān)注?,F(xiàn)實(shí)世界的應(yīng)用需要數(shù)據(jù)庫,虛擬世界的應(yīng)用又在以極快的速度和現(xiàn)實(shí)世界接軌融合,在新的應(yīng)用環(huán)境中,數(shù)據(jù)庫也同樣被需要。隨著我國“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的推進(jìn),對這類系統(tǒng)的需求也就越來越迫切。

    在開源社區(qū)里,類似Hadoop和Spark的分析軟件琳瑯滿目,國內(nèi)的同行也使用得得心應(yīng)手。但如果沒有開源軟件,國內(nèi)專家是否有勇氣做自己的開源系統(tǒng),營造出一個(gè)良好的開源文化和生態(tài),這個(gè)問題至關(guān)重要。開源是新一輪IT創(chuàng)新最大的特點(diǎn),也是我國IT界難得的機(jī)遇。如果沒有在開源文化和開源生態(tài)方面有所進(jìn)步,注定會(huì)錯(cuò)過這一輪的發(fā)展機(jī)遇。雖然“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”提供了良好的輿論和政策環(huán)境,但真正理解并且付諸實(shí)踐則完全是另一回事。由此筆者聯(lián)想到“小偷和強(qiáng)盜”的場景。

    “小偷和強(qiáng)盜”場景是這樣的。20世紀(jì)90年代,中美兩國圍繞加入WTO展開了多次知識(shí)產(chǎn)權(quán)談判,軟件盜版和專利保護(hù)成為爭執(zhí)的焦點(diǎn),我國的貿(mào)易談判代表處于被動(dòng)局面,被推到風(fēng)口浪尖。1991年11月21日,時(shí)任副總理的吳儀前往華盛頓與美國代表團(tuán)展開新一輪談判,尚未落座,就遇到了美國貿(mào)易副代表沃夫的挑釁,沃夫說,中國人盜版,是小偷,他這次是要來和小偷談判的。吳儀副總理在沃夫話音未落之時(shí)就回敬,“我們也曾經(jīng)遇到過強(qiáng)盜,我們是來和強(qiáng)盜談判的”。

    4 筆者的認(rèn)識(shí)和實(shí)踐

    與以往不同,最近這十幾年信息技術(shù)的發(fā)展都是圍繞數(shù)據(jù)展開的,這在以前是很難想象的。以前的進(jìn)步大多是以硬件的速度提升或體系結(jié)構(gòu)的創(chuàng)新為標(biāo)志,沒有更多地關(guān)注應(yīng)用,沒有把滿足用戶的需求作為根本動(dòng)力。這也許昭示了信息技術(shù)發(fā)展范型的轉(zhuǎn)變。本節(jié)將討論對IT發(fā)展范型轉(zhuǎn)變的認(rèn)識(shí),秉承上文提到的數(shù)據(jù)庫理念,結(jié)合當(dāng)前的區(qū)塊鏈技術(shù)熱點(diǎn),介紹筆者的一些認(rèn)識(shí)和系統(tǒng)研發(fā)實(shí)踐。

    4.1 IT發(fā)展范型的轉(zhuǎn)變

    傳統(tǒng)的IT企業(yè)分成3類:硬件制造商、軟件生產(chǎn)商和系統(tǒng)集成商。產(chǎn)業(yè)互動(dòng)的基本模式就是系統(tǒng)集成商作為乙方為應(yīng)用單位(甲方)提供解決方案和采購清單,甲方按照乙方的要求購買硬件和軟件產(chǎn)品,乙方按照軟件工程的瀑布模型根據(jù)時(shí)間節(jié)點(diǎn)要求為甲方開發(fā)應(yīng)用系統(tǒng)。乙方作為解決方案提供商,實(shí)質(zhì)上就是把甲方購買的系統(tǒng)集成起來,用以滿足甲方提出的信息化需求。這是人們熟悉的模式,也是專業(yè)人士一直習(xí)慣的模式。這種甲方乙方的方式有很多弊端,包括建設(shè)周期長、成本高,且這種模式只是甲方乙方的一種博弈,系統(tǒng)建設(shè)的真正目的和系統(tǒng)的最終用戶沒有被重視。

    互聯(lián)網(wǎng)時(shí)代,很少會(huì)有互聯(lián)網(wǎng)企業(yè)按照這種甲方乙方的模式開發(fā)它們的信息系統(tǒng)。首先,要清楚一點(diǎn),互聯(lián)網(wǎng)企業(yè)不是IT企業(yè),它只是一般的信息服務(wù)企業(yè),因?yàn)樗炔簧a(chǎn)和銷售硬件軟件產(chǎn)品,也不提供信息系統(tǒng)解決方案??墒牵藗冇袝r(shí)候會(huì)很自然地把它們歸入IT企業(yè),那是因?yàn)镮T對于互聯(lián)網(wǎng)企業(yè)極為重要,表面上給人以IT企業(yè)的感覺,IT能力是互聯(lián)網(wǎng)企業(yè)的核心競爭力?;ヂ?lián)網(wǎng)企業(yè)的興起將IT發(fā)展范型帶入了一個(gè)新的階段?,F(xiàn)在實(shí)行的IT發(fā)展范型是:應(yīng)用驅(qū)動(dòng)、度身定制、融會(huì)貫通、開源系統(tǒng)。這種范型帶來了深刻的變化,包括技術(shù)路徑和行業(yè)理念方面的變化。伴隨著互聯(lián)網(wǎng)企業(yè)的興起,人們也充分認(rèn)識(shí)到,這十幾年以來,作為非IT企業(yè)的互聯(lián)網(wǎng)企業(yè)推動(dòng)了IT的發(fā)展,而不是像以往那樣由IT企業(yè)提出概念,推出產(chǎn)品,進(jìn)而推動(dòng)技術(shù)和應(yīng)用進(jìn)步。云計(jì)算和大數(shù)據(jù)無疑是近十幾年以來IT領(lǐng)域最重要的概念,這兩個(gè)概念都不是IT企業(yè)推出和推動(dòng)的,反而是亞馬遜公司和谷歌公司來主導(dǎo)或推動(dòng)的,這體現(xiàn)了IT領(lǐng)域應(yīng)用驅(qū)動(dòng)創(chuàng)新的事實(shí)。

    應(yīng)用驅(qū)動(dòng)創(chuàng)新是IT創(chuàng)新的基本特征,這種驅(qū)動(dòng)不是單向的。業(yè)務(wù)和技術(shù)的進(jìn)步是相輔相成、互相促進(jìn)的關(guān)系。以神州專車為例,從傳統(tǒng)的意義上來說,神州專車的信息平臺(tái)是一個(gè)管理信息系統(tǒng),是為司機(jī)和乘客服務(wù)的。實(shí)際上,這也沿襲了管理信息系統(tǒng)的理念,后臺(tái)被稱為客服,司機(jī)使用的稱為4G端,乘客使用的為應(yīng)用。從互聯(lián)網(wǎng)的角度來看,這個(gè)平臺(tái)支撐的是一個(gè)典型的互聯(lián)網(wǎng)應(yīng)用,利用各種優(yōu)惠吸引用戶下載應(yīng)用,利用移動(dòng)互聯(lián)網(wǎng)和位置信息進(jìn)行服務(wù)預(yù)訂和自動(dòng)派單,利用大數(shù)據(jù)分析設(shè)計(jì)各種激勵(lì)機(jī)制,調(diào)動(dòng)司機(jī)積極性和提升用戶體驗(yàn)。調(diào)研發(fā)現(xiàn),平臺(tái)系統(tǒng)升級(jí)頻繁,體現(xiàn)了“按需服務(wù)”的思想。在這樣的平臺(tái)上,司機(jī)、乘客和管理團(tuán)隊(duì)都成為促進(jìn)系統(tǒng)完善的動(dòng)力。業(yè)務(wù)的發(fā)展和技術(shù)的進(jìn)步互相促進(jìn),形成迭代,也就形成一個(gè)創(chuàng)新的正向循環(huán)。從技術(shù)創(chuàng)新來看,開源的技術(shù)生態(tài)的建設(shè)客觀上為萬眾創(chuàng)新提供了基礎(chǔ),IT的創(chuàng)新由以前IT壟斷企業(yè)主導(dǎo)的模式變成了由現(xiàn)實(shí)應(yīng)用開發(fā)人員來推動(dòng)。其中的根本原因是,互聯(lián)網(wǎng)企業(yè)取得的極大成功,特別是其在IT領(lǐng)域的創(chuàng)新和開源,打破了長期以來形成的壟斷和迷信。這告訴人們應(yīng)該去崇尚創(chuàng)新能力,而非基于已有的IT產(chǎn)品做簡單的拼接和集成,應(yīng)該立足現(xiàn)實(shí)應(yīng)用,勇于根據(jù)需求度身定制,實(shí)現(xiàn)自己的系統(tǒng)。

    4.2 分享型數(shù)據(jù)庫

    在大數(shù)據(jù)戰(zhàn)略和“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的推動(dòng)過程中,共享經(jīng)濟(jì)或分享經(jīng)濟(jì)(sharing economy)又成為一個(gè)熱門話題。為分享經(jīng)濟(jì)業(yè)務(wù)模式提供運(yùn)營支撐的信息技術(shù)自然是一個(gè)值得關(guān)注的問題。前文也提到過,數(shù)據(jù)庫理念的核心就是抽象。如果能針對分享經(jīng)濟(jì)的各種模式抽象出共性的有關(guān)數(shù)據(jù)的概念和技術(shù),是否就可以有一個(gè)被稱為“分享型數(shù)據(jù)庫(sharing database)”的概念,這也是在這里想闡釋的。

    互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展軌跡可以分成3個(gè)階段:粉絲經(jīng)濟(jì)、智慧經(jīng)濟(jì)、分享經(jīng)濟(jì)。粉絲經(jīng)濟(jì)階段就是前面說的眼球經(jīng)濟(jì)階段,主要做法就是流量變現(xiàn),主要手段就是在線廣告和服務(wù)或產(chǎn)品推薦。智慧經(jīng)濟(jì)階段,實(shí)際上就是大數(shù)據(jù)階段,利用大數(shù)據(jù)分析做精準(zhǔn)營銷和互聯(lián)網(wǎng)金融,智慧就體現(xiàn)在對數(shù)據(jù)的駕馭上。當(dāng)前我國的互聯(lián)網(wǎng)經(jīng)濟(jì)處于分享經(jīng)濟(jì)的預(yù)備階段。2015年以來,分享經(jīng)濟(jì)成為政府、企業(yè)和學(xué)者關(guān)心的重點(diǎn)問題之一。這也很容易理解,分享經(jīng)濟(jì)的一個(gè)核心思想是盤活資源存量,在不增加資源消耗的前提下提高使用率和有效性,符合生態(tài)文明建設(shè)的宗旨。政府一直以來孜孜以求的簡政放權(quán)也和分享經(jīng)濟(jì)倡導(dǎo)和依賴的“去中心”“去中介”思路如出一轍。從這兩年我國關(guān)于網(wǎng)約車的行政規(guī)定和政策出臺(tái)的過程,能切身體會(huì)分享經(jīng)濟(jì)的強(qiáng)勢啟動(dòng)。國際上,優(yōu)步(Uber)、空中食宿(Airbnb)等分享經(jīng)濟(jì)模式也進(jìn)入一個(gè)爆發(fā)發(fā)展的時(shí)期,為人們觀念的更新和我國的相關(guān)行業(yè)發(fā)展提供了有價(jià)值的參考。

    時(shí)下來談?wù)摲窒斫?jīng)濟(jì),區(qū)塊鏈(blockchain)與比特幣(BitCoin)也是繞不開的話題。區(qū)塊鏈就是一個(gè)分布式賬本,本質(zhì)上是一個(gè)去中心化的P2P分布式數(shù)據(jù)庫。近來,比特幣因?yàn)槠涞讓拥膮^(qū)塊鏈技術(shù)再度成為熱點(diǎn),只是人們這次關(guān)心的焦點(diǎn)落在底層的技術(shù)上。區(qū)塊鏈這個(gè)P2P分布式數(shù)據(jù)庫,就像傳統(tǒng)意義上的記載所有交易記錄的賬本,因?yàn)槠淙ブ行幕?、無界性、頑健性、無需信任、低成本等特點(diǎn),迎合了當(dāng)前分享經(jīng)濟(jì)的潮流,成為后互聯(lián)網(wǎng)時(shí)代受到追捧的技術(shù)和理念。

    眾所周知,數(shù)字化、城市化和全球化是當(dāng)今世界的三大趨勢,它們相互影響,相互增強(qiáng),正在重塑世界,其中數(shù)字化最具顛覆性。數(shù)字化可以徹底改變傳統(tǒng)行業(yè)的業(yè)務(wù)模式,在中國,以BAT為代表的互聯(lián)網(wǎng)企業(yè)已經(jīng)扮演這樣的角色。在數(shù)字化進(jìn)程中,區(qū)塊鏈可能會(huì)是下一個(gè)如此角色的扮演者。它不僅僅會(huì)影響金融服務(wù),還會(huì)影響物聯(lián)網(wǎng)和分享經(jīng)濟(jì)的發(fā)展。區(qū)塊鏈技術(shù)讓人們可以交換類似于比特幣、股權(quán)憑證、合約、證券等虛擬貨幣,也能為Uber、Airbnb等分享經(jīng)濟(jì)業(yè)務(wù)模式提供更好的支持。從這個(gè)意義上來說,區(qū)塊鏈?zhǔn)侨轿坏?,幾乎和互?lián)網(wǎng)一樣重要,可以為我國的“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃和“供給側(cè)改革”提供理念和技術(shù)支持。

    互聯(lián)網(wǎng)帶來的變化業(yè)已顯現(xiàn)?;ヂ?lián)網(wǎng)改變了人們生產(chǎn)生活的方方面面,更重要的是帶來了人們觀念上的深刻改變,中國大地上如火如荼的“互聯(lián)網(wǎng)+”和“分享經(jīng)濟(jì)”就是這種觀念變化的具體體現(xiàn)。在分享經(jīng)濟(jì)時(shí)代,因?yàn)樯婕柏?cái)物,與傳統(tǒng)的搜索和推薦等互聯(lián)網(wǎng)信息服務(wù)相比,新的應(yīng)用更像任務(wù)關(guān)鍵型應(yīng)用,所以底層需要類似數(shù)據(jù)庫那樣的基礎(chǔ)支撐系統(tǒng)。實(shí)際上,金融應(yīng)用正是50多年前催生數(shù)據(jù)庫系統(tǒng)的重要驅(qū)動(dòng)力。在新的應(yīng)用和技術(shù)語境下,“分享型數(shù)據(jù)庫”也許是一個(gè)值得考慮的概念。一是,它要支持關(guān)鍵任務(wù)應(yīng)用,必須具備頑健性和一致性;二是,它主要用來支持分享經(jīng)濟(jì)業(yè)務(wù)模式的實(shí)現(xiàn);三是,它本身也是通過分享經(jīng)濟(jì)的方式予以實(shí)現(xiàn)。當(dāng)然,還可以通過對區(qū)塊鏈及其代表的技術(shù)和理念的深入理解和實(shí)踐,賦予“分享數(shù)據(jù)庫”更豐富和具體的內(nèi)涵。眾所周知,數(shù)據(jù)庫理念就是抽象。如果把比特幣看成區(qū)塊鏈技術(shù)的一個(gè)應(yīng)用案例,區(qū)塊鏈就可以看作一種共性的技術(shù),是一種抽象。如果再把區(qū)塊鏈當(dāng)成一個(gè)具體案例,那么背后共性或是抽象的概念,就可以稱之為分享型數(shù)據(jù)庫。

    4.3 大數(shù)據(jù)實(shí)時(shí)注入和分析系統(tǒng):Ginkgo

    數(shù)據(jù)處理的時(shí)效性直接影響了數(shù)據(jù)處理的價(jià)值,隨著數(shù)據(jù)集規(guī)模的不斷增大,數(shù)據(jù)處理的時(shí)間也在不斷增長。針對大數(shù)據(jù)集,如何有效縮短數(shù)據(jù)處理的時(shí)延是一個(gè)挑戰(zhàn)性的問題,同時(shí)也有來自應(yīng)用系統(tǒng)的實(shí)際需求。開源大數(shù)據(jù)分析系統(tǒng)Gingko與既有系統(tǒng)相比,具有實(shí)時(shí)注入和實(shí)時(shí)查詢的特點(diǎn),可大幅減少數(shù)據(jù)處理的周期,提高數(shù)據(jù)處理的響應(yīng)速度,進(jìn)而有效提升面向大數(shù)據(jù)處理的實(shí)際價(jià)值。Ginkgo的系統(tǒng)架構(gòu)如圖4所示。

    Ginkgo采用內(nèi)存計(jì)算架構(gòu),充分利用高速訪問內(nèi)存的特性,同時(shí)在數(shù)據(jù)處理邏輯的多個(gè)層面上通過并行化提高響應(yīng)速度:充分利用分區(qū)并行、流水線并行、操作內(nèi)并行和獨(dú)立并行,高并發(fā)執(zhí)行任務(wù);利用LLVM技術(shù)編譯代碼,提高操作運(yùn)行效率;采用彈性流水線技術(shù),可以根據(jù)負(fù)載和資源,動(dòng)態(tài)伸縮并行度,充分利用資源提高運(yùn)行效率;運(yùn)行時(shí)任務(wù)調(diào)度模塊能夠感知系統(tǒng)負(fù)載,調(diào)度合適的任務(wù),高效地實(shí)現(xiàn)任務(wù)之間的獨(dú)立并行。

    Ginkgo具備實(shí)時(shí)查詢處理功能的同時(shí),還支持?jǐn)?shù)據(jù)源新數(shù)據(jù)的實(shí)時(shí)注入。區(qū)別于數(shù)據(jù)流系統(tǒng),Ginkgo不僅支持對數(shù)據(jù)的在線處理,而且可將這些數(shù)據(jù)持久化存儲(chǔ)。實(shí)時(shí)注入基于事務(wù)處理控制方式,設(shè)計(jì)并實(shí)現(xiàn)以下一系列功能:針對實(shí)時(shí)數(shù)據(jù)注入對應(yīng)的追加型事務(wù),采用面向元數(shù)據(jù)的集中式事務(wù)處理策略,實(shí)現(xiàn)事務(wù)型數(shù)據(jù)注入;非阻塞分布式數(shù)據(jù)注入框架,將傳統(tǒng)的集中式單機(jī)數(shù)據(jù)注入轉(zhuǎn)變?yōu)榉植际綌?shù)據(jù)注入,充分利用分布式系統(tǒng)的特點(diǎn),避免單機(jī)的單點(diǎn)故障和性能瓶頸;數(shù)據(jù)注入過程中實(shí)現(xiàn)了讀寫分離和寫寫分離,有效提高并行處理效率。

    4.4 面向關(guān)鍵任務(wù)應(yīng)用的可伸縮事務(wù)處理系統(tǒng):Cedar

    隨著“互聯(lián)網(wǎng)+”的發(fā)展和普及,在互聯(lián)網(wǎng)企業(yè)向零售、訂票、電信、交通運(yùn)輸物流、金融等傳統(tǒng)領(lǐng)域延伸的同時(shí),傳統(tǒng)領(lǐng)域也藉由互聯(lián)網(wǎng)實(shí)現(xiàn)反向O2O(線下到線上)。金融、電信等行業(yè)大量采用互聯(lián)網(wǎng)化的促銷手段,例如“搶票”和“秒殺”。近年的發(fā)展表明這種現(xiàn)象將越來越普遍。隨之而來的問題是,一方面現(xiàn)有系統(tǒng)升級(jí)的“向上擴(kuò)展(scaling up)”方式由于升級(jí)代價(jià)巨大、只升不降的特點(diǎn),不適合這些應(yīng)用;另一方面,原有數(shù)據(jù)管理系統(tǒng)和事務(wù)處理系統(tǒng)的架構(gòu)和實(shí)現(xiàn)技術(shù)并未能夠充分利用多核CPU、大容量內(nèi)存、固態(tài)存儲(chǔ)、新型存儲(chǔ)介質(zhì)、高速網(wǎng)絡(luò)等硬件以及發(fā)展迅速的集群構(gòu)建技術(shù),無法有力支撐應(yīng)用的新需要。筆者自2013年開始面向金融、電信、零售和服務(wù)等行業(yè)的關(guān)鍵任務(wù)應(yīng)用需要,研究支持可擴(kuò)展事務(wù)處理的數(shù)據(jù)庫系統(tǒng)架構(gòu)與實(shí)現(xiàn)方法,在開源OceanBase 0.4.2的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了支持高通量、高性能、可擴(kuò)展事務(wù)處理的開源系統(tǒng)Cedar,其版本演化如圖5所示,并在金融、零售服務(wù)、教育領(lǐng)域的多個(gè)系統(tǒng)中進(jìn)行了應(yīng)用驗(yàn)證。Cedar的系統(tǒng)架構(gòu)如圖6所示。

    4.5 基于設(shè)計(jì)思維的企業(yè)社交網(wǎng)絡(luò)服務(wù):Talent Network

    隨著互聯(lián)網(wǎng)服務(wù)日益豐富,傳統(tǒng)IT企業(yè)面臨著技術(shù)提升、管理變革、服務(wù)轉(zhuǎn)型等一系列的新挑戰(zhàn)。如何提升員工能力、整合團(tuán)隊(duì),不僅是人力資源管理的問題,也對大型企業(yè)IT部門的技術(shù)支持部門提出了新挑戰(zhàn)。自2015年6月起,華東師范大學(xué)的研究團(tuán)隊(duì)與Infosys研究院一起,基于企業(yè)海量的內(nèi)部項(xiàng)目技術(shù)文檔、員工檔案、會(huì)議和消息通信等管理記錄,構(gòu)建了一個(gè)新型的企業(yè)社交網(wǎng)絡(luò)服務(wù)—— Talent Network。這一系統(tǒng)不僅服務(wù)企業(yè)超過16萬名員工,提供傳統(tǒng)的用戶檔案瀏覽、社交關(guān)系構(gòu)建、消息通信等社交網(wǎng)絡(luò)服務(wù),還為每一個(gè)用戶提供技術(shù)專家查找和引見、社交路徑推薦等功能,為企業(yè)管理人員提供了團(tuán)隊(duì)建設(shè)建議、團(tuán)隊(duì)分析等功能。作為一個(gè)新型企業(yè)內(nèi)部服務(wù)系統(tǒng),Talent Network從企業(yè)轉(zhuǎn)型的切身需要出發(fā),從用戶角度進(jìn)行設(shè)計(jì),通過簡潔精美的界面,隱藏復(fù)雜的算法和分析模型,實(shí)現(xiàn)了技術(shù)研發(fā)與企業(yè)應(yīng)用的完美結(jié)合。

    圖5 Cedar的版本演化

    圖6 可伸縮事務(wù)處理系統(tǒng)Cedar系統(tǒng)架構(gòu)

    5 結(jié)束語

    大數(shù)據(jù)依然很熱,但大數(shù)據(jù)與應(yīng)用密切相關(guān),本文分析了產(chǎn)生“大數(shù)據(jù)”的歷史和現(xiàn)實(shí)背景,說明了大數(shù)據(jù)之所以成為國家戰(zhàn)略的原因?;仡檾?shù)據(jù)庫的發(fā)展歷史,提出了對數(shù)據(jù)庫理念的認(rèn)識(shí),討論了數(shù)據(jù)庫的輝煌成就在大數(shù)據(jù)時(shí)代帶給人們的啟示?;ヂ?lián)網(wǎng)的發(fā)展改變了信息技術(shù)的發(fā)展范型?!皯?yīng)用驅(qū)動(dòng)創(chuàng)新”成為IT領(lǐng)域創(chuàng)新的重要特點(diǎn)。當(dāng)前形勢下,走創(chuàng)新之路就要立足現(xiàn)實(shí)應(yīng)用中的問題,解放思想,破除迷信,融入開源社區(qū),采用開放結(jié)構(gòu),應(yīng)用和技術(shù)協(xié)同發(fā)展。

    [1]李戰(zhàn)懷, 王國仁, 周傲英. 從數(shù)據(jù)庫視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢[J]. 計(jì)算機(jī)工程與科學(xué), 2013, 35(10): 1-11.

    LI Z H, WANG G R, ZHOU A Y. Research progress and trends of big data from a database perspective[J]. Computer Engineering & Science, 2013, 35(10):1-11.

    [2]STONEBRAKER M, CETINTEMEL U. One size fits all: 10 years later[C]// 31st IEEE International Conference on Data Engineering, April 13-17, 2015, Seoul, Korea. [S.l.:s.n.], 2015.

    [3]周傲英, 錢衛(wèi)寧, 王長波. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科[J]. 大數(shù)據(jù), 2015022.

    ZHOU A Y, QIAN W N, WANG C B. Data sciences and engineering: an emerging interdisciplinary in the big data era[J]. Big Data Research, 2015022.

    [4]美國國家學(xué)術(shù)院國家研究委員會(huì). 海量數(shù)據(jù)分析前沿[M]. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 譯. 北京: 清華大學(xué)出版社, 2015.

    National Research Council of the National Academies. Frontiers in massive data analysis[M]. Translated by Data Science and Engineering Research Institute of East China Normal University. Beijing:Tsinghua University Press, 2015.

    [5]GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system[C]//The ACM Symposiumon Operating Systems Principles (SOSP), October 19-22, 2003, Lake George, NY, USA. New York: ACM Press, 2003: 29-43.

    [6]DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[C]// The 6th Symposium on Operating System Desig n a nd Implementation, December 6-8, 2004, San Francisco, USA. New York: ACM Press, 2004: 137-150.

    [7]HEY T, TANSLEY S, TOLLE K M. The fourth paradigm: data-intensive scientific discovery[J]. Proceedings of the IEEE, 2009, 99(8): 1334-1337.

    Understanding on the big data: beyond the data management and analytics

    ZHOU Aoying
    School of Data Science and Engineering, East China Normal University, Shanghai 200062, China

    Big data is still a buzzword, and more and more people are talking about it with various kinds of different explanations. Based on writer’s understanding, the big data, big data strategy and “internet plus” initiative will be discussed here. The database philosophy was revisited, for understanding the development of data management is meaningful to catch the good opportunities in big data era. Moreover, from the point of view of a senior IT professional, the development paradigm for IT has been shifted in the past decade. The change was described, and three systems and their development and deployment were presented. A new concept, sharing database, was proposed to catch up the notion behind the block chain.

    big data, database philosophy, internet plus, sharing database

    TP399

    A

    10.11959/j.issn.2096-0271.2017014

    周傲英(1965-),男,華東師范大學(xué)副校長、數(shù)據(jù)科學(xué)與工程學(xué)院院長,主要研究方向?yàn)閃eb數(shù)據(jù)管理、數(shù)據(jù)密集型計(jì)算、內(nèi)存集群計(jì)算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測試和性能優(yōu)化。曾獲得國家杰出青年基金,入選長江學(xué)者計(jì)劃特聘教授。目前擔(dān)任第七屆國務(wù)院學(xué)科評(píng)議組成員、中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專業(yè)委員會(huì)副主任、《計(jì)算機(jī)學(xué)報(bào)》副主編;曾任ER’2004大會(huì)主席,ICDE’2009、ICDE’2012 PC副主席,VLDB’2014 PC共同主席。

    2016-08-22

    猜你喜歡
    數(shù)據(jù)庫系統(tǒng)
    Smartflower POP 一體式光伏系統(tǒng)
    WJ-700無人機(jī)系統(tǒng)
    ZC系列無人機(jī)遙感系統(tǒng)
    北京測繪(2020年12期)2020-12-29 01:33:58
    基于PowerPC+FPGA顯示系統(tǒng)
    半沸制皂系統(tǒng)(下)
    連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    宽甸| 湖州市| 淅川县| 托里县| 牙克石市| 澎湖县| 浏阳市| 灵丘县| 北碚区| 教育| 凉山| 微山县| 龙泉市| 巴马| 黄梅县| 镇远县| 龙海市| 得荣县| 独山县| 班戈县| 凉山| 仪征市| 丽江市| 潢川县| 连州市| 敖汉旗| 霸州市| 横峰县| 壤塘县| 鹤峰县| 探索| 洮南市| 东阿县| 沈阳市| 嘉定区| 海阳市| 郴州市| 津南区| 青龙| 澄城县| 札达县|