• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)的孤島危機與開放之道

      2016-03-29 01:29:10演講嘉賓北京大學(xué)軟件所副所長北京因特睿軟件有限公司首席科學(xué)家黃罡
      軟件和集成電路 2016年1期
      關(guān)鍵詞:爬蟲孤島數(shù)據(jù)庫

      演講嘉賓: 北京大學(xué)軟件所副所長、北京因特睿軟件有限公司首席科學(xué)家 黃罡

      ?

      大數(shù)據(jù)的孤島危機與開放之道

      演講嘉賓: 北京大學(xué)軟件所副所長、北京因特睿軟件有限公司首席科學(xué)家 黃罡

      “互聯(lián)網(wǎng)+”時代最重要的是大數(shù)據(jù),大數(shù)據(jù)面臨的主要問題是數(shù)據(jù)孤島,直面這個問題需要一套顛覆式技術(shù)。理解這些首先要從信息化3.0的角度來看“互聯(lián)網(wǎng)+”,互聯(lián)網(wǎng)使得我們的整個信息化,從以前單機時代到了網(wǎng)絡(luò)時代再到了現(xiàn)在的“互聯(lián)網(wǎng)+”時代。

      從學(xué)術(shù)的角度講,第一,我們的互聯(lián)網(wǎng)通過移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)得到了更廣泛的延伸,使得網(wǎng)絡(luò)無處不在。第二,我們在互聯(lián)網(wǎng)上形成了云計算為核心的新一代計算存儲引擎。有了這樣的技術(shù),我們就會發(fā)現(xiàn)越來越多的應(yīng)用可以使用,同時會產(chǎn)生各種各樣數(shù)據(jù)。所謂大數(shù)據(jù),一定是各個來源的數(shù)據(jù)的融合,以及基于此的智能化分析。那么真正的大數(shù)據(jù)是什么呢?舉一個日常的例子,今天我在淘寶上買了一雙鞋,然后我打開網(wǎng)易新聞頭條會發(fā)現(xiàn)居然新聞會有推薦鞋的廣告。由于你在淘寶剛才花幾百塊錢還是幾十塊錢買了一雙鞋,這個信息淘寶平臺會知道,這個信息如果恰好今日頭條或者網(wǎng)易新聞了解到了,那么他們會從廣告庫里面給你及時推薦。

      今天的大數(shù)據(jù)真的是跟大家想象的所謂數(shù)據(jù)挖掘不一樣了,主要是在于3.0的特征升級。第一主要是數(shù)據(jù)是多元的,如果說這個數(shù)據(jù)是一個企業(yè)就全能拿到的,這叫海量數(shù)據(jù),不叫大數(shù)據(jù)。第二,數(shù)據(jù)是實時的,我們以歷史數(shù)據(jù)為主,而不能拿到實時的數(shù)據(jù),這也是不符合特征的。第三,強調(diào)的是分析結(jié)果的實時化,這個實時化一定要立即產(chǎn)生結(jié)果或者說價值的快速體現(xiàn)。

      我們從這幾個角度可以看到,今天的大數(shù)據(jù)給整個IT帶來了完全不一樣的改變。但是遺憾的是,我們仔細一看就會發(fā)現(xiàn),如現(xiàn)在數(shù)據(jù)顯示,大數(shù)據(jù)在中國市場的規(guī)模才幾十個億,很多人質(zhì)疑原因是什么,這就是存在的問題。如果從大數(shù)據(jù)的幾點特征來看,從嚴格意義上能夠真正成為大數(shù)據(jù)公司或者大數(shù)據(jù)產(chǎn)品和服務(wù)來看,我們探討的大數(shù)據(jù)一定是基于多元的數(shù)據(jù)、實時的采集,以及實時的分析,只有這樣的大數(shù)據(jù)才會進入到大數(shù)據(jù)產(chǎn)業(yè)。

      另外我們發(fā)現(xiàn),我們的數(shù)據(jù)很早以前就有,當時大家在做的抓取互聯(lián)網(wǎng)中網(wǎng)頁里面的數(shù)據(jù),這些數(shù)據(jù)都是“爬蟲”能夠爬到的,因為遵循的是互聯(lián)網(wǎng)開放協(xié)議,所以所有的數(shù)據(jù)大家都可以用 “爬蟲”的方式獲取下來。另外可以看到在10年前,我們的互聯(lián)網(wǎng)“爬蟲”爬到的數(shù)據(jù)只有0.3個G,而“爬蟲”爬不到的數(shù)據(jù)是7.9個G,這些數(shù)據(jù)又是什么呢?不遵循開放協(xié)議“爬蟲”爬不了,比如說“12306”系統(tǒng)里面的數(shù)據(jù),各種A PP里面的信息,這些都是過去的“爬蟲”爬不到的。因此,我們可以看到真正的大數(shù)據(jù)并不是取自于互聯(lián)網(wǎng)上公開的數(shù)據(jù),而是要深挖藏在互聯(lián)網(wǎng)深層的數(shù)據(jù)和信息。從調(diào)研的數(shù)據(jù)可以發(fā)現(xiàn),現(xiàn)在大數(shù)據(jù)企業(yè),90%的時間花在數(shù)據(jù)采集清洗,10%的時間用于真正的大數(shù)據(jù)關(guān)于業(yè)務(wù)價值的分析。美國硅谷的風投中52%還是投向大數(shù)據(jù)的采集和相關(guān)組織。

      今天的IT或者我們說互聯(lián)網(wǎng)上的應(yīng)用,基本上是遵循三級結(jié)構(gòu),數(shù)據(jù)存在數(shù)據(jù)庫里面,只是數(shù)據(jù)的值和基本的描述,數(shù)據(jù)庫的三級模式是數(shù)據(jù)庫在三個級別 (層次)上的抽象,使用戶能夠邏輯地、抽象地處理數(shù)據(jù)而不必關(guān)心數(shù)據(jù)在計算機中的物理表示和存儲。但是如果我想把這樣的系統(tǒng)的數(shù)據(jù)拿出來是很難的。

      你直接打開數(shù)據(jù)庫沒有用,即便有數(shù)據(jù)庫表也看不懂,這個時候我們必須要去看前面的數(shù)據(jù)表現(xiàn)層和業(yè)務(wù)層,但是那些代碼如果在還好,如果不在就很難,更關(guān)鍵的是我們很多系統(tǒng)都是第三方商業(yè)支持。我是直接拿的數(shù)據(jù)庫,我把這個權(quán)限給你,到時候被篡改怎么辦?各種各樣風險要全面評估,按照這個思路來判斷:數(shù)據(jù)的生產(chǎn)者和擁有者的權(quán)利反而沒有了。

      我和我的團隊是從2000年開始做應(yīng)用服務(wù)器的,所有的網(wǎng)站都跑在應(yīng)用服務(wù)器上,針對之前的問題,我們做了很大的技術(shù)突破和顛覆:我們提供很簡單的方式,你只需要填空,但是所有代碼我們是清楚的。只要你的數(shù)據(jù)藏在軟件中,我不需要看你的源碼,你的數(shù)據(jù)庫能夠通過一個客戶端或者瀏覽器看到,你只需要告訴我們你需要什么樣的數(shù)據(jù),這樣我會把所有的數(shù)據(jù)全部都生成A PI接口共享,這時候以A PI方式存在和使用。而通過這種技術(shù),實際上我在后臺是會用“小機器人”幫助你把數(shù)據(jù)拿出來、自動更新。這時候你也不用給我源碼,也不用給我開放數(shù)據(jù)庫,不用開發(fā)后臺,你的系統(tǒng)開發(fā)商是誰我也不知道,我也可以把你的數(shù)據(jù)安全的按照你的要求提取出來,我們也不會碰到前面所說的各種安全風險問題。

      目前這個技術(shù)做了十年,最近一年半開始產(chǎn)品化,產(chǎn)品推出六個月后,我們?yōu)?00多個業(yè)務(wù)系統(tǒng)生成了1000多個A PI,我們積累了越來越多的實際應(yīng)用,使得我們的技術(shù)能力得到了證明。

      (根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)

      猜你喜歡
      爬蟲孤島數(shù)據(jù)庫
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      不再是孤島
      沒有人是一座孤島
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      孤島求生記
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      數(shù)據(jù)庫
      財經(jīng)(2016年3期)2016-03-07 07:44:46
      元氏县| 扎囊县| 大安市| 中山市| 方正县| 沅陵县| 原阳县| 黑龙江省| 临城县| 谢通门县| 鹤壁市| 西乡县| 阿合奇县| 丰城市| 英吉沙县| 泗水县| 大安市| 云南省| 兴业县| 池州市| 晋宁县| 循化| 图木舒克市| 罗平县| 盐边县| 新闻| 祁东县| 泉州市| 定安县| 三都| 黔南| 江源县| 吉木乃县| 高碑店市| 安国市| 德惠市| 吉木乃县| 朔州市| 连平县| 彰化县| 合肥市|