摘 要:數(shù)據(jù)正悄悄地成為我們一生中最寶貴的財富,根據(jù)麥肯錫全球研究院的預測2020年全世界將創(chuàng)造43兆GB的數(shù)據(jù),而此后每天估計有2.3兆GB的數(shù)據(jù)被創(chuàng)建。這些數(shù)據(jù)被收集、存儲和分析,將使得我們的生活得越來越智能化,未來將是一個完全智能化的世界。本文的主題是指出智能化的實際現(xiàn)狀并預測它將在未來的重要角色,首先我們將定義大數(shù)據(jù),數(shù)據(jù)分析和智能城市,其次分析它們將如何改變我們的生活方式,最后我們將討論即將出現(xiàn)的新技術,以及它將如何窺探我們的隱私,進而把我們變成技術的奴隸。
關鍵詞:大數(shù)據(jù),數(shù)據(jù)分析,智能城市,決策模型,隱私
一、引言
據(jù)國際電信聯(lián)盟2017年7月的統(tǒng)計,當今世界104個國家中15-24歲年齡段中80%以上的人使用網(wǎng)絡,約有8.3億人,其中有39%的人是在中國和印度[1],而在1995年全球的網(wǎng)絡用戶比例尚不足1%。在Internet livestats網(wǎng)站上顯示現(xiàn)在1秒內會產(chǎn)生——7751條推特,802張Instagram的照片,1284篇帖子,262萬封電子郵件,互聯(lián)網(wǎng)流量每秒達到48.3TB!數(shù)據(jù)隨著我們生活方式的改變而大量產(chǎn)生,它讓各種服務越來越智能化,讓我們逐漸進入智能城市的時代。
二、大數(shù)據(jù)
1、定義
大數(shù)據(jù)理論上講是一個尚未準確定義的術語,主要是因為其“大”的含義實在無法定義。十多年前,測量大數(shù)據(jù)的單位只是TB級,而今天已經(jīng)達到PB級,EB級也將不日來臨。Meta集團的分析師Doug Laney曾在2001年發(fā)表了一篇研究報告,名為“三維數(shù)據(jù)管理:控制容量、速度和類型?!彼褂昧恕?V”作為定義大數(shù)據(jù)的三個維度:容量、速度和類型(Volume,Velocity,Variety)[2]:
容量:整個數(shù)據(jù)集所包含的信息數(shù)量和細節(jié)
速度:數(shù)據(jù)產(chǎn)生和變化的速率
類型:現(xiàn)在已不單是傳統(tǒng)的結構化數(shù)據(jù),如金融交易、證券交易、個人文件等,而更多是音頻、視頻、照片、位置信息、微博,傳感器數(shù)據(jù)等非結構化的數(shù)據(jù)。
除3V之外,還有一些研究者在定義中添加了第四V:準確性(Veracity),指數(shù)據(jù)完整性和構建有效數(shù)據(jù)的能力,并且能有依據(jù)地使用它做出關鍵性決策。[3]
2、數(shù)據(jù)分析
數(shù)據(jù)分析是收集、存儲、提取、清洗、轉換、聚合和分析數(shù)據(jù)的科學,目的是發(fā)現(xiàn)和創(chuàng)造有價值的信息。數(shù)據(jù)分析能利用有價值的信息建立預測模型、提供決策依據(jù),并不斷自我優(yōu)化,應用于各領域,如科學、體育、廣告和公共衛(wèi)生等,隨企業(yè)的數(shù)據(jù)管理系統(tǒng),以及其他各硬件、軟件和應用程序的發(fā)展而不斷進步。現(xiàn)大多數(shù)公司都已意識到,為了提高生產(chǎn)力和競爭力,不可避免地需要數(shù)據(jù)和分析。麥肯錫董事蒂姆·麥奎爾曾表示:“數(shù)據(jù)分析將決定輸家和贏家之間的區(qū)別?!盵4]
三、智能城市
信息和通信技術的進步使我們的生活方式發(fā)生了巨大變化,智能城市的時代也已加速到來。現(xiàn)在人們已利用分布在城市里的各大傳感器網(wǎng)絡獲取各種數(shù)據(jù),并使用數(shù)據(jù)的智能化滿足我們的需求。以美國費城為例,在垃圾桶內安裝傳感器,感知桶內是否裝滿,進而調整垃圾桶的收集數(shù)量以節(jié)約城市成本。從這個例子中可以看到,在智能城市中,數(shù)據(jù)首先會被傳送到處理中心,再用于分析和向外界提供信息,最終智能的為人們提供服務,這就是智能城市的理想樣子。
四、問題:智能服務,我們將控制我們的選擇還是被控制?
在介紹了大數(shù)據(jù)和智能城市之后,本文將換個角度思考未來,以分析問題的全面性。為了獲得大數(shù)據(jù)智能化后的服務便利,我們將會付出什么樣的代價?大數(shù)據(jù)的崛起是否意味著隱私權的衰落?接下來,本文將會說明未來的“智能”服務將會如何使用有關個人的大數(shù)據(jù),如何麻木我們的神經(jīng),甚至控制我們的思維。
人本身就是一個大數(shù)據(jù)集,如履歷資料,生物數(shù)據(jù)(臉,指紋,虹膜…),旅游數(shù)據(jù)和銀行信息等。不僅政府一直在收集個人數(shù)據(jù),一些商業(yè)公司、IT公司、甚至小型業(yè)余網(wǎng)站也喜歡存儲用戶的web數(shù)據(jù)。在大數(shù)據(jù)智能化服務的時代,跟蹤記錄網(wǎng)頁瀏覽、社交活動、購買記錄、位置定位,再將這些私人信息通過智能手機的傳送以及機構的窺探結合在一起,就能挖掘出我們無法想象的信息量。
《紐約客》在1993年7月刊登了一篇漫畫,一只狗坐在電腦前的椅子上,爪子在鍵盤上,然后對它的同伴說:“在互聯(lián)網(wǎng)上,沒有人知道你是一只狗?!钡乾F(xiàn)在,人們已經(jīng)不僅能知道你是一只狗,還很了解你皮毛的顏色,你多久會去看獸醫(yī),你最喜歡的食物是什么。網(wǎng)頁瀏覽其實是無法保護隱私的,例如在線跟蹤技術就可以確認誰坐在電腦屏幕前,他的興趣和愛好是什么。還有一種更先進的在線跟蹤技術——設備指紋識別技術,它甚至可以在用戶配置瀏覽器避免被跟蹤的情況下仍能監(jiān)視用戶,收集和識別用戶的私人信息。
我們手機上的應用程序可以很自然的訪問我們的大多數(shù)個人信息,如聯(lián)系人、日歷、短信、電話記錄、媒體文件、電話號碼、設備id、位置等,以及獲得對設備(如照相機和麥克風)的控制。我們在有意無意間就自愿給這些應用程序提供訪問權限,但我們很可能根本沒有意識到,只是在安裝按鈕上輕輕一點,我們的信息即有可能開始泄露了。即使是那些被認為可以安全地存儲在webmail供應商數(shù)據(jù)庫中的電子郵件其實都已被解析過,以谷歌為例,谷歌向其用戶推送的廣告都是基于用戶電子郵件的內容。
社交媒體實際上也是數(shù)據(jù)的搜集者,很多社交平臺都是人們分享生活的媒介,但在這其中,唯一暴露出來的并不只是用戶身份,從深度層面上觀察用戶的習慣、活動、社會行為和傾向等信息,這些被收集起來的私人信息完全可以形成足夠多的個人隱私資料,而這并不管用戶是否愿意或知情。維基解密的主編朱利安?阿桑奇在2011年接受俄羅斯國家衛(wèi)星頻道采訪時將臉書稱為“令人震驚的間諜機器”,“在這里,我們擁有世界上最全面的有關人及其姓名、住址、彼此通信、親屬乃至人際關系的數(shù)據(jù)庫,這些數(shù)據(jù)全都可被美國情報機關獲得。”endprint
隨著越來越多的用戶上網(wǎng),收集到的海量私人數(shù)據(jù)就成為了一個金礦!想象一下當你知道某人的一切,當他所有的弱點和優(yōu)點都暴露出來時,他會變得多么脆弱和容易控制。而現(xiàn)在這些無價的數(shù)據(jù)正在被挖掘、分析和用于不同的目的或智能服務,以智能電子商務和搜索為例:
智能商務
現(xiàn)在市面上的各種推薦系統(tǒng)、客戶行為分析等系統(tǒng)有針對性的營銷將用戶轉變?yōu)榭蛻簟_@些技術分析用戶的偏好、個性、習慣等,再利用這些信息改進市場營銷和廣告商務??赡苡腥藭f,更好的用戶體驗可以幫助人們輕松找到他們想要的東西,雖然這有好的一面,但也很可能變成更壞的事,當大量的私人數(shù)據(jù)被分析,“智能的”用于控制用戶的選擇,慫恿、強迫用戶盡可能的去購買需要或不需要的東西,培養(yǎng)用戶成消費狂,公司的業(yè)績是上去了,但用戶是自由的還是被操縱的?
智能搜索
谷歌強大的搜索引擎早已為我們“定制”了個性化搜索結果。假設你我同時搜索某樣相同東西時,我們也可能會得到不同的搜索結果。一名工程師曾說,即使你退出了搜索,也會有57項信息被谷歌監(jiān)視——從你使用的電腦到你在哪使用的瀏覽器——都會用來調整你的搜索結果。正如谷歌董事長埃里克?施密特所言:“人們很難觀看或消費那些在某種意義上沒有為他們量身定制的東西?!爆F(xiàn)在我們被一個個過濾算法包圍著,它們決定何時何事對我們顯示或隱藏,讓我們保持對其他觀點的距離,只讓我們看到它們提供的“現(xiàn)實世界”。
《鷹眼》是2008年上映的科幻電影,里面有一臺由美國國防部設計的超級計算機,能自動實時采集、結構化和非結構化整個世界的數(shù)據(jù),幾乎能控制所有電子系統(tǒng)和自動化設備。這已經(jīng)非常適合如今大數(shù)據(jù)分析系統(tǒng)和智能城市的定義描述,但是在電影中,超級計算機已經(jīng)有了自己的思維,可以采取自己的行動,決定誰必須死,誰可以活,我們現(xiàn)在是否也正朝著這個方向努力前進?
五、結束語
雖然大數(shù)據(jù)有重要價值,但它也給我們的個人安全帶來重大風險,不管我們喜歡與否,我們的個人數(shù)據(jù)是我們日常生活的副產(chǎn)品。網(wǎng)上購物,車牌監(jiān)拍,社交發(fā)布,這些產(chǎn)生的數(shù)據(jù)信息其實早已把我們的生活展現(xiàn)給了任何人,只不過很多時候沒有被那些別有用心的人所利用。因此,我們需要考慮的是:當我們使用新的應用程序和移動設備時,我們的隱私和安全會有多少風險?下次安裝東西時,權限設置是否會出賣我們的私人信息?現(xiàn)在數(shù)據(jù)已不再僅僅是數(shù)據(jù),它已經(jīng)是一種可以被公司、政府和個人買賣的商品!
最后,本文一方面呼吁消費者既該意識到自己的私人數(shù)據(jù)是如何被收集、利用,反過來約束他們自由的,也該意識到應該由自己決定對個人數(shù)據(jù)分享的“度”。另一方面,也希望科技公司能負責任的既讓城市變得聰明,也能在實踐中尊重個人隱私,并給消費者選擇的自由!
總之,當民主社會中的權利和自由得到遵守和保護時,好處才會遠遠大于風險。智能城市雖好,但代價不能是自由。
參考文獻:
[1]ICT Facts and Figures 2017.Brahima Sanou&ITU-D.2017
[2]Deja VVVu: Others Claiming Gartners Construct for Big Data. Doug Laney. 2001
[3]What is Big Data.Villanova University. 2014
[4]Making data analytics work: Three key challenges. McKinsey & Company. 2013
作者簡介
孫楊昕 北京對外經(jīng)濟貿易大學統(tǒng)計學院在職人員高級課程 研修班學員 100043endprint