每一年,IT界都會有一個最流行的話題——去年是“云計算”,今年則是“大數據”。美國互聯(lián)網數據中心指出,互聯(lián)網上的數據每年增長50%,每兩年便翻一番,而目前世界上90%以上的數據是最近幾年才產生的。2012年3月,奧巴馬政府宣布投資2億美元拉動大數據相關產業(yè)發(fā)展,將“大數據戰(zhàn)略”上升為國家戰(zhàn)略。奧巴馬政府甚至將大數據定義為“未來的新石油”。
隨著互聯(lián)網、移動互聯(lián)網和物聯(lián)網的發(fā)展,誰也無法否認,我們已經切實地迎來了一個海量數據的時代。
什么是大數據?
大數據(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理的信息。從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。
業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。
一是數據體量巨大(Volume)。從TB級別,躍升到PB級別。有數據顯示,到2012年為止,人類生產的所有印刷材料的數據量大約是200PB(1PB=1024TB),全人類歷史上說過的所有話的數據量大約是5EB(1EB=1024PB)。舉例來說,1PB相當于154萬張770MB光盤的數據容量,1ZB相當于全球每個人每天都去做1.19億次高分辨率的核磁共振檢查所產生的數據總量。
二是數據類型繁多(Variety)。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這就對數據的處理能力提出了更高要求。
三是價值密度低(Value)。以視頻為例,在1小時連續(xù)不間斷的監(jiān)控過程中,有用數據可能僅有一二秒。
四是處理速度快(Velocity)。這是大數據區(qū)別于傳統(tǒng)數據挖掘技術的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業(yè)的生命。
大數據應用
從市場上已經發(fā)生的案例來看,互聯(lián)網行業(yè)、零售行業(yè)受大數據的影響最大,醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文等領域也都開始意識到大數據的價值。
互聯(lián)網行業(yè)
雅虎于2008年年初便開始啟用大數據技術,每天分析超過200PB的數據,這使得雅虎的服務變得更人性化,更貼近用戶和客戶。為了更深入地了解每一個用戶,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網站上的所有行為都記錄下來,這些數據的有效分析使得亞馬遜對于客戶的購買行為和喜好有了全方位了解,對其貨品庫存、倉儲、物流以及廣告業(yè)務上都有著極大的效益回饋。
零售行業(yè)
英國最大的連鎖超市Tesco (特易購,國內稱樂購)已經開始運用大數據技術采集并分析其客戶行為信息。特易購首先在大數據系統(tǒng)內給每個顧客確定一個編號,然后通過顧客的刷卡消費、填寫調查問卷、打客服電話等行為采集他們的相關數據,再用計算機系統(tǒng)建立特定模型,對每個顧客的海量數據進行分析,得出顧客的消費習慣、近期可能的消費需求等結論,以此來制定有針對性的促銷計劃并調整商品價格。這種有的放矢的營銷和定價模式為特易購提供了更加高效的盈利方法。
醫(yī)療行業(yè)
醫(yī)療行業(yè)早就遇到了海量數據的挑戰(zhàn),很多國家都在積極推進醫(yī)療信息化發(fā)展,這一切都離不開大數據分析。
在臨床操作方面,大數據有5個主要應用:1.通過全面分析病人特征數據和療效數據,然后比較多種干預措施的有效性,可以找到針對特定病人的最佳治療途徑。2.大數據分析技術將使臨床決策支持系統(tǒng)(分析醫(yī)生輸入的條目,比較其與醫(yī)學指引不同的地方,從而提醒醫(yī)生防止?jié)撛诘腻e誤,如藥物不良反應)更智能,這得益于對非結構化數據的分析能力的日益加強。3.通過提高醫(yī)療過程數據的透明度,間接促進醫(yī)療服務質量的提高。公開發(fā)布醫(yī)療質量和績效數據還可以幫助病人做出更明智的健康護理決定。4.通過對遠程監(jiān)控系統(tǒng)產生的數據的分析,可以減少病人住院時間,減少急診量,實現提高家庭護理比例和門診醫(yī)生預約量的目標。5.在病人檔案方面應用高級分析可以確定哪些人是某類疾病的易感人群。
大數據的使用可以改善公眾健康監(jiān)控。公共衛(wèi)生部門可以通過覆蓋全國的患者電子病歷數據庫,快速檢測傳染病,進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應程序,快速進行響應。通過提供準確和及時的公眾健康咨詢,將會大幅提高公眾健康風險意識,同時也將降低傳染病感染風險。所有的這些都將幫助人們創(chuàng)造更健康生活。
交通行業(yè)
在交通管理上,大數據成為助力智慧交通發(fā)展的必然選擇。
不久前,愛爾蘭首都都柏林已與IBM合作,利用實時數據來簡化公共交通。大數據策略幫助該地區(qū)的公交車順暢運行。都柏林的交通控制站能夠利用數據定位公交車的實時位置。管理人員得以快速將公交網絡中潛在的問題可視化。例如,管理人員可以確定擁堵區(qū)域,并在擁堵蔓延到其他交通干線之前找出問題的根源。大數據在交通管理上的應用大大優(yōu)化了交通狀況,而且節(jié)約了行政資源。
在國內,上海正在構建通過物聯(lián)網技術支撐的公共汽車運行信息發(fā)布系統(tǒng),市民可以利用智能手機,查詢公交線路和實時運行信息。無獨有偶,南京市基于強大的云平臺運行智慧交通云系統(tǒng)、云視頻監(jiān)控和智能分析應用,對整個南京140萬輛機動車的交通數據進行實時查詢和分析,并主動報警、主動通知用戶。
實際上,大數據運用在交通中除了能提供實時的交通數據,進行路況預警外,在未來城市的規(guī)劃中也起著舉足輕重的作用。
通過收集數據,進行車流量的統(tǒng)計,再進一步對這些數據進行分析就能夠將交通信息可視化,對同時段不同區(qū)域擁堵原因做出分析,這種分析為如何規(guī)劃道路,是拓寬還是改道提供了參考的標準。大數據的應用一方面通過預警疏散交通壓力,一方面為合理規(guī)劃提供參考,可謂雙管齊下。
在這個過程中,我們讓整個社會變得更加環(huán)保,成為更加集約型的社會。這都是大數據在智慧交通上具體的體現。
大數據會給我們帶來生活方式的變革,但是它的應用也并不是十全十美。除了信息數據采集會存在偏差、數據會受到市場的干擾以外,當個人生活和信息都被化為數據記錄在數據供應商的手中時,個人信息安全如何保護將是每個人都要考慮的問題。
【責任編輯】趙新宇