大數(shù)據(jù)時代,我們需要更加全面的數(shù)據(jù)來提高分析預測的準確度,因此我們就需要更多便捷、廉價、自動的數(shù)據(jù)生產(chǎn)工具。除了我們在網(wǎng)上使用的瀏覽器有意或者無意記載著個人的信息數(shù)據(jù)之外,手機、智能手表、智能手環(huán)等各種可穿戴設(shè)備也在無時無刻地產(chǎn)生著數(shù)據(jù);就連我們家里的路由器、電視機、空調(diào)、冰箱、飲水機、凈化器等也開始越來越智能并且具備了聯(lián)網(wǎng)功能,這些家用電器在更好地服務(wù)我們的同時,也在產(chǎn)生著大量的數(shù)據(jù);甚至我們出去逛街,商戶的WIFI,運營商的3G網(wǎng)絡(luò),無處不在的攝像頭電子眼,百貨大樓的自助屏幕,銀行的ATM,加油站以及遍布各個便利店的刷卡機等也都在產(chǎn)生著數(shù)據(jù)。
幾乎任何規(guī)模企業(yè),每時每刻也都在產(chǎn)生大量的數(shù)據(jù),但這些數(shù)據(jù)如何歸集、提煉始終是一個困擾。而大數(shù)據(jù)技術(shù)的意義確實不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數(shù)據(jù)。
數(shù)據(jù)源復雜多樣
從大數(shù)據(jù)的概念我們可以知道,大數(shù)據(jù)的數(shù)據(jù)源主要為網(wǎng)絡(luò)日志、視頻、圖片、地理位置等等各類網(wǎng)絡(luò)信息,而這些數(shù)據(jù)的匯集是實現(xiàn)大數(shù)據(jù)實施的基礎(chǔ),所以大數(shù)據(jù)應(yīng)用建設(shè)離不開網(wǎng)絡(luò)信息數(shù)據(jù)采集這一核心環(huán)節(jié)。
不管是政府還是企業(yè),瀏覽器里的搜索、點擊、網(wǎng)上購物、其他數(shù)據(jù)(比如氣溫、海水鹽度、地震波)、新聞信息、網(wǎng)友留言、網(wǎng)友個人信息、產(chǎn)品信息、人事信息等等都是大數(shù)據(jù)應(yīng)用的重要目標,這些信息數(shù)據(jù)是政府企業(yè)戰(zhàn)略決策的重要依據(jù)。
大數(shù)據(jù)環(huán)節(jié)下的數(shù)據(jù)來源非常多,而且類型也多種多樣,存儲和數(shù)據(jù)處理的需求量很大,對于數(shù)據(jù)展現(xiàn)也非常的高,并且很看重數(shù)據(jù)處理的高效性和可用性。
談及數(shù)據(jù)采集利器,我們最熟悉的就是遍布身邊的攝像頭,不到10年的時間,城市里的任何一個角落放眼望去就全部是攝像頭了。隨著互聯(lián)網(wǎng)技術(shù)的大發(fā)展,能夠接入互聯(lián)網(wǎng)的終端越來越便宜、在人群中覆蓋率不斷提高,以致于我們擁有了一個可以覆蓋大部分人口的傳感器網(wǎng)絡(luò)。比如我所在的淘寶網(wǎng),每天有億級別的用戶訪問、購物。在傳統(tǒng)的工業(yè)時代,我們永遠無法知道一個人在超市做了什么、也很難分析每個人在超市買了什么東西,盡管你有收銀數(shù)據(jù)。而在互聯(lián)網(wǎng)這個每個人都帶著傳感器的時代、一切行為都可能被記錄、分析、用于優(yōu)化你未來的體驗。
精準分析之數(shù)據(jù)采集要真實可靠
現(xiàn)今,數(shù)據(jù)的作用正在迅速膨脹并變大,它影響著企業(yè)工作戰(zhàn)略的制定,雖然現(xiàn)在企業(yè)可能并沒有意識到網(wǎng)絡(luò)信息數(shù)據(jù)采集的不到位給自身工作帶來的問題和隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。當下大部分公司都有自己的渠道,即自己的方式去收集數(shù)據(jù)。對數(shù)據(jù)來說有兩個方面:一個就是通過分析以后給客戶的數(shù)據(jù);另外一個就是公司內(nèi)部用。給客戶的數(shù)據(jù)首先就要保證準確性,這個很重要。還有它的出處是不是官方的?另外這些數(shù)據(jù)是不是涉及到別人的隱私?關(guān)于公司內(nèi)部使用的數(shù)據(jù),通常更注重如何與業(yè)務(wù)發(fā)展、產(chǎn)品完美結(jié)合。
數(shù)據(jù)分析和數(shù)據(jù)挖掘的重點都不在數(shù)據(jù)本身,而在于如何能夠真正地解決數(shù)據(jù)運營中的實際商業(yè)問題。但是,要解決商業(yè)問題,就得讓數(shù)據(jù)產(chǎn)生價值,就得做數(shù)據(jù)分析和數(shù)據(jù)挖掘。而在數(shù)據(jù)分析和數(shù)據(jù)挖掘之前,首先必須保證采集到高質(zhì)量的數(shù)據(jù)。只有通過對所需數(shù)據(jù)的全面準確采集,形成數(shù)據(jù)流規(guī)模,然后再對數(shù)據(jù)流進行分析,這樣分析出的數(shù)據(jù)結(jié)果對決策行為才有指導性作用。
采集數(shù)據(jù)源種類繁多,以及采集速度要快更是一個嚴峻挑戰(zhàn),因為采集過程本來就是數(shù)據(jù)質(zhì)量問題的主要來源。采集數(shù)據(jù)源雜亂,采集速度又快,如果不能及時進行數(shù)據(jù)質(zhì)量處理,就會導致數(shù)據(jù)質(zhì)量問題的堆積,越來越嚴重。所以在采集環(huán)節(jié),就必須引入實時數(shù)據(jù)質(zhì)量監(jiān)控和清洗技術(shù),通過強大的集群和分布式計算能力,提高數(shù)據(jù)采集性能和數(shù)據(jù)質(zhì)量監(jiān)控性能,利用強大的分布式云計算技術(shù),實現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗以及數(shù)據(jù)質(zhì)量檢查工作。
完成全面數(shù)據(jù)采集后,就應(yīng)該有準確的分析和使用數(shù)據(jù)能力,透過對采集數(shù)據(jù)的深入分析,了解事件的事實真相和事件背后的社情民意,預判各種事件的發(fā)展走向,這些變動對整個大局會產(chǎn)生什么樣的影響,影響是否會阻礙自身的健康發(fā)展,這都需要我們用數(shù)據(jù)來衡量,用數(shù)據(jù)反映出的事實來指導我們工作策略的制定,讓我們的工作決策理性化而不是經(jīng)驗化。
數(shù)據(jù)采集未來是一個很大的市場,因為分析的數(shù)據(jù)模型可以根據(jù)需求和思維做,但所有的前提是你的數(shù)據(jù)采集要準,現(xiàn)在的問題一個是采集不到,一個是采集錯了,還有一個是采集效率受到網(wǎng)絡(luò)帶寬限制,這幾個都做不到的話數(shù)據(jù)價值很難用起來。
當數(shù)據(jù)采集遇上隱私安全怎么辦?
隨著移動互聯(lián)、云計算等技術(shù)的飛速發(fā)展,無論何時何地,手機等各種網(wǎng)絡(luò)入口以及無處不在的傳感器等,都會對個人數(shù)據(jù)進行采集、存儲、使用、分享,而這一切大都是在人們并不知曉的情況下發(fā)生。你的一舉一動、地理位置、甚至一天去過哪些地方,都會被記錄下來,成為海量無序數(shù)據(jù)中的一個數(shù)列,和其他數(shù)據(jù)進行整合分析。
比如,當你用手機掃描二維碼,并將其用微博轉(zhuǎn)發(fā)的時候,你的消費習慣、偏好,甚至你的社交圈子的信息,就已經(jīng)被商家的大數(shù)據(jù)分析工具捕獲。大數(shù)據(jù)平臺在提供服務(wù)的同時,也在時刻收集著用戶的各種個人信息:消費習慣、閱讀習慣甚至生活習慣。這些數(shù)據(jù),一方面給人們帶來了諸多便利,但另一方面,由于數(shù)據(jù)的管理還存在漏洞,那些發(fā)布出去或存儲起來的海量信息,也很容易被監(jiān)視、被竊取。
大數(shù)據(jù)散發(fā)出不可估量的商業(yè)價值。但讓人感到不安的是,信息采集手段越來越高超、便捷和隱蔽,對公民個人信息的保護,無論在技術(shù)手段還是法律支撐都依然捉襟見肘。人們面臨的不僅是無休止的騷擾,更可能是各種犯罪行為的威脅。大數(shù)據(jù)時代,誰來保護公民的個人隱私?既是每個人都應(yīng)當思考的問題,也是政府部門不可推卸的責任。