呂盟 同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
大數(shù)據(jù)(big data)是描述大量數(shù)據(jù)的一種術(shù)語(yǔ),其中包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),覆蓋了大量的業(yè)務(wù)。運(yùn)用大數(shù)據(jù)技術(shù),可以從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息,其意義不僅僅是對(duì)數(shù)據(jù)量的管理,更重要的是對(duì)重要數(shù)據(jù)的處理方式,可以洞察分析大數(shù)據(jù),從而獲得更好的決策和戰(zhàn)略性業(yè)務(wù)變動(dòng)。
隨著對(duì)大數(shù)據(jù)技術(shù)的不斷探索和完善,目前在大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。
大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用等,其中應(yīng)用又包括:大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)安全。
大數(shù)據(jù)時(shí)代的來(lái)臨,對(duì)計(jì)算機(jī)行業(yè)的發(fā)展產(chǎn)生了巨大影響,數(shù)據(jù)處理技術(shù)翻天覆地的變化,催生了人們思維的變革:從依靠隨機(jī)部分?jǐn)?shù)據(jù)樣本,到利用全體數(shù)據(jù);從過(guò)分追求精確性,到逐漸適應(yīng)混雜性;從因果關(guān)系的思維模式,向相關(guān)關(guān)系演變。
相比于其他計(jì)算機(jī)技術(shù),大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”給企業(yè)的綜合成本提供了最優(yōu)解。
曾經(jīng)IBM 拋棄了PC,并成功轉(zhuǎn)向了軟件和服務(wù),現(xiàn)在他們將遠(yuǎn)離服務(wù)與咨詢,將注意力集中在因大數(shù)據(jù)分析軟件而帶來(lái)的全新業(yè)務(wù)增長(zhǎng)點(diǎn)。我國(guó)的百度與騰訊也相繼開(kāi)發(fā)自己的大數(shù)據(jù)處理和存儲(chǔ)系統(tǒng)。從2009 年開(kāi)始,發(fā)生了一系列以大數(shù)據(jù)為主題的企業(yè)并購(gòu)案,其數(shù)量和規(guī)模呈遞增趨勢(shì)。以O(shè)racle 并購(gòu)Sun 和惠普并購(gòu)Autonomy最為典型,兩起并購(gòu)涉及金額高達(dá)176 億美元。
數(shù)據(jù)虛擬化
數(shù)據(jù)虛擬化技術(shù)是在數(shù)據(jù)傳輸網(wǎng)中建立服務(wù),并在IT 架構(gòu)層中查看和分析不同來(lái)源的數(shù)據(jù)集,而實(shí)際意義上的數(shù)據(jù)并未從原本物理系統(tǒng)中移動(dòng)。
在大數(shù)據(jù)時(shí)代下的計(jì)算機(jī)軟件技術(shù)應(yīng)用中,虛擬化技術(shù)是重點(diǎn)應(yīng)用之一。通過(guò)內(nèi)部?jī)?yōu)化配置,將虛擬資源進(jìn)行整合分流管理,進(jìn)而加快信息處理速度,保證效率。將大數(shù)據(jù)與虛擬化技術(shù)相結(jié)合,是當(dāng)前計(jì)算機(jī)軟件技術(shù)應(yīng)用的大趨勢(shì),國(guó)內(nèi)外很多企業(yè)都開(kāi)始投入到相關(guān)項(xiàng)目的研究中,它與人們的日常生活息息相關(guān),從某種意義上講,甚至可以改變?nèi)藗兊纳?。以VMware 虛擬化大數(shù)據(jù)為例:
1. 簡(jiǎn)化大數(shù)據(jù)管理
虛擬化為Hadoop 等大數(shù)據(jù)應(yīng)用提供了支持。其優(yōu)勢(shì)在于,簡(jiǎn)化大數(shù)據(jù)基礎(chǔ)架構(gòu)的管理可以更快地取得成效,從而提高成本效益,而這些是在物理基礎(chǔ)架構(gòu)環(huán)境中是無(wú)法實(shí)現(xiàn)的。VMware 不僅是傳統(tǒng)應(yīng)用的最佳平臺(tái),更是大數(shù)據(jù)的最佳平臺(tái)。
2. 服務(wù)器虛擬化
借助虛擬化這項(xiàng)已經(jīng)過(guò)驗(yàn)證的軟件技術(shù),可在同一臺(tái)服務(wù)器上同時(shí)運(yùn)行多個(gè)操作系統(tǒng)和應(yīng)用,提高了 IT 敏捷性、靈活性和可擴(kuò)展性,同時(shí)大幅度的節(jié)約了成本。并且,工作負(fù)載的部署速度更快、性能和可用性得到提升、運(yùn)維實(shí)現(xiàn)自動(dòng)化,這讓 IT 管理工作變得更加簡(jiǎn)單。
3. 確保系統(tǒng)正常運(yùn)行
vSphere High Availability (HA) 可針對(duì)具體虛擬化環(huán)境中的硬件和操作系統(tǒng)故障提供故障轉(zhuǎn)移保護(hù),通過(guò)啟動(dòng)集群中其他主機(jī)上的虛擬機(jī)來(lái)保證用戶的正常使用和系統(tǒng)的正常運(yùn)行,最大限度的縮短了因故障而無(wú)法運(yùn)作的時(shí)間。HA 為所有應(yīng)用建立了自我保護(hù)機(jī)制,無(wú)需修改應(yīng)用或客戶機(jī)操作系統(tǒng)。
4. 共享數(shù)據(jù)中心資源
vSphere 內(nèi)容庫(kù)支持管理員將內(nèi)容分組整理到可單獨(dú)進(jìn)行配置和管理的庫(kù)中。創(chuàng)建庫(kù)后,即可跨越 vCenter Server 的邊界共享內(nèi)容,確保整個(gè)數(shù)據(jù)中心的一致性。
5. 優(yōu)先為虛擬機(jī)分配資源
通過(guò)vSphere Network I/O Control (NIOC) 和 vSphere Storage I/O Control (SIOC) 對(duì)網(wǎng)絡(luò)和存儲(chǔ)進(jìn)行監(jiān)控,并根據(jù)工程師設(shè)置的規(guī)則和策略自動(dòng)將資源轉(zhuǎn)移到高優(yōu)先級(jí)應(yīng)用。并通過(guò)跨vSphere 主機(jī)集群動(dòng)態(tài)分配 I/O 容量來(lái)解決網(wǎng)絡(luò)或存儲(chǔ)使用率問(wèn)題。
綜上所述,大數(shù)據(jù)時(shí)代的到來(lái),為計(jì)算機(jī)行業(yè)的發(fā)展,特別是軟件工程,提供了新的方向。它為計(jì)算機(jī)軟件的開(kāi)發(fā)提供了新思維,但也要結(jié)合社會(huì)背景,根據(jù)不同行業(yè)的需求來(lái)做判斷。大數(shù)據(jù)與計(jì)算機(jī)軟件應(yīng)用相結(jié)合,也不僅僅體現(xiàn)在虛擬化技術(shù),云存儲(chǔ)、信息安全等方向同樣與大數(shù)據(jù)緊密相連。大數(shù)據(jù)技術(shù)在諸多領(lǐng)域的應(yīng)用,將其推向了信息化技術(shù)變革的新高度,也是未來(lái)的發(fā)展方向。