文/朱蕾蕾
在三年前我國(guó)就對(duì)一段時(shí)間以來(lái)的網(wǎng)絡(luò)使用和開發(fā)現(xiàn)狀進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)主要是針對(duì)大環(huán)境下我國(guó)的網(wǎng)絡(luò)技術(shù)研究和使用進(jìn)行了分析。從這次統(tǒng)計(jì)中,不難看出來(lái)我國(guó)的互聯(lián)網(wǎng)行業(yè)發(fā)展相當(dāng)迅速,從上世紀(jì)九十年代時(shí)期的剛剛引進(jìn),到現(xiàn)在的過(guò)半網(wǎng)絡(luò)使用率。平均每?jī)蓚€(gè)人中,就有一個(gè)使用互聯(lián)網(wǎng)的,這樣的使用率配合上中國(guó)龐大的人口基數(shù),可以毫不夸張的說(shuō),中國(guó)的網(wǎng)民數(shù)量可以得到全球總?cè)丝诘氖种?。如此多的使用人?shù),產(chǎn)生的數(shù)據(jù)量也是相當(dāng)大的,在現(xiàn)代生活中,人們經(jīng)常會(huì)通過(guò)互聯(lián)網(wǎng)查閱資料,這個(gè)過(guò)程中會(huì)產(chǎn)生很多瀏覽記錄,而人們進(jìn)行網(wǎng)購(gòu)等活動(dòng)也會(huì)留下很多瀏覽記錄,這些記錄在互聯(lián)網(wǎng)上都是以數(shù)據(jù)的形式保存的,因此有理由相信,當(dāng)前的時(shí)代是大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代中數(shù)據(jù)量過(guò)于龐大,導(dǎo)致人們尋找有用消息變得更加艱難,因此需要對(duì)這些數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚恚植际綌?shù)據(jù)流處理就可以解決搜尋中的很多問(wèn)題,接下來(lái)要對(duì)該處理方式應(yīng)用到的技術(shù)進(jìn)行分類研究。
大數(shù)據(jù)意味著數(shù)據(jù)量龐大,因此要想針對(duì)這樣的環(huán)境進(jìn)行處理,首先要保證數(shù)據(jù)量足夠的大,否則會(huì)形成無(wú)米可炊的局面。搜集工作可以從設(shè)計(jì)一個(gè)搜集系統(tǒng)入手,對(duì)于設(shè)計(jì)者來(lái)說(shuō),可以將總服務(wù)器的基址地址傳達(dá)到各分服務(wù)器上,分服務(wù)器上產(chǎn)生的各種數(shù)據(jù)可以通過(guò)一個(gè)特定的搜集系統(tǒng),經(jīng)由這個(gè)鏈接傳遞到總服務(wù)器上。實(shí)現(xiàn)了這種操作的是國(guó)外很流行的一個(gè)社交軟件臉書,這是一個(gè)成功的代表。拿一些搜索引擎舉例,出來(lái)為用戶提供搜索平臺(tái)以及數(shù)據(jù)外,還可以將用戶所上傳的信息進(jìn)行保存,在進(jìn)行一定的驗(yàn)證工作之后,作為新的數(shù)據(jù)填充到整個(gè)系統(tǒng)中。在這些多種多樣的搜集系統(tǒng)中,應(yīng)用比較多的一種就是日志收集。目前該類方法實(shí)現(xiàn)對(duì)數(shù)據(jù)的搜集主要分為幾個(gè)步驟,首先是對(duì)數(shù)據(jù)進(jìn)行分析檢驗(yàn)并將其交由中間處理器,然后中間處理器對(duì)數(shù)據(jù)進(jìn)行整合之后將其發(fā)送到中央處理器,最后中央處理器將這些數(shù)據(jù)保存到大數(shù)據(jù)資源庫(kù)中,成為大數(shù)據(jù)的一份子。盡管很多搜集系統(tǒng)的原理相同,但是其側(cè)重點(diǎn)不一樣,因此在設(shè)計(jì)搜集系統(tǒng)的時(shí)候可以根據(jù)側(cè)重點(diǎn)的不同進(jìn)行區(qū)別設(shè)計(jì)。
搜集工作到位了,就需要考慮管理工作。在分布式數(shù)據(jù)流處理中,對(duì)數(shù)據(jù)的管理工作做的不到位,很有可能會(huì)導(dǎo)致整個(gè)系統(tǒng)的崩潰。本身上數(shù)據(jù)庫(kù)中的數(shù)據(jù)量就是很大的,而且用戶在使用到該系統(tǒng)的時(shí)候也會(huì)產(chǎn)生數(shù)據(jù)。在數(shù)據(jù)管理中不僅要對(duì)原有的數(shù)據(jù)進(jìn)行管理,還要對(duì)新近產(chǎn)生的數(shù)據(jù)進(jìn)行管理。能夠?qū)⑦@兩者區(qū)分開來(lái)是系統(tǒng)需要具備的能力,這個(gè)時(shí)候可以采取添設(shè)消息陣列系統(tǒng)的方法。該子系統(tǒng)的主要功能在于,數(shù)據(jù)的出入都要經(jīng)過(guò)這樣一個(gè)環(huán)節(jié),這樣的系統(tǒng)能夠降低外界數(shù)據(jù)和數(shù)據(jù)庫(kù)中數(shù)據(jù)的相互沖突的概率。盡管通過(guò)這樣一個(gè)中轉(zhuǎn)站會(huì)使數(shù)據(jù)的整理和處理響應(yīng)速度減慢,但是卻能最大程度的保護(hù)系統(tǒng)數(shù)據(jù)庫(kù),而且在一定層面上來(lái)說(shuō)還能改善用戶的使用體驗(yàn)。在數(shù)據(jù)處理方面效果頗佳的有一類系統(tǒng),是對(duì)該方法的延伸。該系統(tǒng)并不是設(shè)立于一個(gè)簡(jiǎn)單的中間站,因?yàn)橹虚g站對(duì)數(shù)據(jù)傳遞的延遲性影響太大,因此該系統(tǒng)舍棄了這樣的做法,而是將來(lái)往的數(shù)據(jù)以不同的形式進(jìn)行傳遞。信息在數(shù)據(jù)庫(kù)中是以數(shù)據(jù)的形式存在的,用戶在搜索之后直接觀察到的也是數(shù)據(jù)的形式,但是在上傳和下載的過(guò)程中,會(huì)將數(shù)據(jù)轉(zhuǎn)換成緩存資源與未涉及到的數(shù)據(jù)進(jìn)行區(qū)分,這樣也能夠?qū)崿F(xiàn)和傳統(tǒng)的消息陣列系統(tǒng)一樣的功能,而且與之相比也更快捷。
在數(shù)據(jù)搜集和管理中雖然涉及到了數(shù)據(jù)的存儲(chǔ),但是那些都是簡(jiǎn)單的概括,在實(shí)際的系統(tǒng)架構(gòu)中,該項(xiàng)技術(shù)的實(shí)現(xiàn)需要被單獨(dú)羅列出來(lái)進(jìn)行研究。首先從實(shí)用性的角度分析,數(shù)據(jù)庫(kù)中的數(shù)據(jù)有很大一部分都是長(zhǎng)期數(shù)據(jù)而不是臨時(shí)數(shù)據(jù)。同樣的數(shù)據(jù),可能有不同的用戶在不同的時(shí)間進(jìn)行檢索。因此,系統(tǒng)的設(shè)計(jì)者需要保障數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)能夠被有效的保存下來(lái),這個(gè)時(shí)候就需要應(yīng)用到數(shù)據(jù)存儲(chǔ)技術(shù)。很多優(yōu)秀的搜索引擎的數(shù)據(jù)存儲(chǔ)技術(shù)都處在行業(yè)前端,拿國(guó)外應(yīng)用程度較廣泛的谷歌為例,其應(yīng)用到的是分布式的系統(tǒng),因此其存儲(chǔ)系統(tǒng)也是同類型的。谷歌的存儲(chǔ)系統(tǒng)的空間容量極大,因此能夠存儲(chǔ)更多的數(shù)據(jù),而且根據(jù)該系統(tǒng)的特點(diǎn),單位時(shí)間內(nèi)數(shù)據(jù)允許上傳下載量也很大,這樣能夠滿足更多的人在線使用該系統(tǒng),這對(duì)于搜索引擎來(lái)說(shuō)是相當(dāng)重要的。另外還有一類存儲(chǔ)系統(tǒng)與之類似,但是在這些關(guān)鍵性性能上比不上谷歌的存儲(chǔ)系統(tǒng),但是該系統(tǒng)能夠?qū)崿F(xiàn)谷歌存儲(chǔ)系統(tǒng)不能做到的方面,可以對(duì)巨量的微數(shù)據(jù)進(jìn)行長(zhǎng)時(shí)間的存儲(chǔ)。系統(tǒng)的存儲(chǔ)能力決定的數(shù)據(jù)庫(kù)能夠存放多少數(shù)據(jù),如果一個(gè)系統(tǒng)不到幾天內(nèi)存就滿了,需要對(duì)之前存儲(chǔ)的內(nèi)容進(jìn)行刪減才能正常的運(yùn)行下去,就會(huì)給用戶帶來(lái)不好的使用體驗(yàn)。連最近發(fā)生的事情相關(guān)數(shù)據(jù)都沒(méi)有,如何能讓用戶滿意,所以,存儲(chǔ)技術(shù)也是系統(tǒng)必須加強(qiáng)的問(wèn)題。
大數(shù)據(jù)環(huán)境下相關(guān)技術(shù)的革新是一定要進(jìn)行的,本文中雖然只針對(duì)三個(gè)方面提出了對(duì)系統(tǒng)的技術(shù)要求,但是在實(shí)際的系統(tǒng)構(gòu)建中還需要考慮到更多的問(wèn)題,用戶的使用體驗(yàn)在很大程度上是由系統(tǒng)的短板決定的,因此要注意全面改進(jìn)技術(shù)。