摘 要:隨著社會的日益發(fā)展,數(shù)據(jù)量的增長日益加快,特別是隨著互聯(lián)網(wǎng)行業(yè)的迅猛發(fā)展,基于網(wǎng)頁而生成的影視傳媒領域海量日志數(shù)據(jù)正在成為各個互聯(lián)網(wǎng)公司必須面對和需要認真處理的重要數(shù)據(jù)形式,面對如此影視傳媒領域海量的數(shù)據(jù),不僅需要考慮如何快速、靈活、高效的存儲這些數(shù)據(jù),也需要充分的利用這些影視傳媒領域海量數(shù)據(jù)幫助進行分析,因此面向影視傳媒領域海量數(shù)據(jù)的數(shù)據(jù)挖掘技術,將成為一個重要的研究方向。
關鍵詞:互聯(lián)網(wǎng) 數(shù)據(jù)存儲 傳媒 技術
中圖分類號:TQ59;G220.7文獻標識碼:A文章編號:1674-098X(2012)07(a)-0032-01
1 引言
當今社會計算機技術在各領域廣泛的應用,在商業(yè)、金融、互聯(lián)網(wǎng)等領域每天都在產(chǎn)生影視傳媒領域海量的數(shù)據(jù)信息,而互聯(lián)網(wǎng)的迅猛發(fā)展也使得網(wǎng)絡中的各種信息日益豐富。面對GB級、TB級甚至更多的數(shù)據(jù),如何處理日益增長的數(shù)據(jù)成為當今數(shù)字化社會面臨的一個極具挑戰(zhàn)性的問題。而這些數(shù)據(jù)中蘊含的價值正在被越來越多的人所關注和研究,比如對于影視傳媒企業(yè)而言,客戶群是巨大而復雜的,市場也變得更大,更復雜,其數(shù)據(jù)也就變得更加豐富,從而使挖掘其中的數(shù)據(jù)信息,找出其中的價值知識,成為了必然需求。對于互聯(lián)網(wǎng)等行業(yè)進行數(shù)據(jù)挖掘時,所需有的數(shù)據(jù)主要是Web內(nèi)容,Web結(jié)構,Web使用記錄、用戶的背景信息、交易信息、查詢信息等。
2 新型存儲傳輸影視傳媒應用工程技術在影視傳媒領域方案
2.1 數(shù)據(jù)存儲工程與影視傳媒結(jié)合
對于互聯(lián)網(wǎng)這個新興行業(yè),其在未來的發(fā)展速度必然是極其迅速的,而互聯(lián)網(wǎng)行業(yè)中Web文本日志是它的數(shù)據(jù)信息中占比重最大的部分,對于影視傳媒類的企業(yè),這種信息可以直接反映出客戶的購買,產(chǎn)品的銷售等重要的商業(yè)信息,對于指導市場,引導資源合理配置可以起到十分重要的作用。據(jù)資料顯示,2006年全球數(shù)據(jù)總量達到0.18ZB,并且預測2011年將達到1.8ZB,很多傳媒集團每天處理的信息量已經(jīng)超過了20PB;
著名社交網(wǎng)站FaceBook的主機存儲著約100億張照片,占據(jù)PB級的空間;
淘寶每天增量數(shù)據(jù)達TB級,全量數(shù)據(jù)超過PB級這些信息均顯示了,目前互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)增加的迅猛程度,面對如此巨大的數(shù)據(jù)規(guī)模和數(shù)據(jù)增長趨勢,各個企業(yè)都在思考如何將這些影視傳媒領域海量的數(shù)據(jù)中蘊含的價值轉(zhuǎn)化真正的黑金。
目前對于數(shù)據(jù)處理中,人們首先考慮到的是使用傳統(tǒng)的新型存儲傳輸影視傳媒應用管理系統(tǒng),來對數(shù)據(jù)進行統(tǒng)一的管理,在此基礎上進行數(shù)據(jù)清理,去掉其中的噪聲,糾正不一致,數(shù)據(jù)集成通過搜集各個不同的數(shù)據(jù)源,進行統(tǒng)一的數(shù)據(jù)匯總,聚合,并進行數(shù)據(jù)歸約,實現(xiàn)對數(shù)據(jù)的聚集,維度歸約,數(shù)值歸約。
2.2 數(shù)據(jù)存儲媒體應用特點
(1)存儲成本不斷提高,由于像Oracle這類新型存儲傳輸影視傳媒應用,每一次新型存儲傳輸影視傳媒應用的擴容便帶來企業(yè)運營成本的不斷提高,例如,目前淘寶網(wǎng)擁有國內(nèi)日處理量最大,最忙的數(shù)據(jù)倉庫,淘寶網(wǎng)于2004年開始基于Oracle產(chǎn)品構建企業(yè)級的數(shù)據(jù)倉庫(EDW)07、08、09三年對于Oracle RAC進行升級,目前部署在由20個節(jié)點組成的單一新型存儲傳輸影視傳媒應用集群之上,但是隨著企業(yè)業(yè)務的飛速發(fā)展,利用這種需要高昂費用的企業(yè)級新型存儲傳輸影視傳媒應用管理系統(tǒng),對于企業(yè)成本必然是相當大的負擔。
(2)運算相應時間開始變得比較緩慢,特別是面對影視傳媒領域海量web日志數(shù)據(jù),傳統(tǒng)的新型存儲傳輸影視傳媒應用,由于都是嚴格按照關系型新型存儲傳輸影視傳媒應用進行設計,對于二維表結(jié)構的數(shù)據(jù)能夠很快的處理,但是面對互聯(lián)網(wǎng)的日趨發(fā)展,非結(jié)構化,非關系化的文本日志數(shù)據(jù),圖片數(shù)據(jù),音頻數(shù)據(jù),越來越多,使用傳統(tǒng)的方式分析這些數(shù)據(jù),將導致單個節(jié)點無法承受如此巨大數(shù)據(jù)量的輸入,運行時間變得不可預測。
(3)新型存儲傳輸影視傳媒應用高并發(fā)讀寫的需求,web2.0網(wǎng)站要根據(jù)用戶個性化信息來實時生成動態(tài)頁面和提供動態(tài)信息,所以基本上無法使用動態(tài)頁面靜態(tài)化技術,因此新型存儲傳輸影視傳媒應用并發(fā)負載非常高,往往要到達每秒鐘上萬次讀寫請求,上萬次的SQL查詢新型存儲傳輸影視傳媒應用還是可以應付得了,但是對于上萬次的SQL寫數(shù)據(jù)請求,硬盤I/O就已經(jīng)無法承受。
(4)對于高擴展性和高可用性的需求,傳統(tǒng)關系型數(shù)據(jù)基本很難進行橫向擴展,不能像web server或者app server一樣通過直接增加一些硬件和服務節(jié)點來實現(xiàn)擴展和負載均衡。
3 存儲技術在媒體領域應用創(chuàng)新
其實這種對于新型非關系型數(shù)據(jù)的研究早在上個世紀90年代就已經(jīng)提出過,不過當時由于數(shù)據(jù)處理的規(guī)模不大,對于這種需求不是很旺盛,因此使像Oracle、Mysql等這類關系型新型存儲傳輸影視傳媒應用占據(jù)了新型存儲傳輸影視傳媒應用的主流地位。
而目前一切開始改變了,當很多傳媒集團的工程師于幾年前提出GFS的設計理念后,整個對于這種大規(guī)模數(shù)據(jù)處理的方式,開始發(fā)生了根本的改變,后來Dong Cut根據(jù)他以前開發(fā)的Apache Lucene,結(jié)合很多傳媒集團提出的GFS以及MapReduce編程模式,開發(fā)了Hadoop開源分布式計算框架,通過這個開源項目并且結(jié)合數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的理論,可以構建一套適用于影視傳媒領域海量文本數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。
基于影視傳媒領域海量數(shù)據(jù)的分布式計算目前發(fā)展狀況,云計算對于影視傳媒領域海量數(shù)據(jù)的處理是現(xiàn)在的一個研究熱點,其實早在20世紀60年代,麥卡錫(John McCarthy)就已經(jīng)提出了像水電供應一樣,將計算能力作為一種基礎服務提供給每個人,云計算第一個里程碑出現(xiàn)在1999年salesforce.com提出使用一個網(wǎng)站,來為企業(yè)提供計算服務平臺。
隨后影視傳媒集團(Amazon)開發(fā)出了彈性計算云(EC2)和簡單服務存儲(S3),提供給企業(yè)計算服務,影視傳媒集團發(fā)布這樣服務不到兩年已經(jīng)有了44萬的企業(yè)用戶,其服務項目包括CPU、帶寬、存儲服務等,這些基本都是按照時長進行收費,目前云計算服務已經(jīng)成為影視傳媒集團重要的增長最快的業(yè)務。
4 結(jié)語
針對數(shù)據(jù)挖掘技術,目前的研究概況可以從兩方面進行分析:
從實際應用方面分析包括:通過對數(shù)據(jù)挖掘原型系統(tǒng)DBMiner分析研究可以更好的存儲媒體西悉尼。這是一個交互式的多層挖掘系統(tǒng),包括功能:概括、特征、分類、預測。并且提供了一種交互式的類SQL語言—DMQL(數(shù)據(jù)挖掘查詢語言),能與關系新型存儲傳輸影視傳媒應用平滑集成。研究開發(fā)的多任務數(shù)據(jù)挖掘系統(tǒng)Quest,實現(xiàn)了關聯(lián)規(guī)則、分類規(guī)則、序列模式和相似序列等。通過開發(fā)原型系統(tǒng),用于處理不同媒體領域的知識,從而能夠?qū)崿F(xiàn)數(shù)據(jù)存儲傳輸。
參考文獻
[1]韓家煒,堪博著.2007.數(shù)據(jù)挖掘:概念與技術[M].范明,孟小峰,譯.第1版.北京:機械工業(yè)出版社,200-205,401-407.
[2]張原,高向陽.2008.數(shù)據(jù)挖掘中分類算法分析與量化研究.西北工業(yè)大學學報,26(6):718-721.
[3]林士敏,田鳳占.2001.貝葉斯網(wǎng)絡的建造及其在數(shù)據(jù)采掘中的應用.清華大學學報,41(1):49-52.