孟令紅
(河北廣播電視臺 河北省石家莊市 050031)
隨著5G通信技術(shù)、光纖通信技術(shù)的快速發(fā)展,廣電作為一個大型的電視節(jié)目運營商,已經(jīng)開始為用戶提供高清晰度及4K 超高清晰度視頻服務(wù),大大的豐富了人們娛樂文化生活。據(jù)工信部統(tǒng)計,目前我國電視用戶高達(dá)1.3 億,每年拍攝和錄制的廣播電視節(jié)目數(shù)億小時,為人們提供了電視劇、電影、綜藝、體育、文化、新聞、農(nóng)業(yè)、軍事等各領(lǐng)域的視頻內(nèi)容,具有重要的作用和意義[1]。廣播電視數(shù)據(jù)中心的存儲容量大、訪問用戶多,因此為了提高這些數(shù)據(jù)資源的服務(wù)能力,需要引入更加先進的數(shù)據(jù)服務(wù)技術(shù),包括云計算、大數(shù)據(jù)和MapReduce 等技術(shù),進一步提高廣電數(shù)據(jù)中心的并發(fā)性、容錯性、健壯性和可移植性,具有重要的作用和意義。
大數(shù)據(jù)時代廣電數(shù)據(jù)中心的功能需要滿足幼兒、少年、青年、老年等多種年齡階段收看者的需求,利用“互聯(lián)網(wǎng)+”為用戶提供一個高清晰視頻、多終端接入、多業(yè)務(wù)綜合等信息服務(wù)。廣電數(shù)據(jù)中心的各個對外業(yè)務(wù)都可以使用多個類型的終端接入,比如手機、平板電腦、PC 電腦等,因此廣電數(shù)據(jù)中心建設(shè)需要提供一個多終端、并發(fā)接入需求,可以采用云計算技術(shù),該技術(shù)能夠為用戶提供強大的操作接口,具有重要的作用[2]。本文通過對廣電數(shù)據(jù)中心進行調(diào)研,結(jié)合新時期的應(yīng)用需求,建模了平臺的主要功能,包括資源的交流互動、資源分享、資源推送、直播點播服務(wù)等功能[3]。
平臺可以利用人工智能技術(shù)從海量的視頻資源中挖掘潛在的、有價值的、滿足實際應(yīng)用需求的資源,將這些資源推薦給不同年齡段用戶,滿足用戶的實際需求。同時,資源推送還可以記錄推薦歷史,以便能夠幫助用戶分析興趣愛好,比如可以根據(jù)學(xué)齡兒童的年齡段和學(xué)習(xí)階段定制課程。資源推送過程中引入了人工智能技術(shù),可以實現(xiàn)用戶興趣的分析、瀏覽歷史的分析等,基于大數(shù)據(jù)分析和模式識別,從海量的視頻資源中,挖掘用戶潛在的視頻內(nèi)容需求,實現(xiàn)視頻資源智能化的推薦,為用戶精準(zhǔn)推送視頻內(nèi)容。
廣電數(shù)據(jù)中心可以引入微信平臺、QQ 平臺等,能夠為用戶提供一個溝通和交流的功能,將具有相同愛好或興趣的用戶劃分到一個組,探討娛樂生活過程中遇到的問題,同時可以增加電視劇、電影、綜藝、紀(jì)錄片等節(jié)目推廣程度。
廣電數(shù)據(jù)中心構(gòu)建了一個社交網(wǎng)絡(luò),使用微信、QQ、微博等構(gòu)建朋友圈,在朋友圈中推廣視頻資源,還可以訪問其他視頻資源,比如愛奇藝、騰訊等平臺,利用第三方平臺的視頻資源提升廣電數(shù)據(jù)中心節(jié)目容量,并且可以利用微信進行視頻內(nèi)容分享以及節(jié)目直播,提供一個友好的視頻資源分享功能。
廣電數(shù)據(jù)中心可以為用戶提供直播和點播服務(wù),構(gòu)建一個直播平臺,可以在線實時觀看各種電視節(jié)目。視頻點播能夠為用戶提供一個在線點播服務(wù),平臺定期發(fā)布視頻資源,用戶可以根據(jù)自己的需求選擇是否點播,如果選擇之后,用戶進入視頻進行觀看。
廣電數(shù)據(jù)中心架構(gòu)采用先進的云計算架構(gòu),該架構(gòu)可以將數(shù)據(jù)中心劃分為三個層次,分別是基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS),每一個層次之間都是用虛擬化技術(shù),包括軟件虛擬化和硬件虛擬化,廣電數(shù)據(jù)中心采用虛擬化技術(shù)多屬于硬件虛擬化技術(shù),能夠引入輪轉(zhuǎn)方法、分片方法和多任務(wù)操作處理方法進行操作,實現(xiàn)對存儲空間、CPU、通信帶寬的資源池化,進一步提高計算機硬件設(shè)備的共享服務(wù)能力。虛擬化可以共享和擴展物理存儲空間,確保多用戶共享CPU 或通信帶寬資源,基于按需服務(wù)機制實現(xiàn)大數(shù)據(jù)平臺操作,實現(xiàn)基礎(chǔ)設(shè)施即服務(wù),這樣就可以提高云計算的并發(fā)性,實現(xiàn)數(shù)以億計的用戶并發(fā)訪問平臺。
3.1.1 MapReduce技術(shù)
MapReduce 可以為廣電數(shù)據(jù)中心提供并行處理的計算模型,更適用于集群平臺高性能計算,允許數(shù)以億計的節(jié)點進行分布式集群,可以實現(xiàn)分布式操作服務(wù)。MapReduce 提供一個龐大的、設(shè)計精良的并行計算軟件,自動化地完成計算任務(wù),分配大數(shù)據(jù)存儲空間資源,實現(xiàn)數(shù)據(jù)分布存儲、通信和容錯處理。MapReduce 能夠提供一個簡單的、便捷的程序設(shè)計方法,更有利于程序員進行編程和處理。MapReduce 能夠處理海量的半結(jié)構(gòu)化數(shù)據(jù),利用并行的結(jié)構(gòu)解決特定的、復(fù)雜的數(shù)據(jù)處理問題,比如在一個關(guān)系數(shù)據(jù)庫中,其可以使用SQL 語言執(zhí)行數(shù)據(jù)插入、查詢、修改和刪除操作,還可以使用傳統(tǒng)的C++語言、Java 語言等解決這個問題,實現(xiàn)數(shù)據(jù)庫操作語言與傳統(tǒng)程序語言的有效結(jié)合,實現(xiàn)一個功能更加強的數(shù)據(jù)處理功能。
3.1.2 數(shù)據(jù)遷移技術(shù)
數(shù)據(jù)遷移技術(shù)可以采用優(yōu)先級算法,把光纖陣列存儲單元劃分為不同的優(yōu)先級,從高到低進行排序,優(yōu)先級較高的存儲訪問頻次較多的數(shù)據(jù),優(yōu)先級較低的存儲訪問頻次較少的數(shù)據(jù)。首先,廣電數(shù)據(jù)中心的數(shù)據(jù)訪問頻次不同,因此可以設(shè)置一個計數(shù)器,每訪問一次計數(shù)器就增加1,這樣計數(shù)器數(shù)值越高,表示數(shù)據(jù)訪問的次數(shù)越多,因此為了提高這些數(shù)據(jù)的訪問效率,可以將其轉(zhuǎn)移到優(yōu)先級較高的位置。同時,數(shù)據(jù)遷移需要與Cache 調(diào)度算法進行集成,可以確保Cache 滿負(fù)荷運載,因此可以提高廣電數(shù)據(jù)中心存儲平臺應(yīng)用效率。
廣電數(shù)據(jù)中心為用戶提供一個并發(fā)接入功能,實現(xiàn)數(shù)據(jù)存儲和智能化遷移服務(wù),為幼兒、少年、青年、中年和老年等不同年齡的群體提供視頻共享服務(wù)[4]。廣電數(shù)據(jù)中心還可以實現(xiàn)數(shù)據(jù)存儲、傳輸和共享功能,同時還可以根據(jù)數(shù)據(jù)訪問頻次設(shè)置優(yōu)先級,提高對數(shù)據(jù)的訪問效率。廣電數(shù)據(jù)中心實現(xiàn)存儲資源的并發(fā)響應(yīng)操作功能,業(yè)務(wù)處理流程如圖1所示。
廣電數(shù)據(jù)中心的業(yè)務(wù)處理流程包括四個步驟,分別是設(shè)置平臺操作系統(tǒng)、構(gòu)建Hadoop 集群、數(shù)據(jù)整合和預(yù)處理、數(shù)據(jù)存儲,進一步提高了視頻大數(shù)據(jù)應(yīng)用效能。
3.2.1 設(shè)置平臺操作系統(tǒng)
廣電數(shù)據(jù)中心面臨的數(shù)據(jù)資源非常多,為了提高對這些視頻、文本、圖像等數(shù)據(jù)資源的組織管理效率,需要使用與之匹配的操作系統(tǒng),本文選擇RedHat 作為操作系統(tǒng),盡可能地實現(xiàn)大數(shù)據(jù)的優(yōu)先級訪問、熱點數(shù)據(jù)存儲,管理大數(shù)據(jù)的物理存儲空間,實現(xiàn)對資源的調(diào)度和分配。廣電數(shù)據(jù)中心RedHat 可以為不同的用戶群體提供一個界面化操作模式,同時該系統(tǒng)可以加強各個資源的組成,進一步提高數(shù)據(jù)服務(wù)的性能,比如可以為用戶提供一個集群的操作系統(tǒng),該系統(tǒng)能夠加強不同客戶之間的信息共享功能和交流溝通功能。
3.2.2 構(gòu)建Hadoop 集群
Hadoop 是一個軟件平臺,其可以運行廣電數(shù)據(jù)中心視頻、文本、圖像等處理軟件,最核心的技術(shù)為MapReduce,能夠?qū)⒋罅康挠嬎銠C組成一個集群,實現(xiàn)海量數(shù)據(jù)分布式計算。Hadoop 吸引了很多商業(yè)公司研發(fā)和設(shè)計,已經(jīng)構(gòu)建了各種開源組件,包括Sqoop、Hbase 和Spark 等。Hadoop 包括很多的組成元素,最底層的組成元素就是Hadoop Distributed File System(HDFS),其可以Hadoop 集群平臺中的所有存儲節(jié)點文件,HDFS 的上一層就是一個MapReduce 引擎,這個引擎包括兩個組成部分,分別是JobTrackers和TaskTrackers,利用Hadoop 可以實現(xiàn)數(shù)據(jù)處理和操作,進一步滿足分布式數(shù)據(jù)操作。本文數(shù)據(jù)存儲平臺采用Hadoop 集群平臺,可以滿足數(shù)以千計的用戶同時訪問廣電數(shù)據(jù)中心數(shù)據(jù)存儲平臺的需求,還可以針對視頻點播軟件、直播服務(wù)軟件、信息資源服務(wù)系統(tǒng)、廣電交互接口系統(tǒng)、系統(tǒng)管理系統(tǒng)等軟件進行集成,為用戶提供一個集成化的操作界面。
3.2.3 數(shù)據(jù)整合和預(yù)處理
廣電數(shù)據(jù)中心保存的資源非常多,比如文件日志、關(guān)系數(shù)據(jù)、對象數(shù)據(jù)等,這些有結(jié)構(gòu)性數(shù)據(jù)也有非結(jié)構(gòu)性數(shù)據(jù),因此在把數(shù)據(jù)整合在一起時需要進行預(yù)處理,以便能夠利用企業(yè)服務(wù)總線進行通信傳輸,提高數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)預(yù)處理可以利用Impala、SparkSQL 和HiveSQL 等工具。本文選擇使用HiveSQL 作為數(shù)據(jù)整合軟件,該軟件能夠?qū)崿F(xiàn)大規(guī)模的信息加工,進一步加強對廣電數(shù)據(jù)中心數(shù)據(jù)資源的管控。
圖1:廣電數(shù)據(jù)中心平臺
3.2.4 數(shù)據(jù)存儲
廣電數(shù)據(jù)中心最重要的功能就是存儲。數(shù)據(jù)存儲可利用HBase和Kudu 等存儲管理工具,建立一個生態(tài)存儲圈,不斷地提高大數(shù)據(jù)平臺的存儲和管理水平,還可以降低訪問延遲,提高數(shù)據(jù)分析能力。目前,廣電數(shù)據(jù)中心還引入了更加先進的數(shù)據(jù)庫,比如Oracle數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不僅可以實現(xiàn)普通數(shù)據(jù)的處理功能,還具有數(shù)據(jù)智能分析、優(yōu)先級存儲等功能,一旦某一個數(shù)據(jù)對象訪問頻次上升,就可以為這些數(shù)據(jù)賦予較高的優(yōu)先級,將其轉(zhuǎn)移到高速緩存中,提高用戶的訪問效率。
隨著移動通信、光纖通信、大數(shù)據(jù)、云計算等技術(shù)的快速發(fā)展,人們已經(jīng)進入到了大數(shù)據(jù)時代,開發(fā)了許多的應(yīng)用軟件,比如金融銀行、物流倉儲、電力通信、政務(wù)辦公、醫(yī)療教育等。廣電數(shù)據(jù)中心是一個集成化的信息服務(wù)系統(tǒng),其可以實現(xiàn)豐富的視頻服務(wù)功能,根據(jù)用戶的需求實現(xiàn)資源內(nèi)容的推薦、分發(fā),及時的將用戶關(guān)注的信息分發(fā)到位。廣電數(shù)據(jù)中心采用軟件工程技術(shù)、多媒體技術(shù)、網(wǎng)絡(luò)通信技術(shù)等,還可以為不同興趣愛好的用戶提供在線直播、視頻點播、視頻回放等功能。廣電數(shù)據(jù)中心還是一個大型的學(xué)習(xí)資源數(shù)據(jù)庫,其可以查詢各類型的學(xué)習(xí)資源,平臺可以超越時空限制,沒有時間和空間的限制,隨時隨地都可以登錄到廣電數(shù)據(jù)中心學(xué)習(xí)。