白冰
摘要:大數(shù)據(jù)技術屬于全新的數(shù)據(jù)處理模式,有助于透過各類批量化的數(shù)據(jù)進行價值挖掘。而以互聯(lián)網融合媒體為基礎的大數(shù)據(jù)應用技術,則在媒體傳播領域中扮演著重要的媒體數(shù)據(jù)源泉角色。本文在客觀闡述互聯(lián)網融合媒體的全新特征基礎上,探討基于該類媒體的大數(shù)據(jù)應用技術方法。
關鍵詞:互聯(lián)網;融合媒體;大數(shù)據(jù)應用;技術
一、互聯(lián)網融合媒體的全新特征
(一)非結構化數(shù)據(jù)數(shù)量變多
網絡數(shù)據(jù)開始朝著非結構化方向過渡轉變,特別是在多元化的文本格式、音視頻等資源普及后,涉及非結構化數(shù)據(jù)已然成為互聯(lián)網融合媒體的關鍵性數(shù)據(jù)來源。不過,究竟怎樣針對這些非結構化數(shù)據(jù)進行細致性分析,始終是一種艱難的挑戰(zhàn),需要配合大數(shù)據(jù)這類全新的數(shù)據(jù)存儲和處理技術加以解決應對。
(二)信息量增長速度飛快
經過交互與移動互聯(lián)網等創(chuàng)新技術支撐輔助后,用戶完全可以在掙脫時間和空間要素約束的前提下,進行不同領域中的數(shù)據(jù)動態(tài)查詢和解析,針對非結構與固定結構數(shù)據(jù)進行網絡發(fā)布以及交流互動。無形之中,網絡信息的增長速度驟然加快,數(shù)據(jù)規(guī)模也變得空前巨大。
(三)信息檢索的難度增加
數(shù)據(jù)規(guī)模持續(xù)擴張、數(shù)據(jù)異構現(xiàn)象普及后,互聯(lián)網信息的檢索難度也同步增加,準確度也慢慢降低。如在進亍數(shù)據(jù)獲取上,需要借助find函數(shù)來檢索HTML文檔中的某個元素,之后再返回一類包含對象的數(shù)組,最后才能夠獲取數(shù)據(jù)。
二、基于互聯(lián)網融合媒體的大數(shù)據(jù)
應用技術方法
為了更加快速、深人、準確地分析和應用海量的數(shù)據(jù)資源,需要借助可靠的數(shù)據(jù)分析技術與平臺,大數(shù)據(jù)應用技術是最佳的選擇,原因是其有助于深人挖掘各類數(shù)據(jù)背后隱藏的價值,指引互聯(lián)網融合媒體的發(fā)展方向。
(一)大數(shù)據(jù)技術平臺方面
互聯(lián)網融合媒體之下的數(shù)據(jù)結構與類型,變得更加繁瑣多元,其間自然對大數(shù)據(jù)分析平臺提出更加嚴格的規(guī)范要求。所以說,基于互聯(lián)網融合媒體的大數(shù)據(jù)分析技術要具備以下特征:
首先,擁有高容量的存儲空間和超強的線性擴展功效;
其次,運算過程快速且結果精準,包括數(shù)據(jù)的訪問、檢索、分析等環(huán)節(jié),都有著明顯的低延遲效果;
最后,擁有集成分析的環(huán)境,可以進行更高級的分析處理,完成更高難度的建模任務。
(二)大數(shù)據(jù)技術方法方面
為了更好地進行大數(shù)據(jù)挖掘和解析,需要沿用以下技術方法:
第一,聚類分析。即按照相似度來進行數(shù)據(jù)分組,保證盡快鎖定海量數(shù)據(jù)的共性特征。
第二,回歸分析。包含線性回歸與邏輯回歸兩種分析方式,目的在于明確輸人變量:與結果彼此間的關聯(lián)特征。
第三,關聯(lián)規(guī)則分析。顧名思義,就是快速把握不同行為彼此間的關系,對應的算法主要包括Apriori、FP-Growth等。
第四,分類,就是說針對處理對象予以標簽處理,具體的方法有決策樹與樸素貝葉斯等。
(三)大數(shù)據(jù)應用建議方面
大數(shù)據(jù)技術推廣應用過后,不僅令數(shù)據(jù)技術煥然一新,而且在應用領域中塑造了全新的生態(tài)體系。該類體系可以依次細化為數(shù)據(jù)設備,數(shù)據(jù)采集、數(shù)據(jù)整合、數(shù)據(jù)應用、數(shù)據(jù)消費等主體。其中數(shù)據(jù)設備主要負責產生和收集整合數(shù)據(jù),采集者則強調那些由客戶端、設備來獲取數(shù)據(jù)的實體,整合者則重點解析、應用數(shù)據(jù)并將背后隱藏的規(guī)律和價值提煉出來,消費者則習慣于透過數(shù)據(jù)分析結果中進行篩選、消費和應用。歸結來講,在互聯(lián)網融合媒體中融人大數(shù)據(jù)技術,有助于進行海量網絡數(shù)據(jù)高效率處理和解析,方便及時而準確地解析各類用戶行為,完成輿情監(jiān)測任務,進一步推動互聯(lián)網媒體融合發(fā)展。
就好比是大數(shù)據(jù)獲取技術。須知大數(shù)據(jù)的數(shù)據(jù)類型包含結構化和非結構化類型。其中結構化數(shù)據(jù)有較強的動態(tài)性和較高的研究價值,有助于細致地解析用戶行為,理清數(shù)據(jù)內部的潛在價值;非結構化數(shù)據(jù)則主要配合PHP5提供的Simple HTML DOM解析類庫來對頁面予以HTML解析,透過元素的id、class、tag等來完成信息定位。又好比是新媒體聚合發(fā)布平臺,主要擁有多媒介內容發(fā)布、多平臺賬號管理、自定義媒體素材庫等功能模塊。其中前者主要用于微博、微信等客戶端內容一次編輯,方便實現(xiàn)多平臺共享;而后者則支持監(jiān)測新聞頭條,訂閱兩微一端內容,支持不同語種外媒稿件的檢索;至于多平臺賬號管理則支持微博和微信多個賬號的統(tǒng)一運營管理,擁有多平臺復合權限。
三、結語
綜上所述,大數(shù)據(jù)在互聯(lián)網媒體融合發(fā)展過程中有著不可小覷的影響。基于此,相關技術人員須細致地把握各個領域數(shù)據(jù)的潛在價值,準確分析不同用戶的行為習慣,進一步透過不同平臺提供貼心的信息推送和輿情引導服務,從而帶動互聯(lián)網媒體融合事業(yè)的協(xié)調發(fā)展。
(作者單位:吉林工人報社)