◎鄒漢青
大數(shù)據(jù)(Big Data)或稱(chēng)巨量資料,是指涉及的數(shù)據(jù)資料規(guī)模巨大, 需要新型數(shù)據(jù)處理模式才能對(duì)其進(jìn)行采集、存儲(chǔ)、加工和分析的海量、高增長(zhǎng)、多樣化電子資訊集合。
數(shù)字資產(chǎn)(Digital Assets)是指企業(yè)或個(gè)人擁有或控制的,以電子數(shù)據(jù)形式存在,以備使用或出售的非貨幣資產(chǎn)。
本文討論的傳媒大數(shù)據(jù), 僅限于傳媒機(jī)構(gòu)基于內(nèi)容生產(chǎn)形成的文字、照片、音視頻等電子資料。
數(shù)據(jù)是基礎(chǔ)性戰(zhàn)略資源,是21 世紀(jì)的“鉆石礦”。 大數(shù)據(jù)的產(chǎn)生,得益于辦公自動(dòng)化。 傳媒集團(tuán)化和采編無(wú)紙化,為傳媒機(jī)構(gòu)建立內(nèi)容數(shù)據(jù)庫(kù)提供了條件。
(一)傳媒集團(tuán)積累起巨量?jī)?nèi)容資源。 以黨報(bào)黨臺(tái)為主體的傳媒機(jī)構(gòu),因辦報(bào)辦臺(tái)歷史久(大多數(shù)傳媒機(jī)構(gòu)辦報(bào)辦臺(tái)達(dá)70 年甚至更久),積累起規(guī)模龐大的圖文、音視頻等內(nèi)容資源。 特別是上世紀(jì)90 年代以來(lái),隨著都市類(lèi)報(bào)刊(頻道)、網(wǎng)站等新生代媒體相繼興起,傳媒機(jī)構(gòu)由單一黨報(bào)黨臺(tái)衍生出報(bào)、刊、網(wǎng)、屏、端、微、出版社等多媒體形態(tài),形成“1+N”式媒體集團(tuán),內(nèi)容生產(chǎn)呈爆發(fā)式增長(zhǎng)。 如湖北日?qǐng)?bào)傳媒集團(tuán)(以下簡(jiǎn)稱(chēng)“湖報(bào)集團(tuán)”)高光時(shí)期擁有11 報(bào)、11 刊、5 網(wǎng)站,期發(fā)量過(guò)百萬(wàn)媒體6 個(gè),報(bào)刊期發(fā)量800 多萬(wàn)份,日原創(chuàng)新聞信息漢字100 多萬(wàn)個(gè), 居全國(guó)內(nèi)容生產(chǎn)第一方陣。 巨量的內(nèi)容,為建立傳媒數(shù)據(jù)庫(kù)提供了豐富資源。
(二)傳媒數(shù)據(jù)庫(kù)建設(shè)初具雛形。 隨著上世紀(jì)末互聯(lián)網(wǎng)技術(shù)引入,無(wú)紙化采編出版系統(tǒng)在傳媒業(yè)得到普遍應(yīng)用,使得大規(guī)模大原創(chuàng)性?xún)?nèi)容即時(shí)生產(chǎn)、在線存儲(chǔ)成為可能。 同時(shí),各大傳媒集團(tuán)相繼啟動(dòng)內(nèi)容資源庫(kù)建設(shè),如湖報(bào)集團(tuán)的電子稿庫(kù)存儲(chǔ)查詢(xún)系統(tǒng) (后升級(jí)為 “數(shù)字資產(chǎn)存儲(chǔ)管理系統(tǒng)”),將2001 年以來(lái)重點(diǎn)媒體刊發(fā)的文稿、圖片存儲(chǔ)于該系統(tǒng)。 據(jù)筆者統(tǒng)計(jì),2001 年 7 月至 2016 年 1 月,存儲(chǔ)原創(chuàng)稿件達(dá)485 萬(wàn)余篇、數(shù)十億漢字。
另一方面,隨著大數(shù)據(jù)時(shí)代到來(lái),傳媒集團(tuán)開(kāi)始推進(jìn)數(shù)字化檔案建設(shè),運(yùn)用OCR 等技術(shù),將各種紙質(zhì)、膠片、聲像等傳統(tǒng)介質(zhì)的歷史內(nèi)容轉(zhuǎn)化為數(shù)字信息。 如湖報(bào)集團(tuán)將湖北日?qǐng)?bào)1949 年7 月創(chuàng)刊以來(lái)所有文章、版面、圖片、圖表、廣告等內(nèi)容電子化, 獲得10 多萬(wàn)個(gè)數(shù)字版面、10 億多漢字、近20 萬(wàn)張照片、100 多萬(wàn)篇各類(lèi)稿件, 形成時(shí)間跨70年、涵蓋政治經(jīng)濟(jì)文化社會(huì)等各方面的歷史數(shù)據(jù)。
傳媒機(jī)構(gòu)數(shù)據(jù)資源具備規(guī)模大 (Volume)、內(nèi)容多樣(Variety)、時(shí)效高(Velocity)、真實(shí)準(zhǔn)確(Veracity)、高價(jià)值(Value)“5V”特點(diǎn),為數(shù)據(jù)資源開(kāi)發(fā)奠定了基礎(chǔ)。
2013 年是我國(guó)大數(shù)據(jù)建設(shè) “元年”。 2014、2015 年,以BAT 為代表的商業(yè)互聯(lián)網(wǎng)公司,陸續(xù)推出各自大數(shù)據(jù)產(chǎn)品。2015 年,國(guó)務(wù)院出臺(tái)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,大數(shù)據(jù)成為國(guó)家戰(zhàn)略。
近年來(lái),各大傳媒機(jī)構(gòu)紛紛啟動(dòng)媒體大數(shù)據(jù)平臺(tái)建設(shè),南方報(bào)業(yè)、浙報(bào)傳媒等地方傳媒集團(tuán)2013 年前后開(kāi)始籌建大數(shù)據(jù)中心,湖報(bào)集團(tuán)荊楚網(wǎng)2014 年成立輿情中心(研究院),利用互聯(lián)網(wǎng)平臺(tái)監(jiān)測(cè)網(wǎng)絡(luò)輿情,開(kāi)發(fā)《網(wǎng)絡(luò)新輿情》產(chǎn)品,為黨政機(jī)關(guān)提供輿情專(zhuān)報(bào)等個(gè)性化服務(wù),目前年?duì)I收上千萬(wàn)元,但利用的主要是網(wǎng)絡(luò)公共信息而非傳媒數(shù)據(jù)資源。
總體上看,傳媒數(shù)據(jù)資源開(kāi)發(fā)利用率較低,可資借鑒的成功范例尚不多,未能充分分享大數(shù)據(jù)的紅利,特別是未能將積累的傳媒特色數(shù)據(jù)資源轉(zhuǎn)化為特色商品。
以湖報(bào)集團(tuán)內(nèi)容生產(chǎn)重點(diǎn)產(chǎn)品之一的圖片資源為例,集團(tuán)檔案科采集整理存儲(chǔ)的電子照片近9 萬(wàn)張, 其中不少屬“孤品”級(jí)珍稀史料照片,但主要作為資料留存,極少且被動(dòng)地向社會(huì)提供圖片商業(yè)服務(wù),年服務(wù)收入僅幾十萬(wàn)元。與之相對(duì)照的是, 國(guó)內(nèi)三大民營(yíng)圖片供應(yīng)商視覺(jué)中國(guó)、全景網(wǎng)、東方IC,圖片生意做得風(fēng)生水起。 視覺(jué)中國(guó)財(cái)報(bào)顯示,2019 上半年核心主業(yè) “視覺(jué)內(nèi)容與服務(wù)” 營(yíng)收3.94 億元。2018 年,北京字節(jié)跳動(dòng)公司投資買(mǎi)下東方IC 圖庫(kù),顯示資本看好商用圖片市場(chǎng)前景。
傳媒機(jī)構(gòu)內(nèi)容資源庫(kù),大多只能算是數(shù)據(jù)庫(kù)的雛形,離真正意義上的數(shù)據(jù)庫(kù)還有較大差距。 傳媒數(shù)據(jù)資源開(kāi)發(fā)利用率低,既有體制機(jī)制原因,也有觀念意識(shí)問(wèn)題,還有技術(shù)資金等客觀因素。 概括起來(lái),主要有以下幾方面:
(一)對(duì)傳媒數(shù)據(jù)資源價(jià)值認(rèn)識(shí)不夠。 盡管各傳媒機(jī)構(gòu)對(duì)追逐大數(shù)據(jù)“風(fēng)口”意愿強(qiáng)烈,也作了一些探索嘗試,如很多媒體都在利用網(wǎng)絡(luò)平臺(tái)開(kāi)展輿情業(yè)務(wù), 但目光瞄多向外部“紅?!笔袌?chǎng),反而忽視了傳媒內(nèi)容數(shù)據(jù)這片“藍(lán)?!保瑒?chuàng)辦的一些網(wǎng)絡(luò)科技公司經(jīng)營(yíng)艱難, 對(duì)自己原創(chuàng)內(nèi)容被商業(yè)互聯(lián)網(wǎng)平臺(tái)無(wú)償轉(zhuǎn)載辦法不多。
很多傳媒機(jī)構(gòu)很早啟動(dòng)電子圖文、電子檔案庫(kù)建設(shè),積累了巨量傳媒數(shù)據(jù),但基于存檔自用的初級(jí)目標(biāo),極少考慮增值開(kāi)發(fā)問(wèn)題,對(duì)傳媒數(shù)據(jù)庫(kù)建設(shè)缺乏深入研究、頂層設(shè)計(jì)和系統(tǒng)規(guī)劃,導(dǎo)致資源采集存儲(chǔ)不及時(shí)不全面。如檔案照片收集僅限于已刊用部分, 大量未刊用的照片沉積在攝影記者電腦或硬盤(pán)里,甚至被當(dāng)作無(wú)價(jià)值資料清除;部分子報(bào)子刊和網(wǎng)端微內(nèi)容未納入采集范圍。同時(shí),現(xiàn)有數(shù)據(jù)的后續(xù)加工不夠,格式、標(biāo)引不規(guī)范統(tǒng)一。
(二)管理體制機(jī)制制約。 一是身份“二重性”制約資源開(kāi)發(fā)利用。以黨報(bào)黨臺(tái)為主體的傳媒機(jī)構(gòu),身份是地方黨委直屬事業(yè)單位,盡管后來(lái)組建傳媒集團(tuán)成為企業(yè),但數(shù)字檔案仍參照機(jī)關(guān)檔案管理,處于不開(kāi)放或半封閉狀態(tài),成為市場(chǎng)化開(kāi)發(fā)的障礙。 二是服務(wù)市場(chǎng)意愿不強(qiáng)。 檔案管理,保管是基礎(chǔ),開(kāi)發(fā)利用才是目的。 但檔案室、資料室作為事業(yè)單元,收費(fèi)服務(wù)須經(jīng)主管部門(mén)批準(zhǔn),“收費(fèi)無(wú)據(jù)”影響開(kāi)發(fā)用戶(hù)市場(chǎng)的動(dòng)力,造成數(shù)字檔案管理上存在重保管輕利用、壟斷獨(dú)占意識(shí),內(nèi)容檔案數(shù)字化成了“搬進(jìn)電腦的傳統(tǒng)檔案”。
(三)數(shù)字資產(chǎn)意識(shí)不強(qiáng)。 傳媒機(jī)構(gòu)的“數(shù)字資產(chǎn)”意識(shí)還較欠缺,沒(méi)有認(rèn)識(shí)到傳媒特色數(shù)據(jù)資源的價(jià)值,盡管傳統(tǒng)媒介經(jīng)濟(jì)受市場(chǎng)沖擊巨大,受思維定式影響,仍習(xí)慣于主要圍繞報(bào)道、廣告版面做文章,甚至投入大量人財(cái)物投資傳媒主業(yè)無(wú)關(guān)聯(lián)的領(lǐng)域。 有的傳媒機(jī)構(gòu)雖引入了“數(shù)字資產(chǎn)”概念,但極少研究謀劃如何盤(pán)活數(shù)字資產(chǎn),沒(méi)有將“數(shù)字資產(chǎn)”納入資產(chǎn)運(yùn)營(yíng)。
(四)資金技術(shù)人才等制約。 大數(shù)據(jù)平臺(tái)主要由技術(shù)驅(qū)動(dòng),從數(shù)據(jù)采集、存儲(chǔ)到平臺(tái)運(yùn)營(yíng)、數(shù)據(jù)開(kāi)發(fā),需要爬蟲(chóng)、交互、開(kāi)源、算法等技術(shù)支撐,技術(shù)開(kāi)發(fā)投入較大,資金籌措難。檔案、資料室作為傳媒機(jī)構(gòu)二線部門(mén),資金投入少,軟硬件建設(shè)滯后,人員結(jié)構(gòu)老化,新技術(shù)應(yīng)用能力不足。 互聯(lián)網(wǎng)思維欠缺, 只注重自我生產(chǎn)內(nèi)容的采集, 對(duì)各媒體平臺(tái)讀者、用戶(hù)、客戶(hù)等信息的采集存儲(chǔ)未引起重視。
傳媒大數(shù)據(jù)是記錄歷史的文獻(xiàn)性數(shù)據(jù), 深度開(kāi)發(fā)傳媒數(shù)據(jù)資源,對(duì)內(nèi)可服務(wù)精細(xì)化管理,對(duì)外可服務(wù)史志圖書(shū)編著、宣傳推廣、咨詢(xún)智庫(kù)等,實(shí)現(xiàn)內(nèi)容資源二次變現(xiàn)。
(一)機(jī)器人寫(xiě)新聞。從2016 年新聞機(jī)器人首次露臉奧運(yùn)會(huì),到2018 年世界杯機(jī)器人“小封”秒發(fā)新聞,再到今年全國(guó)兩會(huì)央視AI 合成主播上崗……傳媒業(yè)已進(jìn)入智媒時(shí)代。 在發(fā)稿上爭(zhēng)分搶秒的新媒體,新聞機(jī)器人更以精準(zhǔn)、秒發(fā)等優(yōu)勢(shì)成為發(fā)展方向。而機(jī)器人寫(xiě)稿的核心,是利用大數(shù)據(jù)對(duì)信息進(jìn)行分析計(jì)算。
(二)智慧校對(duì)。文稿校對(duì)是一件繁瑣復(fù)雜、工作量大且易出錯(cuò)的工作,因此傳媒業(yè)素有“無(wú)錯(cuò)不成報(bào)”之說(shuō)。差錯(cuò)既有一般文字差錯(cuò),也有重要人名、地名、統(tǒng)計(jì)數(shù)據(jù)等事實(shí)性差錯(cuò),輕則影響報(bào)道公信力,重則引起重大責(zé)任事故,如前不久某視頻平臺(tái)關(guān)于山東臺(tái)風(fēng)災(zāi)害的報(bào)道差錯(cuò)就引起軒然大波。利用人工智能技術(shù)與傳媒數(shù)據(jù)庫(kù)信息進(jìn)行比對(duì),可自動(dòng)快速勘錯(cuò),提高校對(duì)效率、防堵差錯(cuò)發(fā)生。
(三)服務(wù)精細(xì)管理精準(zhǔn)營(yíng)銷(xiāo)。如基于紙媒發(fā)行、網(wǎng)媒點(diǎn)擊閱讀數(shù)據(jù),建立包含讀者閱讀喜好、職業(yè)、消費(fèi)信息等的用戶(hù)數(shù)據(jù)庫(kù),為報(bào)道稿件取舍、欄目設(shè)置、廣告投放等提供決策依據(jù),通過(guò)算法技術(shù)等,向讀者精準(zhǔn)推送閱讀內(nèi)容,更好滿(mǎn)足用戶(hù)需求,提高用戶(hù)粘性。
(四)分析預(yù)測(cè)參謀智庫(kù)。 傳媒數(shù)據(jù)庫(kù)存儲(chǔ)了各個(gè)時(shí)期經(jīng)濟(jì)社會(huì)文化等各方面權(quán)威統(tǒng)計(jì)數(shù)字。利用大數(shù)據(jù)、云計(jì)算等技術(shù),對(duì)各時(shí)間跨度的歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、繪圖制表等處理,分析行業(yè)趨勢(shì)、拐點(diǎn)等,既可為報(bào)道提供選題和論據(jù)支撐,也可為行業(yè)、企業(yè)提供咨詢(xún)服務(wù)。
(五)服務(wù)編史修志圖書(shū)出版。歷史長(zhǎng)河浩如煙海,媒體忠實(shí)記錄歷史。 傳媒大數(shù)據(jù)是電子文獻(xiàn)史料庫(kù),可為編志修史著書(shū)提供考證史料和各個(gè)歷史時(shí)期的圖片。 如湖報(bào)集團(tuán)檔案科除為黨委政府等提供政治服務(wù)外,一些單位編修方志圖書(shū)、制作宣傳畫(huà)冊(cè)展板等時(shí),也向檔案科索取圖文資料。
(六)數(shù)據(jù)包租憑轉(zhuǎn)讓。傳媒大數(shù)據(jù)具有反復(fù)使用、用之不遏的特點(diǎn),根據(jù)旅游、金融、交通等特定用戶(hù)的不同需要,抽取專(zhuān)項(xiàng)信息數(shù)據(jù)打包,通過(guò)租賃、轉(zhuǎn)讓等獲得收益。
(七)圖文及音視頻商業(yè)供應(yīng)。建立文稿跟蹤追索系統(tǒng),向轉(zhuǎn)載文稿的商業(yè)平臺(tái)收取版權(quán)費(fèi); 傳媒平臺(tái)擁有最大的圖片音視頻生產(chǎn)專(zhuān)業(yè)隊(duì)伍,建立激勵(lì)機(jī)制,激勵(lì)創(chuàng)作提供更多高質(zhì)量影像作品,發(fā)揮媒體平臺(tái)優(yōu)勢(shì),網(wǎng)絡(luò)一批攝影攝像行家,打造圖片音視頻資源供應(yīng)商、分發(fā)商。 在內(nèi)容創(chuàng)業(yè)時(shí)代,微博、微信、網(wǎng)站等商業(yè)自媒體群體龐大,對(duì)圖文、音視頻需求巨大。據(jù)“西瓜數(shù)據(jù)”平臺(tái)報(bào)告,該平臺(tái)收錄的微信公眾號(hào)達(dá)500 多萬(wàn)個(gè),2019 年仍在更新的175 萬(wàn)個(gè)。
隨著技術(shù)進(jìn)步,傳媒大數(shù)據(jù)開(kāi)發(fā)利用范圍將更廣泛,前提是在充分論證的基礎(chǔ)上科學(xué)規(guī)劃、整合資源,建立標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)。通過(guò)事企分離改革,將數(shù)據(jù)資源開(kāi)發(fā)從事業(yè)單元?jiǎng)冸x,破除市場(chǎng)服務(wù)的體制障礙;爭(zhēng)取國(guó)家鼓勵(lì)產(chǎn)業(yè)的項(xiàng)目扶持資金,或通過(guò)合資、合伙、合作等途徑,解決資金、技術(shù)等難題。在開(kāi)發(fā)利用上,根據(jù)現(xiàn)有條件分步實(shí)施、先易后難,優(yōu)先開(kāi)發(fā)圖文、音視頻、文獻(xiàn)資料等市場(chǎng)服務(wù)。