祖成浩
[摘 要] 隨著技術(shù)的發(fā)展,出版的產(chǎn)品形態(tài)越來越豐富。文章研究了大數(shù)據(jù)在出版業(yè)上的應(yīng)用,通過大數(shù)據(jù)技術(shù)分析讀者群體的閱讀喜好,可以更加有效的確定產(chǎn)品的形態(tài),最大程度的滿足讀者的期望,在營銷和發(fā)行環(huán)節(jié),利用大數(shù)據(jù)技術(shù)還可以做到精準(zhǔn)的營銷。
[關(guān)鍵詞] 出版;大數(shù)據(jù);讀者畫像
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 033
[中圖分類號] F270.7 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)19- 0079- 03
1 國內(nèi)外出版大數(shù)據(jù)現(xiàn)狀
隨著數(shù)字出版的快速發(fā)展,越來越多的讀者開始在數(shù)字化的環(huán)境中閱讀、學(xué)習(xí),如使用手機(jī)、平板電腦進(jìn)行看書、學(xué)習(xí)、分享、互動等。與傳統(tǒng)的紙質(zhì)圖書閱讀相比,數(shù)字化的閱讀環(huán)境中更容易捕捉和記錄閱讀和學(xué)習(xí)的數(shù)據(jù),比如某個知識點(diǎn)的點(diǎn)擊次數(shù),知識點(diǎn)的分布情況,知識點(diǎn)的分享頻度等。
各行各業(yè)都在利用大數(shù)據(jù)技術(shù)改善和推動行業(yè)變化,如交通、快消、電商等領(lǐng)域應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)信息精準(zhǔn)推送,提升信息傳達(dá)的效率,出版行業(yè)也不例外,國外大型出版企業(yè)很早就注意到利用大數(shù)據(jù)技術(shù)提升用戶體驗(yàn)。美國書呆網(wǎng)利用大數(shù)據(jù)技術(shù)分析讀者的閱讀愛好、興趣類別、知識需要,從而向讀者精準(zhǔn)推薦最感興趣的圖書,改善了圖書推薦的用戶體驗(yàn),提升了圖書購買的效率。培生公司利用學(xué)習(xí)平臺記錄讀者在某個知識點(diǎn)的停留時間、點(diǎn)擊次數(shù)、該知識點(diǎn)相關(guān)內(nèi)容點(diǎn)擊情況,運(yùn)用大數(shù)據(jù)技術(shù)分析讀者對知識點(diǎn)的理解和掌握情況,從而為老師和學(xué)生總結(jié)學(xué)習(xí)重點(diǎn)和難點(diǎn),進(jìn)而推薦更有效的學(xué)習(xí)工具和學(xué)習(xí)內(nèi)容。
我國出版行業(yè)也越來越重視大數(shù)據(jù)的應(yīng)用,當(dāng)當(dāng)網(wǎng)利用每天產(chǎn)生的幾千萬條數(shù)據(jù),重塑創(chuàng)作過程,并為小說改編為影視劇提供大數(shù)據(jù)支撐。初次之外,當(dāng)當(dāng)網(wǎng)通過圖書試讀收集數(shù)據(jù),通過大數(shù)據(jù)分析預(yù)測圖書銷量,為圖書零庫存提供數(shù)據(jù)依據(jù)。
2 出版業(yè)大數(shù)據(jù)來源及類型
我國目前每年出版圖書品種約40多萬種,總印數(shù)80多億冊,2015年我國人均閱讀紙書4.58本,電子書3.26本。如此多的圖書、期刊、論文被10多億人閱讀,在數(shù)字化的閱讀環(huán)境中將產(chǎn)生海量的數(shù)據(jù)。除了閱讀產(chǎn)生的數(shù)據(jù)外,在圖書內(nèi)容生產(chǎn)過程中、營銷過程中、傳播過程中也會產(chǎn)生大量的數(shù)據(jù)??傮w而言,這些數(shù)據(jù)可以分為圖書信息數(shù)據(jù)、作者信息數(shù)據(jù)、圖書營銷數(shù)據(jù)、網(wǎng)絡(luò)評價數(shù)據(jù)、閱讀行為數(shù)據(jù)、讀者畫像數(shù)據(jù)等。
除了與圖書直接相關(guān)的數(shù)據(jù)外,還有更多的與讀者閱讀有關(guān)的數(shù)據(jù),如微信閱讀、微博閱讀、圖片瀏覽、視頻瀏覽等數(shù)據(jù),這些數(shù)據(jù)經(jīng)過大數(shù)據(jù)分析后,對于圖書選題分析、圖書宣傳策劃、圖書營銷等都會產(chǎn)生很大的價值。
3 出版業(yè)中大數(shù)據(jù)的運(yùn)用
在出版行業(yè),庫存是每個出版社都面臨的需要解決問題,2013年我國圖書營收約770億元,而庫存已達(dá)800億元,如此大的庫存量說明在圖書印量方面存在市場估計(jì)的不準(zhǔn)確性。如何科學(xué)有效的評估市場對圖書印量的需求,需要轉(zhuǎn)換思路,加強(qiáng)圖書發(fā)行環(huán)節(jié)的銷售數(shù)量預(yù)測,也可以利用大數(shù)據(jù)加強(qiáng)圖書預(yù)期銷售的評估分析。
圖書在選題策劃之初,編輯根據(jù)以往的經(jīng)驗(yàn)和自己的市場判斷,基本確定了圖書的版式設(shè)計(jì)、紙張選擇、封面設(shè)計(jì)、開本設(shè)計(jì)、市場宣傳設(shè)計(jì)等,但圖書上市之后,往往與圖書選題策劃時候的評估存在一定的偏差。這種情況下可以利用大數(shù)據(jù)技術(shù)對圖書針對的用戶群體做針對性的分析,通過用戶畫像了解用戶購買的動因,從而修正和完善圖書的設(shè)計(jì)與內(nèi)容策劃。
每一個編輯都希望自己的圖書選題能夠與讀者的期望、社會的發(fā)展相契合,從而做出深受讀者喜愛的暢銷書或長銷書。如何準(zhǔn)確的找到特定讀者群體關(guān)注的熱點(diǎn),以及如何判斷這樣的熱點(diǎn)將會延續(xù)多長時間,就成為確定選題的重點(diǎn)。以往大多數(shù)來源于編輯的直覺,以及非系統(tǒng)性的數(shù)據(jù)積累,而通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對不同領(lǐng)域熱點(diǎn)的分析,建立相應(yīng)的分析模型,評估熱度及趨勢,將會有助于編輯實(shí)現(xiàn)熱點(diǎn)選題的判斷和篩選。
在內(nèi)容編纂環(huán)節(jié),可以利用大數(shù)據(jù)技術(shù)評估哪些章節(jié)讀者比較關(guān)注,那些章節(jié)讀者不太關(guān)注,從而對圖書章節(jié)的設(shè)置做出調(diào)整,對讀者比較關(guān)注的章節(jié)進(jìn)行重點(diǎn)編纂,在內(nèi)容呈現(xiàn)形態(tài)上選擇文字為主,還是文字圖片多媒體加上交互為主。
在最終的產(chǎn)品形態(tài)上,以往紙質(zhì)圖書或原版原式電子書大多是最終的產(chǎn)品。隨著交互技術(shù)的發(fā)展,以及AR/VR的研發(fā)與應(yīng)用,出版的產(chǎn)品形態(tài)越來越豐富,也越來越符合閱讀和學(xué)習(xí)的需要。通過大數(shù)據(jù)技術(shù)分析讀者群體的閱讀喜好,如閱讀終端、閱讀環(huán)境、閱讀時長等,可以更加有效的確定產(chǎn)品的形態(tài),最大程度的滿足讀者的期望。
在出版物評價方式上,在業(yè)內(nèi)專家評價、營銷收據(jù)評價之外,還可以利用大數(shù)據(jù)技術(shù)對圖書的市場效應(yīng)、社會效應(yīng)進(jìn)行分析和評估,進(jìn)而做出科學(xué)合理完整的圖書畫像,豐富圖書評價的內(nèi)涵。
在營銷和發(fā)行環(huán)節(jié),利用大數(shù)據(jù)技術(shù)可以做到精準(zhǔn)的營銷。首先通過大數(shù)據(jù)技術(shù)確定用戶畫像,如用戶年齡分布、學(xué)歷分布、地域分布、喜好分布、購買力分布、獲取信息途徑分布等等,依據(jù)用戶畫像確定圖書營銷方案,從而達(dá)到最有效和精準(zhǔn)的營銷。
4 出版業(yè)大數(shù)據(jù)技術(shù)解決方案
出版業(yè)大數(shù)據(jù)技術(shù)解決方案由元數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析與挖掘、業(yè)務(wù)應(yīng)用四部分組成。其技術(shù)架構(gòu)圖如圖1所示。
4.1 元數(shù)據(jù)采集
元數(shù)據(jù)采集主要實(shí)現(xiàn)網(wǎng)絡(luò)信息的采集,如微博、微信數(shù)據(jù)的采集,特定網(wǎng)站欄目和頻道數(shù)據(jù)的采集,特定論壇頻道的數(shù)據(jù)采集,以及電商平臺數(shù)據(jù)的采集等。元數(shù)據(jù)采集一般需要根據(jù)業(yè)務(wù)的應(yīng)用范圍設(shè)定相應(yīng)的數(shù)據(jù)源,并根據(jù)數(shù)據(jù)源制定數(shù)據(jù)采集模板。
4.2 數(shù)據(jù)處理
數(shù)據(jù)處理是對采集到的元數(shù)據(jù)進(jìn)行去重、去噪、結(jié)構(gòu)化等處理。一般情況下,不同的數(shù)據(jù)源存在數(shù)據(jù)重復(fù)或數(shù)據(jù)部分重復(fù),因此需要對數(shù)據(jù)進(jìn)行去重處理,以提高數(shù)據(jù)的有效性。另外還需要對數(shù)據(jù)進(jìn)行去噪處理,有些數(shù)據(jù)是垃圾數(shù)據(jù)或無效數(shù)據(jù),因此需要建立相應(yīng)的算法和模型,對垃圾數(shù)據(jù)進(jìn)行甄別,并進(jìn)行剔除。去重去噪后的數(shù)據(jù)按照數(shù)據(jù)類別進(jìn)行存儲和管理,并按照一定的規(guī)則自動設(shè)定相應(yīng)的數(shù)據(jù)標(biāo)簽。
4.3 數(shù)據(jù)分析與挖掘
對于已經(jīng)清晰過的數(shù)據(jù),運(yùn)用語義分析技術(shù)、情感分析技術(shù)等進(jìn)行數(shù)據(jù)分析和挖掘,并根據(jù)業(yè)務(wù)場景的需要建立數(shù)據(jù)分析和挖掘模型,運(yùn)用不同的算法對數(shù)據(jù)進(jìn)行計(jì)算,并利用可視化技術(shù)對數(shù)據(jù)結(jié)果進(jìn)行圖形化的呈現(xiàn)。
4.4 業(yè)務(wù)應(yīng)用
數(shù)據(jù)分析和挖掘的結(jié)果可以面向不同的人員和角色提供服務(wù),也可以按照選題優(yōu)化、內(nèi)容設(shè)計(jì)、產(chǎn)品形態(tài)設(shè)計(jì)、產(chǎn)品營銷等應(yīng)用場景提供服務(wù)。
5 結(jié) 語
出版業(yè)大數(shù)據(jù)的應(yīng)用目前還處在探索階段,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,出版業(yè)應(yīng)用的需求越來越清晰,以及對出版業(yè)應(yīng)用的宣發(fā)和模型不斷優(yōu)化,大數(shù)據(jù)技術(shù)將會在出版業(yè)發(fā)揮越來越大的作用。
主要參考文獻(xiàn)
[1]毛文思.大數(shù)據(jù)與出版業(yè)[J].出版參考,2014(2).
[2]李兵,漆詠德.大數(shù)據(jù)時代出版企業(yè)的商業(yè)模式構(gòu)建[J].出版發(fā)行研究,2013(8):37-40.
[3]周煜.大數(shù)據(jù)時代出版行業(yè)發(fā)展趨勢分析[J].中國出版,2014(7):19-22.
[4]石佳靚.大數(shù)據(jù):出版產(chǎn)業(yè)的機(jī)遇與實(shí)踐[J].中國出版,2014(11):44-47.endprint