梁瑩
目前大數(shù)據(jù)技術(shù)還處于起步階段,無(wú)論是軟件技術(shù)、硬件技術(shù)都還不完善,但是大數(shù)據(jù)分析的前景廣闊。因此,出版企業(yè)必須仔細(xì)分析、認(rèn)真應(yīng)對(duì),找準(zhǔn)大數(shù)據(jù)應(yīng)用的切入點(diǎn),從而實(shí)現(xiàn)大數(shù)據(jù)分析對(duì)出版活動(dòng)的指導(dǎo)作用。
有人說(shuō)“得數(shù)據(jù)者得天下”,海量的數(shù)據(jù)充斥在社會(huì)生活的方方面面。近年來(lái),數(shù)據(jù)量呈現(xiàn)一種爆發(fā)式增長(zhǎng)的趨勢(shì)。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)庫(kù)已無(wú)法應(yīng)付龐大的信息量,云存儲(chǔ)、云計(jì)算的出現(xiàn)使得大數(shù)據(jù)分析變成一種可能。在大數(shù)據(jù)時(shí)代,出版業(yè)只有跟緊時(shí)代的步伐,認(rèn)真理解大數(shù)據(jù)、采集大數(shù)據(jù)、分析大數(shù)據(jù),才能使大數(shù)據(jù)為我所用。
一、大數(shù)據(jù)分析的定義
大數(shù)據(jù)分析(Big Data Analytics,簡(jiǎn)稱BDA)包括對(duì)大數(shù)據(jù)的采集、恢復(fù)、存儲(chǔ)、管理、挖掘等技術(shù),然后通過(guò)分發(fā)、知識(shí)共享等手段最終實(shí)現(xiàn)對(duì)決策的支持,其實(shí)就是通過(guò)定量分析等方法從海量數(shù)據(jù)中提取出價(jià)值,來(lái)揭示一種規(guī)律或趨勢(shì)。
大數(shù)據(jù)分析包括幾個(gè)方面:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析能力、語(yǔ)義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等,其中可視化分析結(jié)果最為直觀。
二、大數(shù)據(jù)分析在出版中的應(yīng)用
1.出版業(yè)中有哪些大數(shù)據(jù)可以利用
首先我們要明白出版中涉及哪些大數(shù)據(jù),可以進(jìn)行怎樣的應(yīng)用。出版單位的ERP等數(shù)據(jù)庫(kù)是結(jié)構(gòu)化數(shù)據(jù)庫(kù),它們會(huì)提供各種各樣的企業(yè)有效數(shù)據(jù),雖然它們?cè)谡麄€(gè)大數(shù)據(jù)家族中所占的比例比較小。互聯(lián)網(wǎng)上產(chǎn)生的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),比如日志、圖片等,這些數(shù)據(jù)多而雜,但是加以分析卻可以對(duì)出版社在策劃、營(yíng)銷、客服等方面的決策提供有力的指導(dǎo)。
美國(guó)的創(chuàng)業(yè)公司Hiptype開(kāi)發(fā)了一套電子書(shū)閱讀分析工具,能夠提供與電子書(shū)有關(guān)的豐富數(shù)據(jù)。它不僅能統(tǒng)計(jì)電子書(shū)的試讀和購(gòu)買次數(shù),還能繪制出“讀者圖譜”,包括用戶的年齡、收入和地理位置等。此外,它還能告訴出版商讀者在看完免費(fèi)章節(jié)后是否進(jìn)行購(gòu)買,有多少讀者看完了整本書(shū),以及讀者平均看了多少頁(yè),讀者最喜歡從哪個(gè)章節(jié)開(kāi)始看,又在哪個(gè)章節(jié)半途而廢,等等。
2.大數(shù)據(jù)在出版中應(yīng)用的幾個(gè)方面
通過(guò)采集、分析、解讀大數(shù)據(jù),為讀者提供分眾化服務(wù)和體驗(yàn)將成為新時(shí)代出版業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。由于大數(shù)據(jù)分析具有及時(shí)、迅速、分析高度智能等特點(diǎn),因此我們勢(shì)必要厘清大數(shù)據(jù)分析如何應(yīng)用在出版的各個(gè)環(huán)節(jié)。
(1)選題策劃階段
我們做選題策劃,很多時(shí)候都是聽(tīng)取一些發(fā)行人員的建議,或者直接發(fā)放調(diào)查問(wèn)卷,根據(jù)問(wèn)卷樣本來(lái)做決策,但是這樣常常會(huì)產(chǎn)生偏差。那么如果對(duì)了解或以前使用過(guò)相關(guān)產(chǎn)品的客戶數(shù)據(jù)進(jìn)行分析,就可以實(shí)現(xiàn)精準(zhǔn)策劃。比如對(duì)一些社交網(wǎng)站平臺(tái)(如微博、微信)和電商平臺(tái)(如當(dāng)當(dāng)網(wǎng))提供的用戶大數(shù)據(jù)進(jìn)行分析,如用戶的性別、年齡、職業(yè)、愛(ài)好、地理位置等個(gè)人信息以及用戶的瀏覽記錄、收藏記錄、購(gòu)買記錄、評(píng)價(jià)記錄等記錄信息,從這些信息中可以篩選一些關(guān)注度高的話題作為備選選題,篩選出較為活躍的有話語(yǔ)權(quán)的人物作為作者,通過(guò)分析用戶的個(gè)人信息確定目標(biāo)讀者,從而實(shí)現(xiàn)精準(zhǔn)策劃。
如盛大文學(xué)網(wǎng)站運(yùn)作就運(yùn)用了數(shù)據(jù)分析的方法,網(wǎng)站根據(jù)小說(shuō)作者的知名度、小說(shuō)的點(diǎn)擊率、讀者對(duì)小說(shuō)的反饋來(lái)評(píng)定這本小說(shuō)的暢銷程度,結(jié)合市場(chǎng)上已出版的此類型小說(shuō)的銷售數(shù)據(jù)來(lái)決定是否要將這本小說(shuō)出版發(fā)行,或做成紙質(zhì)版、電子版等,比如桐華的《步步驚心》就是網(wǎng)絡(luò)小說(shuō)暢銷后,再推出紙質(zhì)版。
再比如美國(guó)學(xué)樂(lè)出版社的全球暢銷書(shū)《39條線索》,這一小說(shuō)的選題是建立在其在線游戲基礎(chǔ)上的。出版社通過(guò)建立在線游戲追蹤最吸引人的線索和角色,以此為構(gòu)思基礎(chǔ)創(chuàng)作了《39條線索》系列小說(shuō)。
(2) 編輯出版階段
很多出版社都有ERP系統(tǒng)(即Enterprise Resource Planning,企業(yè)資源計(jì)劃系統(tǒng)),ERP系統(tǒng)應(yīng)用在出版中,一般含有編輯管理系統(tǒng)、印制管理系統(tǒng)、發(fā)行管理系統(tǒng)、財(cái)務(wù)管理系統(tǒng)等。在這些系統(tǒng)里會(huì)有一些生產(chǎn)記錄、財(cái)務(wù)記錄、管理記錄以及一些資源的匯總統(tǒng)計(jì)。這個(gè)數(shù)據(jù)庫(kù)對(duì)于實(shí)時(shí)監(jiān)控圖書(shū)的稿酬、銷售、印次、印數(shù)和庫(kù)存等提供了精準(zhǔn)的數(shù)據(jù),這些數(shù)據(jù)分析有助于編輯對(duì)圖書(shū)銷售狀況的掌握和運(yùn)營(yíng)成本的管理,以此及時(shí)調(diào)整策略,增加收入。
鳳凰出版?zhèn)髅郊瘓F(tuán)的“零距離編校系統(tǒng)”是一個(gè)網(wǎng)上在線編輯平臺(tái),省去了排版公司這一環(huán)節(jié),直接由印刷廠和編輯聯(lián)系,進(jìn)行稿件的版式制作等印前業(yè)務(wù)。 在這個(gè)平臺(tái)上會(huì)產(chǎn)生諸如編輯對(duì)稿件的修改記錄、編輯與專家的溝通記錄、封面的設(shè)計(jì)修改記錄等一系列數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析,可以得出哪位作者的文稿錯(cuò)誤率較高,哪些錯(cuò)誤出現(xiàn)的頻率高,編輯對(duì)哪些知識(shí)區(qū)域有盲點(diǎn)等,這些數(shù)據(jù)分析結(jié)果會(huì)給編輯提供最好的解決建議,從而使編輯可以有針對(duì)性地應(yīng)對(duì)。
(3)營(yíng)銷階段
在營(yíng)銷階段,可以利用大數(shù)據(jù)分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,根據(jù)大數(shù)據(jù)分析的結(jié)果預(yù)測(cè)群體行為和個(gè)體偏好。比如在選題策劃階段提到的對(duì)目標(biāo)讀者群的定位,在營(yíng)銷階段,就可以針對(duì)這些目標(biāo)讀者投放廣告和試讀產(chǎn)品,從而增加銷售的可能性。
出版社的官網(wǎng)如果加以利用可以收集到很多數(shù)據(jù),比如用戶注冊(cè)信息、用戶行為記錄、用戶需求信息等。除官網(wǎng)外,出版社也會(huì)和一些電商平臺(tái)合作,比如當(dāng)當(dāng)網(wǎng)、淘寶網(wǎng)等,電商可以為出版社提供數(shù)據(jù)分析結(jié)果,諸如目標(biāo)用戶的特征信息及構(gòu)成等,有利于出版社了解產(chǎn)品在市場(chǎng)上的認(rèn)知程度及客戶構(gòu)成。比如當(dāng)當(dāng)網(wǎng)會(huì)根據(jù)用戶瀏覽、購(gòu)買偏好等向用戶推薦相關(guān)產(chǎn)品;淘寶網(wǎng)也有“淘寶指數(shù)”服務(wù),用可視化圖表的方式告訴客戶其某具體時(shí)間段內(nèi)的消費(fèi)行為、消費(fèi)偏好以及何時(shí)達(dá)到消費(fèi)的最高峰等。淘寶還會(huì)根據(jù)客戶的時(shí)間偏好、消費(fèi)偏好等在合適的時(shí)間為其推薦合適的產(chǎn)品。
在一些社交網(wǎng)絡(luò)平臺(tái)上,諸如微博,出版單位會(huì)針對(duì)一些目標(biāo)客戶投放圖書(shū)的節(jié)選、音頻、視頻文件,或舉行針對(duì)性的促銷活動(dòng),既可以吸引讀者消費(fèi),提高銷售收入,也可以為顧客提供更優(yōu)越的產(chǎn)品和購(gòu)物體驗(yàn),增加客戶的忠實(shí)度。如磨鐵圖書(shū)就會(huì)定期在微博上向其目標(biāo)客戶投送一些新書(shū)預(yù)告,甚至讓讀者參與到封面設(shè)計(jì)中來(lái),增強(qiáng)與讀者的互動(dòng)。
大數(shù)據(jù)分析還可以根據(jù)讀者的差異提供個(gè)性化定制服務(wù)。個(gè)性化定制需要有強(qiáng)大的數(shù)據(jù)作為基礎(chǔ),這就需要個(gè)性化定制服務(wù)平臺(tái)能夠與各種終端、社交網(wǎng)絡(luò)、電商平臺(tái)和大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)無(wú)縫對(duì)接,從而能夠在這一鏈條上實(shí)現(xiàn)對(duì)讀者消費(fèi)行為、體驗(yàn)和需求的實(shí)時(shí)了解和跟蹤。比如Coliloquy在“Kindle主動(dòng)型內(nèi)容開(kāi)發(fā)者計(jì)劃”的支持下所開(kāi)展的個(gè)性化定制服務(wù)。Coliloquy出版的電子書(shū)允許讀者根據(jù)自己的喜好來(lái)設(shè)計(jì)人物角色和情節(jié)線索,這里的作家可以為同一個(gè)場(chǎng)景寫(xiě)多個(gè)視角,或給每本書(shū)寫(xiě)作多重情節(jié),他們也可以讓自己的讀者投票決定故事的走向和結(jié)果。
(4)售后管理階段
大數(shù)據(jù)分析還可以幫助出版單位進(jìn)行售后管理,比如用戶滿意度調(diào)查研究等,對(duì)用戶的購(gòu)買記錄、評(píng)價(jià)記錄進(jìn)行分析,可以為售后服務(wù)提供決策,及時(shí)改進(jìn)策略,增加客戶黏性。而且通過(guò)對(duì)客戶的大數(shù)據(jù)進(jìn)行分析,可以分析出圖書(shū)銷售規(guī)律,等等。通過(guò)售后管理還可以為選題策劃提供幫助,通過(guò)銷售數(shù)據(jù)分析何種選題、何種品類的市場(chǎng)份額更大,對(duì)于出版商調(diào)整出版品種結(jié)構(gòu)具有指導(dǎo)意義。
北京開(kāi)卷信息技術(shù)有限公司已與多家出版社合作,定期向出版社提供開(kāi)卷數(shù)據(jù)。比如提供各條產(chǎn)品線的數(shù)據(jù)監(jiān)測(cè)及市場(chǎng)預(yù)測(cè),還會(huì)根據(jù)數(shù)據(jù)分析目前我國(guó)圖書(shū)市場(chǎng)的整體環(huán)境、圖書(shū)市場(chǎng)的暢銷趨向、圖書(shū)銷售的一般規(guī)律,并針對(duì)某出版社的主要產(chǎn)品線分析其圖書(shū)市場(chǎng)的競(jìng)爭(zhēng)格局等。
三、大數(shù)據(jù)分析在出版中應(yīng)用需注意的問(wèn)題
1.傳統(tǒng)出版還未成功轉(zhuǎn)型為數(shù)字出版
真正實(shí)現(xiàn)對(duì)大數(shù)據(jù)分析的應(yīng)用必須建立在完全數(shù)字出版的基礎(chǔ)上,但是目前很多傳統(tǒng)出版單位還沒(méi)有將數(shù)字出版進(jìn)行到底,既沒(méi)有借助技術(shù)公司的力量來(lái)發(fā)展出版,自己也沒(méi)有對(duì)數(shù)字出版進(jìn)行有效的投入。維克托在《大數(shù)據(jù)時(shí)代》一書(shū)中也提到了出版社數(shù)字化的問(wèn)題:“出版社沒(méi)有看到數(shù)據(jù)化的需求,也意識(shí)不到書(shū)籍的數(shù)據(jù)化的潛力?!?/p>
2.數(shù)據(jù)的有效性和真實(shí)性怎樣實(shí)現(xiàn)
大數(shù)據(jù)雖然擁有的數(shù)據(jù)比較多,但是數(shù)據(jù)也很雜亂,數(shù)據(jù)中會(huì)摻雜進(jìn)去一些虛假信息。這就很有可能會(huì)帶來(lái)規(guī)律的喪失,增加大數(shù)據(jù)分析的難度,或者得出錯(cuò)誤的結(jié)論。大數(shù)據(jù)分析是一個(gè)工具,可以幫助我們分析和預(yù)測(cè),但是我們不能過(guò)分依賴大數(shù)據(jù),因?yàn)椴⒉皇撬械臄?shù)據(jù)都是可靠的。因此真正做出解決方案還需要在數(shù)據(jù)分析的基礎(chǔ)上綜合考量完成。
3.分析哪些方面、如何分析,還需要論證
大數(shù)據(jù)分析過(guò)程中需要對(duì)數(shù)據(jù)從多方面考慮,比如數(shù)據(jù)是否容易獲得,能獲得的比例,有很多公共數(shù)據(jù)并非都能獲得;是否有明確的數(shù)據(jù)分析思路,分析哪些層面、哪些因素才是最主要的;進(jìn)行數(shù)據(jù)分析的模型是否科學(xué),提取的分析屬性是否到位,如果沒(méi)有提煉到數(shù)據(jù)的關(guān)鍵屬性,精準(zhǔn)分析也就無(wú)從談起;基于數(shù)據(jù)分析所得出的結(jié)論是否獨(dú)到并且確實(shí)有用,只有確實(shí)有用的結(jié)論才能切實(shí)指導(dǎo)決策,否則都是空談。以上這些方面一環(huán)扣一環(huán),任何一環(huán)出錯(cuò)得出的結(jié)論就可能是錯(cuò)的,從而影響最后的決策。
四、大數(shù)據(jù)分析在出版中的展望
數(shù)字出版的領(lǐng)頭羊——?jiǎng)?lì)得·愛(ài)思唯爾集團(tuán),將開(kāi)發(fā)數(shù)字決策工具作為其未來(lái)十年轉(zhuǎn)型新方向,其開(kāi)發(fā)的大數(shù)據(jù)技術(shù)HPCC(高性能計(jì)算集成)能夠?qū)Υ蠹s3000萬(wàn)篇論文和3億條引用數(shù)據(jù)進(jìn)行分析,并在瞬間得出分析結(jié)果。該項(xiàng)大數(shù)據(jù)分析技術(shù)整合了科研論文、引用信息、專利和其他的獨(dú)特內(nèi)容集合,對(duì)科研機(jī)構(gòu)的績(jī)效進(jìn)行分析,并為學(xué)術(shù)機(jī)構(gòu)的領(lǐng)導(dǎo)人提供決策服務(wù)。勵(lì)得·愛(ài)思唯爾集團(tuán)首席戰(zhàn)略官白可珊認(rèn)為:“未來(lái)專業(yè)出版的方向就是整合我們的優(yōu)質(zhì)內(nèi)容,將這些內(nèi)容數(shù)字化,然后通過(guò)技術(shù)進(jìn)行分析,為專業(yè)人士提供解決方案和重要見(jiàn)解?!?誠(chéng)然,勵(lì)得·愛(ài)思唯爾集團(tuán)的業(yè)務(wù)已經(jīng)成功地從以紙質(zhì)出版為主轉(zhuǎn)型為以數(shù)字出版為主,其不僅擁有出版的核心內(nèi)容,也擁有絕大多數(shù)出版社所缺少的技術(shù)。
大數(shù)據(jù)分析既給我們帶來(lái)了挑戰(zhàn),也帶來(lái)了希望,盡管多數(shù)出版商與科技公司比起來(lái)“技”不如人,但是出版商作為內(nèi)容把關(guān)人這一地位依然穩(wěn)固。通過(guò)數(shù)據(jù)分析,我們有可能發(fā)現(xiàn)新的規(guī)律、創(chuàng)造新的價(jià)值。一般來(lái)說(shuō),把決策建立在數(shù)據(jù)分析的基礎(chǔ)上,通過(guò)量化分析而不是僅憑直覺(jué)和經(jīng)驗(yàn),將使決策更為科學(xué)。當(dāng)然,大數(shù)據(jù)自身還存在信息安全性、隱私暴露等問(wèn)題,大數(shù)據(jù)分析高度依賴于用戶的規(guī)模和技術(shù),這對(duì)于出版企業(yè)來(lái)說(shuō),都是相對(duì)欠缺的。由于技術(shù)的短板,國(guó)內(nèi)的出版企業(yè)要憑自身實(shí)力獲得完整的大數(shù)據(jù)目前來(lái)說(shuō)還存在一些困難。大數(shù)據(jù)還需要一個(gè)高效的存儲(chǔ)平臺(tái)來(lái)實(shí)現(xiàn)數(shù)據(jù)的可視化、預(yù)測(cè)分析等,而出版社目前主要是依賴互聯(lián)網(wǎng)技術(shù)企業(yè)提供數(shù)據(jù)分析的平臺(tái),很難建立自己的平臺(tái)。隨著時(shí)間的推移,對(duì)爆炸型增長(zhǎng)的數(shù)據(jù)量想要實(shí)現(xiàn)精準(zhǔn)的分析,還需要硬件設(shè)施的不斷更新和分析技術(shù)的更加成熟,沒(méi)有進(jìn)行有效分析的數(shù)據(jù)可以說(shuō)是無(wú)序的,無(wú)用的。目前大數(shù)據(jù)技術(shù)還處于起步階段,無(wú)論是軟件技術(shù)、硬件技術(shù)都還不完善,但是大數(shù)據(jù)分析的未來(lái)前景廣闊。因此,出版企業(yè)要想利用好大數(shù)據(jù),就必須仔細(xì)分析、認(rèn)真應(yīng)對(duì),找準(zhǔn)大數(shù)據(jù)應(yīng)用的切入點(diǎn),從而實(shí)現(xiàn)大數(shù)據(jù)分析對(duì)出版活動(dòng)的指導(dǎo)作用。
[1]維克托·邁爾-舍恩伯格, 肯尼思·庫(kù)克.大數(shù)據(jù)時(shí)代[M]. 浙江:浙江人民出版社, 2013:5.
[2] 張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報(bào)領(lǐng)域的應(yīng)用[J]. 中國(guó)電子科學(xué)研究院學(xué)報(bào),2013(2):18-22.
[3] 彥飛. Hiptype:讓出版商更懂讀者的大數(shù)據(jù)分析工具[EB/OL]. http://tech.sina.com.cn/i/csj/2012-08-07/10177476268.shtml, 2012-08-07/2014-06-09 .
[4]秦雯.大數(shù)據(jù)提升數(shù)字出版運(yùn)營(yíng)效率[EB/OL]. http://cbfx.chuban.cc/jt/rdjj/2012wznh/zlt/201212/t20121208_133637.html, 2012-12-08/2014-06-09.
[5] 劉鯤翔,杜麗娟,丁雪.大數(shù)據(jù)技術(shù)在數(shù)字出版中的應(yīng)用前景展望[J]. 出版發(fā)行研究, 2013(4):9-11.
[6] 繁星.“大數(shù)據(jù)”思維影響圖書(shū)出版[N]. 社科新書(shū)目,2014-03-31.
[7] 孫玉玲.大數(shù)據(jù)時(shí)代數(shù)字出版產(chǎn)業(yè)的發(fā)展趨勢(shì)[J]. 出版發(fā)行研究, 2013(4):5-8.
[8] Coliloquy:讀者和作者互動(dòng) 換個(gè)方式講故事[EB/OL]. http://www.techweb.com.cn/news/2012-01-19/1143543.shtml, 2012-01-19/2014-06-09.
[9] 白可珊. 愛(ài)思唯爾未來(lái)十年轉(zhuǎn)型新方向 開(kāi)發(fā)數(shù)字決策工具[N]. 中國(guó)出版?zhèn)髅缴虉?bào), 2014-09-01.
(作者單位:江蘇鳳凰教育出版社, 南京大學(xué)信息管理學(xué)院)