蔣芳
摘要:目前,出版行業(yè)正處在傳統(tǒng)出版與數(shù)字出版融合發(fā)展的階段,大數(shù)據(jù)技術(shù)在出版體系中的應用加速了融合發(fā)展的步伐。通過大數(shù)據(jù)技術(shù),對用戶的消費數(shù)據(jù)、行為數(shù)據(jù)進行分析,可以為出版體系提供支持,在信息分析、選題策劃、市場需求、精準營銷等過程中提供助力,更好地促進我國新時代出版事業(yè)的跨越式發(fā)展。
關(guān)鍵詞:大數(shù)據(jù);出版;數(shù)字出版;傳統(tǒng)出版;融合發(fā)展;知識服務(wù)
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)27-0003-03
Abstract:At present, the publishing industry is in the stage of integration development between traditional publishing and digital publishing. The application of big data technology in the publishing system accelerates the pace of integration development. Through big data technology, the analysis of user's consumption data and behavior data can provide support for the publishing system, and help in the process of information analysis, topic planning, market demand, precision marketing, so as to better promote the leap-forward development of publishing industry in the new era in China.
Key words:big data;publishing;digital publishing;traditional publishing;integration and development;knowledge service
1 大數(shù)據(jù)技術(shù)及其應用流程
1.1核心概念
關(guān)于大數(shù)據(jù),至今尚未出現(xiàn)廣為接受的統(tǒng)一適用定義。學術(shù)界比較認可的是2012年由Gartner機構(gòu)對大數(shù)據(jù)進行的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的數(shù)量大、高增長率和多樣化的信息資產(chǎn)。通常認為大數(shù)據(jù)具有規(guī)模性、多樣性、高速性和價值性的特點。而大數(shù)據(jù)技術(shù),則是指從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。目前,大數(shù)據(jù)技術(shù)應用廣泛,在各行各業(yè)中得到了實際的應用,為行業(yè)的決策提供了科學指導,推動了行業(yè)的發(fā)展。
1.2應用流程
大數(shù)據(jù)的應用流程一般分為數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析和數(shù)據(jù)挖掘四個階段。
1.2.1數(shù)據(jù)采集
隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動互聯(lián)網(wǎng)的普及,人們通過網(wǎng)絡(luò)可以進行發(fā)布、瀏覽、查詢信息等操作,每天網(wǎng)絡(luò)上都會產(chǎn)生海量的數(shù)據(jù)。數(shù)據(jù)采集就是通過合理的方法快速、高效地獲取有效的數(shù)據(jù),并且能夠?qū)?shù)據(jù)進行處理操作。傳感器的出現(xiàn),實現(xiàn)了自動化系統(tǒng)的采集,可以不用人工控制全天候自動地獲取需要的數(shù)據(jù)。對于出版產(chǎn)業(yè)來說,可以采集圖書、讀者、作者等多方面的信息,用以指導出版工作的開展。
1.2.2數(shù)據(jù)預處理
采集的數(shù)據(jù)量龐大,往往種類多樣、結(jié)構(gòu)復雜,不但包括有效的數(shù)據(jù),還會有錯誤的、無效的數(shù)據(jù)。數(shù)據(jù)預處理就需要從這些數(shù)據(jù)中排除錯誤的、無效的數(shù)據(jù),提取有效的數(shù)據(jù)。數(shù)據(jù)預處理,要盡可能做好數(shù)據(jù)清洗工作,它將會直接影響到挖掘到的有效信息。在出版工作中,同樣需要重視數(shù)據(jù)預處理,比如,對于獲取的作者信息,哪些特征數(shù)據(jù)是需要保留的,并對數(shù)據(jù)進行分類處理。
1.2.3數(shù)據(jù)分析
單純的大量數(shù)據(jù)并沒有實際的意義,只有通過數(shù)據(jù)分析,將數(shù)據(jù)轉(zhuǎn)化成有效的信息,才能夠體現(xiàn)數(shù)據(jù)的價值。大數(shù)據(jù)的特點之一就是數(shù)據(jù)量大,并且數(shù)據(jù)是不斷更新的,隨著時間的推移,數(shù)據(jù)量不斷增加變化。借助計算機技術(shù),對大數(shù)據(jù)進行分析,就需要找到數(shù)據(jù)之間的相關(guān)性,發(fā)現(xiàn)事物發(fā)生的規(guī)律,來指導人們的實踐。在出版體系中,數(shù)據(jù)分析就是通過出版方面的數(shù)據(jù),找到隱藏在數(shù)據(jù)后面的市場空白或市場需求,指導選題策劃及市場營銷工作。
1.2.4數(shù)據(jù)挖掘
數(shù)據(jù)挖掘主要是指通過設(shè)計的各種算法,進行高級別的數(shù)據(jù)分析。數(shù)據(jù)挖掘一般涉及的數(shù)據(jù)量和計算量都非常大,設(shè)計的算法也很復雜。在出版體系中,數(shù)據(jù)挖掘,需要打通作者、讀者、編輯之間的信息屏障,找到各自的需求點并進行滿足,從而更好地服務(wù)出版產(chǎn)業(yè)。
2 出版體系中的大數(shù)據(jù)來源
出版體系中涉及的數(shù)據(jù)很多,有來自出版內(nèi)部的數(shù)據(jù),也有來自出版外部的數(shù)據(jù)。在整個出版流程中,如選題策劃、內(nèi)容編校、印刷發(fā)行、售后服務(wù)等各個環(huán)節(jié),都會產(chǎn)生大量的數(shù)據(jù),其主要來源于內(nèi)容、讀者、平臺三個方面。出版外部的數(shù)據(jù),有來自行業(yè)數(shù)據(jù)機構(gòu)的數(shù)據(jù),還有來自政府、企業(yè)、個人的調(diào)研數(shù)據(jù)。這里主要從內(nèi)容、讀者、平臺三個方面闡述。
2.1 內(nèi)容
在“內(nèi)容為王”的時代,無論是對于傳統(tǒng)出版,還是數(shù)字出版,內(nèi)容都是出版公司的核心競爭力。出版是將作品編輯加工后,經(jīng)過復制向公眾發(fā)行,這之中本身就會產(chǎn)生大量的數(shù)據(jù)。人類從印刷術(shù)發(fā)明以來,經(jīng)歷幾千年積累下來的各種圖書、期刊、報紙等,涵蓋科學、人文、藝術(shù)等各個方面,是大數(shù)據(jù)的重要來源。目前,我國每年出版的圖書超過30萬種,并且數(shù)量每年還在遞增,這些都是人類優(yōu)秀科技文化成果的集結(jié),包含豐富的數(shù)據(jù)信息。