陳積銀 馮嬌
【內容摘要】當下,數據新聞的選題范圍越來越廣,技術支撐越來越多樣,學科知識越來越交叉,交互性越來越強,傳播平臺越來越重視移動端的呈現,用戶或者受眾的口味越來越挑剔,傳播的范圍越來越廣。本文以中國第三屆數據新聞大賽的入圍作品為研究對象,從議題設置、數據質量、可視化呈現、技術運用四個方面進行統(tǒng)計分析,探析目前中國數據新聞實踐存在的不足之處,并對未來發(fā)展應注意的問題等提出建議。
【關鍵詞】數據新聞大賽;統(tǒng)計分析;作品
數據新聞即數據驅動新聞,是“基于數據的抓取、挖掘、統(tǒng)計、分析和可視化呈現的新型新聞報道方式”。目前,數據新聞在全球掀起一股浪潮,影響著新聞界的未來發(fā)展方向。中國高校和媒體對于數據新聞的研究和實踐起步較晚,但近年來國內數據新聞發(fā)展如火如荼,學界和業(yè)界都對此作出了有益的探索。學界對數據新聞的相關研究近兩年來呈快速增長趨勢,研究的深度和廣度都大幅提升。此外,數據新聞教育也逐漸得到了國內高校的重視,不少高校都相繼開設了數據新聞相關課程。在數據新聞學術研究熱度高漲的同時,業(yè)界實踐也取得了蓬勃的發(fā)展。主要包括網易的“數讀”、新浪的“圖解新聞”、搜狐的“數字之道”、騰訊的“數據控”以及新媒體平臺上財新網的“數字說”、新華網的“數據新聞”、澎湃的“美數課”和“百度”的“數據新聞實踐”等。
為推動中國高校新聞傳播教育和業(yè)界新聞業(yè)態(tài)的數字化轉型,首屆中國數據新聞大賽暨數據新聞教育研討會和第二屆中國數據新聞大賽暨騰飛新絲路傳媒高端論壇分別于2015年6月在西北師范大學和2016年5月在北京師范大學舉辦,大賽獲得了國內外的廣泛好評。在前兩屆數據新聞大賽圓滿落幕的基礎上,第三屆中國數據新聞大賽于2018年6月29日至30日在西安交通大學新聞與新媒體學院舉辦。本次大賽吸引了業(yè)界學界300多個團隊、1500多人參與報名,共收到數據新聞作品360余件,網絡投票點擊量超過110萬人次。除了在高校引起廣泛關注外,本屆數據新聞大賽也得到了業(yè)界的多方支持,大賽開辦的消息發(fā)出以來,吸引了人民輿情數據中心、北京電視臺、澎湃新聞、第一財經、《深圳晚報》、川報集團大數據工作室等機構的積極參與。
本文擬對本次數據新聞大賽的50件入圍作品進行分析,以展現當前數據新聞在議題分布、數據來源、數據處理和可視化等方面所呈現出的特點。
一、選題設置:由表及里、以小見大,更為關注當代人的生存現狀
對第三屆數據新聞大賽入圍決賽的50件作品的主題進行分類,分別為經濟、文化、社會、政治、教育和其他。在本屆大賽不限定主題的情況下,入圍的50件作品中,社會新聞占比高達38%,是本屆大賽作品關注最多的領域;其次是經濟新聞,占比20%;政治新聞占比16%;文化新聞占比14%;教育新聞占比較低,僅占2%;其他類型主題占10%(詳見圖1)。
本屆入圍作品廣泛關注了人們的健康、就業(yè)、社會保障、交通出行等方方面面的問題,由表及里、見微知著。如《北京養(yǎng)老:問題與改革并行》《良禽擇木,人才擇城:最適合你發(fā)展的二線城市》《在擴大的那一線希望》《誕生有罪,結婚無罪?》《何以安居》《董小姐的故事》《中小學生書包越減越重》《失焦—中國視障群體的生活現狀報告》等。都在密切關注當代人的生活現狀,關注社會發(fā)展存在的問題,同時也充滿了深刻的人文關懷。就具體的案例而言,香港城市大學的作品《單身有罪,結婚無罪?》便是從第四次單身浪潮入手,分析當下已然成為一種社會問題的單身現象,分析導致越來越多年輕人選擇這種生活方式的深層原因,重點剖析了父母與子女在婚姻問題上的分歧,揭示了中國當代青年日益沉重的“逼婚”壓力。
二、數據來源與數據處理工具:多元化與豐富性增強
數據新聞需要通過數據關系揭示新聞背景及深層次原因,通過數據關系梳理事件的相關性以及建立規(guī)律和預測模型。因此,數據質量至關重要。
(一)數據來源:數據的運用多元化,非政府、企業(yè)類來源增加
本屆數據新聞大賽入圍作品的數據來源主要分為五類:一是媒體;二是政府;三是非政府組織、企業(yè);四是研究機構、院校、學者;五是自行搜集(如通過實地調查、采訪、互聯網平臺及其他渠道直接收集第一手信息)。
在本屆大賽入圍的50件作品中,使用的數據來源呈現多元化特點,有三個或三個以上類別數據來源的作品占30%,兩個類別數據來源的作品最多,占40%,只有一類數據來源的作品占30%。可見,采取多種類型數據來源的作品占據絕大部分。在數據來源類別分布方面,在入圍的50件作品中,使用了非政府組織、企業(yè)類別來源的作品達36件,占比72%,成為本屆入圍作品使用率最高的數據來源類別;其次是政府類來源,占比46%;媒體來源占比26%;研究機構、院校、學者類占比24%;自行搜集類占比14%。本屆作品非政府組織、企業(yè)類數據來源使用率較高的原因與選題類型密切相關,本屆比賽社會、經濟類選題占比最高,政治類僅占16%。同時也與近年來各種商業(yè)數據庫的勃興有很大關系,如沃德社會氣象臺網絡情報實時監(jiān)測與智能分析大數據平臺等,這些數據庫擁有海量的各類數據源,為數據新聞實踐提供了極大便利。
從具體作品來看,浙江大學城市學院作品《希望之聲—AI語音技術創(chuàng)造新未來》利用了國家統(tǒng)計局、環(huán)境保護部、浙江省衛(wèi)生計生委、浙江省疾控中心、國家衛(wèi)計委等多個數據來源,類型上以政府來源為主;DT財經的作品《重新認識地鐵上的上?!穭t主要以企業(yè)數據為主,使用了百度地圖、美團點評、e成、ofo小黃車、中原地產等數據來源;西北師范大學作品《電子時代下,實體書店何去何從》使用了鏑數數據庫、沃民高科大數據平臺等商業(yè)數據庫;華南理工大學作品《單身有罪,結婚無罪》則采用數據抓取工具對豆瓣、知乎、百度貼吧相關數據進行人工抓取。入圍作品中無論是數據類型還是獲取手段都呈現出多樣化的特點,多樣化的數據來源能使數據新聞的類型和內容更豐富,但在選擇來源時須更謹慎,保證所選擇數據的真實性和準確性。
(二)數據處理:工具種類更為豐富,新聞業(yè)務更加精細
數據新聞要求在大量數據中通過統(tǒng)計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識。本次大賽入圍作品共出現21種數據分析工具,本文將出現過兩次或兩次以上的工具單獨列出計算比率,僅出現過一次的工具統(tǒng)一歸入其他類別(如圖2所示)。入圍作品中使用頻率最高的數據分析工具是Excel,使用Excel進行數據分析的入圍作品占總數的86%,其次是Python,占比23%,SPSS占比18%,ableau和SQL分別占比14%,R語言、Echart和openr efine各占比9%,其他13種僅出現過一次的工具占比59%。值得一提的是,雖然各種技術工具已經十分普及,但是手動進行數據分析作為一種輔助方式,依然在多個作品中發(fā)揮作用,占據比例45%。從對數據分析工具的統(tǒng)計中可以看出,數據新聞制作者在克服技術難關上作出了積極的努力。
體現在具體的作品中,香港中文大學的“KFC and McDonald’s Social Media Analysis”中,先使用Python爬取推特上麥當勞與肯德基的推文內容、發(fā)帖時間、推文點贊量以及推文轉發(fā)量,再使用Knime爬取臉書上麥當勞與肯德基的貼文內容、發(fā)帖時間、帖文點贊量以及帖文分享量,然后使用Excel對所獲取的數據進行篩選和分析。澎湃新聞的作品《我的汶川記憶》中,使用SQL對數據庫中的UGC內容進行包括排序、聚類、字段匹配、搜索等數據挖掘,在借助Python的同時,利用jieba分詞進行文本分析。
三、數據的可視化呈現:技術更加成熟,呈現效果更注重閱讀體驗
與傳統(tǒng)新聞相比,數據新聞的可視化通過對海量復雜數據、地理或時間等相關信息以兼具形象化與趣味性的信息圖表的方式展現給用戶,化抽象為具象,與傳統(tǒng)的新聞報道相比更直觀生動,更具易讀性,給受眾提供了更好的閱讀體驗。在具體的新聞報道中,數據可視化工具可以起到提示信息要點、解析時間進程、解釋各類關系、呈現分布狀態(tài)等作用。
(一)可視化設計:呈現形式多元化、交互性
與傳統(tǒng)新聞相比,大數據時代的數據新聞越來越注重版面設計的交互性以及創(chuàng)意的表現。其接收的信息和視角可以由受眾自行定義,將受眾帶入新聞中,受眾的自主性和個體性得到實現和尊重。同時也提高了新聞報道的精度,盡可能為受眾呈現龐大的社會事件全貌。由圖3可看出,本屆入圍的50件作品中,運用靜態(tài)圖的作品所占比例最大,有40%之多,運用動態(tài)交互式信息圖的作品次之,占32%,二者同時使用的作品則占28%。
體現在具體的作品中,中國傳媒大學的《互聯網江湖,誰主沉???》運用D3技術制作出散點圖和數據轉換的動畫效果,使用ScrollMagic技術制作網頁滑動交互效果,從多個維度展現了近兩年來阿里巴巴和騰訊的投資、收并購情況,以及其在互聯網領域的壟斷現象。使得數據呈現形象、流暢,給人眼前一亮的感覺,極具可視性。不論是靜態(tài)圖,還是動態(tài)交互式信息圖,只要符合所用數據自身的規(guī)律特征,能夠清晰地刻畫出數據間隱藏的規(guī)律,揭示其背后的意義,呈現出完整而有價值的數據新聞作品,就是成功的數據可視化設計。
(二)可視化工具:工具種類越來越豐富,可視化處理注重感官體驗
本屆數據新聞大賽入圍作品50件,在各個作品所使用的可視化工具中,共出現47種工具,本文將出現兩次及以上的工具進行單獨統(tǒng)計計算,出現一次的工具統(tǒng)一歸入其他類別。
從圖4可以看出,在出現的47種可視化工具中,Photoshop的使用率最高,達到43%,50件入圍作品有22件采用了Photoshop作為實現數據可視化的工具,Echarts緊隨其后,占比高達30%,Tableau占比19%,鏑數和EXCEL分別占比15%,Html占比13%,Wix、Adobe Illustrator、Pr分別占11%,Adobe Effect、CSS分別占9%,JavaScript、Flash、D3分別占6%,Piktochart、Tagxedo、PPT、地圖慧、百度圖說、BDP、Dreamweaver、Jquery、tagxedo、RAW、Visual Studio Code分別占4%,其他僅出現過一次的工具合計占比47%??梢?,本屆大賽用于可視化的工具種類非常豐富,并且大部分作品都使用了兩種以上的可視化工具。
表現在具體的作品中,西安交通大學的《中小學生書包越減越重》,運用H5技術作為數據可視化工具,使得作品在移動端能夠得到更好地呈現,頁面內容以動態(tài)形式次第出現,極具動感,背景音樂的加入給讀者以更豐富的感官體驗。
四、總結與反思
大數據時代正在改變著我們的生活方式和生產方式,新聞業(yè)也受到了影響,學界參與數據新聞大賽的積極性讓數據新聞的發(fā)展有了一定的后備力量,同時也反映了各高校對數據新聞持續(xù)增高的關注度,業(yè)界也通過改革新聞生產流程與機制,運用數據思維和多樣化的手段不斷進行數據新聞的實踐與創(chuàng)新。本屆數據新聞大賽入圍作品呈現出的特點及不足之處主要體現在以下幾個方面:
第一,從議題的選擇方面來看,本屆入圍作品更加關注與人有關的方方面面的社會問題,以人為本,立足當代人的生存狀態(tài),相比以往體現出更多濃厚的人文關懷。但存在的問題是,描述性比較強,停留在淺層次上的問題披露、現象描述層面,而對解決問題的方法、途徑的探索是大部分作品所缺失的。
此外,在本次入圍的50件作品中,涉及世界性議題的僅占10%,分別是上海外國語大學的A Long Way Home,探討澳洲政府針對中國移民的政策;西安交通大學的《數說全球媒體視域下的中美貿易戰(zhàn)——零和博弈,你輸我贏?》;河北工業(yè)大學作品《數說中國援非這些年》;西安交通大學的《小桑絲路游學記》;以及香港中文大學的KFC and McDonald’s Social Media Analysis??梢妵鴥雀咝T跀祿侣勛h題選擇上較多地局限于國內問題,缺乏廣闊的國際視野,而在僅出現的5個國際議題上涉及政治議題4個,經濟議題1個,議題類型比較單一。由此可見,開闊視野、加強對國際性、世界性議題的關注是現階段數據新聞實踐應著力加強的部分。
第二,從數據質量上觀察數據新聞大賽的入圍作品,可以發(fā)現數據來源大多是各種公開提供數據的機構、組織或者網站,這種來源相對方便,準確度、權威性也比較有保證。但是畢竟類型有限,數據的廣度、深度不夠,制作出的數據新聞也難免會受其局限。一方面,用戶自主挖掘數據的缺失,使得數據新聞的深刻性受到限制;另一方面,大多數數據新聞中標注的數據來源只是注明了數據源所屬機構的名稱,讀者根據這些信息很難找到數據新聞所使用的具體數據。因此,對數據新聞就只能停留在瀏覽信息的層面,既無法通過數據對其進行查證復盤,也無法就自己感興趣的做進一步了解。
造成這種情況的一部分原因是數據新聞未形成統(tǒng)一的信息公開標準,數據新聞建立在海量的數據基礎上,數據的客觀、真實、準確是數據新聞真實性、客觀性、可靠性的重要基礎。數據新聞公開自己的數據源是他人對其進行復盤、驗證和二次開發(fā)的必備條件,這也從側面展現了數據新聞生產者對自己所用數據的自信。但是,現階段數據新聞數據源公開得仍不很理想,使得數據新聞與用戶之間,以及數據新聞生產者之間的交流溝通受阻。建立完善的數據公開機制,加大數據的開放力度是改善這一現狀的可行手段。
第三,從設計來看,數據新聞大賽入圍作品的可視化手段中,靜態(tài)圖所占的比例相對較大。靜態(tài)圖的好處是加載容易、瀏覽更為流暢,但其局限性也十分明顯,與動態(tài)交互式圖相比,靜態(tài)圖對數據的包容度和表現力相對較低,也難以實現與用戶的有效交流互動,無法有效地吸引用戶的注意力。在本次入圍作品中,交互式動態(tài)圖的比例較往屆有所增加,主要的體現形式是隨著讀者點擊圖的不同部分,會展示出專屬于此部分的個性化信息,使讀者與動態(tài)圖產生互動,從而增加圖的信息容量和趣味性。
數據新聞作為新聞的一種新的呈現方式,極強的可視性是其不同于傳統(tǒng)新聞的一大優(yōu)勢,①如何更大程度地發(fā)揮這一優(yōu)勢,仍是數據新聞制作者需要深思的問題。但需要格外注意的是,隨著數據新聞實踐者在可視化技術方面的努力,越來越多的作品在可視化技術的運用上日益成熟,表現形式更加豐富多彩。不過,數據新聞的核心本質仍是新聞,而非可視化技術,為防止近年來出現的“數據唯大”“技術崇拜”等極端思維,在對數據新聞進行排版布局時,不宜過度追求感官刺激而忽視了新聞的敘事性使命。
第四,從技術運用來看,本屆數據新聞大賽入圍作品使用了多種多樣的數據發(fā)掘、數據分析和可視化工具,借助技術的力量將大量信息通過圖像、視頻、音頻等方式呈現出來,給受眾以豐富的感官體驗,極大提高了數據新聞的可視性和吸引力。由此可見,技術型人才對于優(yōu)秀數據新聞作品生產具有重要意義。但是現階段數據新聞相關技能的培訓仍處于規(guī)模有限、人數不多、時間較短、不夠深入的狀態(tài),這使得高質量的數據新聞核心人才相對稀缺。
第五,盡管國內的數據新聞取得了長足發(fā)展,但是在當前數據新聞發(fā)展的過程中,還有以下問題需要加以注意:
一是數據的使用問題。數據大不代表大數據,數據里的真實性需要加以辨別,數據的代表性也需要加以分析,不能因為數據是海量的,就得出這個數據一定是真實有效的。現階段數據造假,“網絡水軍”等對數據的污染很嚴重,②所以在數據的處理方面一定要去偽存真、去粗取精。
二是防止唯數據論英雄。數據是為新聞服務的,新聞是為人服務的,所以利用數據講故事才是數據新聞的核心?,F階段部分數據新聞為數據而數據,一味強調數據,而忽視了從數據背后挖掘相關故事和新聞價值,這是亟須注意的問題。
三是可視化方面不能一味地求酷??梢暬切侣劯行еv好故事的一種方式。不能說交互的就一定比靜態(tài)的好??梢暬獓@故事展開,而不能忘記新聞的本真?,F階段,中國數據新聞方面的人才依然偏少,尤其是技術型的人才更少。所以,加強數據新聞技術人才培訓是當下數據新聞教育的重頭戲。數據新聞技術是不斷更新的,不是一勞永逸的。所以,數據新聞人才需要保持終身學習的心態(tài),不斷探索各種前沿技術。
總之,我們既要看到,作為一種相對較新的新聞樣式,數據新聞帶給學界和業(yè)界很多驚喜,但也應對包括但不限于數據新聞在內的新技術保有應有的理性,用古人的話說,是“君子善假于物”,而不是“物反作用人”。
注釋:
①數據新聞,又叫數據驅動新聞。是指基于數據的抓取、挖掘、統(tǒng)計、分析和可視化呈現的新型新聞報道方式。數據新聞在大數據技術的推動下發(fā)生質和量的飛躍。數據新聞是隨著數據時代的到來出現的一種新型報道形態(tài),是數據技術對新聞業(yè)全面滲透的必然結果,它的出現在一定程度上改變了傳統(tǒng)新聞生產流程。
②張超:《大數據時代新聞業(yè)的展望與迷思》,人民網,http://media.people.com.cn/n1/2016/0308/c402790-28182076.html,2016年3月8日。