文/吳嫻 肖卓明 洪丹
近年來(lái),傳統(tǒng)媒體不斷尋求融合轉(zhuǎn)型之道,拓展“媒體+”服務(wù),為用戶創(chuàng)造更多價(jià)值。為構(gòu)建輿論引導(dǎo)新格局,越來(lái)越多的傳統(tǒng)媒體整合品牌資源、政經(jīng)資源和信息資源,切入輿情服務(wù)領(lǐng)域。
隨著輿情市場(chǎng)的不斷開(kāi)拓,政務(wù)用戶和企業(yè)用戶之間、省級(jí)政務(wù)用戶與區(qū)縣基層政務(wù)用戶之間,甚至地方政府用戶和職能廳局用戶之間,對(duì)輿情產(chǎn)品服務(wù)呈現(xiàn)多樣化需求,同一用戶在不同環(huán)境下對(duì)輿情管理的需求也相當(dāng)多變。當(dāng)這種變量積累到一定體量,為每個(gè)用戶的定制開(kāi)發(fā)成本會(huì)非常高,同時(shí)出現(xiàn)產(chǎn)品效率不高等問(wèn)題。本文從南方輿情的實(shí)際業(yè)務(wù)發(fā)展出發(fā),學(xué)習(xí)實(shí)踐阿里巴巴首提的“大中臺(tái)、小前臺(tái)”概念,引入輿情數(shù)據(jù)中臺(tái)的運(yùn)轉(zhuǎn)思路,支撐產(chǎn)品應(yīng)用多元化快速生成,打造一攬子輿情產(chǎn)品服務(wù),通過(guò)“技術(shù)降本、應(yīng)用提效、業(yè)務(wù)賦能”,抓住輿情市場(chǎng)的發(fā)展機(jī)遇。
面對(duì)復(fù)雜的輿情應(yīng)用場(chǎng)景,突破傳統(tǒng)的系統(tǒng)架構(gòu),構(gòu)建輿情數(shù)據(jù)中臺(tái),貼近用戶多變多樣的使用需求,面臨著諸多技術(shù)難題與挑戰(zhàn)。
挑戰(zhàn)一:全域數(shù)據(jù)采集與入庫(kù)。以需求為驅(qū)動(dòng),如何實(shí)時(shí)采集和引入多渠道數(shù)據(jù)(網(wǎng)站、論壇、博客、APP、微博、微信公眾號(hào)、電臺(tái)電視臺(tái))、多形態(tài)(自身業(yè)務(wù)系統(tǒng)、互聯(lián)網(wǎng)采集、第三方交換)的數(shù)據(jù),構(gòu)建多信源、海量和動(dòng)態(tài)的基礎(chǔ)數(shù)據(jù)池存在很大的挑戰(zhàn)。
挑戰(zhàn)二:規(guī)范數(shù)據(jù)架構(gòu)與研發(fā)。如何構(gòu)建數(shù)據(jù)的分層與水平解耦結(jié)構(gòu),通過(guò)全域采集數(shù)據(jù)格式的規(guī)范化、交互接口的標(biāo)準(zhǔn)化實(shí)現(xiàn)架構(gòu)的統(tǒng)一性、可靠性和靈活性,快速支撐上層數(shù)據(jù)應(yīng)用和服務(wù),是一個(gè)值得探討的技術(shù)難點(diǎn)。
挑戰(zhàn)三:跨域數(shù)據(jù)整合與知識(shí)沉淀。如何建立融合模型,通過(guò)不同維度的建模實(shí)現(xiàn)跨域輿情數(shù)據(jù)的整合,同時(shí)挖掘輿情數(shù)據(jù)從個(gè)體標(biāo)簽化到全局指標(biāo)化,深度萃取數(shù)據(jù)價(jià)值,實(shí)現(xiàn)共性應(yīng)用的知識(shí)沉淀,是面向輿情業(yè)務(wù)支撐提供底座能力的關(guān)鍵。
挑戰(zhàn)四:數(shù)據(jù)封裝應(yīng)用與服務(wù)開(kāi)放。數(shù)據(jù)的規(guī)模化發(fā)展是提供服務(wù)化能力。如何按應(yīng)用要求做服務(wù)的封裝,通過(guò)多元化的產(chǎn)品形態(tài)開(kāi)放給外部服務(wù)用戶,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的快速分享,打通服務(wù)用戶的最后一公里,是建設(shè)輿情數(shù)據(jù)中臺(tái)的最終目的。
數(shù)據(jù)中臺(tái)的概念首先由阿里巴巴提出,“構(gòu)建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺(tái)”,其建設(shè)目標(biāo)是高效滿足前臺(tái)數(shù)據(jù)分析和應(yīng)用的需求。為應(yīng)對(duì)輿情服務(wù)需求的復(fù)雜多變性,南方輿情從實(shí)際業(yè)務(wù)出發(fā),設(shè)計(jì)和搭建了輿情數(shù)據(jù)中臺(tái),以期實(shí)現(xiàn)產(chǎn)品定制化、服務(wù)個(gè)性化的快速部署??傮w架構(gòu)和關(guān)鍵技術(shù)描述如圖1所示。
全域數(shù)據(jù)智能化采集平臺(tái)主要對(duì)接的數(shù)據(jù)形態(tài)包括互聯(lián)網(wǎng)數(shù)據(jù)采集、合作互補(bǔ)數(shù)據(jù)、媒體獨(dú)家線下信源、自身采編業(yè)務(wù)數(shù)據(jù)?;ヂ?lián)網(wǎng)數(shù)據(jù)通過(guò)分布式爬蟲(chóng)、智能采集調(diào)度、自適應(yīng)采集策略、數(shù)據(jù)采集代理、自動(dòng)登錄驗(yàn)證等技術(shù),靈活配置采集規(guī)則、抓取深度、掃描頻率等采集策略,實(shí)現(xiàn)各渠道數(shù)據(jù)源的統(tǒng)一采集管理。依托分布式架構(gòu)、多點(diǎn)負(fù)載均衡和自適應(yīng)帶寬設(shè)計(jì),確保實(shí)時(shí)采集效率、采集穩(wěn)定性和采集數(shù)據(jù)完整性。
以分布式計(jì)算架構(gòu)實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)的快速識(shí)別與信息抓取,對(duì)不同的信息使用不同的抓取策略,實(shí)現(xiàn)互聯(lián)網(wǎng)信息抓取的自動(dòng)化。采用分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu)、增量實(shí)時(shí)索引、智能分詞等技術(shù),采集和數(shù)據(jù)管理效率高。實(shí)現(xiàn)多個(gè)網(wǎng)站同時(shí)并發(fā)抓取、一個(gè)任務(wù)分布式并發(fā)多點(diǎn)處理、多點(diǎn)負(fù)載均衡的效果,可以防止短時(shí)間內(nèi)向同一個(gè)網(wǎng)站發(fā)送過(guò)多的訪問(wèn)請(qǐng)求,提高大數(shù)據(jù)采集的效率和性能。運(yùn)用IP代理池以及API模仿機(jī)制,對(duì)高頻更新的數(shù)據(jù)進(jìn)行IP輪詢采集,能有效防止站點(diǎn)對(duì)系統(tǒng)IP的限制,同時(shí)系統(tǒng)能智能主動(dòng)降低采集頻率,降低IP被封的可能性。分布式采集的智能化調(diào)度,能有效提高數(shù)據(jù)采集的穩(wěn)定性。
自采的互聯(lián)網(wǎng)數(shù)據(jù)、合作互補(bǔ)數(shù)據(jù)、線下信源數(shù)據(jù)、采編業(yè)務(wù)數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化數(shù)據(jù)接口統(tǒng)一格式后進(jìn)入數(shù)據(jù)分析層,打通數(shù)據(jù)孤島,解決輿情數(shù)據(jù)的多源異構(gòu)問(wèn)題,減少煙囪式協(xié)作,確保輿情數(shù)據(jù)的多元性和完整性。
圖1 輿情數(shù)據(jù)中臺(tái)的技術(shù)架構(gòu)
對(duì)采集到的信息進(jìn)行垃圾識(shí)別過(guò)濾,自動(dòng)清洗廣告、無(wú)關(guān)圖片、超鏈接、動(dòng)態(tài)Flash等無(wú)用信息,利用智能解析,自動(dòng)抽取標(biāo)題、時(shí)間、來(lái)源、作者、正文等有效信息要素,通過(guò)內(nèi)容判重引擎,根據(jù)數(shù)據(jù)內(nèi)容分析語(yǔ)義對(duì)數(shù)據(jù)進(jìn)行去重與歸并,自動(dòng)判斷重復(fù)文章,實(shí)現(xiàn)自動(dòng)去重與合并。采用分布式存儲(chǔ)集群對(duì)加工后的標(biāo)準(zhǔn)化輿情數(shù)據(jù)、快照、索引進(jìn)行存儲(chǔ),實(shí)現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)資源的融合管理。分析處理后的標(biāo)準(zhǔn)規(guī)范化輿情數(shù)據(jù),為輿情服務(wù)應(yīng)用提供調(diào)用基礎(chǔ),通過(guò)服務(wù)接口響應(yīng)輿情業(yè)務(wù)的基本需求。
對(duì)海量輿情數(shù)據(jù)進(jìn)行深入挖掘,利用關(guān)鍵詞正則表達(dá)式智能解析匹配提取事件關(guān)聯(lián)信息,并針對(duì)熱點(diǎn)事件信息進(jìn)行多維度分析。對(duì)事件信息進(jìn)行分詞、情感分析、熱度分析、高頻詞提取、關(guān)聯(lián)分析、數(shù)據(jù)統(tǒng)計(jì)等處理,結(jié)合自動(dòng)摘要、分類、聚類等智能化運(yùn)算,從而分析得出事件的發(fā)展趨勢(shì)、敏感指數(shù)、地域分布、傳播路徑、關(guān)鍵人物、正負(fù)面傾向、網(wǎng)民觀點(diǎn)等,深入分析事件的本質(zhì)原因,形成建?;A(chǔ)數(shù)據(jù)。
以智能化標(biāo)簽的方式對(duì)數(shù)據(jù)信源進(jìn)行歸類,在邏輯上將數(shù)據(jù)信源自由組合成任意不同的虛擬數(shù)據(jù)信源包。在數(shù)據(jù)檢索時(shí),既可以在全局?jǐn)?shù)據(jù)信源里進(jìn)行匹配,也可以根據(jù)不同用戶的不同需求,在虛擬數(shù)據(jù)信源包里進(jìn)行數(shù)據(jù)匹配,縮小數(shù)據(jù)檢索范圍,提高數(shù)據(jù)檢索精度,同時(shí)提高數(shù)據(jù)檢索效率,實(shí)現(xiàn)輿情數(shù)據(jù)檢索的靈活部署,快速響應(yīng)業(yè)務(wù)環(huán)境的變化對(duì)業(yè)務(wù)流程優(yōu)化提出的要求,為個(gè)性化、定制化的輿情產(chǎn)品提供基本支撐。
利用與(+)、或(|)、非(-)無(wú)限層級(jí)優(yōu)先級(jí)嵌套匹配規(guī)則,基于高效索引和排序算法的多維度檢索實(shí)現(xiàn)關(guān)鍵字解析體系,支持多種索引條件的復(fù)雜組合,最大程度滿足各種數(shù)據(jù)應(yīng)用的封裝需求。通過(guò)自動(dòng)推送腳本將檢索結(jié)果進(jìn)行智能推送,便于輿情數(shù)據(jù)的高效共享,為進(jìn)一步的輿情業(yè)務(wù)和其他輿情擴(kuò)展業(yè)務(wù)發(fā)展提供強(qiáng)大的數(shù)據(jù)支撐,實(shí)現(xiàn)了一次跟蹤,多端使用。推送使用XML Schema規(guī)范作為數(shù)據(jù)交換的標(biāo)準(zhǔn)格式,屏蔽了異構(gòu)數(shù)據(jù)源之間的差異;數(shù)據(jù)格式采用XML/JSON,方便調(diào)用, 適配性強(qiáng)。
在輿情數(shù)據(jù)建模的基礎(chǔ)上,通過(guò)虛擬數(shù)據(jù)信源包與關(guān)鍵詞解析體系,對(duì)數(shù)據(jù)進(jìn)行封裝,結(jié)合智能推送開(kāi)發(fā)多種輿情服務(wù)應(yīng)用,譬如即時(shí)預(yù)警、周期報(bào)告、專題分析、輿情會(huì)商、輿情研判等,利用PC端、APP、大屏、微信、短信等多種發(fā)布渠道,形成輿情服務(wù)應(yīng)用矩陣,滿足全方位的輿情服務(wù)開(kāi)放。
南方輿情通過(guò)應(yīng)用創(chuàng)新和技術(shù)創(chuàng)新,基于輿情數(shù)據(jù)中臺(tái)構(gòu)建產(chǎn)品快速生成的服務(wù)體系,以下簡(jiǎn)要闡述輿情數(shù)據(jù)中臺(tái)實(shí)現(xiàn)業(yè)務(wù)賦能的落地應(yīng)用案例。
社情風(fēng)險(xiǎn)指數(shù)是南方輿情基于“數(shù)據(jù)沉淀、業(yè)務(wù)下沉”的特色產(chǎn)品應(yīng)用。該產(chǎn)品生成邏輯和技術(shù)實(shí)現(xiàn)步驟如下:
第一,采集匯總歷史風(fēng)險(xiǎn)事件,形成以業(yè)務(wù)核心對(duì)象為中心的連接和標(biāo)簽體系,并對(duì)風(fēng)險(xiǎn)事件性質(zhì)、等級(jí)及傳播范圍提取要素,并對(duì)各要素進(jìn)行賦值定義,建立社情風(fēng)險(xiǎn)指數(shù)計(jì)算模型;第二,一定周期內(nèi)(日、周、月、年),增量輿情數(shù)據(jù)與離線歷史數(shù)據(jù)同步共享,基于數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)簽?zāi)P烷_(kāi)展數(shù)據(jù)萃取,反哺輿情數(shù)據(jù)中臺(tái),在線量化形成社情風(fēng)險(xiǎn)指數(shù);第三,推出社情風(fēng)險(xiǎn)指數(shù)榜單產(chǎn)品,靈活對(duì)時(shí)間、地域、屬性等維度的社情狀況綜合評(píng)估評(píng)判。
輿情多維交叉比對(duì)與可視化是南方輿情“數(shù)據(jù)組裝化、應(yīng)用服務(wù)化”的應(yīng)用案例。系統(tǒng)操作界面如圖2,它的生成邏輯和技術(shù)實(shí)現(xiàn)步驟如圖2所示。
圖2 輿情多維交叉比對(duì)
第一,整合全域數(shù)據(jù),統(tǒng)一數(shù)據(jù)出口和查詢邏輯,建立輿情態(tài)勢(shì)感知體系,既能對(duì)廣東地域內(nèi)開(kāi)展全面輿情巡查,又能快速發(fā)現(xiàn)和展示服務(wù)用戶以及突發(fā)事件的演變趨勢(shì);第二,通過(guò)復(fù)用公共定量指標(biāo)、加工個(gè)性變量指標(biāo)的方式,既提取領(lǐng)導(dǎo)力、發(fā)展力、執(zhí)行力、創(chuàng)新力等方向指標(biāo),又深入到媒體關(guān)注、社會(huì)維穩(wěn)、營(yíng)商環(huán)境等細(xì)化指標(biāo),建立用戶坐標(biāo)系,通過(guò)算法模型匹配,迅速清晰地進(jìn)行用戶畫(huà)像;第三,通過(guò)業(yè)務(wù)應(yīng)用操作,及時(shí)響應(yīng)和可視化輸出數(shù)據(jù)采集分析和指標(biāo)模型效果(適應(yīng)不同呈現(xiàn)載體),通過(guò)不同指標(biāo)數(shù)值的閾值設(shè)置實(shí)現(xiàn)自動(dòng)預(yù)警,快速完成面向用戶需求的數(shù)據(jù)封裝和應(yīng)用服務(wù)。
輿情數(shù)據(jù)中臺(tái)的核心是數(shù)據(jù)模型、算法服務(wù)和數(shù)據(jù)產(chǎn)品等能力,通過(guò)搭建靈活快速應(yīng)對(duì)變化的架構(gòu),更快實(shí)現(xiàn)前端產(chǎn)品需求。一方面避免業(yè)務(wù)高度復(fù)用的功能重復(fù)建設(shè),另一方面所有業(yè)務(wù)觸點(diǎn)信息均可流向中臺(tái),解決數(shù)據(jù)孤島,形成信息共享。借助中臺(tái)的沉淀能力,研發(fā)更靈活、業(yè)務(wù)更敏捷。下一步,輿情數(shù)據(jù)中臺(tái)也將階段性演進(jìn),不斷形成“技術(shù)平臺(tái)+建設(shè)方法論+數(shù)據(jù)產(chǎn)品+運(yùn)營(yíng)服務(wù)”解決方案的整體輸出,快速調(diào)整應(yīng)對(duì)未來(lái)的市場(chǎng)變化。