廣西壯族自治區(qū)經(jīng)濟(jì)信息中心 梁銘之
大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。經(jīng)濟(jì)網(wǎng)絡(luò)輿情信息是指人們借助互聯(lián)網(wǎng),對經(jīng)濟(jì)事務(wù)特別是經(jīng)濟(jì)熱點(diǎn)、焦點(diǎn)問題所表現(xiàn)出來的有一定影響力、帶傾向性的意見或言論,是人們對于經(jīng)濟(jì)事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。
經(jīng)濟(jì)網(wǎng)絡(luò)段情監(jiān)測的基本內(nèi)容包括網(wǎng)絡(luò)消費(fèi)者信心分析、金融投資分析、房地產(chǎn)投資分析、雙創(chuàng)活力分析、生態(tài)環(huán)保監(jiān)測、價(jià)格監(jiān)測等方面。
網(wǎng)絡(luò)消費(fèi)者信心分析,反映網(wǎng)民對經(jīng)濟(jì)形勢的判斷和未來經(jīng)濟(jì)發(fā)展的預(yù)期;投資分析從企業(yè)減負(fù)、投資準(zhǔn)入和投資金融服務(wù)等方面反映民眾對當(dāng)前投資環(huán)境的判斷和評價(jià);房地產(chǎn)投資分析包括國家及各地樓市調(diào)控政策解讀、房地產(chǎn)交易情況、當(dāng)?shù)卣畼鞘姓叻治?、樓市熱點(diǎn)分析、房地產(chǎn)價(jià)格情況、下階段預(yù)期等相關(guān)問題;雙創(chuàng)活力分析從融資事件量、民眾對雙創(chuàng)的熱情程度等方面反映當(dāng)?shù)仉p創(chuàng)活動的活力;生態(tài)環(huán)保監(jiān)測從網(wǎng)民反映的生態(tài)環(huán)保問題、對環(huán)保關(guān)注程度等方面監(jiān)測的生態(tài)環(huán)保情況;物價(jià)監(jiān)測從網(wǎng)民反映的消費(fèi)問題、主要產(chǎn)品產(chǎn)量的監(jiān)測、生活資料和生產(chǎn)資料旬度價(jià)格監(jiān)測反映當(dāng)?shù)匚飪r(jià)走勢。
利用大數(shù)據(jù)技術(shù),對網(wǎng)絡(luò)交易平臺、社交網(wǎng)絡(luò)、自媒體網(wǎng)站、企業(yè)經(jīng)營網(wǎng)站信息進(jìn)行抓取、采集,通過對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的清洗、處理、分析,采用數(shù)據(jù)挖掘、自然語言處理等大數(shù)據(jù)手段,能快速分析領(lǐng)導(dǎo)關(guān)注熱點(diǎn),輔助發(fā)現(xiàn)相關(guān)問題的解答方案。
數(shù)據(jù)挖掘技術(shù)是從海量的數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的信息,并對未來的趨勢及行為做出預(yù)測,幫助人們進(jìn)行決策。數(shù)據(jù)挖掘分為兩個(gè)的步驟:首先是確定業(yè)務(wù)對象,認(rèn)清需要處理的問題及目的;二是數(shù)據(jù)處理,搜索與業(yè)務(wù)對象有關(guān)的數(shù)據(jù)信息,選擇合適的數(shù)據(jù),通過數(shù)據(jù)預(yù)處理,對數(shù)據(jù)的質(zhì)量進(jìn)行分析,確定要挖掘操作的類型,建立適合的挖掘算法分析模型,對數(shù)據(jù)進(jìn)行轉(zhuǎn)換、挖掘,最后得到分析結(jié)果并完成知識的同化。典型的數(shù)據(jù)挖掘系統(tǒng)通常由數(shù)據(jù)庫、知識庫、數(shù)據(jù)挖掘引擎等構(gòu)成。系統(tǒng)可對數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫中的數(shù)據(jù)進(jìn)行清理和集成,根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或者數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)處理結(jié)構(gòu)。知識庫主要包括某一領(lǐng)域知識,用于指導(dǎo)搜索或評估結(jié)果,完成數(shù)據(jù)挖掘任務(wù)。數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)的基本組成部分,用于執(zhí)行特征化、關(guān)聯(lián)和相關(guān)分析、分類、預(yù)測、聚類分析、離群點(diǎn)分析和演變分析等任務(wù)。
文本情感分析是利用自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),通過文本內(nèi)容分析其作者的觀點(diǎn)、態(tài)度、情感或者情緒,分析的文本對象包括新聞、評論、微博等。文本情感分析要建立情感詞典,情感詞典是作為情感傾向性和情感極性判斷的重要依據(jù),其質(zhì)量決定了情感分析的效果,情感詞典要隨語言的發(fā)展進(jìn)行不斷的擴(kuò)展。情感詞典的擴(kuò)充方法有兩種方式:一是基于共現(xiàn)或相似度的方法,利用種子情感詞、語義詞典以及包含情感詞的文本等資源,以候選詞與種子情感詞的共現(xiàn)、相似性等信息為依據(jù),抽取情感詞并判斷其極性;二是基于分類的方法,將情感詞抽取和情感極性判斷視為分類問題,通過分類模型,將候選詞劃分到正面性、負(fù)面性和無極性三個(gè)類別中。
經(jīng)濟(jì)網(wǎng)絡(luò)輿情系統(tǒng)結(jié)構(gòu)包括數(shù)據(jù)采集層、處理存儲層、數(shù)據(jù)分析層和平臺應(yīng)用層。
數(shù)據(jù)采集層,采集管理實(shí)現(xiàn)系統(tǒng)與上下層系統(tǒng)的接口對接,統(tǒng)一調(diào)度采集任務(wù)和進(jìn)程,同時(shí)對信息進(jìn)行統(tǒng)計(jì)分析和告警。采集配置實(shí)現(xiàn)對目標(biāo)網(wǎng)站的采集配置進(jìn)行管理。爬蟲以分布式的方式部署爬蟲,實(shí)現(xiàn)了爬蟲多任務(wù)調(diào)配、多線程執(zhí)行的工作機(jī)制,保障了爬蟲的穩(wěn)定、高效執(zhí)行任務(wù)。
處理存儲層,數(shù)據(jù)處理實(shí)現(xiàn)輿情數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)排重、數(shù)據(jù)清洗等。數(shù)據(jù)存儲實(shí)現(xiàn)數(shù)據(jù)的存儲和讀取。
數(shù)據(jù)分析層搭載了分詞程序、遺忘算法、傳播指數(shù)分析、實(shí)體抽取、情感分析、熱詞分析、地域分析、統(tǒng)計(jì)分析、可視化分析等分析程序。
平臺應(yīng)用層主要實(shí)現(xiàn)了經(jīng)濟(jì)輿情分類監(jiān)測、事件監(jiān)測、輿情預(yù)警、輿情報(bào)告等前端應(yīng)用。
經(jīng)濟(jì)輿情監(jiān)測系統(tǒng)架構(gòu)圖
主要功能包括:輿情工作臺、分類輿情、輿情預(yù)警和輿情預(yù)告。
輿情工作臺主要展示經(jīng)濟(jì)發(fā)展整體的輿情監(jiān)測概況,包括輿情統(tǒng)計(jì)表、輿情漏斗、輿情欄目等功能。輿情統(tǒng)計(jì)表展示各個(gè)載體和時(shí)間的二維表數(shù)據(jù)透視結(jié)果;輿情漏斗展示從全量數(shù)據(jù)、相關(guān)數(shù)據(jù)、輿情數(shù)據(jù)、負(fù)面數(shù)據(jù)、正面數(shù)據(jù)以及預(yù)警數(shù)據(jù)的數(shù)據(jù)分析漏斗;輿情專題可以在經(jīng)濟(jì)發(fā)展專題設(shè)置中自定義分類和標(biāo)簽,選擇數(shù)據(jù)展示方式后進(jìn)行展示。
分類輿情是與對濟(jì)發(fā)展數(shù)據(jù)進(jìn)行分析展示和數(shù)據(jù)查詢處理的工作系統(tǒng),可按照設(shè)置的分類和標(biāo)簽進(jìn)行聯(lián)動篩選;支持輿情自主研判、手動加入預(yù)警、數(shù)據(jù)排重以及數(shù)據(jù)排序等;針對每一個(gè)經(jīng)濟(jì)問題分類的數(shù)據(jù)集合進(jìn)行圖表分析,包括載體趨勢、文章屬性、站點(diǎn)分布、任務(wù)活躍度分析等。實(shí)現(xiàn)經(jīng)濟(jì)分類輿情信息的實(shí)時(shí)更新,按照各種維度靈活的篩選和檢索以及圖表分析。
輿情預(yù)警針對與營商環(huán)境相關(guān)的重點(diǎn)輿情數(shù)據(jù)進(jìn)行預(yù)警,包括手動預(yù)警和自動預(yù)警,手動預(yù)警即在全景輿情中邊瀏覽邊選中預(yù)警,自動預(yù)警即預(yù)先設(shè)置關(guān)鍵詞進(jìn)行實(shí)時(shí)分析預(yù)警。
輿情報(bào)告是經(jīng)濟(jì)輿情監(jiān)測成果的輸出功能,可針對指定的經(jīng)濟(jì)輿情分類進(jìn)行報(bào)告制作,同時(shí)系統(tǒng)自動生成智能的月報(bào),用戶可自主訂閱報(bào)告。
構(gòu)建大數(shù)據(jù)經(jīng)濟(jì)輿情之“雙創(chuàng)指數(shù)”。
2015年6月和2017年7月國務(wù)院相繼發(fā)布多個(gè)雙創(chuàng)指導(dǎo)文件,啟動和加速了我國歷史上前所未有的雙創(chuàng)大潮。廣西壯族自治區(qū)作為“一帶一路”有機(jī)銜接重要門戶,以及重點(diǎn)產(chǎn)業(yè)的承載區(qū),構(gòu)建廣西雙創(chuàng)指數(shù),全面反映廣西各個(gè)領(lǐng)域、各個(gè)行業(yè)、各個(gè)層級的創(chuàng)新、創(chuàng)業(yè)情況,對于監(jiān)測廣西創(chuàng)業(yè)環(huán)境及出臺創(chuàng)業(yè)支持政策有著重要參考意義。
廣西雙創(chuàng)指數(shù)以“數(shù)據(jù)可采集、指標(biāo)可計(jì)算、方法可比對、結(jié)果可解析、決策可參考”等為核心,以“規(guī)模、結(jié)構(gòu)、質(zhì)量”三個(gè)特征維度為著眼點(diǎn),以系統(tǒng)梳理廣西雙創(chuàng)活動的“潛力、實(shí)力、動力、活力、合力”為突破口,構(gòu)建雙創(chuàng)指數(shù)測度體系的具體思路。
在指標(biāo)體系研究的設(shè)計(jì)過程中參照和汲取國內(nèi)外先進(jìn)的經(jīng)驗(yàn),創(chuàng)新性的發(fā)展一套指標(biāo)體系。在指標(biāo)的選取上既有宏觀的指標(biāo),又有微觀的指標(biāo),微觀指標(biāo)來源于對創(chuàng)業(yè)者的調(diào)研以及從線上獲得客觀的微觀指標(biāo)。因?yàn)殡p創(chuàng)指數(shù)會持續(xù)、動態(tài)的更新和發(fā)布,所以數(shù)據(jù)可得性是未來指標(biāo)體系繼續(xù)發(fā)展非常重要的基礎(chǔ)條件。另外,在指標(biāo)的選取上還注重橫向可比,跟國內(nèi)、國際上先進(jìn)的創(chuàng)新創(chuàng)業(yè)的指數(shù)構(gòu)成可比性,能精準(zhǔn)的衡量廣西雙創(chuàng)在國內(nèi)和國際的位置。
通過各行業(yè)部門統(tǒng)計(jì)數(shù)據(jù)和互聯(lián)網(wǎng)采集數(shù)據(jù),借助大數(shù)據(jù)的技術(shù)手段,選取科技、經(jīng)濟(jì)、人才、環(huán)境四個(gè)與雙創(chuàng)工作關(guān)聯(lián)度較大的影響因素,形成四個(gè)一級指標(biāo),構(gòu)建廣西雙創(chuàng)指數(shù)。使用大數(shù)據(jù)的清洗、分析、建模方法計(jì)算雙創(chuàng)指數(shù),科學(xué)、準(zhǔn)確、及時(shí)地反映經(jīng)濟(jì)結(jié)構(gòu),優(yōu)化升級的新進(jìn)展。實(shí)現(xiàn)按月發(fā)布廣西全區(qū)及行業(yè)的雙創(chuàng)指數(shù),較好的輔助“雙創(chuàng)“決策。
本文提出了一個(gè)大數(shù)據(jù)經(jīng)濟(jì)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計(jì)方案和具體監(jiān)測案例,從使用的關(guān)鍵技術(shù)、系統(tǒng)功能方面進(jìn)行了描述、設(shè)計(jì),利用該系統(tǒng)能發(fā)現(xiàn)話題并對經(jīng)濟(jì)輿情進(jìn)行跟蹤、分析,使經(jīng)濟(jì)管理者和決策者能及時(shí)監(jiān)經(jīng)濟(jì)網(wǎng)絡(luò)輿情,輔助經(jīng)濟(jì)決策。
[1]劉文.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)[J].指揮信息系統(tǒng)與技術(shù),2015(10):56-60
[2]姚曄,石翠.網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)的構(gòu)建探討[J].科技展望,2016(12):262-263