魏敏 徐欽
摘要:根據(jù)南京市標(biāo)準(zhǔn)化研究院開展的《南京市重點新興行業(yè)信息簡報》《浦口區(qū)產(chǎn)業(yè)地標(biāo)發(fā)展信息研報》制作需求,設(shè)計了一套能夠利用大數(shù)據(jù)采集、存儲、檢索、分析等先進(jìn)技術(shù)對海量數(shù)據(jù)進(jìn)行全面處理的互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng)。系統(tǒng)能夠檢索相關(guān)行業(yè)政策信息和行業(yè)動態(tài),并對獲取信息進(jìn)行篩選、分類、統(tǒng)計,最終形成專業(yè)詳實的分析報告,為相關(guān)職能部門、行業(yè)主管部門、相關(guān)企業(yè)進(jìn)行科學(xué)決策提供重要支持。
關(guān)鍵詞:行業(yè) 檢索 設(shè)計 應(yīng)用
Design and Application of Internet Information Monitoring System
Wei ?Min, Xu Qin(Nanjing Institute of Standardization)
Abstract: According to the requirement of making “Information Briefing of Key Emerging Industries in Nanjing” and “Information Research Report of Industrial Landmark Development in Pukou District”, a system which can comprehensively process massive data was designed and built in Nanjing Institute of Standardization The system uses advanced technologies like big data collection, storage, retrieval and analysis. It can retrieve policy information and news in relevant industry areas, then screen, classify and count the data and finally form a professional analysis report. The report can provide important support for relevant functional departments, industry authorities and relevant enterprises to make scientific decisions.
Key words: industry, search, design, application
1 引言
2017年11月,中共南京市委、南京市人民政府發(fā)布《關(guān)于加快推進(jìn)全市主導(dǎo)產(chǎn)業(yè)優(yōu)化升級的意見》,指出將7大類14個戰(zhàn)略性新興產(chǎn)業(yè)優(yōu)化為“4+4+1”主導(dǎo)產(chǎn)業(yè)體系,目標(biāo)到2020年,全市主導(dǎo)產(chǎn)業(yè)主營業(yè)務(wù)收入達(dá)45000億元。智能電網(wǎng)、智能制造裝備、新能源汽車是南京市確定的先進(jìn)制造業(yè)四大主導(dǎo)產(chǎn)業(yè)的重要組成部分,也是原江蘇省質(zhì)監(jiān)局研究確定南京市第一批質(zhì)量提升行業(yè),對推動南京市制造業(yè)提質(zhì)增效升級具有示范引領(lǐng)作用。南京市標(biāo)準(zhǔn)化研究院及時響應(yīng)全市開展的質(zhì)量提升行動,通過了前期的調(diào)研和討論,設(shè)計了一套互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng),針對三大質(zhì)量提升行業(yè)進(jìn)行全方位的動態(tài)跟蹤,并研究制定了《南京市重點新興行業(yè)信息簡報》。簡報從政府、行業(yè)、南京市三個層次檢索最新動態(tài)信息,為相關(guān)職能部門、企業(yè)及時掌握行業(yè)動態(tài),了解行業(yè)發(fā)展?fàn)顩r提供了有效途徑,對三大重點行業(yè)的質(zhì)量提升具有積極的意義。
近年來,南京市浦口經(jīng)濟(jì)開發(fā)區(qū)作為浦口區(qū)、江北新區(qū)的重要產(chǎn)業(yè)載體,緊密圍繞南京建設(shè)創(chuàng)新名城、創(chuàng)新名城戰(zhàn)略部署,努力打造新能源汽車和集成電路兩個千億級的主導(dǎo)產(chǎn)業(yè)鏈,充分激發(fā)產(chǎn)業(yè)地標(biāo)的新活力與“芯”動能。為配合浦口區(qū)搶抓產(chǎn)業(yè)地標(biāo)新發(fā)展機(jī)遇,優(yōu)化產(chǎn)業(yè)布局,南京市標(biāo)準(zhǔn)化研究院應(yīng)用互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng),為浦口區(qū)市場監(jiān)管局開展主導(dǎo)產(chǎn)業(yè)輿情分析,并定期編纂《浦口區(qū)產(chǎn)業(yè)地標(biāo)發(fā)展信息研報》。此項工作,為浦口區(qū)相關(guān)職能部門及企業(yè)及時了解行業(yè)發(fā)展現(xiàn)狀,進(jìn)行科學(xué)決策提供重要支持。
本文設(shè)計的互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng)以云采集、云存儲、云檢索、云分析等云計算技術(shù)為基礎(chǔ)的方正智思大數(shù)據(jù)分析處理平臺為核心,以本地部署的應(yīng)用服務(wù)為基石,為用戶提供獨立的網(wǎng)絡(luò)信息搜索及分析應(yīng)用服務(wù),系統(tǒng)通過對互聯(lián)網(wǎng)海量信息實時精確采集和即時深入地分析,實現(xiàn)對新聞、論壇、博客、評論、微博、微信、移動客戶端等的全面監(jiān)測,使用戶在第一時間掌握網(wǎng)絡(luò)信息動態(tài),并能夠?qū)﹃P(guān)注事件或線索進(jìn)行持續(xù)追蹤和多維分析,輔助用戶全面掌握行業(yè)動態(tài),為相關(guān)部門進(jìn)行科學(xué)決策提供了事實依據(jù)和參考。
2 系統(tǒng)設(shè)計
2.1 系統(tǒng)總體架構(gòu)設(shè)計
互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng)輔助用戶全面掌握行業(yè)動態(tài),系統(tǒng)采用面向服務(wù)的思想,利用松散耦合的分層方式將系統(tǒng)整體上分為5大模塊,各層之間的界限清晰,功能明確而不交叉,具有較高的可配置性和伸縮性。
(1)基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施層設(shè)備部署在特定機(jī)房,通過采購相應(yīng)的服務(wù)器和存儲設(shè)備以及共享信息中心網(wǎng)絡(luò)、安全基礎(chǔ)設(shè)備,為整個系統(tǒng)提供基礎(chǔ)的分布式存儲、分布式計算和集群等軟硬件支撐,互聯(lián)網(wǎng)出口采用機(jī)房外網(wǎng)出口。
(2)虛擬化技術(shù)
基于方正云服務(wù)中心以傳統(tǒng)的獨立硬件構(gòu)建為基礎(chǔ),采用虛擬化技術(shù)對硬件資源進(jìn)行虛擬化處理,將相關(guān)應(yīng)用服務(wù)部署于虛擬化系統(tǒng)。
(3)大數(shù)據(jù)平臺系統(tǒng)
以云計算技術(shù)和分布式技術(shù)為基礎(chǔ),利用分布式采集系統(tǒng)全面采集各網(wǎng)站發(fā)布的互聯(lián)網(wǎng)信息,搭建海量數(shù)據(jù)存儲、全文檢索和智能分析系統(tǒng),實現(xiàn)對大規(guī)?;ヂ?lián)網(wǎng)輿情數(shù)據(jù)的存儲、檢索和挖掘。
(4)應(yīng)用層
以輿情大數(shù)據(jù)系統(tǒng)為基礎(chǔ),系統(tǒng)提供信息搜索、事件訂閱、事件分析、熱點推薦、信息通知、信息編輯、行業(yè)報告,以及消息管理、系統(tǒng)管理等前后臺功能。
(5)服務(wù)層
為用戶提供全面的搜索、事件分析、熱點報告服務(wù),滿足用戶日常輿情監(jiān)測的工作需求。
2.2 系統(tǒng)技術(shù)支撐
2.2.1 海量信息采集
依托方正智思大數(shù)據(jù)分析處理平臺分布式架構(gòu)和硬件資源,系統(tǒng)統(tǒng)一調(diào)度采集任務(wù),充分利用每個下載機(jī)的資源,提高采集的整體性能??赏ㄟ^調(diào)整集群的子節(jié)點數(shù)量來提高集群的負(fù)載能力。本地重點采集網(wǎng)站可通過本地部署雷達(dá)采集,保障本地重點網(wǎng)站的實時快速采集。
2.2.2 海量級數(shù)據(jù)存儲
基于方正智思大數(shù)據(jù)分析處理平臺的Hadoop的分布式存儲框架,采用HBase分布式數(shù)據(jù)庫,構(gòu)建于分布式HDFS之上,使用列存儲技術(shù),通過線性方式從下到上增加節(jié)點來進(jìn)行擴(kuò)展,將大而稀疏的數(shù)據(jù)表存放到方正大數(shù)據(jù)分析處理平臺的服務(wù)器集群上,減少用戶對于數(shù)據(jù)存儲方面的投入,滿足高可靠性、高性能、可伸縮的特性。
2.2.3 分布式檢索
為解決大數(shù)據(jù)快速檢索的問題,監(jiān)測系統(tǒng)利用方正智思大數(shù)據(jù)分析處理平臺的集群技術(shù)架構(gòu),通過擴(kuò)展子集群的數(shù)量,提高系統(tǒng)的數(shù)據(jù)規(guī)模負(fù)載能力,以滿足更大的數(shù)據(jù)量需求;通過擴(kuò)展子集群內(nèi)的副本數(shù)量,提高系統(tǒng)的并發(fā)檢索的負(fù)載能力,滿足大量并發(fā)檢索的需求。
2.2.4 多元化數(shù)據(jù)采集
多元化數(shù)據(jù)采集技術(shù)包括定向采集、元搜索采集和漫爬采集。定向采集實現(xiàn)對網(wǎng)站內(nèi)容的實時監(jiān)控和精準(zhǔn)采集。元搜索采集實時調(diào)用多個大型搜索引擎進(jìn)行信息搜索,并進(jìn)一步采集原始網(wǎng)頁內(nèi)容并抽取關(guān)鍵信息,為用戶提供更為全面的網(wǎng)絡(luò)信息。漫爬采集對全球網(wǎng)站擴(kuò)散網(wǎng)絡(luò)漫爬,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的發(fā)散型大規(guī)模采集。
2.2.5 智能分析
智能分析系統(tǒng)實現(xiàn)分布式架構(gòu),可線性擴(kuò)展子節(jié)點數(shù)量,提高系統(tǒng)的數(shù)據(jù)負(fù)載能力,充分并合理地利用分析服務(wù)資源,提高整個系統(tǒng)的工作效率。智能分析包括精準(zhǔn)的語義分析、全面的智能處理和社會化媒體信息挖掘分析。
2.2.6 數(shù)據(jù)推送傳輸
依據(jù)業(yè)務(wù)關(guān)注方向,數(shù)據(jù)推送系統(tǒng)對采集數(shù)據(jù)進(jìn)行篩選加工,定期、及時將符合要求的數(shù)據(jù)推送至本地。數(shù)據(jù)推送過程中采取各類安全措施,進(jìn)行數(shù)據(jù)的歸并、壓縮和加密,本地獲取數(shù)據(jù)后進(jìn)行對應(yīng)的解密和解壓縮,最大程度上保證了數(shù)據(jù)推送的安全性。
2.3 系統(tǒng)主要功能
2.3.1 信息采集
信息采集是利用計算機(jī)軟件技術(shù)針對定制的目標(biāo)數(shù)據(jù)源實時進(jìn)行信息抽取、挖掘,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入,并按業(yè)務(wù)所需來進(jìn)行數(shù)據(jù)發(fā)布、分析的整個過程。系統(tǒng)通過跟蹤各類新聞、論壇、貼吧、博客、微博、微信、移動客戶端、SNS、電商網(wǎng)站(京東、蘇寧、國美)中的文字、附件、圖片、音視頻等,對全媒體類型的內(nèi)容進(jìn)行實時監(jiān)控和自動采集,滿足對海量互聯(lián)網(wǎng)信息資源的快速獲取需求。對采集網(wǎng)頁中的標(biāo)題、作者、來源、時間、發(fā)布鏈接、關(guān)鍵詞等數(shù)據(jù)信息進(jìn)行自動歸檔、判別和提取。
2.3.2 全文搜索
全文搜索是對海量文本數(shù)據(jù)進(jìn)行檢索的重要而基礎(chǔ)的技術(shù)手段。本系統(tǒng)基于系統(tǒng)開發(fā)公司具有自主知識產(chǎn)權(quán)的中文信息處理技術(shù),利用字詞混合索引、倒排索引以及分段索引等多種檢索技術(shù),實現(xiàn)對海量數(shù)據(jù)的快速檢索。支持模糊搜索、高級搜索、以文搜文。同時,系統(tǒng)還具備高級搜索及訂閱功能。高級檢索功能支持通過設(shè)置關(guān)鍵詞,并限定關(guān)鍵詞位置(標(biāo)題、正文)、發(fā)布時間、信息類型(信源類型)、作者、網(wǎng)站名稱及頻道名稱等來進(jìn)一步搜索目標(biāo)信息。訂閱功能通過設(shè)置訂閱名稱、截止有效期、關(guān)鍵詞設(shè)置及位置、網(wǎng)站分組、預(yù)警間隔時間、信息增量和敏感詞來確定搜索目標(biāo)信息,通過以上設(shè)置可以直接在該模塊中提前設(shè)置好的行業(yè)中方便快捷地查詢目標(biāo)信息。
2.3.3 信息監(jiān)測
信息監(jiān)測是在信息搜索基礎(chǔ)上自動對各種大型網(wǎng)站信息進(jìn)行持續(xù)24小時不間斷監(jiān)測,掌握當(dāng)下互聯(lián)網(wǎng)各類行業(yè)信息。在系統(tǒng)中通過關(guān)鍵詞方式定義和配置所需關(guān)注追蹤的行業(yè),對需要長期或重點關(guān)注的行業(yè)添加關(guān)注訂閱,系統(tǒng)根據(jù)用戶所處的地域或關(guān)注的新聞網(wǎng)站、移動新聞客戶端、企業(yè)、品牌網(wǎng)站、微博人物、微信公眾號、快速地推送用戶所關(guān)注的上述信息,實現(xiàn)實時從海量數(shù)據(jù)中心識別和匹配與此相關(guān)的所有互聯(lián)網(wǎng)信息供用戶瀏覽。
2.3.4 關(guān)注信息智能分析
系統(tǒng)為用戶提供了方便快捷的信息訂閱模式,用戶可根據(jù)自身關(guān)注的時間或聚焦的某些行業(yè)方向進(jìn)行內(nèi)容的訂閱,針對用戶的每一個訂閱事件,系統(tǒng)自動對事件進(jìn)行有針對性的持續(xù)追蹤,以及多維度的精準(zhǔn)挖掘分析,萃取熱點、敏感信息,掌握事件的發(fā)展動態(tài)及網(wǎng)民輿論傾向。
2.3.5 報告生成
報告生成是通過系統(tǒng)將信息采集的結(jié)果,自行篩選生成圖文并茂的分析報告。系統(tǒng)支持將采集到的信息及圖表一鍵加入到報告素材庫,并根據(jù)報告模板一鍵生成多類型的報告。報告簡明、準(zhǔn)確、易懂,報告形式包括簡報、日報、周報、月報。同時輿情專報可針對某一突發(fā)事件進(jìn)行專項事件分析報告,分析內(nèi)容包括媒體報道情況、網(wǎng)民關(guān)注情況、事件發(fā)展情況等。
3 系統(tǒng)的應(yīng)用
本文主要將互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng)中高級數(shù)據(jù)搜索、信息訂閱、報道總趨勢分析、生成報告共四大功能的應(yīng)用情況做出詳細(xì)介紹。
3.1 高級數(shù)據(jù)搜索功能的應(yīng)用
高級數(shù)據(jù)搜索功能通過整合境內(nèi)外新聞、論壇、博客、微博、移動客戶端、微信類型數(shù)據(jù),開放搜索功能,按關(guān)鍵詞、時間、信息類型和網(wǎng)站分組組合即可一鍵搜索、快速定位關(guān)注信息。本文應(yīng)用高級數(shù)據(jù)搜索功能,完成對新能源汽車產(chǎn)業(yè)各級政府信息、行業(yè)內(nèi)動態(tài)信息的搜索。通過設(shè)置關(guān)鍵詞“(新能源汽車) & (江蘇 | 南京) & (!股票 & !債券 & !保險)”、關(guān)鍵詞位置“標(biāo)題或正文”、信息推送時間“2019-08-01至2019-08-21”、信息類型“新聞、論壇、微博、微信、移動客戶端”來進(jìn)行搜索,查詢結(jié)果顯示共有169條信息符合搜索條件。
3.2 信息訂閱功能的應(yīng)用
信息訂閱模塊提供方便快捷信息訂閱服務(wù),通過配置訂閱規(guī)則實現(xiàn)對重點、敏感信息進(jìn)行有針對性的持續(xù)追蹤。在平臺中通過關(guān)鍵詞方式定義和配置所關(guān)注追蹤的事件。本文應(yīng)用信息訂閱功能,以集成電路行業(yè)為例,通過設(shè)置訂閱名稱“集成電路”、關(guān)鍵詞“(集成電路) & (!股票 & !債券 & !保險)”、關(guān)鍵詞位置“標(biāo)題和正文”、信息時間段“最近一月”、通知預(yù)警間隔時間“每天一次”、預(yù)警通知類型“郵件”對集成電路產(chǎn)業(yè)進(jìn)行信息訂閱設(shè)置。通過設(shè)置,平臺自動實時24小時不間斷檢測,從海量數(shù)據(jù)中識別和匹配出近一個月來與集成電路產(chǎn)業(yè)相關(guān)信息2020條。
3.3 報道總趨勢分析功能的應(yīng)用
通過特定設(shè)置對系統(tǒng)進(jìn)行信息搜索后,可針對搜索結(jié)果進(jìn)行深入的統(tǒng)計分析。此處的統(tǒng)計分析是隨著時間的變化、事件的整體報道趨勢,即發(fā)布信息在一定時間段內(nèi)的數(shù)量變化曲線。系統(tǒng)默認(rèn)以折線圖展現(xiàn),統(tǒng)計圖橫坐標(biāo)表示時間,縱坐標(biāo)表示數(shù)量,每條不同顏色的折線代表不同的信息類型??刹榭葱侣?、境內(nèi)新聞、境外新聞、論壇、境內(nèi)論壇、境外論壇、微博、博客、新浪微博、騰訊微博、移動客戶端、微信類型信息的發(fā)布趨勢。本文應(yīng)用報道總趨勢分析功能,對3.1中新能源汽車產(chǎn)業(yè)信息高級數(shù)據(jù)搜索功能搜索結(jié)果進(jìn)行報道總趨勢分析,其功能實現(xiàn)圖如圖1所示。
3.4 生成報告功能的應(yīng)用
報告生成功能即對高級數(shù)據(jù)搜索和信息訂閱功能推送的信息進(jìn)行處置,通過設(shè)置報告類型、報告名稱、報告描述和報告分組,并結(jié)合作者自身觀點,生成的信息分析總結(jié)報告。生成報告功能實現(xiàn)圖如圖2所示。
“南京市重點新興行業(yè)信息簡報”圍繞智能電網(wǎng)、智能制造、新能源汽車三大行業(yè),從政府、行業(yè)、南京市三個層次全方面檢索最新行業(yè)動態(tài)信息,并對信息進(jìn)行分類、統(tǒng)計和分析。此項工作為南京市各級政府及企業(yè)及時掌握行業(yè)動態(tài)、了解行業(yè)發(fā)展?fàn)顩r提供了有效途徑,對三大重點行業(yè)的質(zhì)量提升具有積極的意義。
4 結(jié)束語
本文依托互聯(lián)網(wǎng)信息監(jiān)測系統(tǒng)先進(jìn)的架構(gòu)設(shè)計與科技化手段,以海量多信源數(shù)據(jù)有效共享和用戶行業(yè)信息監(jiān)測為導(dǎo)向,幫助工作人員從大量的人工搜索及分析工作中解脫出來,實現(xiàn)對互聯(lián)網(wǎng)信息動態(tài)及時、準(zhǔn)確、科學(xué)地監(jiān)測,同時強大的數(shù)據(jù)支撐,也為后續(xù)分析報告的研判提供了事實依據(jù),從而保證了研判的客觀性和準(zhǔn)確性。
參考文獻(xiàn)
[1] 方俊青.論網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)[J].法制與社會,2013(3):187-188.
[2] Liu B.Web數(shù)據(jù)挖掘:第2版[M].俞勇, 等譯. 北京:清華大學(xué)出版社,2013.
[3] 張倩倩,趙星漢,高湘飛.軟件測試用例的設(shè)計方法[J].電子技術(shù)與軟件工程,2018,133(11):60-61.
[4] 李敏.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[D].上海:復(fù)旦大學(xué),2009.