張祥甫 閆仲秋
(1.海裝駐連云港地區(qū)軍代室,江蘇 連云港 222061;2.中船重工第七一六研究所,江蘇 連云港 222005)
科技情報(bào)工作是把科技知識(shí)和科技成果,通過(guò)組織加工后,準(zhǔn)確、及時(shí)地提供給使用者的傳遞工作[1]。當(dāng)前,科技情報(bào)工作已經(jīng)成為社會(huì)發(fā)展的重要推動(dòng)力,是科研、生產(chǎn)、市場(chǎng)經(jīng)營(yíng)、產(chǎn)業(yè)發(fā)展中的關(guān)鍵一環(huán)。
隨著大數(shù)據(jù)時(shí)代的到來(lái),依靠有限的人力進(jìn)行情報(bào)搜集的工作模式,已很難適應(yīng)市場(chǎng)和技術(shù)發(fā)展的要求。充分利用互聯(lián)網(wǎng)的優(yōu)勢(shì),及時(shí)、全面、低成本地搜集科技情報(bào),再結(jié)合人工研判加以分析處理,形成具有參考價(jià)值的情報(bào)資源,幫助科技部門開展新興產(chǎn)業(yè)發(fā)展的戰(zhàn)略情報(bào)研究,有助于加強(qiáng)科技資源整合利用、增強(qiáng)科技成果保護(hù)和轉(zhuǎn)化;同時(shí)也可為行業(yè)情報(bào)咨詢服務(wù)機(jī)構(gòu)、各級(jí)行業(yè)協(xié)會(huì)提供情報(bào)收集和分析輔助工具,提升其咨詢服務(wù)能力。
本文分析了科技情報(bào)研究的現(xiàn)狀,尤其是科技情報(bào)平臺(tái)架構(gòu)及功能規(guī)劃,設(shè)計(jì)了科技情報(bào)搜集與分析系統(tǒng),包括總體流程、系統(tǒng)功能和關(guān)鍵技術(shù)三大部分。本文的研究成果對(duì)基于科技情報(bào)搜集與分析系統(tǒng)的情報(bào)服務(wù)有重要的借鑒意義。
一些學(xué)者在科技情報(bào)的內(nèi)涵、存在的問(wèn)題、發(fā)展趨勢(shì)、服務(wù)模式等方面開展了廣泛的研究。
王鵬[2]分析了科技情報(bào)在“互聯(lián)網(wǎng)+”環(huán)境下的發(fā)展趨勢(shì),提出了科技情報(bào)團(tuán)隊(duì)建設(shè)方案與“云”情報(bào)團(tuán)隊(duì)的概念,闡釋了“云”情報(bào)團(tuán)隊(duì)的內(nèi)涵與建設(shè)方向,認(rèn)為情報(bào)服務(wù)必須從傳統(tǒng)物理層次的信息組織向認(rèn)知層次的個(gè)性化知識(shí)組織轉(zhuǎn)變。
劉如[3]介紹了國(guó)內(nèi)情報(bào)機(jī)構(gòu)向智庫(kù)轉(zhuǎn)型的趨勢(shì),構(gòu)建了面向智庫(kù)轉(zhuǎn)型的科技情報(bào)機(jī)構(gòu)知識(shí)服務(wù)體系。
周飛[4]介紹了大數(shù)據(jù)對(duì)科技情報(bào)服務(wù)的影響,分析了大數(shù)據(jù)時(shí)代科技情報(bào)工作者面臨的新時(shí)代問(wèn)題,并對(duì)大數(shù)據(jù)時(shí)代背景下科技情報(bào)服務(wù)內(nèi)容和服務(wù)模式進(jìn)行了探討。
黃宇康[5]分析了企業(yè)科技情報(bào)服務(wù)的發(fā)展現(xiàn)狀,提出了改善現(xiàn)狀的策略,包括建立企業(yè)科技情報(bào)服務(wù)系統(tǒng)、加強(qiáng)與第三方情報(bào)服務(wù)機(jī)構(gòu)的合作、建立靈活的工作機(jī)制及提高情報(bào)人員專業(yè)素質(zhì)等。
王娜等人[6]分析了國(guó)防軍工科研單位科技情報(bào)工作中存在的問(wèn)題,提出了此類單位科技情報(bào)工作的思路和框架,包括培育多維度的情報(bào)人才隊(duì)伍,與科研設(shè)計(jì)人員協(xié)同開展情報(bào)研究,注重戰(zhàn)略情報(bào)跟蹤研究和臨時(shí)性情報(bào)咨詢的均衡協(xié)調(diào)發(fā)展,以及建立系統(tǒng)、完善的科技情報(bào)服務(wù)體系。
周曉英等人[1]采用文獻(xiàn)調(diào)研、網(wǎng)絡(luò)調(diào)查等方法對(duì)我國(guó)科技情報(bào)事業(yè)發(fā)展的歷史事件進(jìn)行了全面梳理,提出了中國(guó)科技情報(bào)事業(yè)發(fā)展的5個(gè)方面的演變規(guī)律,包括從“情報(bào)—信息—多元范式的大情報(bào)”的演變、從“機(jī)構(gòu)服務(wù)”到“平臺(tái)服務(wù)”的演變、從“收集提供”到“分析挖掘”的演變、從“文獻(xiàn)資源”到“數(shù)字資源”再到“綜合數(shù)字資源”的演變、從“資源服務(wù)”到“方案服務(wù)”的演變。
錢虹[7]通過(guò)調(diào)查問(wèn)卷與訪談研究了技術(shù)創(chuàng)新鏈條中各主體在不同創(chuàng)新階段的服務(wù)需求,構(gòu)建了資源與服務(wù)一體化的科技情報(bào)服務(wù)體系,實(shí)現(xiàn)了情報(bào)服務(wù)與用戶需求的精準(zhǔn)對(duì)接。
科技情報(bào)工作的有效開展離不開信息化手段的支撐,一些學(xué)者圍繞科技情報(bào)平臺(tái)的構(gòu)建進(jìn)行了深入的研究。
劉源[8]介紹了互聯(lián)網(wǎng)科技情報(bào)的采集與清洗、數(shù)據(jù)存儲(chǔ)與索引、數(shù)據(jù)的智能分析,闡述了自動(dòng)獲取與智能分析平臺(tái)的技術(shù)實(shí)現(xiàn)路線。
李時(shí)玉等人[9]利用Hadoop平臺(tái)的分布式存儲(chǔ)和計(jì)算模型,基于Hadoop實(shí)現(xiàn)了科技情報(bào)大數(shù)據(jù)深度分析的實(shí)踐。
劉明月等人[10]認(rèn)為基于人工智能的科技情報(bào)需求自動(dòng)感知在未來(lái)會(huì)成為科技情報(bào)工作發(fā)展的潮流,提出了基于人工智能的科技情報(bào)需求自動(dòng)感知研究方法,并就各個(gè)模塊提出了技術(shù)方案。
魯文帥等人[11]基于數(shù)據(jù)挖掘和人工智能技術(shù),給出了自動(dòng)化采集分析平臺(tái)的總體設(shè)計(jì),并從數(shù)據(jù)采集、預(yù)處理、歸集、展現(xiàn)、匯編等方面分模塊介紹了技術(shù)實(shí)現(xiàn)的方法。
吳素研等人[12]結(jié)合虛擬化、云平臺(tái)、高性能和人工智能等新一代信息技術(shù),設(shè)計(jì)了科技情報(bào)大數(shù)據(jù)業(yè)務(wù)平臺(tái)的總體架構(gòu),闡述了硬件層、虛擬層、支撐層和業(yè)務(wù)層的主要功能,搭建了基于Hadoop和HBase的大數(shù)據(jù)存儲(chǔ)平臺(tái)。
本文提出了科技情報(bào)搜集與分析系統(tǒng)的總體流程,如圖1所示。
圖1所示的流程中,科技情報(bào)系統(tǒng)分為情報(bào)采集、分析處理、情報(bào)處理和分類展示四大步驟。情報(bào)采集除了包含主流的文獻(xiàn)庫(kù)之外,各類網(wǎng)站、社交媒體也被納入其中,因?yàn)樯缃幻襟w已經(jīng)成為碎片化知識(shí)產(chǎn)生與傳播的主要載體。情報(bào)處理與一般意義的文本分析處理不一樣,強(qiáng)調(diào)的是情報(bào)報(bào)告生成、圖表分析及預(yù)警等功能。
圖1 科技情報(bào)搜集與分析系統(tǒng)的總體流程
針對(duì)科技情報(bào)工作的業(yè)務(wù)特點(diǎn),融合互聯(lián)網(wǎng)信息采集與挖掘應(yīng)用技術(shù),本文設(shè)計(jì)的情報(bào)系統(tǒng)的功能如表1所示。
表1 情報(bào)系統(tǒng)的功能
2.3.1 基于規(guī)則的情報(bào)相關(guān)性判定技術(shù)
傳統(tǒng)的文本與規(guī)則的相關(guān)性,根據(jù)文本中規(guī)則詞之間特定位置關(guān)系來(lái)匹配判定,大致可分為同句判定、同字段判定和同文本判定等幾種傳統(tǒng)的判定方式雖然考慮了規(guī)則詞之間的位置關(guān)系,但沒(méi)有考慮到規(guī)則的類型及文本的類型,尤其是微博類的短文本,更加口語(yǔ)化、句子劃分不夠規(guī)整,影響了情報(bào)相關(guān)性的判定精度。
針對(duì)傳統(tǒng)方法的不足,基于規(guī)則的情報(bào)相關(guān)性判定技術(shù),首先判斷規(guī)則與情報(bào)標(biāo)題的相關(guān)性;其次判斷規(guī)則與情報(bào)正文的相關(guān)性。該技術(shù)根據(jù)規(guī)則的核心詞、規(guī)則類型及正文類型,劃分正文文本句子,獲取最短距離句子集,判斷規(guī)則與最短距離句子集的相關(guān)性。根據(jù)規(guī)則與情報(bào)的標(biāo)題及正文的相關(guān),獲得規(guī)則與情報(bào)的相關(guān)性。
2.3.2 基于波特五力模型的企業(yè)情報(bào)采集技術(shù)
企業(yè)為保持較強(qiáng)的競(jìng)爭(zhēng)力,需密切關(guān)注行業(yè)情報(bào)。波特五力分析模型聚焦于企業(yè)競(jìng)爭(zhēng)環(huán)境中五個(gè)核心要素,包括競(jìng)爭(zhēng)者、供應(yīng)商、客戶、潛在進(jìn)入者、替代性技術(shù)或商品?;诓ㄌ匚辶δP偷钠髽I(yè)情報(bào)采集技術(shù),全面分析企業(yè)競(jìng)爭(zhēng)環(huán)境影響因素,構(gòu)建五力要素量化指標(biāo);將量化指標(biāo)結(jié)合企業(yè)業(yè)務(wù)領(lǐng)域知識(shí)自動(dòng)轉(zhuǎn)換為搜索規(guī)則;針對(duì)五個(gè)因素,從信息載體(新聞網(wǎng)、博客、論壇、微博、電子商務(wù)網(wǎng)站等)中采集有效信息;采用結(jié)構(gòu)化的抽取方式,抽取企業(yè)及產(chǎn)品相關(guān)屬性;對(duì)企業(yè)及產(chǎn)品屬性進(jìn)行分析,自動(dòng)發(fā)現(xiàn)競(jìng)爭(zhēng)對(duì)手及同類產(chǎn)品;自動(dòng)跟蹤競(jìng)爭(zhēng)對(duì)手動(dòng)態(tài)事件信息,生成專報(bào)進(jìn)行預(yù)警。
2.3.3 基于本體的行業(yè)知識(shí)庫(kù)構(gòu)建技術(shù)
系統(tǒng)采用基于行業(yè)本體的知識(shí)庫(kù)構(gòu)建技術(shù),面向不同行業(yè)的構(gòu)建領(lǐng)域知識(shí)庫(kù),提供Web模式的知識(shí)庫(kù)半自動(dòng)構(gòu)建工具。通過(guò)對(duì)當(dāng)前各行業(yè)科技情報(bào)規(guī)則詞的搜集整理,形成一套行業(yè)齊全、內(nèi)容全面、關(guān)系邏輯清晰的核心智能體。對(duì)行業(yè)進(jìn)行區(qū)分,內(nèi)置多個(gè)行業(yè)的規(guī)則支持,包含各行業(yè)的相關(guān)特征詞,支持建立任意行業(yè)和子類,支持無(wú)限級(jí)劃分,子類下支持建立與、或、非關(guān)系的規(guī)則,規(guī)則數(shù)量不限。行業(yè)庫(kù)中包含企業(yè)基本信息、科技政策、產(chǎn)業(yè)發(fā)展、科研機(jī)構(gòu)等規(guī)則庫(kù),同時(shí)提供信息篩選功能。
2.3.4 全面的科技情報(bào)監(jiān)測(cè)技術(shù)
系統(tǒng)聚焦于科技情報(bào)的七個(gè)方面,包括科技政策、產(chǎn)業(yè)發(fā)展、科技計(jì)劃、重大報(bào)告、研究機(jī)構(gòu)、專利、文獻(xiàn)。通過(guò)智能知識(shí)庫(kù)輔助構(gòu)建規(guī)則以及與中外專利數(shù)據(jù)庫(kù)、維普、知網(wǎng)、萬(wàn)方、中國(guó)行業(yè)研究網(wǎng)、中國(guó)產(chǎn)業(yè)研究網(wǎng)、國(guó)務(wù)院發(fā)展研究中心資源庫(kù)等平臺(tái)合作,系統(tǒng)地采集與分析互聯(lián)網(wǎng)情報(bào),得到的科技情報(bào)覆蓋面廣且針對(duì)性更強(qiáng)。
2.3.5 全網(wǎng)采集技術(shù)
系統(tǒng)支持定向采集和搜索采集相結(jié)合的情報(bào)采集方式,既可做到對(duì)企業(yè)情報(bào)信息的全面搜索,又可有針對(duì)性地對(duì)指定的論壇、博客、新聞、貼吧等媒體進(jìn)行深度采集,還涵蓋新浪、騰訊等主流微博的站內(nèi)垂直搜索,對(duì)特定社交媒體用戶還可定點(diǎn)監(jiān)測(cè),真正做到企業(yè)情報(bào)的全面采集。
2.3.6 URL規(guī)則匹配技術(shù)
系統(tǒng)采用URL規(guī)則與關(guān)鍵字規(guī)則相結(jié)合的方式,既可按關(guān)鍵字監(jiān)測(cè),也可按定向URL與關(guān)鍵字組合監(jiān)測(cè),使系統(tǒng)監(jiān)測(cè)方式更為靈活多變。系統(tǒng)根據(jù)用戶定義的搜索規(guī)則可自動(dòng)發(fā)現(xiàn)滿足規(guī)則的網(wǎng)站,將其設(shè)為系統(tǒng)的全局黑名單,對(duì)這些網(wǎng)站上的信息進(jìn)行自動(dòng)屏蔽,減少采集過(guò)程中的無(wú)效信息。
本文在充分地調(diào)研與科技情報(bào)相關(guān)的系統(tǒng)的基礎(chǔ)上,結(jié)合大數(shù)據(jù)、社交媒體、移動(dòng)互聯(lián)網(wǎng)、人工智能、精準(zhǔn)推薦等新一代信息技術(shù),設(shè)計(jì)了面向科技情報(bào)應(yīng)用場(chǎng)景的情報(bào)采集與分析系統(tǒng)。本文的研究成果對(duì)科技情報(bào)搜集與分析系統(tǒng)的研發(fā),以及基于情報(bào)系統(tǒng)的科技情報(bào)服務(wù)有重要的借鑒意義,但如下問(wèn)題還需進(jìn)一步提升:(1)不同語(yǔ)言類型的情報(bào)融合問(wèn)題;(2)個(gè)性化的情報(bào)服務(wù)推薦問(wèn)題;(3)不同類型的情報(bào)分析問(wèn)題,包括文本、圖片、音視頻,等等。