馮向梅 顧方 魯瑛 周群芳 王俊松 肖甲宏
(1. 中國化工信息中心有限公司情報資訊事業(yè)部,北京 100029;2. 寶武集團(寶鋼)中央研究院,上海 200126)
鑒于日益復雜多變的信息環(huán)境和信息服務競爭不斷加劇的狀況,加之面臨貿(mào)易沖突升級的國際局面,以及提升自主創(chuàng)新能力的迫切需求,科技創(chuàng)新成為企業(yè)降本增效和增強核心競爭力的關鍵,受到企業(yè)廣泛重視。同時,國家密集出臺多項科技創(chuàng)新政策,支持和鼓勵企業(yè)科技創(chuàng)新戰(zhàn)略方案的實施。
技術創(chuàng)新作為推動科技創(chuàng)新發(fā)展的關鍵舉措,不僅能夠?qū)崿F(xiàn)關鍵技術、核心技術、“卡脖子”技術攻關,大力提升企業(yè)自主創(chuàng)新能力,提升產(chǎn)業(yè)鏈現(xiàn)代化水平,掌握競爭和發(fā)展的主動權,還能夠與競爭企業(yè)保持信息對稱[1],盡快將技術成果轉(zhuǎn)化為產(chǎn)業(yè)競爭優(yōu)勢。因此,如何開展技術創(chuàng)新成為每個企業(yè)發(fā)展科技創(chuàng)新要思考的關鍵命題,而提供全面、準確、及時、可靠的技術情報服務是開展技術創(chuàng)新的必要條件。
本文以需求為導向,通過梳理目前國內(nèi)外企業(yè)情報服務平臺建設現(xiàn)狀,分析新形勢下企業(yè)開展情報服務的需求,以此研發(fā)面向技術創(chuàng)新的企業(yè)智能情報服務平臺。通過海量異構數(shù)據(jù)的匯聚和整合,基于多源數(shù)據(jù)融合技術、文本挖掘技術、機器學習技術,不僅實現(xiàn)領域技術識別、領域技術評估、領域技術關系挖掘等面向技術生命周期的一站式管理,而且能夠?qū)崿F(xiàn)機構、專家等優(yōu)勢資源的多維分析,從而為企業(yè)技術情報研究提供高效工具,為企業(yè)技術布局提供戰(zhàn)略決策支撐。
技術創(chuàng)新的思想可追溯于熊彼特的創(chuàng)新理論[2],之后眾多學者從行為、經(jīng)濟、產(chǎn)品、時序等角度對技術創(chuàng)新的概念進行表述。從狹義角度講,技術創(chuàng)新是指人們在新產(chǎn)品開發(fā)或老產(chǎn)品改進中重新組織生產(chǎn)條件和要素,創(chuàng)造性地運用不同的方法、工藝、工具或裝備的過程,并取得顯著經(jīng)濟效益或具有潛在長遠的經(jīng)濟效益,通常包括產(chǎn)品創(chuàng)新和過程(工藝)創(chuàng)新等。從廣義角度講,技術創(chuàng)新是指人們在生產(chǎn)實踐活動中重新組織生產(chǎn)條件和要素,創(chuàng)造性地運用其在科學實驗和生產(chǎn)活動過程中所積累知識、經(jīng)驗和技能的過程,并取得顯著的經(jīng)濟效益或具有潛在長遠的經(jīng)濟效益,通常包括產(chǎn)品創(chuàng)新、過程(工藝)創(chuàng)新、市場創(chuàng)新、組織創(chuàng)新和制度創(chuàng)新等。
錢旭潮等[3]認為企業(yè)技術創(chuàng)新經(jīng)歷了微創(chuàng)新、集成創(chuàng)新、延伸創(chuàng)新和持續(xù)創(chuàng)新階段。微創(chuàng)新是零件層面,是指企業(yè)能夠進行簡單的單項技術創(chuàng)新,大大提高了該零部件的性能、質(zhì)量,或生產(chǎn)效率。集成創(chuàng)新是產(chǎn)品層面,是指基于多項微創(chuàng)新,發(fā)明一個新產(chǎn)品或改進現(xiàn)有產(chǎn)品的核心技術。延伸創(chuàng)新是系統(tǒng)層面,是指在產(chǎn)品的基礎上加入衍生產(chǎn)品或服務形成一個整體。持續(xù)創(chuàng)新是領域?qū)用妫侵钙髽I(yè)能夠繼續(xù)保持領域或行業(yè)內(nèi)的技術領先,主導或參與行業(yè)標準制定,是技術的領跑者。
因此,無論是從定義內(nèi)涵還是從發(fā)展階段來說,都需要對現(xiàn)有市場、產(chǎn)品、競爭對手所研發(fā)的技術情況進行全面系統(tǒng)的梳理和掌握,對世情、行情、市情有精準快速了解,從而為企業(yè)技術研發(fā)、技術創(chuàng)新和戰(zhàn)略部署提供支撐依據(jù)。
通過文獻調(diào)研發(fā)現(xiàn),目前企業(yè)技術情報服務相關研究主要圍繞技術情報的服務方法、服務平臺、服務內(nèi)容3個方面展開。
技術情報服務方法研究主要采用以下3種方法:①以德爾菲法[4-6]為主,側重于國家級或重點領域的技術預見研究;②采用機器學習、文本挖掘等智能算法對技術情報進行分析,如許學國等[7]采用機器學習方法對新能源汽車核心技術識別,周源等[8]采用機器學習方法對機器人領域的新興技術進行識別,王秀紅等[9]基于BERTLDA對農(nóng)業(yè)機器人的關鍵技術進行識別;③采用智能算法、評價模型等多種組合方法對技術情報進行分析,如TF-IDF和多指標評價模型[10]、LDA主題模型和ROST[11]、知識聚類和鏈路預測方法[12]等。
技術情報服務平臺研究主要集中在風電、電力、軌道交通等領域。魯嘯等[13]以風電企業(yè)技術情報平臺建設為例,針對資源利用不足、工作管理不便、溝通成本較大、成果共享范圍窄等現(xiàn)存問題,設置動態(tài)信息、資料庫、資源導航、情報需求、情報團隊等欄目,用于服務內(nèi)部技術創(chuàng)新。劉民[14]充分利用元數(shù)據(jù)資源整合、知識發(fā)現(xiàn)、可視化圖譜等技術,構建電力企業(yè)競爭情報服務平臺,提出SNS個人知識管理、綜合趨勢分析、機構內(nèi)部評估分析、情報挖掘服務、可視化圖譜、人才評估分析、調(diào)研輔助等創(chuàng)新服務。李子林等[15]充分利用海量多源異構數(shù)據(jù)歸集、基于智能算法的科技資源深度組織等技術,滿足我國軌道交通行業(yè)科技情報服務存在整合海量多源異構數(shù)據(jù)、實現(xiàn)數(shù)據(jù)驅(qū)動科研熱點研判、提供聚焦領域知識細分的專題定制以及搭建行業(yè)高端知識交流社群等發(fā)展需求。
技術情報服務內(nèi)容研究主要圍繞技術生命周期展開,具體包括以下3類。①不同技術類型的識別,如婁巖等[16]利用專利文獻和技術的關聯(lián)關系進行替代性技術識別;吳菲菲等[17]從創(chuàng)新性和學科交叉性角度構建前沿技術探測模型;黃魯成等[18]基于專利分析的客觀分析方法為基礎構建了顛覆性技術識別框架;此外,還有學者對新興技術[19-20]、前沿技術[21]、核心技術[22]、關鍵技術[11,23]等方面展開研究。②技術跟蹤和監(jiān)測,如崔怡雯等[24]提出面向顛覆性創(chuàng)新的領域技術監(jiān)測分類體系。③技術預見或技術預測,既有日本、韓國等開展的國家級技術預見,也有面向智能制造[25]、生物醫(yī)藥[26]、全球能源[27]等不同科技領域的技術預測等。
由此看出,目前企業(yè)技術情報服務呈現(xiàn)以下特點:第一,大數(shù)據(jù)、文本挖掘、可視化等智能技術已成為技術情報服務平臺建設的必要手段;第二,海量異構資源的整合成為技術情報服務平臺建設的必要基礎;第三,技術情報服務平臺的研發(fā)、應用和推廣還有待深入。雖然目前技術情報服務內(nèi)容研究較為豐富,但技術情報服務平臺(或系統(tǒng))的研發(fā)并不多見,且大多涉及概念模型、系統(tǒng)架構、模塊功能等設計層面,對技術識別的關鍵技術及技術關系揭示、技術類型評價等細節(jié)內(nèi)容涉及較少,有待于領域技術識別、技術預見等模塊和功能的進一步研發(fā)和應用推廣。
經(jīng)文獻調(diào)研發(fā)現(xiàn),企業(yè)技術情報服務在分析內(nèi)容、分析算法、分析內(nèi)容等方面已有較多研究成果,但仍存在分析結論不便于管理與共享、用戶使用不夠便捷、技術分析缺乏連續(xù)性等不足。因此,構建靈活、精準、智能、專業(yè)的企業(yè)技術情報服務平臺成為企業(yè)持續(xù)技術創(chuàng)新的基礎和必需。
企業(yè)的業(yè)務場景復雜,且技術載體日益多元,為了避免決策結果偏差,保障結果全面準確和科學可信,需要海量多源異構數(shù)據(jù)作為支撐。針對海量異構的資源需求,傳統(tǒng)人工上傳的方式已不能滿足數(shù)據(jù)采集的需要,因此需要借助智能工具實現(xiàn)高效的多源數(shù)據(jù)智能采集和集成,對平臺結構方面的需求主要集中在以下3個方面。第一,多源數(shù)據(jù)的智能爬取。通過研發(fā)網(wǎng)絡爬蟲工具,實現(xiàn)對特定互聯(lián)網(wǎng)資源的動態(tài)監(jiān)測和實施抓取。第二,數(shù)據(jù)質(zhì)量智能檢查。通過制定規(guī)則,以機器自動檢測為主,實現(xiàn)對數(shù)據(jù)完整性等質(zhì)量指標進行核查。第三,多源數(shù)據(jù)的智能集成。企業(yè)底層資源的大數(shù)據(jù)尚未實現(xiàn)統(tǒng)一的組織和管理,海量的數(shù)據(jù)資源增加了用戶獲取細粒度知識的難度,不同的數(shù)據(jù)標準也導致了“數(shù)據(jù)孤島”的存在,嚴重影響了企業(yè)大數(shù)據(jù)資源價值的有效過濾、發(fā)現(xiàn)和挖掘。通過制定統(tǒng)一的數(shù)據(jù)模型和元數(shù)據(jù),規(guī)范和約束多源數(shù)據(jù)的數(shù)據(jù)結構,并采用數(shù)據(jù)結構自適應技術,實現(xiàn)多源異構數(shù)據(jù)的數(shù)據(jù)匯聚和集成,從而為情報服務的開展提供底層數(shù)據(jù)的智能化支撐。
傳統(tǒng)基于人工對領域技術進行研判的工作,已不能適應大數(shù)據(jù)環(huán)境下的情報服務需求。第一,海量數(shù)據(jù)及信息處理已經(jīng)超出人工處理的范疇,且人工對領域技術進行研判,不僅費時費力,而且最終結果不便于溯源和管理;第二,由于缺乏客觀數(shù)據(jù)的支撐,專家存在主觀認知偏差和知識盲區(qū),由人工進行領域技術研判易產(chǎn)生偏差,不夠全面;第三,面對不同技術類型的研判,由人工來處理加工,難以分析數(shù)據(jù)之間的語義關系,對數(shù)據(jù)分析的深度不夠,容易造成結果的不準確;第四,線下開展的技術識別、跟蹤工作,缺少統(tǒng)一平臺進行展示和呈現(xiàn),不便于共享。
面向不同業(yè)務和決策需求,采用文本挖掘、機器學習、知識發(fā)現(xiàn)等技術,基于海量數(shù)據(jù)對領域內(nèi)的關鍵技術、核心技術、前沿技術、顛覆性技術等不同技術類型進行識別、評價和研判,全面分析領域內(nèi)技術及其之間的關聯(lián),進一步發(fā)掘隱藏在軟件數(shù)據(jù)背后的潛在和有價值的信息[28],實時動態(tài)展示不同技術主題變化趨勢,把握領域技術發(fā)展走勢,是企業(yè)技術創(chuàng)新的核心內(nèi)容。
企業(yè)情報用戶的需求不僅呈現(xiàn)出多樣化、多層面、個性化、專業(yè)化等特點,還需要以自治的、個性化服務的方式來滿足需求,因此需要對傳統(tǒng)“機械式”情報服務方式進行改革,在情報服務過程中強調(diào)用戶全程參與的原則,從需求驅(qū)動到反饋設計都強調(diào)用戶參與,逐步建立聯(lián)動機制,從而滿足用戶的個性化情報需求。
置身于信息爆炸和信息冗余的環(huán)境,“千人一面”的情報服務方式難以適應多樣化的情報需求,因此迫切需要建立大數(shù)據(jù)驅(qū)動的精準智能服務體系,研發(fā)多元情報產(chǎn)品,拓展情報服務模式,實現(xiàn)即時的個性化響應,將情報有效傳達到用戶,實現(xiàn)點對點的情報服務,滿足情報用戶的個性化服務訴求。此外,目前用戶需要的是融合多種服務方式的情報服務,是一種具有“前瞻性”的情報服務需求,這就需要采用智能技術和智能工具,深度加工底層數(shù)據(jù),識別和挖掘底層數(shù)據(jù)之間的語義關聯(lián),充分利用企業(yè)的靜態(tài)和動態(tài)資源,為提供多樣化的、深度的、精準的情報服務奠定基礎。而且,現(xiàn)有的通用工具雖然也能夠?qū)σ欢〝?shù)量的數(shù)據(jù)進行語義分析和加工,但面對專業(yè)領域內(nèi)的數(shù)據(jù),輸出結果存在不能夠解讀、不夠準確等弊端,因此需要提供專業(yè)化的情報服務,以滿足用戶的情報需求。
信息生態(tài)管理是智能情報服務實施的關鍵環(huán)節(jié)[29]。企業(yè)智能情報服務平臺的信息生態(tài)圈(見圖1)從內(nèi)到外由信息主體鏈、信息本體鏈和信息環(huán)境鏈組成。
圖1 企業(yè)智能情報服務平臺的信息生態(tài)圈
(1)信息主體鏈。信息主體鏈是由信息生產(chǎn)者、分解者、傳遞者、消費者4類信息主體形成的一個完整的閉環(huán)循環(huán)系統(tǒng)。信息生產(chǎn)者主要是指數(shù)據(jù)服務商,負責信息的采集和生產(chǎn);信息分解者和傳遞者主要包括情報服務人員,需要具備情報分析、預測、服務專業(yè)技術,負責將信息進行組織、序化、加工,并且依據(jù)用戶需求,篩選、集成和傳遞信息;信息消費者主要是指用戶,對信息服務成果進行利用和評價。但這些信息主體的角色并不單一和固化,例如數(shù)據(jù)服務商還可以作為信息傳遞者擔負信息組織、集成職責,為企業(yè)智能情報服務提供有力支撐。用戶是智能情報服務的需求方,同時他們在平臺中也充當專家角色,將自身知識和經(jīng)驗外化從而貢獻知識成果,又可作為信息的生產(chǎn)者和傳遞者。
(2)信息本體鏈。信息本體鏈涵蓋的是各類數(shù)據(jù)資源,主要包括文獻資源、內(nèi)部數(shù)據(jù)、行為數(shù)據(jù)、服務數(shù)據(jù)等。文獻資源優(yōu)選高質(zhì)量權威數(shù)據(jù)源,覆蓋期刊、會議、學位論文、項目、報告等多種類型,為提供高水平的智能情報服務奠定豐富的數(shù)據(jù)基礎;服務數(shù)據(jù)包括用戶評價反饋、機構專家名單等;行為數(shù)據(jù)是指用戶在平臺上留下的行為數(shù)據(jù),如用戶訪問日志、瀏覽時間、瀏覽次數(shù)等;對服務數(shù)據(jù)和行為數(shù)據(jù)的分析和利用,便于準確把握用戶的情報需求,為個性化的情報服務提供依據(jù);內(nèi)部數(shù)據(jù)是由企業(yè)內(nèi)部創(chuàng)造的數(shù)據(jù),包括模型指標數(shù)據(jù)、技術點版本管理、技術點點評數(shù)據(jù)、領域詞典等,作為智能情報服務正常開展的基礎和保障。
(3)信息環(huán)境鏈。企業(yè)內(nèi)外部環(huán)境和信息技術構成該企業(yè)智能情報服務的信息環(huán)境鏈。內(nèi)部環(huán)境是情報服務有序進行的基礎,信息技術是系統(tǒng)的技術支撐,外部環(huán)境是情報服務合法運轉(zhuǎn)的保障和約束。
內(nèi)部環(huán)境是保障情報服務有序運轉(zhuǎn)的基礎設施、網(wǎng)絡設備、服務平臺、管理制度等,它們?yōu)樾畔①Y源的采集、加工處理、存儲、數(shù)據(jù)分析、成果發(fā)布等一系列工作提供基礎保障和支撐,內(nèi)部環(huán)境直接影響企業(yè)智能情報服務的服務質(zhì)量、服務方式、服務流程和服務情境。
外部環(huán)境是對系統(tǒng)內(nèi)部活動能夠產(chǎn)生影響的要素,主要包括宏觀的信息政策、信息法律、信息文化和倫理等,是情報交流、應用、分享、傳播的合法性保障和約束,能夠保障情報服務創(chuàng)新,保持健康良性的發(fā)展方向。
信息技術是保障信息流轉(zhuǎn)及信息生態(tài)鏈的合理流動,用于開發(fā)、交流、管理、利用信息資源,使得信息傳遞得到擴大并延伸的技術方法、傳播方法和傳遞途徑。智能技術的迅猛發(fā)展為面向技術創(chuàng)新的企業(yè)智能情報服務提供了前所未有的機遇,提升了機構智能情報服務能力,拓展了機構智能情報服務的深度,改善了情報服務方式和質(zhì)量[30]。
本文基于信息生態(tài)理論構建企業(yè)智能情報服務平臺的信息生態(tài)圈,并以此為基礎,以用戶需求為導向,研發(fā)面向技術創(chuàng)新的企業(yè)智能情報服務平臺。搭建的企業(yè)智能情報服務平臺框架(見圖2)主要包括基礎設施層、數(shù)據(jù)資源層和服務應用層3個層次,它們對應于智能情報服務平臺信息生態(tài)圈中的信息環(huán)境、信息本體和信息主體3個部分:①基礎設施層是智能服務的物質(zhì)基礎和技術支撐;②數(shù)據(jù)資源層為創(chuàng)新服務提供文獻資源等核心資源,以及文本智能解析、自動分類、主題建模、圖譜構建、關聯(lián)挖掘等數(shù)據(jù)處理技術;③服務應用層是智能服務的頂層交互端口,為用戶提供大數(shù)據(jù)驅(qū)動的各類技術發(fā)現(xiàn)、技術監(jiān)測、優(yōu)勢資源分析、個性化服務等技術情報服務。該平臺既是為用戶提供個性化服務的情報平臺,也是智能的用戶自助服務平臺。
圖2 企業(yè)智能情報服務平臺框架
多層次的結構設計保證了平臺在大數(shù)據(jù)環(huán)境下具有較強的適應性和可擴展性,通過信息環(huán)境、信息本體、信息主體等組成部分的重新綜合和分層,可以揭示各要素在上下業(yè)務流程中的關聯(lián)。一方面,用戶可以在滿足需求的驅(qū)動下訪問情報資源,信息基礎設施將獲取、感知、識別和上傳用戶在訪問資源時產(chǎn)生的服務數(shù)據(jù)、文獻資源和行為數(shù)據(jù)等。情報服務人員可以利用數(shù)據(jù)挖掘、機器學習、人工神經(jīng)網(wǎng)絡等數(shù)據(jù)處理技術對上述數(shù)據(jù)進行管理、組織和分析,實現(xiàn)不同的情報服務,底層資源數(shù)據(jù)和服務數(shù)據(jù)的結合有助于用戶作出高效準確的決策,實現(xiàn)數(shù)據(jù)驅(qū)動決策功能。深入分析底層數(shù)據(jù)資源還可以幫助用戶實現(xiàn)知識整合和知識發(fā)現(xiàn),提供發(fā)現(xiàn)隱性知識關聯(lián)的服務功能。服務數(shù)據(jù)和用戶行為數(shù)據(jù)有助于情報服務人員預測用戶的個人需求,并提供準確的知識推薦服務。
大數(shù)據(jù)驅(qū)動下面向技術創(chuàng)新的企業(yè)智能情報服務,能夠幫助用戶實現(xiàn)從掌握知識、創(chuàng)新知識到獲得智慧的過程。在此基礎上,用戶在需求驅(qū)動下,將更加積極地參與創(chuàng)建本地內(nèi)容,實現(xiàn)對高質(zhì)量數(shù)據(jù)的沉淀。同時情報服務人員將進一步根據(jù)服務數(shù)據(jù)、業(yè)務數(shù)據(jù)、用戶行為數(shù)據(jù)等,提供精準、專業(yè)的知識推薦,從而形成企業(yè)智能情報服務的循環(huán)發(fā)展生態(tài)鏈。
4.2.1 基礎設施層
大數(shù)據(jù)的獲取、存儲、管理、組織、分析和應用依賴于穩(wěn)定的基礎設施支持,基礎設施層為企業(yè)智能情報服務的開展提供了一個必要的支撐環(huán)境,實現(xiàn)了大數(shù)據(jù)驅(qū)動下的智能服務。設施包括一系列硬件感知的IT基礎設施設備、存儲設備、網(wǎng)絡設備、監(jiān)視器等。完善的數(shù)據(jù)感知識別系統(tǒng)具有紙質(zhì)信息資源、數(shù)字信息資源等信息的深度感知、測量和捕獲功能,能夠?qū)崟r對大數(shù)據(jù)的全面感知、智能識別和實時上傳。實現(xiàn)大數(shù)據(jù)驅(qū)動的企業(yè)智能情報服務,還需要結合一系列智能技術來支持大數(shù)據(jù)處理,從海量數(shù)據(jù)中實現(xiàn)聚類分析、統(tǒng)計分析、語義分析、預測分析、知識關聯(lián)分析等功能。如大數(shù)據(jù)、云計算技術、區(qū)塊鏈技術為數(shù)據(jù)資源存儲、各類異構資源的整合提供了解決方案;用戶畫像、個性化推薦和主動推送技術可以精準把握用戶需求,實現(xiàn)主動知識服務;人工智能和機器學習技術能夠?qū)崿F(xiàn)知識萃取、技術挖掘、關系推理等功能,為企業(yè)智能情報服務開展提供技術支撐和保障。
4.2.2 數(shù)據(jù)資源層
數(shù)據(jù)資源層負責底層數(shù)據(jù)的管理和分析,基于底層算力,綜合運用文本智能解析、自動分類、主題建模、圖譜構建、關聯(lián)挖掘等智能分析方法,對文獻資源、內(nèi)部數(shù)據(jù)、行為數(shù)據(jù)、服務數(shù)據(jù)等數(shù)據(jù)資源進行深度加工、關聯(lián)分析和重復利用,提升底層資源豐度和價值,探索用戶行為模式,為面向技術創(chuàng)新的多個應用場景賦能。
4.2.3 服務應用層
服務應用層是整個系統(tǒng)的頂層交互端口,直接面向用戶,通過多元化的產(chǎn)品形式,為用戶提供智能情報服務。數(shù)據(jù)應用主要體現(xiàn)在大數(shù)據(jù)驅(qū)動的智能服務生態(tài)鏈的發(fā)展上,依賴于數(shù)據(jù)、情報服務人員、用戶、平臺、環(huán)境等生態(tài)要素的互動[31]。平臺為智能情報服務的開展提供了環(huán)境和數(shù)據(jù),情報服務人員通過標準或規(guī)則,對海量數(shù)據(jù)進行序化、組織和整合,充分挖掘數(shù)據(jù)價值,作為提供智能情報服務的前提。用戶在獲得情報服務的基礎上,可開展更高層次的知識創(chuàng)新活動,產(chǎn)生數(shù)據(jù)將進一步豐富底層數(shù)據(jù),推動智能情報服務的開展和實施。
情報服務人員主要為企業(yè)用戶提供4種技術創(chuàng)新情報服務:技術監(jiān)測、技術發(fā)現(xiàn)、優(yōu)勢資源分析和個性化服務。技術監(jiān)測服務主要是實時關注與領域技術相關的政策更新、行業(yè)發(fā)展、企業(yè)競爭、技術變革動態(tài)、周邊動態(tài)等國內(nèi)外資訊,并能夠?qū)χ攸c主題提供檢測預警。技術發(fā)現(xiàn)服務主要是能夠?qū)︻I域內(nèi)的前沿技術、新興技術、顛覆性技術、關鍵技術等不同技術類型進行識別,同時也能夠?qū)夹g發(fā)展趨勢、技術間關系進行研判和推斷。優(yōu)勢資源分析是指篩選出領域內(nèi)或區(qū)域內(nèi)的優(yōu)勢技術、頭部機構、TOP專家等資源,并進行可視化呈現(xiàn)。個性化服務是指用戶可以定制感興趣的主題,利用平臺數(shù)據(jù)處理功能直接智能分析,全程零代碼操作,能夠快速獲取分析結果。
4.3.1 多源數(shù)據(jù)整合技術
大數(shù)據(jù)環(huán)境下,技術相關數(shù)據(jù)涉及期刊、會議、專利、項目、資訊、科技報告、標準等多種文獻類型,數(shù)據(jù)類型涉及字符串型、文本型、數(shù)值型等,數(shù)據(jù)結構龐雜。服務于不同企業(yè)的個性化情報服務系統(tǒng)間缺乏統(tǒng)一的元數(shù)據(jù)標準,相同屬性的元數(shù)據(jù)存在差異和不一致性,機械的數(shù)據(jù)整合會造成偏差,影響數(shù)據(jù)質(zhì)量,因此明確各類數(shù)據(jù)的業(yè)務含義、數(shù)據(jù)元含義、數(shù)據(jù)項屬性等內(nèi)容,建立數(shù)據(jù)字段間的映射關系,并且根據(jù)業(yè)務含義,建立不同層次的主題域,明確不同層次主題域中的字段數(shù)量,從而建立統(tǒng)一的數(shù)據(jù)模型,便于數(shù)據(jù)流轉(zhuǎn)和集成。
多源數(shù)據(jù)整合遵循如下步驟。首先,按照資源類型創(chuàng)建資源類型模型,并賦予唯一的資源類型ID。其次,針對每個資源類型ID,采用動態(tài)數(shù)據(jù)存儲技術,自動感知和識別錄入數(shù)據(jù)的字段名稱、數(shù)據(jù)類型、長度范圍。最后,對已入庫的數(shù)據(jù)進行自動巡檢,重點關注同一資源類型ID內(nèi),數(shù)據(jù)字段是否重復;制定去重規(guī)則,檢查同一資源類型ID內(nèi),數(shù)據(jù)是否冗余,如存在數(shù)據(jù)重復,則刪除重復數(shù)據(jù)。
4.3.2 主題聚類技術
文本主題聚類可以協(xié)助發(fā)現(xiàn)文本中蘊含的主題,是進行領域技術挖掘和識別的基礎,常用的主題聚類方法有潛在語義索引(Latent Semantic Indexing,LSI)、隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)等主題模型。本平臺以LDA主題模型為基礎,在文本預處理、主題模型構建等方面進行改良,不僅提高了計算效率,而且操作簡單易行,分析結果的準確性大大提升。
文本預處理階段,建立句子級的句法切分框架,通過建立多個基于語法規(guī)則的上下文無關文法(Context Free Grammers,CFG),完成對英文文本分詞操作。目前對英文文本語句拆分經(jīng)常使用的是依據(jù)空格,或者使用CFG框架進行切分,這樣容易造成短語的分裂,從而降低單詞的語義內(nèi)涵,而本平臺使用的根據(jù)語句特點建立的語法規(guī)則CFG,不僅能使得單詞的語義得到最大程度的保留,而且簡單便于操作,占用內(nèi)存小,容易實現(xiàn)工程化推廣應用。
主題模型階段,主題數(shù)、迭代次數(shù)、文檔-主題先驗參數(shù)α和主題-單詞先驗參數(shù)β的設置自動化,免除憑借人工經(jīng)驗的賦值,大大提升主題識別的準確性,降低了操作難度,為后續(xù)不同技術類型的識別和挖掘奠定堅實客觀基礎。主題數(shù)取困惑度曲線的峰值;迭代次數(shù)與主題數(shù)成正比,迭代次數(shù)I與主題數(shù)量K存在以下關系:當K≤10,I=3000;當K>10,I=3000+(K-10)×300。先驗參數(shù)α和先驗參數(shù)β的設置與迭代算法相關:如果迭代算法采用的是EM方法,參數(shù)α值為(50/k)+1;參數(shù)β值=1.1;如果迭代算法采用的是貝葉斯方法,參數(shù)α值?。?.0/k),參數(shù)β取值為(1.0/k)。
4.3.3 關系發(fā)現(xiàn)技術
通過對技術間關系的發(fā)現(xiàn),增加對技術信息的深度語義揭示,是進行技術情報利用的關鍵環(huán)節(jié)。投入產(chǎn)出的APL(Average Propagation Length)模型方法認為,利用不同技術領域之間的引用關系,可測量某項技術對技術網(wǎng)絡的影響,眾多學者已將APL模型應用于突出多個科技領域的核心知識間的聯(lián)系,本平臺在姜照華等[32]發(fā)表的用于熱點和技術突破機會的APL模型的基礎上,將APL模型和基于注意力機制的雙向長短時記憶(Bi-directional Long Short-Term Memory,BiLSTM)關系抽取算法相結合,用于技術關系發(fā)現(xiàn)。首先采用Attention+BilSTM算法對技術點間的關系進行識別,然后根據(jù)APL模型計算兩兩技術點間關系大小,最后對關系大小設定閾值,篩選出領域技術突破機會。
作為以識別和追蹤技術發(fā)展前沿及其走勢為目的的企業(yè)級科技發(fā)展戰(zhàn)略決策支持工具,面向技術創(chuàng)新的企業(yè)智能情報分析平臺主要實現(xiàn)以下5個方面的功能。
4.4.1 領域技術識別與評估
面對海量的文獻資源,傳統(tǒng)的僅通過專家判別的人工技術點識別方法已經(jīng)不能滿足當前機構對技術點精準、快速的識別需求,而機器學習和文本挖掘的大數(shù)據(jù)分析方法為這種需求提供了有效的解決方案。平臺著重分析前沿技術、新興技術、關鍵技術等不同技術類型特征,研發(fā)多樣的智能算法和構建模型群,從中篩選最佳實現(xiàn)算法和評估模型指標,達到識別和評估領域技術的目的。利用本平臺對煉鋼領域相關英文文獻進行技術掃描,通過系統(tǒng)內(nèi)嵌的前沿技術評估模型,選取技術創(chuàng)新性、技術成熟度、技術影響力3個指標,得到煉鋼領域技術識別及評估結果(見表1)。各指標計算采用功效系數(shù)法,值域設置區(qū)間為(0~100),模型總分的計算規(guī)則為(技術創(chuàng)新性指標得分+技術成熟度指標得分+技術影響力指標得分)/3。本平臺不僅直觀呈現(xiàn)了直接還原鐵技術、焦爐煤氣噴吹、TRT發(fā)電技術、水淬高爐渣技術、轉(zhuǎn)爐煉鋼終點控制等技術在技術創(chuàng)新性、技術成熟度和技術影響力上的分別得分及模型總分,而且還能夠獲取綜合維度和每個維度的TOP技術,從而協(xié)助研判技術的前沿性。
表1 煉鋼領域前沿技術識別及評估結果
4.4.2 領域技術關系發(fā)現(xiàn)
為企業(yè)技術創(chuàng)新提供有價值的情報,不僅需要提供領域技術的名稱,還應盡可能提供技術的研發(fā)路徑。為了提供全面、精準的決策支撐情報,本平臺對領域技術間的關系進行識別和挖掘,通過計算技術間的相似度,不僅能夠了解技術間的關聯(lián)程度,而且還能夠為技術突破機會的發(fā)現(xiàn)提供預見和指導。以煉鋼領域為例,本平臺可提供煉鋼領域技術間關系圖(見圖3),節(jié)點大小表示對應領域的熱度,連線粗細表示關系大小。圖3中設置閾值為0.6,煉鋼領域熱度TOP5依次為復合吹煉技術、直接還原煉鐵技術、氫冶煉、轉(zhuǎn)爐雙渣工藝、焦爐煤氣噴吹。領域間技術突破機會TOP5為復合吹煉技術與轉(zhuǎn)爐雙渣工藝、鐵水預處理與直接還原煉鐵技術、鐵水預處理與氫冶煉、轉(zhuǎn)爐與濺渣護爐技術、復合吹煉技術與干熄焦技術。
圖3 煉鋼領域技術間關系圖
4.4.3 重點企業(yè)研發(fā)布局挖掘與追蹤
企業(yè)進行技術創(chuàng)新不僅要了解行業(yè)和領域的技術前沿,而且還要對典型企業(yè)的技術動態(tài)和布局進行識別和追蹤,從而能夠知己知彼,有助于明確研發(fā)方向和戰(zhàn)略部署。以典型企業(yè)為核心,通過網(wǎng)絡爬蟲技術、科學文獻計量、自動分類、數(shù)據(jù)可視化分析、知識圖譜分析等技術實現(xiàn)企業(yè)技術布局、技術關系的展示,并且能夠?qū)夹g相關的資訊、政策、專利、期刊、項目等信息進行持續(xù)監(jiān)測和一站式集成,分析呈現(xiàn)技術熱點和技術發(fā)展趨勢,全方位提供企業(yè)技術情報畫像。通過本平臺可對鋼鐵領域頭部企業(yè)韓國浦項制鐵公司(POSCO)的技術布局、發(fā)文趨勢、技術動態(tài)等信息一目了然地展示和呈現(xiàn)。
4.4.4 用戶自助智能服務
將情報分析中常用的工具和模型,如語義分析、自動分類、主題聚類等情報工具虛擬化,可以幫助有需求的用戶在平臺上自助實現(xiàn)對特定主題的個性化、按需分析。
用戶可以將自己感興趣的主題,通過確定主題詞,采用直接搜索或自助式上傳的方式,獲取目標數(shù)據(jù)。用戶可以在Web端通過零代碼,實現(xiàn)對底層資源自動分類、主題聚類、實體識別、關系抽取、關鍵詞抽取等數(shù)據(jù)分析,從而快速、準確、客觀地了解到關于特定主題的技術體系,對不同技術類型的評估,以及在該主題領域中的優(yōu)勢資源,實現(xiàn)對該領域技術全方位的洞察。
4.4.5 “一站式”科技情報決策平臺
“一站式”科技情報決策平臺可從多個方面進行理解。第一,對于單個用戶來說,用戶通過該平臺可以完成從數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)處理與加工、數(shù)據(jù)動態(tài)追蹤、分析報告下載等全鏈條情報服務;第二,對于企業(yè)來說,不同用戶可以登錄該平臺,協(xié)同共享特定領域的技術情報分析成果,從而確保技術情報信息來源的統(tǒng)一性;第三,通過該平臺,可以實現(xiàn)對不同領域主題技術體系的管理,以及洞察技術體系結構演變,便于企業(yè)的知識管理。該平臺可以打通上下游,促進創(chuàng)新主體跨領域、跨行業(yè)協(xié)同創(chuàng)新,突破資源能力限制,提高創(chuàng)新績效。
技術情報是支撐企業(yè)創(chuàng)新發(fā)展的重要資源,而面向技術創(chuàng)新的企業(yè)智能情報分析平臺的搭建對于企業(yè)高效開展技術情報有重要價值。本文設計并成功開發(fā)了面向技術創(chuàng)新的企業(yè)智能情報分析平臺,以此作為科技發(fā)展態(tài)勢及前沿技術趨勢分析的工具,為科技發(fā)展戰(zhàn)略和科技政策的制定提供決策支持。該平臺通過高效獲取和融合不同來源、不同格式的信息,運用文本聚類技術、自動分類技術,深入挖掘領域技術主題,以及技術主題領域的優(yōu)勢資源,結合國家、時間等維度的變化,重點分析每個技術點的研究熱點、研究趨勢,為分析科技發(fā)展的宏觀走勢,以及對科技、經(jīng)濟和社會產(chǎn)生影響的科技發(fā)展前沿趨勢提供支撐。當然,隨著科技發(fā)展和技術進步,根據(jù)用戶需求,技術情報平臺功能在實際使用過程中還需要不斷完善與拓展,智能情報服務仍需不斷升級。