李 楠 張 慧 趙 陽 汪 波
(華東理工大學科技信息研究所,上海 200237)
知識產(chǎn)權(quán)公共服務是圍繞知識產(chǎn)權(quán)的創(chuàng)造、運用、保護和管理為社會公眾和創(chuàng)新主體提供信息共享、數(shù)據(jù)開放、政務服務、分析咨詢等基礎性服務[1],目前以專利、商標、地理標志、集成電路布圖設計等為核心的知識產(chǎn)權(quán)基礎數(shù)據(jù)以及相關的政策文件、法律法規(guī)、技術文獻等數(shù)據(jù)源,共同構(gòu)成了開展服務的保障性數(shù)據(jù)資源,成為公共服務體系的數(shù)據(jù)基礎和服務支撐。近年來,積極推進的信息服務平臺建設匯集了越來越多的優(yōu)質(zhì)數(shù)據(jù)資源[2],極大地提升了公共服務的供給能力。然而,數(shù)據(jù)資源的豐富并不意味著信息獲取的可保障性和知識服務的有效性,公共服務過程中暴露出的數(shù)據(jù)可用性不強、內(nèi)容揭示不充分、服務支撐能力不足等問題成為導致數(shù)據(jù)建設和服務功能開發(fā)面臨挑戰(zhàn)的重要因素。
歸根結(jié)底,實現(xiàn)數(shù)據(jù)資源的有序組織、深度開發(fā),才能在數(shù)據(jù)有效管理和合理增值的基礎上保障公共服務的有效性和服務水平的提升。當前科技文獻資源的深度開發(fā)與利用已有許多有益的實踐與探索,諸如通過引入語義計算、人工智能等新技術手段,實現(xiàn)文獻資源的元數(shù)據(jù)抽取、內(nèi)容識別與結(jié)構(gòu)化、語義關聯(lián)構(gòu)建等,提供了可參考的實現(xiàn)方法與技術路徑。本文從當前知識產(chǎn)權(quán)公共服務平臺建設現(xiàn)狀調(diào)研入手,梳理歸納公共服務數(shù)據(jù)的特點以及現(xiàn)有組織管理模式的局限,在此基礎上進一步明確公共服務數(shù)據(jù)的語義范疇及其在服務場景下的具體內(nèi)涵,建立公共服務數(shù)據(jù)的語義組織實踐路徑,以期為優(yōu)化公共服務數(shù)據(jù)資源的組織呈現(xiàn)模式、提升數(shù)據(jù)驅(qū)動的公共服務效能提供可行的解決方案。
服務平臺是開展知識產(chǎn)權(quán)公共服務的重要載體,直接反映公共服務發(fā)展現(xiàn)狀,因此國內(nèi)學者對相關平臺建設現(xiàn)狀和服務水平一直較為關注。劉進軍等[3]主要以高校國家知識產(chǎn)權(quán)中心為對象,調(diào)研其服務平臺建設情況,并針對高校服務特點提出策略建議;張發(fā)亮等[4]分析了我國區(qū)域知識產(chǎn)權(quán)信息服務平臺建設和服務存在的問題,重點關注了用戶的主要信息需求,并提出了適應需求的平臺框架及三級四維運行機制;林建[5]、韋景竹等[6]均關注粵港澳大灣區(qū)的公共信息服務平臺建設;冉從敬等[7]則是從知識產(chǎn)權(quán)生態(tài)鏈視角分析并提出建立覆蓋全流程服務的平臺模型。然而已有成果大多圍繞平臺框架、功能設計或服務模式開展研究,較少關注相關服務的數(shù)據(jù)賦能因素,對于平臺數(shù)據(jù)資源開發(fā)與利用的現(xiàn)狀也缺乏專門全面的分析。因此,本文聚焦數(shù)據(jù)資源的組織、開發(fā)與利用,以平臺數(shù)據(jù)資源為切入點開展調(diào)研,為后續(xù)研究提供參考依據(jù)。
考慮到以單一類型的服務平臺為調(diào)研對象無法全面反映數(shù)據(jù)資源建設現(xiàn)狀,筆者選擇截至目前由國家知識產(chǎn)權(quán)公共服務網(wǎng)所公開的158個省級公共服務平臺資源為調(diào)研對象(參照省市知識產(chǎn)權(quán)公共服務平臺及主要知識產(chǎn)權(quán)公共服務資源目錄)[8],旨在覆蓋更加多元化的平臺類型,以便得出更加全面的調(diào)研結(jié)論。調(diào)研對象主要包括如下4種平臺類型:已完成地方站點部署的新一代地方專利檢索及分析系統(tǒng)平臺29個,主要面向社會用戶開放提供專利數(shù)據(jù)的檢索、瀏覽、分析及全文單篇下載、著錄項目信息批量下載等功能;省市級綜合性知識產(chǎn)權(quán)信息服務平臺34個,匯聚各類知識產(chǎn)權(quán)基礎數(shù)據(jù)及線上業(yè)務提供綜合信息服務,包括但不限于線上事務辦理、檢索分析服務、提供相關工具、特色數(shù)據(jù)庫資源等;國家認定的高校知識產(chǎn)權(quán)信息服務中心或技術與創(chuàng)新支持(TISC)中心等專業(yè)服務機構(gòu)平臺45個,依托科技查新、教育培訓等開展專業(yè)信息服務;另外還有50個由其他知識產(chǎn)權(quán)企業(yè)或機構(gòu)提供的服務平臺或信息服務發(fā)布主頁。
根據(jù)功能定位差異,各平臺所收錄的數(shù)據(jù)資源類型、加工狀況以及提供服務的形式也呈現(xiàn)出不同的特點,將支撐知識產(chǎn)權(quán)公共服務的常見數(shù)據(jù)資源根據(jù)內(nèi)容劃分為以下類型:基礎數(shù)據(jù)、文件資料數(shù)據(jù)、科技文獻數(shù)據(jù)以及經(jīng)濟數(shù)據(jù)。
1)基礎數(shù)據(jù):知識產(chǎn)權(quán)公共服務圍繞知識產(chǎn)權(quán)創(chuàng)造、保護和運用的全流程開展。因此,以專利、商標、地理標志、集成電路布圖設計等為代表的知識產(chǎn)權(quán)基礎數(shù)據(jù)是公共服務的核心數(shù)據(jù)資源。現(xiàn)有平臺對基礎數(shù)據(jù)的覆蓋度很高,但目前以原生數(shù)據(jù)形態(tài)提供檢索查詢、數(shù)據(jù)下載等服務的平臺仍然占據(jù)大多數(shù)。另外,對基礎數(shù)據(jù)的統(tǒng)計分析成為衍生數(shù)據(jù)服務的主要形式,例如省市級知識產(chǎn)權(quán)信息服務平臺(典型實例如圖1所示)大多提供基礎數(shù)據(jù)的訪問獲取服務,實現(xiàn)相關數(shù)據(jù)的匯總統(tǒng)計形成增值的衍生數(shù)據(jù),并通過多種可視化手段展示區(qū)域知識產(chǎn)權(quán)發(fā)展現(xiàn)狀。對基礎數(shù)據(jù)的加工主要是對著錄信息和主題分類的標引,為數(shù)據(jù)訪問獲取提供檢索和瀏覽入口。也有部分平臺開始探索對基礎數(shù)據(jù)的深度加工,比如新一代地方專利檢索及分析系統(tǒng),不僅提供了專利數(shù)據(jù)豐富的傳統(tǒng)檢索入口,還結(jié)合化學知識提供結(jié)構(gòu)式檢索進一步豐富檢索途徑,建立了專利數(shù)據(jù)與IPC、CPC分類以及國民經(jīng)濟分類的映射關系,同時在語義標引的基礎上提供了常用藥材等領域詞表,支持藥物檢索等增值功能,實現(xiàn)對新治療用途、治療作用、分析方法、方劑組成等知識單元的檢索。部分平臺基于對基礎數(shù)據(jù)的深度標引和開發(fā)建設,形成了特色專題數(shù)據(jù)庫、信息研報等知識服務產(chǎn)品,如國家知識產(chǎn)權(quán)局推出的新冠肺炎專利情報專題庫、中藥專利情報等。
(左:長三角知識產(chǎn)權(quán)信息公共服務平臺https://csjipfw.com; 中:上海市知識產(chǎn)權(quán)信息服務平臺https://www.shanghaiip.cn;右:新冠疫情防控情報專題及信息共享平臺http://ggfw.cnipa.gov.cn/)圖1 基礎數(shù)據(jù)組織與呈現(xiàn)——以省市級綜合知識產(chǎn)權(quán)信息公共服務平臺及專題庫建設為例
2)文件資料數(shù)據(jù):政策公文、戰(zhàn)略規(guī)劃、法律法規(guī)等指導性或規(guī)范性文件資料也是知識產(chǎn)權(quán)公共服務不可或缺的信息內(nèi)容,提供相關數(shù)據(jù)的查詢服務,是用戶了解國家戰(zhàn)略方針、發(fā)展方向以及相關權(quán)威資訊的重要渠道。目前,大多數(shù)平臺對于此類數(shù)據(jù)服務以原始文件清單展示及關鍵詞檢索為基本服務形式,少量平臺對文件進行了分類標引,例如國家知識產(chǎn)權(quán)局對政策進行了公告、通知、白皮書等子類細分,對法律法規(guī)則是按照知識產(chǎn)權(quán)類型進行專利法律、專利行政法規(guī)、專利部門規(guī)章、商標法律、商標行政法規(guī)等子類細分;中國科技情報網(wǎng)則是提供了創(chuàng)新政策等數(shù)據(jù)資源的關鍵詞、摘要、產(chǎn)出機構(gòu)等字段檢索,同時針對創(chuàng)新政策建立更為細致的兩級主題類目,包含科技戰(zhàn)略與規(guī)劃、科技政策、國民經(jīng)濟與社會發(fā)展規(guī)劃,以及單獨設置的新能源、科技人才、戰(zhàn)略性新興產(chǎn)業(yè)等熱點專題分類。
(左:中國科技情報網(wǎng)https://www.chinainfo.org.cn/; 右:國家知識產(chǎn)權(quán)局官方主頁https://www.cnipa.gov.cn/)圖2 文件資料類數(shù)據(jù)的組織與呈現(xiàn)——以政府部門官網(wǎng)及情報服務平臺為例
3)科技文獻數(shù)據(jù):科技文獻以記錄科學技術知識為主要功能,除了已列入知識產(chǎn)權(quán)基礎數(shù)據(jù)的專利文獻以外,科技論文、學術專著、技術標準等各種形式的文獻都成為體現(xiàn)科技創(chuàng)新進展、指導研發(fā)方向、規(guī)范科研路徑的重要載體。以科技創(chuàng)新服務為功能定位公共服務平臺大多將科技文獻數(shù)據(jù)納入基礎服務資源建設范圍,但目前主要的服務形式以提供數(shù)據(jù)查詢接口為主,大多鏈接到獨立的外部文獻數(shù)據(jù)庫,如萬方數(shù)據(jù)資源、中國知網(wǎng)CNKI等,并未將相關資源納入平臺管理范圍,僅有少數(shù)綜合性信息服務平臺提供專利相關的科技文獻檢索和咨詢服務。另外,公共服務過程中技術標準服務普遍性遠高于其他類型的科技文獻。
4)經(jīng)濟數(shù)據(jù):知識產(chǎn)權(quán)數(shù)據(jù)本身具有技術、法律和經(jīng)濟多重屬性,而在公共服務中產(chǎn)業(yè)或行業(yè)宏觀數(shù)據(jù)、以企業(yè)為主體的市場數(shù)據(jù)和商業(yè)信息等一手資料對于知識產(chǎn)權(quán)分析評議等深層服務具有重要的支撐作用,因此也有平臺關注相關數(shù)據(jù)的收集組織和利用,比如安徽省知識產(chǎn)權(quán)數(shù)據(jù)管理系統(tǒng)將企業(yè)信息與其他知識產(chǎn)權(quán)基礎數(shù)據(jù)進行關聯(lián)呈現(xiàn),有助于通過創(chuàng)新主體分布情況等把握區(qū)域知識產(chǎn)權(quán)發(fā)展的整體態(tài)勢。但由于相關數(shù)據(jù)服務的受眾較少且僅適用于特定目標的深層次服務,目前少有平臺將此類經(jīng)濟市場數(shù)據(jù)納入管理范圍,平臺覆蓋度較低。
表1 知識產(chǎn)權(quán)公共服務數(shù)據(jù)組織與利用現(xiàn)狀
綜上所述,服務平臺對各種數(shù)據(jù)資源的覆蓋度各有側(cè)重,具體分析不同類型平臺的實際情況可以發(fā)現(xiàn)受其服務定位的影響差異化明顯??傮w而言,大多數(shù)平臺仍以基礎數(shù)據(jù)服務為重心,兼顧政策文件、法律法規(guī)、戰(zhàn)略規(guī)劃等文件資料的參考咨詢服務,綜合科技文獻、經(jīng)濟數(shù)據(jù)等多元化信息的深度分析服務仍局限于少數(shù)服務主體,線上平臺顯示度較低。
從知識產(chǎn)權(quán)公共服務平臺的數(shù)據(jù)組織與管理狀況來看,在公認的數(shù)據(jù)組織規(guī)范和標準體系框架尚未形成之前,公共服務數(shù)據(jù)資源建設除了將服務所需的多源數(shù)據(jù)納入治理范圍以外,亟待解決的仍然是如何推動數(shù)據(jù)深加工、提升數(shù)據(jù)集成效能。歸根結(jié)底,公共服務數(shù)據(jù)的有效組織和呈現(xiàn)是有效支撐公共服務開展的關鍵核心。本研究以當前開展的典型服務為切入點梳理公共服務數(shù)據(jù)的基本構(gòu)成,并從中挖掘服務應用場景下的核心數(shù)據(jù)元素、組織維度及其關聯(lián)路徑,希望通過公共服務數(shù)據(jù)的語義組織模型構(gòu)建為數(shù)據(jù)資源建設提供可行的解決方案。
結(jié)合當前公共服務數(shù)據(jù)資源的建設實際,知識產(chǎn)權(quán)公共服務數(shù)據(jù)的基本構(gòu)成根據(jù)其來源和功能可進一步劃分為原生數(shù)據(jù)和增值數(shù)據(jù)兩類,如表2所示。原生數(shù)據(jù)是目前數(shù)據(jù)賦能服務的原始數(shù)據(jù)形態(tài),以知識產(chǎn)權(quán)基礎數(shù)據(jù)為主,一方面,原生數(shù)據(jù)作為開放共享的原始數(shù)據(jù)源直接成為公共服務數(shù)據(jù),用戶可通過檢索查詢直接獲得所需數(shù)據(jù)集,了解相關信息;另一方面,則可以經(jīng)過適當?shù)募庸ぬ幚硇纬稍鲋禂?shù)據(jù),成為公共服務數(shù)據(jù)的間接來源。數(shù)據(jù)增值一般有兩種途徑,一是建立與相關數(shù)據(jù)的語義連接,形成信息量更為豐富的關聯(lián)數(shù)據(jù),例如:專利數(shù)據(jù)與科技論文、學術專著等科技文獻關聯(lián)提供技術創(chuàng)新所需背景信息,與企業(yè)、產(chǎn)品等行業(yè)信息關聯(lián)提供市場布局所需環(huán)境信息;二是經(jīng)過統(tǒng)計分析、本體建模與實例化等深度加工挖掘,以統(tǒng)計數(shù)據(jù)集、知識圖譜等適當形式呈現(xiàn)的衍生數(shù)據(jù),實現(xiàn)專家人才、技術成果、企業(yè)、產(chǎn)品等關鍵實體要素的提取、關聯(lián)和有效呈現(xiàn)。
表2 知識產(chǎn)權(quán)公共服務數(shù)據(jù)的基本構(gòu)成
在當前的知識產(chǎn)權(quán)公共服務架構(gòu)下,按照服務的內(nèi)容性質(zhì)可劃分為基礎性公共服務、行政性公共服務、專業(yè)性公共服務及深層次應用服務4種場景。其中,基礎性公共服務面向社會公眾及一般性用戶提供無差別的內(nèi)容服務、檢索服務及基礎咨詢服務,包括知識產(chǎn)權(quán)基礎數(shù)據(jù)查詢下載、國家/區(qū)域相關政策法規(guī)等文件資料檢索瀏覽、基礎業(yè)務知識咨詢等,優(yōu)先保證數(shù)據(jù)的可獲得性、全面性、準確性和時效性,力求平臺數(shù)據(jù)入口簡潔、無訪問障礙;行政性公共服務主要面向企業(yè)、知識產(chǎn)權(quán)從業(yè)人員等具有在線辦理知識產(chǎn)權(quán)申請、交易、保護等相關行政管理業(yè)務需求的用戶,優(yōu)先保證平臺功能對在線業(yè)務處理流程的支持以及操作規(guī)范化、便捷性;專業(yè)性公共服務則是面向知識產(chǎn)權(quán)研發(fā)、創(chuàng)造、保護與利用過程中的專業(yè)分析服務,包括:研發(fā)創(chuàng)新過程中開展的技術與產(chǎn)品分析服務,專利預警、專利導航、知識產(chǎn)權(quán)布局等特定場景的情報分析服務,重點關注對基礎數(shù)據(jù)及技術性較強科技文獻數(shù)據(jù)等的深度挖掘與分析利用;深層次應用服務則是在專業(yè)服務基礎上面向知識產(chǎn)權(quán)孵化、交易轉(zhuǎn)讓、策略制定、合作研發(fā)、成果轉(zhuǎn)化等的深度分析評議服務,依賴于對基礎數(shù)據(jù)及相關數(shù)據(jù)等更廣泛數(shù)據(jù)范圍的綜合研判。如圖3所示,原生數(shù)據(jù)和增值數(shù)據(jù)共同支撐不同場景的服務。
圖3 知識產(chǎn)權(quán)公共服務數(shù)據(jù)的場景支撐
高質(zhì)量的數(shù)據(jù)賦能服務并不止于簡單的數(shù)據(jù)原始形態(tài)呈現(xiàn),而是需要經(jīng)過加工處理和有序組織才能實現(xiàn)應用增值,參考科學文獻與檔案數(shù)據(jù)化過程中的語義組織內(nèi)涵[9-10],本文將公共服務數(shù)據(jù)的語義組織定義為將相關數(shù)據(jù)的內(nèi)容結(jié)構(gòu)化、編碼形式化、關聯(lián)顯性化的過程,包括識別、理解、分析和充分表達公共服務場景下的數(shù)據(jù)語義及其關聯(lián)。根據(jù)公共服務的數(shù)據(jù)需求,可以將語義組織分為核心語義組織和拓展語義組織兩種。核心語義組織主要是指實現(xiàn)基礎數(shù)據(jù)所包含語義實體的多維度集成,關鍵的語義實體包含技術、人物、機構(gòu)、企業(yè)、成果等,涉及時間、主題、地域、行業(yè)、產(chǎn)業(yè)、領域等語義維度,主要為基礎性公共服務提供細粒度的語義組織網(wǎng)絡,優(yōu)化檢索訪問途徑,提升數(shù)據(jù)獲取效率,同時為專業(yè)性公共服務和深層應用服務提供語義增強的數(shù)據(jù)基礎。拓展語義組織是指基礎數(shù)據(jù)與其他外部數(shù)據(jù)源之間關聯(lián)語義的構(gòu)建,強調(diào)關聯(lián)數(shù)據(jù)與基礎數(shù)據(jù)的語義集成與互補,通過與科技文獻、政策文件、經(jīng)濟數(shù)據(jù)等包含的語義實體建立關聯(lián)映射,滿足為知識產(chǎn)權(quán)創(chuàng)造、保護和運用過程提供深度服務的數(shù)據(jù)需求,是專業(yè)性公共服務和深層應用服務的關鍵數(shù)據(jù)支撐。
基于公共服務數(shù)據(jù)的基本構(gòu)成以及語義組織內(nèi)涵分析,可以建立如圖4所示的語義組織實現(xiàn)路徑,自左向右的數(shù)據(jù)組織呈現(xiàn)過程反映了數(shù)據(jù)從原始形態(tài)到可利用形態(tài)的轉(zhuǎn)化過程,從原生數(shù)據(jù)到最終服務數(shù)據(jù)的加工過程包括元數(shù)據(jù)標引、主題抽取、語義實體及關系識別、可視化等不同層次和粒度的實體要素挖掘和組織,而這一過程往往需要對接檢索查詢、創(chuàng)新分析、競爭調(diào)查、人才評價、布局分析、環(huán)境監(jiān)測等不同的具體服務需求。
圖4 知識產(chǎn)權(quán)公共服務數(shù)據(jù)的組織呈現(xiàn)過程
基礎數(shù)據(jù)及關聯(lián)數(shù)據(jù)的元數(shù)據(jù)用于描述應用于公共服務的各種多源異構(gòu)數(shù)據(jù)的屬性信息,主要涉及:知識產(chǎn)權(quán)基礎數(shù)據(jù)(如專利、商標、地理標志以及集成電路布圖設計)的題錄及全文信息;知識產(chǎn)權(quán)相關文件資料數(shù)據(jù)的題錄及全文信息,如指導知識產(chǎn)權(quán)工作的政策、法律法規(guī)等文件,相關技術領域的論文、標準、專著等科技文獻等;反映產(chǎn)業(yè)、行業(yè)經(jīng)濟活動及發(fā)展狀況的市場數(shù)據(jù),如企業(yè)信息、產(chǎn)品信息、經(jīng)營數(shù)據(jù)、渠道策略等。上述信息的識別與抽取過程即為公共服務數(shù)據(jù)的元數(shù)據(jù)標引過程,這一過程為公共服務數(shù)據(jù)的分面檢索提供了主要的查詢字段和檢索入口,成為進行計量分析的主要數(shù)據(jù)來源,同時也為數(shù)據(jù)的語義增值奠定了基礎。
公共服務數(shù)據(jù)源具有豐富的技術、法律和經(jīng)濟屬性,其中,技術主題大多以專有名詞、領域術語等形式反映研發(fā)過程所涉及的技術、方法、理論等,其他內(nèi)容主題則以關鍵詞、數(shù)值型數(shù)據(jù)等形式反映政策導向、規(guī)范依據(jù)、市場現(xiàn)狀等。主題抽取的關鍵在于識別并抽取相關數(shù)據(jù)中的核心概念,常借助自然語言處理、深度學習等機器學習技術輔助人工開展主題標引,標引的結(jié)果可作為主題詞表的重要來源和技術、政策、市場演變的分析對象,同時也可以提升知識產(chǎn)權(quán)信息檢索與數(shù)據(jù)管理的效率,能夠有效地支撐分面檢索、趨勢分析以及專題知識庫建設等應用場景。
在知識產(chǎn)權(quán)公共服務情境下,除了詞匯表征的技術或其他內(nèi)容主題外,還涉及多種不同類型的語義實體,如:產(chǎn)品、技術成果等業(yè)務對象,專家人才或企業(yè)、研發(fā)機構(gòu)等創(chuàng)新主體,代理相關業(yè)務或提供法律、信息咨詢的服務機構(gòu)等服務主體,這些實體具有鮮明的屬性特征,在公共服務中作為相對獨立的對象存在,同時又通過相互的作用和關系具有更為廣泛的用途和價值。例如:在知識產(chǎn)權(quán)成果轉(zhuǎn)化過程中涉及技術成果在研發(fā)機構(gòu)和企業(yè)之間的轉(zhuǎn)移,同時可能涉及在服務過程中技術合作對象、代理機構(gòu)、服務機構(gòu)等多種角色的實體信息關聯(lián)推介,因此,語義標引過程還涉及對這些實體、屬性及其潛在關系的識別和挖掘。
數(shù)據(jù)的語義組織是語義技術與數(shù)據(jù)管理的結(jié)合,在不同的數(shù)據(jù)應用場景下從數(shù)據(jù)中抽取具有不同含義的數(shù)據(jù)要素,經(jīng)過關聯(lián)組織后形成高質(zhì)量的數(shù)據(jù)網(wǎng)絡支撐多元化的服務需求。因此,知識產(chǎn)權(quán)公共服務數(shù)據(jù)的語義組織過程包括從數(shù)據(jù)的題錄或全文中明確其元數(shù)據(jù)描述,識別專業(yè)詞匯、格式元素以及命名實體等代表核心知識或主題內(nèi)容的細粒度數(shù)據(jù)元素,并通過信息抽取、知識組織、分析推理、可視化技術等實現(xiàn)原始數(shù)據(jù)的語義增值,最終實現(xiàn)包括各類實體、屬性維度及其關聯(lián)等在內(nèi)的數(shù)據(jù)語義標注、組織和形式化。本文依據(jù)現(xiàn)有針對科技文獻資源語義組織實踐經(jīng)驗,設計知識產(chǎn)權(quán)公共服務數(shù)據(jù)從原始數(shù)據(jù)集到語義增強數(shù)據(jù)集的語義組織過程整體框架,如圖5所示。
圖5 公共服務數(shù)據(jù)的語義組織框架
1)信息抽取技術。從不同類型公共服務數(shù)據(jù)中識別抽取不同粒度的數(shù)據(jù)元素,如元數(shù)據(jù)[11]、專業(yè)詞匯、格式元素、實體名稱等具有獨立語義的基本信息單元及其組合,可以借助數(shù)據(jù)挖掘、機器學習、自然語言處理等技術手段實現(xiàn)數(shù)據(jù)的語義增強[12]。
其中,元數(shù)據(jù)抽取以建立公共服務數(shù)據(jù)的基礎元數(shù)據(jù)集為目標,實現(xiàn)題錄信息的統(tǒng)一組織與互操作,實現(xiàn)過程要遵循多源異構(gòu)數(shù)據(jù)的不同元數(shù)據(jù)標準制定相應的抽取規(guī)則,對于在不同類型數(shù)據(jù)中命名的多義性和不一致性需要進行必要的語義消歧和關聯(lián)映射,以實現(xiàn)不同數(shù)據(jù)之間的語義連通;專業(yè)詞匯是反映知識產(chǎn)權(quán)所涉及技術主題或相關信息的細粒度知識單元,可以借助分詞、詞性標注等語法分析結(jié)合上下文特征識別并篩選所需的技術關鍵詞、科學術語、主題詞等。近年來已有較為成熟的機器學習算法,如CNN、RNN或Transformer等深度學習模型在文本處理中取得理想實驗效果[13-14],均可應用于全文文本的專業(yè)詞匯抽取,進而服務于技術主題發(fā)現(xiàn)與專業(yè)分析等服務場景;實體及其關系抽取是實現(xiàn)數(shù)據(jù)語義增強的重要環(huán)節(jié),傳統(tǒng)的命名實體識別是基于自然語言處理等技術進行文本處理的基礎上,對識別實體進行分類和關系構(gòu)建的過程,因而實體與關系抽取往往與特定的語境相關,在特定服務場景下需要明確知識產(chǎn)權(quán)公共服務實體類別及其屬性,明確服務過程中數(shù)據(jù)組織維度,梳理實體間的關聯(lián)類型,本文初步梳理了公共服務數(shù)據(jù)的5大類實體(成果、技術、人物、機構(gòu)、企業(yè))以及4種常見組織維度(時間、地域、行業(yè)/產(chǎn)業(yè)、領域),在實際服務中可以發(fā)展出實體之間、不同維度的多種關聯(lián)關系;其他格式要素的抽取實際是其他數(shù)據(jù)語義的拓展[15],例如文內(nèi)圖片表格信息的抽取,反映經(jīng)濟數(shù)據(jù)等的數(shù)值性信息的抽取,反映技術模型的公式類信息的抽取等,同樣需要基于規(guī)則判定、序列標注以及深度學習等技術,針對文內(nèi)相應內(nèi)容結(jié)構(gòu)設計并實現(xiàn)有效的分析處理算法。
2)知識組織技術。在科技文獻資源組織領域,包括元數(shù)據(jù)、本體、知識圖譜等在內(nèi)的知識表征和語義組織技術[16]主要用于設計面向科學知識的數(shù)據(jù)模型,將其擴展至公共服務領域,則可應用于滿足多源異構(gòu)、多粒度的服務數(shù)據(jù)的組織與融合。例如,知識產(chǎn)權(quán)公共服務的全景圖譜,通過公共服務本體的構(gòu)建,真正提升公共服務數(shù)據(jù)的有效組織和關聯(lián)應用,實現(xiàn)更多數(shù)據(jù)集的可發(fā)現(xiàn)、可關聯(lián)、可利用。
3)分析推理技術。公共服務數(shù)據(jù)組織與呈現(xiàn)最終是為了實現(xiàn)有效利用,其中以參考咨詢支持為主要形式的知識服務需要通過對數(shù)據(jù)進行分析整理并結(jié)合知識背景和服務需求進行推演,才能得出有價值的決策咨詢支持或分析研判結(jié)論。數(shù)據(jù)語義組織基礎上的分析推理[17-18]可以是常規(guī)的多層次多維度的數(shù)據(jù)統(tǒng)計、文獻計量、文本挖掘和網(wǎng)絡分析,用于技術趨勢預測、行業(yè)發(fā)展布局等宏觀層次的專業(yè)服務支撐;也可以利用本體推理、語義查詢等技術,實現(xiàn)精準高效的語義檢索和服務資源推薦,優(yōu)化傳統(tǒng)服務效能。此外,還可以搭建自動監(jiān)測分析環(huán)境實現(xiàn)對區(qū)域范圍的可持續(xù)服務支持。
4)可視化技術。借助圖形學和圖像處理技術為數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等提供功能輔助的重要技術手段,應用于開放檢索、資源推薦、服務產(chǎn)品展示等公共服務場景能夠為用戶提供更加直觀的數(shù)字信息呈現(xiàn),有利于科學全面地展示既有數(shù)據(jù)的語義組織網(wǎng)絡,增強對數(shù)據(jù)要素的深刻理解,實現(xiàn)服務效用最大化。主要應用包括:信息圖等形式的數(shù)據(jù)可視化[19],實現(xiàn)統(tǒng)計分析的直觀展示;知識圖譜形式的科學可視化[20],面向技術領域和科研活動的數(shù)據(jù)建模展示創(chuàng)新模式與特點規(guī)律;綜合圖形學、數(shù)據(jù)挖掘和人機交互的可視化分析[21],以可視交互界面為通道,將可視化融入數(shù)據(jù)處理過程,實現(xiàn)更有效的分析推理和決策。
面向不同的應用場景數(shù)據(jù)的語義組織可能會有不同的實踐路徑,但都應當遵循數(shù)據(jù)語義組織的基本原則,這些原則既在方法上繼承其他信息資源語義組織的共性方法,但同時也要融入知識產(chǎn)權(quán)公共服務的獨特屬性。
1)多源融合的語義完整原則。公共服務數(shù)據(jù)的語義增值過程是獲取數(shù)據(jù)語義及其關聯(lián)關系的過程,在此過程中應首先遵循語義完整原則,包括:完整著錄所有公共服務數(shù)據(jù)的元數(shù)據(jù);充分挖掘數(shù)據(jù)內(nèi)容,實現(xiàn)重要數(shù)據(jù)元素的結(jié)構(gòu)化提??;充分結(jié)合服務場景特征和需求特點考慮相關實體及其關聯(lián)關系。
2)需求牽引的鏈式關聯(lián)原則。不同于傳統(tǒng)科技文獻資源以學科知識體系為主要依據(jù)進行語義組織,公共服務數(shù)據(jù)的組織與管理必定與服務密切相關,因此必須在需求牽引下搭建支撐服務的數(shù)據(jù)語義組織框架,尊重且遵循服務需求建立其各實體間語義關聯(lián)的鏈條。這一原則中的“鏈”,不僅包含依據(jù)技術領域及創(chuàng)新體系形成的內(nèi)容語義鏈,如技術演進分析需要建立時間維度的技術主題關聯(lián),行業(yè)布局分析需要建立地域、行業(yè)維度的技術、產(chǎn)品、企業(yè)等的實體共現(xiàn)關聯(lián);也包含服務及創(chuàng)新主體角色形成的機構(gòu)職能鏈,在公共服務體系中,服務機構(gòu)、企業(yè)、科研機構(gòu)、代理機構(gòu)等主體存在由職能決定的依存關系,如代理機構(gòu)協(xié)助企業(yè)等創(chuàng)新主體實現(xiàn)業(yè)務申辦,科研機構(gòu)向企業(yè)輸出技術轉(zhuǎn)移成果,服務機構(gòu)為企業(yè)提供決策支撐信息等;還包含業(yè)務流程中所涉及數(shù)據(jù)之間的語義關聯(lián),如研發(fā)技術從創(chuàng)造到保護再到運用過程可能涉及專利申請、專利許可或轉(zhuǎn)讓等不同業(yè)務,關聯(lián)了專利基礎數(shù)據(jù)、法律狀態(tài)數(shù)據(jù)等形成業(yè)務流程鏈。公共服務數(shù)據(jù)的語義組織需要確保各鏈條的有效連通。
本章節(jié)通過具體案例展示公共服務數(shù)據(jù)語義組織在咨詢服務中所發(fā)揮的價值和作用。如圖6所示,以氫能產(chǎn)業(yè)導航為例,服務內(nèi)容主要包括產(chǎn)業(yè)發(fā)展概況及專利技術分析兩大部分,分別從宏觀層面總體概括氫能產(chǎn)業(yè)鏈構(gòu)成、全球典型的發(fā)展模式以及國內(nèi)重點對標省市的發(fā)展政策及規(guī)劃,從技術層面微觀視角分析氫能上、中、下游所涉及主要技術領域發(fā)展現(xiàn)狀。表3顯示了不同內(nèi)容的數(shù)據(jù)需求,包括其主要數(shù)據(jù)來源、數(shù)據(jù)分析所涉及關鍵要素等,其中,前文所述語義增值過程獲得的專業(yè)詞匯(如關鍵技術、材料、工藝方法等)、格式元素(如技術路線圖、技術性能、經(jīng)濟指標、產(chǎn)能數(shù)據(jù)等)、實體名稱(如企業(yè)、研發(fā)機構(gòu)等創(chuàng)新主體,或規(guī)劃項目、產(chǎn)品等科技成果)都成為支撐服務的基本數(shù)據(jù)內(nèi)容。
表3 氫能產(chǎn)業(yè)導航服務數(shù)據(jù)需求
基于語義增值的相關數(shù)據(jù),可以直觀地繪制氫能產(chǎn)業(yè)技術圖譜并極大地優(yōu)化分析結(jié)果的呈現(xiàn)效果,本文僅以技術、機構(gòu)、人物、企業(yè)、地域等實體為例,根據(jù)導航分析對產(chǎn)業(yè)鏈上游的制氫技術領域發(fā)展現(xiàn)狀進行簡單的梳理歸納。
知識產(chǎn)權(quán)領域是多元化數(shù)據(jù)開放匯聚的典型應用場景,快速發(fā)展的數(shù)據(jù)化進程給知識產(chǎn)權(quán)領域的治理結(jié)構(gòu)和治理模式都帶來了巨大的變化和挑戰(zhàn)。本文關注知識產(chǎn)權(quán)公共服務領域,梳理相關數(shù)據(jù)資源建設管理現(xiàn)狀,明確了公共服務數(shù)據(jù)的基本構(gòu)成及語義組織內(nèi)涵,并從中提煉加強知識產(chǎn)權(quán)數(shù)據(jù)治理的關鍵數(shù)據(jù)元素,構(gòu)建有效支撐服務的數(shù)據(jù)語義組織框架,希望能為數(shù)據(jù)治理實踐提供方法參考。后續(xù)研究將著力在語義框架指導下,結(jié)合自身業(yè)務實踐,完成以高校知識資源為基礎的區(qū)域知識產(chǎn)權(quán)公共服務數(shù)據(jù)平臺建設,在實踐中進一步細化數(shù)據(jù)治理實施方案,以期發(fā)揮更大的應用價值。