周育忠 陶秀杰 張自鋒 韋嶸暉 楊宇亮
摘 要:本文闡述了通過建設(shè)科技項目查重系統(tǒng),有效整合科研項目成果數(shù)據(jù),減少企業(yè)科研項目重復(fù)建設(shè),提高企業(yè)科研經(jīng)費(fèi)利用效率,進(jìn)一步提升企業(yè)科研管理水平??萍柬椖坎橹叵到y(tǒng)通過提供統(tǒng)一的歷史科研數(shù)據(jù)檢索及項目文檔自查重,系統(tǒng)化地輔助科研人員篩查研究方向和課題。同時,通過提供批量科研文檔查重,輸出查重結(jié)果,輔助科研項目評審專家進(jìn)行科研項目評審工作,有效提高企業(yè)科研項目評審效率等。此外,本文也闡述了后續(xù)系統(tǒng)搭建過程中元數(shù)據(jù)規(guī)范、相似性檢測算法和模型等在企業(yè)后續(xù)的應(yīng)用方向。
關(guān)鍵詞:科技項目查重;相似性檢測;歷史庫;碎片化;學(xué)術(shù)關(guān)聯(lián)
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2019)28-0032-04
Practice and Application of Science and Technology Project
Checking System in Enterprises
ZHOU Yuzhong TAO Xiujie ZHANG Zifeng WEI Ronghui YANG Yuliang
(China Southern Power Grid,Guangzhou Guangdong 510623)
Abstract: This paper expounded the way to build a scientific and technological project to check the weight system, effectively integrate the research project data, reduce the redundant construction of enterprise scientific research projects, improve the utilization efficiency of scientific research funds, and further improve the scientific research management level of enterprises. The scientific and technological project check system systematically assists scientific research personnel to screen research directions and topics by providing unified historical scientific data retrieval and project document self-checking. At the same time, by providing batch research documents to check the weight, output check results, assist scientific research project review experts to carry out scientific research project evaluation work, and effectively improve the efficiency of enterprise scientific research projects. At the same time, the article also expounded the subsequent application direction of the metadata specification, similarity detection algorithm and model in the system construction process.
Keywords: science and technology project check;similarity test;history library;fragmentation;academic association
1 研究背景
習(xí)近平總書記曾提出“創(chuàng)新是引領(lǐng)發(fā)展的第一動力”[1]。為建設(shè)創(chuàng)新型企業(yè),某央企非常重視科技創(chuàng)新投入。“十三五”期間,公司科研投入力爭占營業(yè)收入比重的1.55%以上,研發(fā)投入預(yù)計高達(dá)400億元。在公司科研項目經(jīng)費(fèi)投入逐年增加的背景下,為應(yīng)對海量的歷史科研項目數(shù)據(jù)及不斷增長的科研立項項目,避免科研重復(fù)立項,提高公司科研項目經(jīng)費(fèi)利用效率,提升科技管理工作水平,推進(jìn)科技項目查重系統(tǒng)的建設(shè)勢在必行。
關(guān)于查重對比,國內(nèi)外已經(jīng)有了諸多研究,查重技術(shù)較為成熟。例如,國外研究主要有基于向量空間模型的對比分析、基于語義的文本相似對比、基于統(tǒng)計學(xué)的相似對比、基于人工智能和大數(shù)據(jù)的對比分析等。國內(nèi)也有大量關(guān)于中文分詞技術(shù)、關(guān)鍵詞提取技術(shù)、基于已有語料庫等的相似計算分析、基于語義的查重技術(shù)。同時,國內(nèi)也有一些科技項目管理系統(tǒng)實現(xiàn)了查重功能,如國家自然科學(xué)基金項目立項情況查詢、申請文本查重,中國科技信息研究所的科技報告相似性檢測系統(tǒng),以及中國知網(wǎng)的論文查重系統(tǒng)等[2]。
2 科技項目查重系統(tǒng)的搭建
科技項目查重系統(tǒng)架構(gòu)如圖1所示。系統(tǒng)通過數(shù)據(jù)梳理與歷史庫搭建,提取電力行業(yè)主題詞庫并形成特征庫,在特征庫的基礎(chǔ)上通過查重算法和模型,對導(dǎo)入系統(tǒng)的項目文檔進(jìn)行查重并輸出查重結(jié)果[3]。
2.1 數(shù)據(jù)梳理與歷史庫搭建
歷史庫搭建模型如圖2所示。系統(tǒng)搭建前期,對已經(jīng)立項和驗收的科技項目資料進(jìn)行梳理,搜集項目需求表、申報指南、計劃任務(wù)書、可行性報告、成果資料及歷史項目清單等資料,形成以項目計劃庫、項目儲備庫、南網(wǎng)成果庫等三大資源備查庫的歷史庫作為數(shù)據(jù)支撐。
2.2 主題詞庫和特征庫構(gòu)建
通過現(xiàn)有的項目庫、專利庫、各類科技文件及科技部發(fā)布的科技項目指南等權(quán)威語料庫,利用基于規(guī)則、統(tǒng)計和信息熵等多種方法學(xué)習(xí)電力行業(yè)主題詞,并通過機(jī)器學(xué)習(xí)等方法建立詞語之間的語義關(guān)系,形成電力行業(yè)主題詞庫,基于主題詞庫提取特征并建立電力特征庫。
2.3 項目查重
基于電力行業(yè)的主題詞庫和碎片化處理后的歷史科研項目資料庫,利用自然語言處理和機(jī)器學(xué)習(xí)相結(jié)合的技術(shù),對立項資料進(jìn)行分詞、解析和特征提取,挖掘文本中的深層語義關(guān)系,獲取更高層次的語義信息,實現(xiàn)對立項資料和歷史科研資料庫中的數(shù)據(jù)進(jìn)行相似度對比分析和指標(biāo)分析[4]。
3 實踐應(yīng)用
3.1 項目檢索與文檔檢索
項目檢索:碎片化的歷史庫整合了公司項目計劃庫、項目儲備庫、成果庫,支持篇名、關(guān)鍵詞、全文、作者、單位等檢索方式查詢?yōu)g覽,極大地提高了科研人員在科研立項前期篩選研究方向和課題的效率,有效改善了企業(yè)內(nèi)部科研數(shù)據(jù)割裂的現(xiàn)狀。
文檔檢索:提供科技項目過程文檔的檢索,包含可研報告、計劃任務(wù)書、技術(shù)報告、成果申報申請書四種類型,為科研人員撰寫科研報告提供翔實的參考數(shù)據(jù)。
3.2 項目文檔相似性檢測分析報告
相似性檢測:系統(tǒng)提供單個以及批量的可研報告、計劃任務(wù)書、成果申報書、技術(shù)報告項目文檔的相似性檢測。
查重報告:查重報告中顯示復(fù)制比例、文本復(fù)制來源;提供單項目查重比對結(jié)果分析報告、項目查重結(jié)論報告,為科研人員自查重提供了很好的幫助;提供的導(dǎo)出批量項目查重結(jié)果的功能,在科研項目評審中,有效減少評審專家的工作量。批量查重報告如表1所示,報告對相似語句進(jìn)行標(biāo)記,并提供相應(yīng)可能存在重復(fù)的文檔信息。
3.3 科研項目管理和入庫
系統(tǒng)提供項目檢索查新、狀態(tài)展示、項目合并、專家審核。問題項目庫合并后提供合并來源顯示,支持取消合并等。一站式的項目管理提高了科研管理的工作效率。系統(tǒng)同時支持項目轉(zhuǎn)入項目儲備庫,完成了科研項目檢索-立項-項目重復(fù)性專家評審-項目文檔入庫的閉環(huán)。
3.4 項目學(xué)術(shù)關(guān)聯(lián)
項目學(xué)術(shù)關(guān)聯(lián)信息如圖3所示。在建設(shè)歷史庫的過程中,對項目計劃庫、項目儲備庫、項目成果庫進(jìn)行了碎片化與元數(shù)據(jù)規(guī)范標(biāo)引,形成了科技項目學(xué)術(shù)管理發(fā)現(xiàn)網(wǎng)絡(luò)功能,提供項目申請人、項目申請單位、項目主題的關(guān)聯(lián)信息,揭示項目、人、機(jī)構(gòu)的關(guān)聯(lián)信息,對項目審批、科研文檔查看等具有極大的意義。
4 項目未來應(yīng)用方向
4.1 持續(xù)完善科技項目元數(shù)據(jù)規(guī)范
科研項目元數(shù)據(jù)的規(guī)范和持續(xù)完善過程對項目查重比對結(jié)果的準(zhǔn)確性和效率提升具有至關(guān)重要的作用,未來系統(tǒng)將完善科技項目元數(shù)據(jù)的規(guī)范建設(shè)。在項目歷史數(shù)據(jù)庫碎片化和數(shù)據(jù)處理過程中,基于電力行業(yè)主題詞表和全切分切詞技術(shù),在各個環(huán)節(jié)持續(xù)優(yōu)化和完善科技項目元數(shù)據(jù)的識別、建庫、應(yīng)用、對比查重等內(nèi)容,納入更多的科研項目文檔,提高系統(tǒng)項目查全率。
4.2 持續(xù)優(yōu)化相似性檢測算法
持續(xù)性的深入學(xué)習(xí)和對比行業(yè)內(nèi)已經(jīng)廣泛應(yīng)用的各類相似性檢測算法,包括各高校、研究所公開發(fā)表的但并未投入產(chǎn)業(yè)應(yīng)用的其他相似性檢測算法,并對這些算法進(jìn)行實操,通過多維的樣本測試,對算法進(jìn)行綜合性評估。對系統(tǒng)現(xiàn)有的數(shù)據(jù)組織結(jié)構(gòu)、數(shù)據(jù)類型和應(yīng)用場景進(jìn)行分析,在已有研究基礎(chǔ)上調(diào)整優(yōu)化算法,進(jìn)一步提升項目查準(zhǔn)率。
4.3 基于事實數(shù)據(jù)關(guān)聯(lián)申報人/團(tuán)隊科研相關(guān)數(shù)據(jù)
在科研項目數(shù)據(jù)積累的基礎(chǔ)上,實現(xiàn)與項目申報人/團(tuán)隊相關(guān)的學(xué)術(shù)關(guān)聯(lián)發(fā)現(xiàn)功能,包括但不限于以下學(xué)術(shù)數(shù)據(jù):科技成果、項目、論文、專利、標(biāo)準(zhǔn)等;實現(xiàn)科研數(shù)據(jù)的關(guān)聯(lián)檢索;拓寬包括科技項目信息、相關(guān)文獻(xiàn)、主要負(fù)責(zé)人和項目申報團(tuán)隊等學(xué)術(shù)數(shù)據(jù)的關(guān)聯(lián)展示;基于相似性算法,關(guān)聯(lián)項目文檔相關(guān)學(xué)術(shù)數(shù)據(jù)。
4.4 擴(kuò)展應(yīng)用
基于科研查重的相似性模型和算法,優(yōu)化公司情報平臺搜索引擎算法,在檢索結(jié)果排序中加入相似性因子,合并相似度較高的文檔。通過嵌入公司知識庫上傳模塊,基于相似性算法和模型,設(shè)置一定的閾值,控制重復(fù)率或相似度較高文獻(xiàn)的上傳錄入,減少公司知識庫冗余信息。
5 結(jié)語
通過科技項目查重系統(tǒng),有效解決了科研項目申報立項中科研文檔孤立存放、科研項目評審工作量日益增長、科研項目重復(fù)投入的問題。一方面,科技項目查重系統(tǒng)提供了科研項目文檔的檢索功能,豐富了科研人員選題立項可參考的數(shù)據(jù)源,同時方便科研人員項目自查重,便于調(diào)整科研方向和選題內(nèi)容;另一方面,通過科技項目查重系統(tǒng)自動檢測與專家人工審校的方式,有效提高了科研查重的效率與準(zhǔn)確性。
在科技項目查重系統(tǒng)建設(shè)過程中建立的文檔元數(shù)據(jù)規(guī)范,可以應(yīng)用于公司其他知識、文檔類平臺,有效地將公司的知識相互關(guān)聯(lián),減少學(xué)術(shù)信息孤島問題。同時,查重項目研發(fā)的查重算法,同樣適用于檢索引擎排序、文檔庫或知識庫的冗余信息排查。
參考文獻(xiàn):
[1]倪雪瑩.習(xí)近平:創(chuàng)新是引領(lǐng)發(fā)展的第一動力[EB/OL].(2018-09-18)[2019-08-20].http://www.bjnews.com.cn/news/2018/09/18/505891.html.
[2]李善青,邢曉昭,杜圣梅.科技項目查重方法研究綜述[J].科技管理研究,2018(6):204-208.
[3]張新民,張愛霞,鄭彥寧.科技項目查重系統(tǒng)構(gòu)建研究[J].情報學(xué)報,2016(9):23-28.
[4]陳江華.面向科技項目申報文本相似性檢測算法的研究與應(yīng)用[D].南昌:華東交通大學(xué),2015.