周一夫 譚春輝 江婷 李玥澎 畢慧婷 汪紅信
關(guān)鍵詞:專利成果篩選:高質(zhì)量專利成果;機(jī)器學(xué)習(xí):Doc2vec
科技創(chuàng)新是提高社會生產(chǎn)力和綜合國力的重要戰(zhàn)略支撐,促進(jìn)科技成果轉(zhuǎn)化、降低成果閑置率已成為當(dāng)前全球多個(gè)國家(地區(qū))科技發(fā)展的新要求。伴隨綜合國力的不斷增強(qiáng)和科學(xué)技術(shù)的飛速發(fā)展,我國科技成果數(shù)量取得了新的突破,專利申請量和授權(quán)量躋身世界第一,但科技成果轉(zhuǎn)化率和轉(zhuǎn)化成效并未取得顯著提升??萍汲晒D(zhuǎn)化效率不高目前已成為制約我國躋身世界創(chuàng)新強(qiáng)國的一大障礙。2015年8月,第十二屆全國人民代表大會常務(wù)委員會第十六次會議修訂了《中華人民共和國促進(jìn)科技成果轉(zhuǎn)化法》,旨在為新形勢下的科技成果轉(zhuǎn)化活動提供保障和規(guī)范,凸顯科技成果日益增長的經(jīng)濟(jì)價(jià)值和社會價(jià)值。進(jìn)入“十四五”時(shí)期,我國科技成果轉(zhuǎn)化整體情況雖然有所改善,但仍然存在著轉(zhuǎn)化率不高、轉(zhuǎn)化路徑不清晰、供需匹配不明確等問題。為加快建設(shè)科技強(qiáng)國、實(shí)現(xiàn)高水平科技自立自強(qiáng)的目標(biāo)規(guī)劃,以習(xí)近平同志為核心的黨中央高度重視科技創(chuàng)新工作,把促進(jìn)科技成果轉(zhuǎn)化擺在十分重要的位置進(jìn)行謀劃部署。2021年5月,習(xí)近平總書記在中央全面深化改革委員會第十九次會議上明確提出“加快推動科技成果轉(zhuǎn)化應(yīng)用,加快建設(shè)高水平技術(shù)交易市場,加大金融投資對科技成果轉(zhuǎn)化和產(chǎn)業(yè)化的支持”的要求,進(jìn)一步在國家層面明確推進(jìn)科技成果轉(zhuǎn)化相關(guān)工作的必要性。
促進(jìn)科技成果轉(zhuǎn)化是推動經(jīng)濟(jì)社會發(fā)展和適應(yīng)國際競爭形勢的迫切需要,同時(shí)也是科技成果應(yīng)用于生產(chǎn)實(shí)踐的重要支撐。專利成果作為科技成果轉(zhuǎn)化體系中的重要組成部分,如何從海量專利中篩選出適應(yīng)市場需求的高質(zhì)量成果,然后有針對性地促進(jìn)其轉(zhuǎn)化?解決這一問題不僅有利于提升專利成果轉(zhuǎn)化成效,同時(shí)對我國經(jīng)濟(jì)和科技長期高質(zhì)量發(fā)展具有重要戰(zhàn)略意義。
1文獻(xiàn)回顧
1.1專利成果轉(zhuǎn)化相關(guān)研究
專利成果轉(zhuǎn)化是一項(xiàng)由政府引導(dǎo)規(guī)范、多方主體參與的活動,其具體內(nèi)涵是指新技術(shù)、新發(fā)明經(jīng)過試驗(yàn)、開發(fā)、應(yīng)用和推廣,實(shí)現(xiàn)商品化和產(chǎn)業(yè)化,最終實(shí)現(xiàn)經(jīng)濟(jì)價(jià)值的過程。目前已有不同領(lǐng)域的學(xué)者從多角度對其展開深層次剖析,主要聚焦于3個(gè)方面:①專利成果轉(zhuǎn)化政策研究。自改革開放以來,我國各級政府為推動專利成果轉(zhuǎn)化工作,先后頒布了系列政策并逐步形成一個(gè)較為健全的政策體系,學(xué)者們也從政策組態(tài)效應(yīng)、政策文本量化、政策優(yōu)化策略、政策實(shí)施效能等不同視角對專利轉(zhuǎn)化活動進(jìn)行研究,旨在為后續(xù)政策出臺實(shí)施、修訂完善、執(zhí)行落實(shí)等環(huán)節(jié)提供決策支持,達(dá)到加速科技成果轉(zhuǎn)化的目的:國外對專利成果轉(zhuǎn)化政策關(guān)注較少,相關(guān)研究從政策對專利申請量的影響、專利保護(hù)效果與質(zhì)量提升的影響等方向進(jìn)行了探討;②專利成果轉(zhuǎn)化現(xiàn)狀與對策。在專利轉(zhuǎn)化過程當(dāng)中,由于涉及多領(lǐng)域和面臨多重復(fù)雜環(huán)境,難免遇到各種困境與阻力,因此,不少學(xué)者以不同領(lǐng)域的轉(zhuǎn)化主體為研究對象,對高校、國防、國企等主體的轉(zhuǎn)化現(xiàn)狀進(jìn)行梳理,明晰轉(zhuǎn)化過程中遇到的困境,并從體制機(jī)制改革、交易成本模型探究等方面有針對性地提出對策和建議;③專利成果轉(zhuǎn)化績效研究。轉(zhuǎn)化績效是衡量成果從理論應(yīng)用到實(shí)際的一項(xiàng)重要指標(biāo),已有學(xué)者采用層次分析、理論歸納等方法構(gòu)建評價(jià)指標(biāo)體系,對成果轉(zhuǎn)化績效進(jìn)行了評價(jià)研究;也有科研人員通過數(shù)據(jù)包絡(luò)分析模型、社會網(wǎng)絡(luò)、面板數(shù)據(jù)模型等視角,探究相關(guān)因素對轉(zhuǎn)化績效的影響程度,以期有效推進(jìn)創(chuàng)新驅(qū)動發(fā)展和提升專利成果轉(zhuǎn)化績效。
1.2專利成果篩選相關(guān)研究
隨著專利成果數(shù)量的逐年激增,對高質(zhì)量專利成果的篩選顯得尤為關(guān)鍵,傳統(tǒng)人工篩選已無法滿足海量專利的不斷累積,因此吸引了國內(nèi)外不少學(xué)者對專利成果篩選展開相關(guān)探究。通過文獻(xiàn)梳理后發(fā)現(xiàn),關(guān)于專利成果篩選方法主要有計(jì)量學(xué)識別、引證關(guān)系識別、主題模型識別、機(jī)器學(xué)習(xí)算法識別等。鑒于當(dāng)前專利成果數(shù)量規(guī)模,同時(shí)相較于其他專利篩選方法,機(jī)器學(xué)習(xí)算法識別具備高效迅速、精度可增長性、結(jié)果一一映射性等優(yōu)點(diǎn),已經(jīng)成為目前主流專利成果篩選方法,如Krestel R等通過總結(jié)40篇使用深度學(xué)習(xí)框架對專利分類的文獻(xiàn),發(fā)現(xiàn)相關(guān)研究仍處于起步階段,同時(shí)預(yù)計(jì)專利分析的方法將由經(jīng)典機(jī)器學(xué)習(xí)逐步朝深度學(xué)習(xí)的方向發(fā)展:Liu B C等提出了由自組織映射(SOM)、核主成分分析(KPCA)和支持向量機(jī)(SVM)組成的機(jī)器學(xué)習(xí)組合模型,并將其應(yīng)用于生物醫(yī)藥產(chǎn)業(yè)專利質(zhì)量預(yù)測:HuYF等在現(xiàn)有三維專利價(jià)值評價(jià)指標(biāo)的基礎(chǔ)上增加了跨境維度指標(biāo),采用隨機(jī)森林、決策樹等機(jī)器學(xué)習(xí)算法對可轉(zhuǎn)讓專利進(jìn)行識別,研究發(fā)現(xiàn),機(jī)器學(xué)習(xí)方法能夠較好地支持海量數(shù)據(jù)中可轉(zhuǎn)讓專利的識別:張彪等基于技術(shù)的新穎性、獨(dú)特性和重要性3個(gè)維度來構(gòu)建相關(guān)指標(biāo),采用K近鄰、邏輯回歸等7種機(jī)器學(xué)習(xí)算法對高價(jià)值專利進(jìn)行篩選:吳潔等基于專利形式特征并結(jié)合專利文本特征生成的專利一核心詞匯網(wǎng)絡(luò),通過搭建圖卷積網(wǎng)絡(luò)對高質(zhì)量專利進(jìn)行自動識別;付振康等從專利壽命視角切人,選取影響專利壽命的相關(guān)因素作為識別指標(biāo),選用5種深度學(xué)習(xí)模型對專利壽命進(jìn)行預(yù)測,然后通過設(shè)置閾值的方式識別核心專利。
1.3簡要述評
能否有效篩選是專利成果成功轉(zhuǎn)化的關(guān)鍵環(huán)節(jié)之一,從現(xiàn)有研究來看,仍有可繼續(xù)深化之處:①早期由于信息數(shù)據(jù)等資源相對匱乏、技術(shù)手段不夠完善等原因,用客觀數(shù)據(jù)進(jìn)行專利篩選的方法不夠成熟,可能存在主觀性較強(qiáng)、組織過程復(fù)雜、成本花費(fèi)較大等弊端;②目前專利成果識別、探測方法主要研究來源多數(shù)依靠單點(diǎn)預(yù)測和自身形式特征的分析,未能較好地結(jié)合地域發(fā)展規(guī)劃與市場需求,難以保證專利成果識別、探測技術(shù)可成功應(yīng)用到轉(zhuǎn)化過程中,可能由于需求適應(yīng)性不足導(dǎo)致專利轉(zhuǎn)化失敗。
為了彌補(bǔ)上述不足,本文在已有研究的基礎(chǔ)上,進(jìn)一步將專利成果形式特征與市場需求相結(jié)合,綜合運(yùn)用文本挖掘、專利計(jì)量、機(jī)器學(xué)習(xí)等方法,對專利文本.需求文本等材料進(jìn)行處理與分析,以期形成一套基于客觀數(shù)據(jù)的自動篩選方法,在一定程度上克服主觀性較強(qiáng)、人財(cái)物力花費(fèi)較大的弊端,為篩選高質(zhì)量專利成果、促進(jìn)轉(zhuǎn)化提供一種可行思路。
2研究設(shè)計(jì)
2.1研究框架
本文總體思路如下:第一,選定特定領(lǐng)域檢索專利成果并整理其形式特征,按照一定規(guī)則對其質(zhì)量進(jìn)行人工標(biāo)注,同時(shí)提取專利摘要形成摘要文本;第二,檢索并摘取相應(yīng)領(lǐng)域產(chǎn)業(yè)發(fā)展規(guī)劃(宏觀)和市場技術(shù)需求(微觀)形成需求文本;第三,對摘要文本和需求文本進(jìn)行Jieba分詞和去停用詞的處理,得到實(shí)驗(yàn)語料集;第四,運(yùn)用Doc2vec模型將處理后的專利摘要文本和需求文本進(jìn)行向量化表示,并計(jì)算專利摘要語義向量與需求語義合向量之間的余弦相似度,以得到“語義向量匹配度”特征;第五,綜合整理專利成果的形式特征、“語義向量匹配度”特征和質(zhì)量類別標(biāo)簽,編寫Py-thon程序調(diào)用機(jī)器學(xué)習(xí)算法模型進(jìn)行訓(xùn)練與評估,選取性能最優(yōu)的分類算法模型作為高質(zhì)量專利成果篩選方法中的內(nèi)核分類算法;第六,對篩選方法進(jìn)行應(yīng)用測試,以驗(yàn)證篩選方法的可行性?;谏鲜鲅芯克悸罚疚闹贫ǖ难芯靠蚣苋鐖D1所示。
2.2關(guān)鍵過程
2.2.1專利成果形式特征選取
專利成果的發(fā)明人、IPC分類號、同族專利、引用文獻(xiàn)、實(shí)質(zhì)審查時(shí)間等均為專利成果的形式特征,現(xiàn)有研究已經(jīng)證實(shí)這些形式特征能夠在一定程度上反映出專利成果的價(jià)值。根據(jù)形式特征指代價(jià)值的不同,本文將其劃分為技術(shù)價(jià)值特征和法律價(jià)值特征兩類:
1)專利成果技術(shù)價(jià)值特征指標(biāo)
專利成果的技術(shù)價(jià)值特征主要反映其所承載的技術(shù)內(nèi)容的先進(jìn)性、應(yīng)用前景等,作為專利文獻(xiàn)所承載的核心內(nèi)容,技術(shù)價(jià)值應(yīng)當(dāng)納入專利成果評價(jià)指標(biāo)體系中。借此,本文選取的專利技術(shù)價(jià)值特征指標(biāo)包括發(fā)明人數(shù)量、技術(shù)分類(IPC號)數(shù)量、知識產(chǎn)權(quán)局引證數(shù)量。其中發(fā)明人數(shù)量反映專利成果研究團(tuán)隊(duì)的規(guī)模;技術(shù)分類(IPC號)數(shù)量反映專利成果涵蓋技術(shù)領(lǐng)域的規(guī)模;知識產(chǎn)權(quán)局引證次數(shù)反映專利成果融合其他專利成果的規(guī)模。
2)專利成果法律價(jià)值特征指標(biāo)
專利權(quán)是一種受國家法律保護(hù)的知識產(chǎn)權(quán),專利的法律保護(hù)穩(wěn)定性、侵權(quán)可判定性等均會影響該專利的轉(zhuǎn)化質(zhì)量與轉(zhuǎn)化效率。結(jié)合本研究總體目標(biāo),借鑒冉從敬等、許鑫等的研究成果,選用說明書頁數(shù)、實(shí)質(zhì)審查日寸間兩項(xiàng)指標(biāo)分別反映專利成果的細(xì)節(jié)描述程度和保護(hù)強(qiáng)度。
2.2.2專利成果語義特征與需求語義特征匹配度的計(jì)算
為全面評估專利成果價(jià)值,本文將專利成果內(nèi)容文本向量化,通過成果語義向量與需求語義向量進(jìn)行相似性匹配評估專利成果內(nèi)容質(zhì)量,幫助構(gòu)建更加適應(yīng)市場發(fā)展需求的高質(zhì)量專利成果篩選方法,處理步驟如下:
1)語義特征提取與向量表示
Doc2vec最早于2014年由谷歌公司的Quoc Le和Tomas Mikolov提出,是一種非監(jiān)督式深度學(xué)習(xí)方法,其主要思想是將句子或段落轉(zhuǎn)化為空間向量。Doc2vec是Word2vec的延伸與拓展,其中Doc2vec在Word2vec的基礎(chǔ)上增加了段落向量,并分別從Word2vec中CBOW和Skip-gram架構(gòu)的基礎(chǔ)上衍生出PV-DM和PV-DBOW兩種訓(xùn)練架構(gòu)(其訓(xùn)練方式如圖2所示)。在PV-DM架構(gòu)中,訓(xùn)練語料中每個(gè)段落都有唯一的id(即Paragaph id),在訓(xùn)練過程中Paragaph id與其他單詞(W)一樣,首先被映射成相同維度的向量,但是被存儲在不同的向量空間當(dāng)中;在之后一個(gè)段落的若干次訓(xùn)練過程中,Paragaph id保持不變,詞向量與段落向量進(jìn)行累加或連接來預(yù)測句子中的下一個(gè)詞語(也相當(dāng)于每次在預(yù)測單詞的概率時(shí),都利用了整個(gè)段落或句子的語義),其處理方式類似于Word2vec中的CBOW架構(gòu)。與PV-DM架構(gòu)利用上下文與段落預(yù)測詞語不同的是,在PV-DBOW架構(gòu)中,首先直接將段落向量作為輸入單元(但忽略其上下文之間的關(guān)系);然后在每次迭代的過程中從文本中采樣得到一個(gè)窗口,再從這個(gè)窗口中隨機(jī)采樣一個(gè)單詞作為預(yù)測任務(wù)進(jìn)行預(yù)測,其處理方式與Word2vec中的Skip-gram架構(gòu)較為相似。
向量具備空間和大小雙重屬性,向量的加法可用平行四邊形法則來進(jìn)行描述,如圖3所示,其中F1、F2表示兩個(gè)不同的共點(diǎn)向量,它們鄰邊的夾角線F合表示合向量的大小和方向。在本文研究過程中,由于涉及語義向量匹配度的計(jì)算,因此需要對需求語義向量進(jìn)行合向量的計(jì)算,用以表征整體需求特征。具體處理步驟如下:首先,采用Doc2vec模型將處理后的需求文本逐條轉(zhuǎn)化為向量表示;然后編寫Python程序,借鑒平行四邊形法則思想,對上述需求語義向量進(jìn)行求和得到需求語義合向量,為下一步分析奠定基礎(chǔ)。
基于上述分析,同時(shí)綜合考慮本文數(shù)據(jù)規(guī)模和數(shù)據(jù)特征后,本文決定采用Word2vec向量模型中的PV-DM訓(xùn)練架構(gòu)來進(jìn)行文本向量的訓(xùn)練。具體處理過程如下:首先將經(jīng)過分詞和去停處理后的專利摘要文本逐條轉(zhuǎn)化為專利語義向量:隨后摘取產(chǎn)業(yè)發(fā)展規(guī)劃(宏觀層面)和市場技術(shù)需求(微觀層面)相關(guān)文本,同樣按照專利摘要文本處理方式將其轉(zhuǎn)化為若干需求語義向量,并將這些語義向量求和得到需求語義合向量。
2)專利成果語義特征與需求語義特征匹配
將上文處理完成的專利語義向量逐個(gè)與需求語義合向量進(jìn)行余弦相似度的計(jì)算,如式(1),得到“語義向量匹配度”特征。
其中A、B分別代表專利摘要語義向量和需求語義合向量,cos代表夾角度數(shù),角度越小,余弦相似度越高。
2.2.3專利成果質(zhì)量類別標(biāo)注
機(jī)器學(xué)習(xí)主要可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩類,其主要區(qū)別在于是否使用人工標(biāo)注數(shù)據(jù)集加以訓(xùn)練和測試。區(qū)別于非監(jiān)督學(xué)習(xí),在監(jiān)督學(xué)習(xí)中每個(gè)實(shí)例的輸入對象(數(shù)據(jù)特征)和輸出值(監(jiān)督信號)都是一一對應(yīng)的,因此在監(jiān)督學(xué)習(xí)中往往需要入工對數(shù)據(jù)集進(jìn)行標(biāo)注。此外,監(jiān)督學(xué)習(xí)算法是通過分析盡可能多地訓(xùn)練數(shù)據(jù),并由此產(chǎn)生推斷的功能,從而對后續(xù)未知實(shí)例的標(biāo)簽進(jìn)行預(yù)測。在本文的研究中,將整理好的專利形式特征和“語義向量匹配度”特征作為監(jiān)督學(xué)習(xí)過程中的數(shù)據(jù)特征,將人工對專利成果質(zhì)量的標(biāo)注作為監(jiān)督學(xué)習(xí)模型的監(jiān)督信號,二者共同形成模型訓(xùn)練所需的數(shù)據(jù)集。
國家知識產(chǎn)權(quán)局于2021年3月首次將戰(zhàn)略性新興產(chǎn)業(yè)的發(fā)明專利、在海外有同族專利權(quán)的發(fā)明專利、維持年限超過10年的發(fā)明專利、實(shí)現(xiàn)較高質(zhì)押融資金額的發(fā)明專利、獲得國家科學(xué)技術(shù)獎(jiǎng)或中國專利獎(jiǎng)的發(fā)明專利定義為高價(jià)值發(fā)明專利。但關(guān)于高質(zhì)量專利的定義,目前學(xué)界尚未形成統(tǒng)一觀點(diǎn),如吳潔等將專利維持年限用來表征專利質(zhì)量;許鑫等認(rèn)為,高質(zhì)量專利應(yīng)具備較強(qiáng)市場競爭力和權(quán)力穩(wěn)定性等特性:徐明等則認(rèn)為,專利質(zhì)量的評價(jià)標(biāo)準(zhǔn)應(yīng)當(dāng)包括技術(shù)進(jìn)步性和經(jīng)濟(jì)效益性?;谏鲜龇治鐾瑫r(shí)考慮數(shù)據(jù)可獲取性及后續(xù)研究需要,本文參考并制定了以下專利質(zhì)量標(biāo)注規(guī)則,如表1所示。
2.2.4高質(zhì)量專利成果篩選方法構(gòu)建
在構(gòu)建高質(zhì)量專利成果篩選方法前,需要對上述處理完成的專利成果形式特征、“語義向量匹配度”特征、專利質(zhì)量類別標(biāo)簽進(jìn)行匯總整理,按照8:2的比例劃分為訓(xùn)練集和測試集,同時(shí)在劃分過程中保證訓(xùn)練集和測試集均等比例包含0類和1類標(biāo)簽。完成數(shù)據(jù)集的劃分后,本文進(jìn)行高質(zhì)量專利成果篩選方法的構(gòu)建,構(gòu)建過程主要包括:機(jī)器學(xué)習(xí)分類算法的選取與訓(xùn)練、機(jī)器學(xué)習(xí)分類算法訓(xùn)練效果評估、篩選方法應(yīng)用測試3個(gè)部分。
1)機(jī)器學(xué)習(xí)分類算法的選取與訓(xùn)練
在機(jī)器學(xué)習(xí)中,常用分類算法模型主要有:K近鄰、線性支持向量機(jī)、邏輯回歸、樸素貝葉斯、決策樹、梯度提升決策樹、隨機(jī)森林、多層感知機(jī)等,鑒于不同算法各有優(yōu)缺點(diǎn),本文編寫Python程序,分別調(diào)用Sklearn中集成的8類機(jī)器學(xué)習(xí)分類算法對訓(xùn)練集進(jìn)行訓(xùn)練,然后依據(jù)訓(xùn)練結(jié)果對測試集進(jìn)行測試,從中挑選出效果最優(yōu)的分類算法模型。
2)機(jī)器學(xué)習(xí)分類算法訓(xùn)練效果評估
準(zhǔn)確率(Accurate
Rate)、精確率(PrecisionRate)、召回率(Recall Rate)和F1值是機(jī)器學(xué)習(xí)研究中常用的模型評估指標(biāo)。準(zhǔn)確率為所有正確分類的專利文檔數(shù)目與全部專利文檔數(shù)的比率,能夠較為直觀、全面地衡量機(jī)器學(xué)習(xí)算法的識別和分類效果:精確率為準(zhǔn)確分類專利文檔數(shù)與所有預(yù)測為該類文檔數(shù)的比率;召回率為準(zhǔn)確分類文檔數(shù)與實(shí)際文檔數(shù)的比率:F1值為精確度和召回率的調(diào)和平均數(shù),是同時(shí)考慮精確度和召回率的綜合性評價(jià)指標(biāo),上述指標(biāo)計(jì)算公式如表2所示?;谏鲜龇治?,本文將從8類算法中評估出準(zhǔn)確率、召回率和F1值最優(yōu)的分類算法模型,用于高質(zhì)量專利成果的篩選。
3)高質(zhì)量專利成果篩選方法應(yīng)用測試
所有機(jī)器學(xué)習(xí)分類算法完成測試并計(jì)算其準(zhǔn)確率、精準(zhǔn)率、召回率和F1值后,經(jīng)人工綜合判斷選取其中性能最優(yōu)的算法模型作為高質(zhì)量專利成果篩選的分類算法。選取的分類算法與Word2vec向量模型等處理程序共同構(gòu)成高質(zhì)量專利成果篩選方法,并編寫Python執(zhí)行程序加載完成預(yù)處理的測試數(shù)據(jù),完成應(yīng)用測試。
3實(shí)證分析
3.1數(shù)據(jù)采集與處理
由于各省市戰(zhàn)略目標(biāo)定位與經(jīng)濟(jì)發(fā)展?fàn)顩r存在著一定程度的差異,導(dǎo)致其對科技成果也有著不同的需求,借此,本文將以湖北省為例,選取相關(guān)產(chǎn)業(yè)規(guī)劃和市場需求文本,結(jié)合專利成果自身形式特征,進(jìn)行高質(zhì)量專利成果篩選方法的研究。在中央出臺的《關(guān)于新時(shí)代推動中部地區(qū)高質(zhì)量發(fā)展的意見》中,“堅(jiān)持創(chuàng)新發(fā)展,構(gòu)建以先進(jìn)制造業(yè)為支撐的現(xiàn)代產(chǎn)業(yè)體系”被擺在首位,湖北省委第+一屆九次全會中提出構(gòu)建“51020”現(xiàn)代產(chǎn)業(yè)體系的設(shè)想,旨在發(fā)揮好湖北制造業(yè)大省的優(yōu)勢,為實(shí)現(xiàn)全省高質(zhì)量發(fā)展奠定產(chǎn)業(yè)基礎(chǔ)。基于上述分析,本文選取“先進(jìn)制造與自動化”領(lǐng)域?yàn)檠芯繕颖?,采集該領(lǐng)域相關(guān)數(shù)據(jù)開展研究。
湖北省“51020”現(xiàn)代產(chǎn)業(yè)體系發(fā)展規(guī)劃和湖北省制造業(yè)發(fā)展“十四五”規(guī)劃是湖北省推進(jìn)制造業(yè)發(fā)展目標(biāo)的集中體現(xiàn),對科技成果發(fā)展方向具有指導(dǎo)意義。借此,本文摘取湖北省“51020”現(xiàn)代產(chǎn)業(yè)體系發(fā)展規(guī)劃和湖北省制造業(yè)發(fā)展“十四五”規(guī)劃兩份文件中相關(guān)文本作為宏觀層面的需求文本來源語料。
個(gè)人或企業(yè)在生產(chǎn)實(shí)踐中遇到的難以攻克的技術(shù)問題時(shí),往往需要吸收市面上的專利成果加以利用??紤]到專利成果轉(zhuǎn)化往往具有一定的時(shí)滯性,故本文編寫Python程序爬取科惠網(wǎng)(http://www.5lkehui.com/#/)中于2019年1月1日-2021年12月31日登記的“先進(jìn)制造與自動化”領(lǐng)域技術(shù)需求,經(jīng)過人工逐條篩選剔除重復(fù)或無效數(shù)據(jù)后,最終獲得429條有效數(shù)據(jù)作為微觀層面的需求文本原始語料。
發(fā)明專利是新技術(shù)的重要展現(xiàn)形式。本文在專利之星檢索平臺(https://www. patentstar. com. cn/)中檢索研究所需專利數(shù)據(jù)。根據(jù)研究需要對照IPC部類表檢索F部類(機(jī)械工程,照明,加熱,武器,爆破),檢索時(shí)間窗口為授權(quán)日在2019年1月1日-2021年12月31日的發(fā)明專利,檢索時(shí)間為2022年7月14日,然后根據(jù)其主分類號剔除“先進(jìn)制造與自動化”領(lǐng)域應(yīng)用較少的F21(照明)、F41(武器)、F42(爆破)二級類目專利,同時(shí)為保證數(shù)據(jù)的完整性,本文還剔除了不公告發(fā)明人的專利數(shù)據(jù)。篩選完成后的數(shù)據(jù)分別整理其摘要、發(fā)明人數(shù)量、IPC號數(shù)量、知識產(chǎn)權(quán)局引證數(shù)量、說明書頁數(shù)和實(shí)質(zhì)審查時(shí)間,并嚴(yán)格按照上文表1制定的標(biāo)注規(guī)則,人工逐條對專利成果質(zhì)量進(jìn)行0(低質(zhì)量)和1(高質(zhì)量)兩類標(biāo)注,處理完成后最終獲得4730條有效數(shù)據(jù),其中1標(biāo)簽共2147條,0標(biāo)簽共2583條。
3.2高質(zhì)量專利成果篩選方法構(gòu)建
3.2.1文本向量處理
為保證最終得到的文本向量具備可比性,本文統(tǒng)一設(shè)計(jì)處理程序,具體操作步驟如下:首先對專利摘要文本和需求文本進(jìn)行分詞和去停用詞的處理:其次將處理好的專利摘要文本和需求文本按條目分別整理至csv文件中;隨后利用Doc2vec對文本數(shù)據(jù)進(jìn)行統(tǒng)一訓(xùn)練,使其轉(zhuǎn)化為向量表示(程序參數(shù)設(shè)置為:向量維數(shù)vector—size設(shè)置為100維;最小語詞忽略閾值mln—count設(shè)置為2;迭代次數(shù)epochs設(shè)置為10),并將需求文本詞向量求和得到需求語義合向量:最后將專利文本向量逐條與需求語義合向量進(jìn)行余弦相似度的計(jì)算,得到“語義向量匹配度”特征,并整理匯總專利成果形式特征與“語義向量匹配度”特征(數(shù)據(jù)集示例如表3所示),編寫Python程序進(jìn)行模型的訓(xùn)練與評估。
3.2.2算法模型訓(xùn)練與評估
為提高模型預(yù)測性能,本文在訓(xùn)練模型前首先調(diào)用sklearn中集成的網(wǎng)格搜索方法(GridSearch-CV)對不同參數(shù)(參數(shù)組合)進(jìn)行交叉驗(yàn)證以確定最優(yōu)參數(shù),按照最優(yōu)參數(shù)構(gòu)建模型訓(xùn)練方法,各模型最終選取的參數(shù)如表4所示。得到最優(yōu)參數(shù)(參數(shù)組合)后,編寫Python程序調(diào)用8類機(jī)器學(xué)習(xí)算法模型按照各自最優(yōu)參數(shù)組合對訓(xùn)練集進(jìn)行訓(xùn)練,并對測試集進(jìn)行預(yù)測檢驗(yàn),各模型預(yù)測性能如表5所示。
從表5中可以看出,隨機(jī)森林和決策樹兩種分類算法模型的整體準(zhǔn)確率為0.85,居所有測試算法模型首位,但從其內(nèi)部的小類指標(biāo)角度來看,隨機(jī)森林算法模型的各項(xiàng)指標(biāo)值分布相對更加均衡,這表明該模型對于專利成果質(zhì)量的預(yù)測能力更加穩(wěn)定,故本文決定選用隨機(jī)森林算法模型作為高質(zhì)量專利成果篩選方法中的內(nèi)核分類算法。
3.2.3高質(zhì)量專利成果篩選方法應(yīng)用測試
基于上文分析結(jié)果,本文選取Doc2vec向量模型、隨機(jī)森林算法模型等程序,結(jié)合分詞與去停用詞等操作來構(gòu)建應(yīng)用測試模型并完成測試。應(yīng)用測試模型包含兩個(gè)腳本程序和一個(gè)專利特征庫,兩個(gè)腳本程序分別為:①txt_to_vector. py,其功能為處理文本向量并構(gòu)建專利成果的“語義向量匹配度”特征;②prediction. py,其功能為應(yīng)用隨機(jī)森林模型,根據(jù)前期測試所得的最優(yōu)參數(shù)對完成處理的專利成果質(zhì)量進(jìn)行判斷。專利特征庫中存有前期算法模型訓(xùn)練過程中形成的“語義向量匹配度”特征和專利成果的形式特征與質(zhì)量標(biāo)簽。
為完成篩選方法的應(yīng)用測試,同時(shí)考慮到需求文本的時(shí)效性,本文按照上文相同檢索方式,在授權(quán)日在2022年1月1日-8月1日專利中,隨機(jī)挑選10條已轉(zhuǎn)化(高質(zhì)量)和10條未轉(zhuǎn)化(低質(zhì)量)的專利數(shù)據(jù)進(jìn)行應(yīng)用測試。具體處理過程如下:首先運(yùn)行文本處理程序txt_to_vector. py將上述20條專利成果的摘要文本處理為語義向量,完成處理后逐條計(jì)算各項(xiàng)專利成果語義向量與需求語義合向量之間的余弦相似度,形成“語義向量匹配度”特征;隨后將專利形式特征與“語義向量匹配度”特征進(jìn)行匯總整理,整理結(jié)果如表6所示;最后運(yùn)行predic-tion.py加載處理好的應(yīng)用測試數(shù)據(jù)集,完成預(yù)測后根據(jù)其類別標(biāo)簽的不同輸出預(yù)測結(jié)果,程序運(yùn)行完成后輸出與預(yù)測結(jié)果如圖4所示(其中前10條為高質(zhì)量專利,后10條為低質(zhì)量專利)。
從圖4中的預(yù)測結(jié)果來看,在20條應(yīng)用測試專利中共有16條專利質(zhì)量被正確預(yù)測(其中包含9條高質(zhì)量專利和7條低質(zhì)量專利),整體識別準(zhǔn)確率達(dá)到0.8,識別效果較好。此外,結(jié)合表6結(jié)果來看,隨機(jī)森林算法模型的泛化性能為0.85,在實(shí)際應(yīng)用測試中表現(xiàn)為0.8,訓(xùn)練效果和測試效果十分接近,這表明上文提出的高質(zhì)量專利篩選方法具備一定的可靠性與穩(wěn)定性,可考慮應(yīng)用于后續(xù)大規(guī)模專利數(shù)據(jù)質(zhì)量預(yù)測工作,輔助人工進(jìn)行專利篩選,在一定程度上能夠降低人力、物力、財(cái)力的消耗,提升專利篩選效率,從而達(dá)到促進(jìn)專利成果高效轉(zhuǎn)化的目的。
4結(jié)論啟示
本文基于“先進(jìn)制造與自動化”領(lǐng)域?qū)@麛?shù)據(jù),綜合運(yùn)用專利計(jì)量、自然語言處理、機(jī)器學(xué)習(xí)等方法,結(jié)合湖北省自身特色需求,將專利形式特征和“語義向量匹配度”特征相結(jié)合,對專利成果質(zhì)量的識別進(jìn)行探索。研究發(fā)現(xiàn),隨機(jī)森林算法模型在選取的8種算法模型中,整體識別準(zhǔn)確率和內(nèi)部各小類指標(biāo)綜合表現(xiàn)最優(yōu),故本文選取隨機(jī)森林算法模型作為高質(zhì)量專利成果篩選方法中的內(nèi)核分類算法,并結(jié)合Doc2vec向量模型等處理程序完成篩選方法的構(gòu)建。此外,經(jīng)過實(shí)證測試,本文提出的篩選方法基于客觀數(shù)據(jù)綜合考慮了專利成果的形式特征、地域發(fā)展規(guī)劃與技術(shù)市場需求,能夠較好地對專利質(zhì)量進(jìn)行預(yù)測,不僅有利于后續(xù)專利篩選工作的實(shí)際開展,同時(shí)還能為各省市政府相關(guān)部門提供決策支持,幫助其較為快速和全面地掌握專利成果整體質(zhì)量情況,進(jìn)而推動專利成果加速轉(zhuǎn)化為生產(chǎn)力,助力經(jīng)濟(jì)高質(zhì)量發(fā)展。
為更好地促進(jìn)專利成果成功轉(zhuǎn)化,提升成果利用效率,使其高效服務(wù)產(chǎn)業(yè)和經(jīng)濟(jì)發(fā)展規(guī)劃的需要,本文提出以下啟示:
1)規(guī)范數(shù)據(jù)采集,構(gòu)建并不斷完善各類數(shù)據(jù)庫。當(dāng)前各類專利信息和市場需求信息類型繁多且存在大量非結(jié)構(gòu)化數(shù)據(jù),在進(jìn)行高質(zhì)量專利成果篩選時(shí)往往需要花費(fèi)大量時(shí)間和人力去進(jìn)行數(shù)據(jù)采集和整理。因此,各省市主管部門(科技局、技術(shù)交易所等)可考慮與高校、企業(yè)進(jìn)行合作,定期安排專人負(fù)責(zé)采集和整理專利成果數(shù)據(jù)、產(chǎn)業(yè)規(guī)劃數(shù)據(jù)和市場需求數(shù)據(jù),并將其按照專業(yè)領(lǐng)域或IPC號分類存儲,構(gòu)建并不斷完善專利成果供應(yīng)庫、產(chǎn)業(yè)規(guī)劃庫、市場需求庫、高質(zhì)量專利成果庫等特色數(shù)據(jù)庫,并結(jié)合參考本文提出的篩選方法,實(shí)現(xiàn)專利成果供需關(guān)系的動態(tài)匹配,促進(jìn)轉(zhuǎn)化效率的提升,進(jìn)而達(dá)到科技助力經(jīng)濟(jì)發(fā)展的效果。
2)加強(qiáng)引導(dǎo)效應(yīng),改革管理體制與反饋機(jī)制。從政府層面來看,應(yīng)當(dāng)積極引導(dǎo)專利成果申報(bào)和市場需求登記,一方面,在政策上支持專利成果的申請、審查和審批流程,強(qiáng)化企業(yè)(或成果持有人)的知識產(chǎn)權(quán)意識;另一方面,引導(dǎo)需求方積極登記,準(zhǔn)確精練地表達(dá)自身技術(shù)需求。此外,科技局、技術(shù)交易所等科技成果轉(zhuǎn)化主管部門可考慮在機(jī)器篩選的基礎(chǔ)上,輔助組織人工進(jìn)行隨機(jī)檢驗(yàn),并根據(jù)檢驗(yàn)結(jié)果及時(shí)反饋更新相關(guān)數(shù)據(jù)庫,從而進(jìn)一步提升高質(zhì)量專利成果識別的準(zhǔn)確率。從科研院所或企業(yè)層面來看,成果申報(bào)方應(yīng)以解決實(shí)際問題為研究導(dǎo)向,注重提升專利成果技術(shù)質(zhì)量與撰寫質(zhì)量,加強(qiáng)產(chǎn)學(xué)研“一體化”協(xié)作,避免出現(xiàn)研發(fā)資源浪費(fèi)和成果閑置。
5結(jié)語
世界新一輪科技革命為科技成果涌現(xiàn)創(chuàng)造了新的機(jī)遇,推進(jìn)成果轉(zhuǎn)化已成為大國博弈的戰(zhàn)略選擇。本文提出的篩選方法為實(shí)現(xiàn)自動化篩選高質(zhì)量專利成果提供了參考方案,能夠有助于識別具有潛在發(fā)展前景的專利成果,幫助科技主管部門精準(zhǔn)施策,推動構(gòu)建精準(zhǔn)高效的專利成果轉(zhuǎn)化機(jī)制。但同時(shí)本文也存在著一些有待完善之處,例如:①本文以湖北省為例,將其相關(guān)產(chǎn)業(yè)規(guī)劃和技術(shù)需求與專利成果進(jìn)行語義向量匹配度的計(jì)算,在需求文本數(shù)據(jù)范圍的考量上可能有所欠缺,但本文主要提供一種篩選思路,旨在為各省(市)結(jié)合區(qū)域特色需求,從大規(guī)模專利中篩選出符合自身需求發(fā)展的高質(zhì)量成果提供參考借鑒,以期降低專利成果閑置率并助力經(jīng)濟(jì)發(fā)展:②本文所構(gòu)建的科技成果篩選方法是基于客觀數(shù)據(jù)構(gòu)建得來,雖然能夠在一定程度上減輕相關(guān)人員的低級重復(fù)工作量并輔助決策,但缺少專家知識與經(jīng)驗(yàn)的支持,未來將考慮在篩選過程中融入專家判斷結(jié)果作為“案例語義特征”進(jìn)行輔助篩選,以期更好地為專利成果轉(zhuǎn)化工作提供決策支持。