• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于組合概率的技術主題新穎性研究

    2022-11-23 12:03:46孫曉玲陳娜丁堃
    情報學報 2022年10期

    孫曉玲,陳娜,丁堃

    (大連理工大學科學學與科技管理研究所,大連 116024)

    1 引言

    新型國際關系背景下的科技競爭對科技創(chuàng)新戰(zhàn)略提出新的要求。突破性技術的競爭不斷升級,而技術新穎性是突破性技術的重要驅動力,具備高新穎性能增加突破性技術產生的概率[1-4]。但高新穎性特征的技術由于具有更高的不確定性和風險性[5-6],往往需要經過較長的時間檢驗后才會顯示其歷史地位和價值。因此,技術新穎性的有效識別方法對于提高突破性技術預測的概率和早期識別核心專利具有重要意義[7]。

    技術新穎性是一個抽象且復雜的概念,本文中的新穎性與專利審查中的新穎性概念具有一定的區(qū)別和聯(lián)系。在申請發(fā)明或實用新型專利時,具備新穎性是授予其專利權的必要條件之一,而本文側重在從主題內容層面測度技術的新穎程度,是指發(fā)明過程中現(xiàn)有技術或新技術以一種新穎的方式組合[8-10]。未來可以用于科技查新工作,避免人工檢索的主觀性和非全面性影響專利新穎性評判結果。

    如何衡量技術新穎性備受國內外學者關注。衡量技術新穎性的方法通常從知識元組合視角,將知識元作為組成知識的結構要素[11],其組合過程通常反映了創(chuàng)新過程。利用專利主題詞組合的共現(xiàn)次數(shù)來測度技術主題內容新穎性已得到實證研究[12-16]。然而,僅考慮主題詞組合的共現(xiàn)次數(shù)可能會低估組合概率,高估技術的新穎度。比如,(w1,w2)和(w3,w4)兩對主題詞以前都沒有共現(xiàn)過,但是(w1,w2)存在潛在語義關系,如存在間接關系或語義相關,(w3,w4)不存在語義關系,則(w3,w4)表現(xiàn)出的組合新穎性概率應更高。因此,本文以專利作為技術創(chuàng)新成果的載體,從其標題和摘要等內容抽取出主題詞,提出一種綜合衡量技術主題內容新穎性的方法。為了測量主題詞潛在組合概率,引入復雜網絡中的鏈接預測方法對間接關系進行量化,該方法根據兩個主題詞以往的關聯(lián)關系來度量未來鏈接的概率。除間接鏈接關系外,進一步融合主題詞之間的語義相似度。由于搜索相關領域的知識比搜索不熟悉的知識相對容易,因此語義相似度高的組合未來組合概率較高。

    2 相關工作

    許多學者從知識組合視角研究科學技術的新穎性,認為新知識和現(xiàn)有知識的相互組合是知識新穎性的主要來源。論文和專利分別被視為科學知識和技術知識的載體[17-18],本文側重于技術新穎性的研究,但基于論文的科學知識組合新穎性研究也與此密切相關,因此本文將基于組合視角從科學新穎性和技術新穎性兩個方面進行綜述。

    國內外學者們主要從科學論文的引用期刊組合或主題內容組合兩個視角測度科學新穎性。一是從引用期刊組合視角。Uzzi等[19]使用引文中期刊組合的共現(xiàn)次數(shù)來衡量每篇論文的新穎性分數(shù)Zscore。Klavans等[20]在Uzzi等[19]的方法基礎上,使用K50分數(shù)代替Zscore來測度期刊組合新穎性。Lee等[21]采用Uzzi等[19]提出的方法,進一步研究新穎性與團隊規(guī)模的關系。Wang等[22]基于論文的引用期刊對是否首次組合,并考慮這種新組合的難度,構建基于引文中新期刊組合出現(xiàn)的次數(shù)作為衡量新穎性的方法。Veugelers等[23]在此方法基礎上用新期刊組合間的余弦相似度進行加權來測度新穎性。二是從主題內容視角。沈陽[24]從關鍵詞的頻次、時間等維度評價論文新穎性。錢玲飛等[25]、楊建林等[26]使用關鍵詞對逆文檔頻率方法量化主題新穎性,其研究表明主題新穎度高只是保證論文質量的前提之一。任海英等[27]采用論文標題、摘要和關鍵詞來表征論文的主題內容,構建主題詞共現(xiàn)頻數(shù)網絡,以此判定論文新穎性類型。

    基于知識組合視角的技術新穎性測度方法同樣得到了廣泛的關注,主要是利用專利技術分類代碼組合[28-31]和專利主題內容組合[12-16,32]來測度技術新穎性。任海英等[12]基于主題詞頻次構建專利的前向/后向知識網絡來評估專利主題內容的新穎性,并采用負二項回歸模型研究新穎性與被引次數(shù)等特征的關系,其研究表明內容新穎性會對突破性發(fā)明產生正向影響。劉玉琴等[13]使用文本挖掘技術計算專利相似度,以此構建技術新穎度測算指標,評價某段時間內專利群體的價值和技術新穎性的關系。Schilling等[14]運用主題模型識別特定專利數(shù)據集中新主題的產生,發(fā)現(xiàn)蘊含新穎主題的專利相較于其他專利會獲得更高的被引頻次。Lee等[15]使用文本挖掘技術和局部離群因子方法來衡量專利的新穎性程度,并以具備高新穎性的專利為焦點,構建專利識別圖,發(fā)現(xiàn)新的技術機會。Kim等[16]研究了專利的主題內容新穎性和常規(guī)性與其影響力的關系,發(fā)現(xiàn)在常規(guī)技術組合中引入新穎技術組合的專利,會獲得更高的被引頻次。Arts等[32]將自然語言處理的方法與以往基于引文和專利分類的方法進行對比,發(fā)現(xiàn)基于關鍵詞組合的方法更容易識別新穎的專利。

    從上述研究中可以看到,大多數(shù)學者從知識元組合共現(xiàn)次數(shù)或主題相似度等單一角度來測度知識組合新穎性,這很可能會低估知識元組合概率,而高估技術的新穎度。在以往研究的基礎上,本文提出了一種更加全面的衡量技術主題內容新穎性的方法。

    3 研究方法

    評估新穎性意味著與現(xiàn)有知識進行比較。本文認為若某項技術的知識元組合以往沒有出現(xiàn)過且出現(xiàn)可能性較低,則認為該項技術具備新穎性。專利的標題和摘要作為技術的知識元,可從中抽取出主題詞來代表專利的主題內容,通過測度主題詞組合的新穎程度來評價技術主題新穎性。因此,某項技術的主題詞組合出現(xiàn)的概率越低,主題內容新穎性越高。

    3.1 主題內容新穎性測度指標

    以往使用主題詞共現(xiàn)頻次可能會低估主題詞組合概率。比如,若兩個主題詞并沒有共現(xiàn),但它們分別與其他相似的主題詞共現(xiàn),則它們之間具有間接關系。除主題詞組合直接關系和間接關系外,主題詞的語義層面相似性也是影響組合概率的一個因素,兩個主題詞語義越相似,發(fā)生組合的概率越高。基于此,本文提出了一種綜合測度技術主題內容新穎性的方法,該方法融合了主題詞對的共現(xiàn)關系、鏈接概率以及語義相似性。

    主題詞組合新穎性測度方法的具體流程如圖1所示,采用線性加權模型,結合主題詞組合直接共現(xiàn)概率poccur、間接鏈接概率plink和語義相似度psemantic三個指標來測度組合(w1,w2)的新穎性,

    圖1 主題內容新穎性測度方法

    三種新穎性測度指標的計算都是根據專利申請年t之前的數(shù)據計算的。pcombinet(w1,w2)是測度主題詞組合新穎性的三種指標線性加權的概率值,該概率值越低,表示主題詞組合新穎性越高。λ和μ作為調節(jié)因子控制三種指標的權重。熵值法[33]能夠根據各項指標觀測值所提供的信息的大小來確定指標權重,這里采用熵值法確定調節(jié)因子λ和μ的值。

    3.1.1 主題詞組合直接共現(xiàn)概率

    若一項專利包含以前沒有共同出現(xiàn)或共現(xiàn)次數(shù)較少的主題詞組合,則認為該專利在共現(xiàn)方面具備新穎性,即

    其中,fw1w2表示在該專利申請年份t前的所有專利中主題詞出現(xiàn)的頻次。

    3.1.2 主題詞組合間接鏈接概率

    若一項專利的主題詞組合包含不太可能產生鏈接的主題詞組合,則認為該專利具有新穎性。采用復雜網絡中的鏈接預測方法,基于現(xiàn)有的知識網絡結構來度量主題詞組合的間接鏈接概率。鏈接分析中有一些代表性的方法,如共同鄰居法、Adamic/Adar[34]、Katz[35]。根 據 先 前 的 研 究[36-37],Adamic/Adar被證明是一種相對簡單有效的方法,通過加大稀有鄰居的權重,對常見鄰居的簡單計數(shù)進行了改進。本文使用Adamic/Adar來測量兩個主題詞的未來鏈接概率,即

    其中,Γ(j)表示知識網絡中節(jié)點k的鄰居集合。

    3.1.3 主題詞組合語義相似概率

    利用表示學習word2vec算法[38]將專利主題詞表示成低維稠密的向量,并采用余弦相似度衡量主題詞組合的語義相似性程度。word2vec的skip-gram模型[38]如圖2所示,具有輸入層、隱藏層和輸出層這三層結構的神經元網絡,用文本序列{w1,w2,…,wn}中的每個詞向量w→l預測該詞上下文詞的向量,使公式

    圖2 skip-gram模型結構圖[38]

    的損失函數(shù)概率最大化來學習詞向量,利用該模型捕捉主題詞之間隱含語義相似關系。

    假設利用word2vec算法將主題詞w1、w2表示為詞 向 量,分 別 為w→1=(a1,a2,…,an)和w→2=(b1,b2,…,bn),則主題詞組合(w1,w2)的語義相似度為

    3.1.4 熵值賦權法

    在構建主題內容新穎性綜合指標pcombine時,三種指標的貢獻不同。本文使用熵值法[39]來確定權重λ和μ的值。指標離散程度越大,熵值越小,指標對綜合評價的影響越大,該指標所占的權重越大。基于熵值法計算權重的步驟如下:

    Step1.假設t年所有專利有n個主題詞組合,每個主題詞組合有三個指標:共現(xiàn)概率poccur、鏈接概率plink和語義相似度psemantic;那么xij是第i個主題詞組合第j個指標的值(i=1,2,3,…,n;j=1,2,3)。

    Step2.指標標準化:對三種指標進行歸一化處理來消除三種指標量綱的不同。由于正負向指標采用的歸一化方法不同,而本文中的三種指標對pcombine的影響均為正向影響,例如,某對主題詞組合以往出現(xiàn)概率越高,或間接鏈接的概率越大,或語義相似度程度越高,該組合出現(xiàn)的概率越大。故對指標進行歸一化的公式為若j為正向指標,則

    若j為負向指標,則

    Step3.計算指標中第i個主題詞組合在第j個指標下的占比,

    Step4.計算第j個指標的熵,

    其中,k=1/ln(n);ej≥0。

    Step5.計算各指標權重,

    Step6.計算每一對主題詞組合的新穎性概率,

    3.2 主題內容新穎性類型確定

    借鑒Klavans等[20]擴大指標值的做法,對專利主題詞組合概率pcombine采用公式

    進行適當擴大化處理,得到主題詞組合(w1,w2)概率值zscore。其中,ξexp為t年所有專利主題詞組合pcombine的均值,σVar為t年所有專利主題詞組合pcombine的方差。

    專利由多對主題詞組合組成,基于以上對主題詞組合概率的定義,可得到專利的主題詞組合概率值分布。借鑒Uzzi等[19]評價論文新穎性方法,評價一項專利常規(guī)性和新穎性的高低,需要明確兩個指標的定義:若t年的一項專利主題詞組合值分布的中位數(shù)高于t年所有專利主題詞組合值分布的中位數(shù),則該項專利具備高常規(guī)性;若該專利第10個百分位數(shù)小于零,則該項專利具備高新穎性。將專利分類分為四種類型:高常規(guī)性/高新穎性(high conven‐tionality/high novelty,C+N+)、高常規(guī)性/低新穎性(high conventionality/low novelty,C+N-)、低常規(guī)性/高 新穎性(low conventionality/high novelty,CN+)、低常規(guī)性/低新穎性(low conventionality/low novelty,C-N-)。

    4 實證研究

    4.1 數(shù)據來源與處理

    為驗證專利新穎性測度方法的可行性,利用涵蓋全球范圍內海量專利數(shù)據的incoPat專利數(shù)據庫,檢索人工智能領域相關專利。根據新興技術行業(yè)研究公司Venture Scanner對人工智能的分類,借鑒張振剛等[39]、趙蓉英等[40]的檢索策略,參考《人工智能標準化白皮書(2018版)》①http://www.cesi.cn/images/editor/20180124/20180124135528742.pdf,最終檢索式構造為((TIAB=人工智能OR深度學習OR自然語言處理OR語音識別OR計算機視覺OR遙感控制OR智能機器人OR視頻識別OR語音翻譯OR圖像識別OR機器學習)or(TIAB=("artificial intelligence*"OR" Depth learning*"OR" Natural language processing*"OR" Speech Recognition*"OR" Computer vision*"OR" Gesture control*"OR"smart robot*"OR"Video rec‐ognition*"OR"Voice translation*"OR" Image Recogni‐tion*"OR"Machine learning*")))NOT((IPC-SUB‐CLASS=("H04M"))OR(IPC-SUBCLASS=("A61B"))OR(IPC-SUBCLASS=("G08G"))OR(IPC-SUBCLASS=("G05B"))OR(IPC-SUBCLASS=("G09B"))OR(IPCSUBCLASS=("B60R")))。檢索到人工智能領域發(fā)明專利總共292275條(檢索時間為2020年1月14日)。中國、美國、日本和其他主要國家的專利申請量隨時間變化趨勢如圖3所示。中國的專利數(shù)量增長最快,在2009年超過了美國專利數(shù)量。

    圖3 主要國家人工智能專利申請量變化趨勢

    本文采用專利的標題和摘要文本來表征專利的主題內容,數(shù)據預處理流程如圖4所示。首先,in‐coPat數(shù)據庫對每項專利的標題和摘要都分別有翻譯字段,為后續(xù)工作的便利性,本文統(tǒng)一提取專利的中文標題和摘要;其次,將每項專利的中文標題和摘要合并為一個字段,此處簡稱為“TA”;最后,對專利的“TA”字段進行分詞、去除停用詞等操作,得到專利最終的主題詞。為了保證專利主題詞的可靠性,建立人工智能領域自定義詞典,詞典的構建基于人工智能領域專家及《人工智能技術手冊》[41]等確定的人工智能技術主題和關鍵詞作為自定義詞典的內容,并搜集人工智能領域重要詞匯表,總共建立了2552個關鍵詞。詞表的建立提高了分詞的準確性,可通過不斷更新為后續(xù)研究提供保障。

    圖4 專利主題內容數(shù)據處理流程圖

    4.2 主題內容新穎性測度指標的實證研究

    4.2.1 案例分析

    本文首先選擇一項專利作為案例研究來說明技術新穎性度量指標的計算方法和有效性。該項專利于2014年11月由Facebook公司申請,標題為《用于控制照相機裝置的控制裝置和用于控制照相機裝置的增強現(xiàn)實應用程序的方法》(“Control device for controlling a camera arrangement and a method for controlling an augmented reality application program of the camera arrangement”),專利申請?zhí)枮閁S15038030。提取該專利的標題和摘要用于表征該專利的主題內容,對主題內容進行如圖4所示的數(shù)據預處理工作得到該專利的組合詞,如表1所示。

    表1 示例專利主題詞的提取

    對該專利的組合詞進行兩兩組合,得到如表2所示的主題詞組合,通過計算主題詞組合直接共現(xiàn)次數(shù)、間接鏈接概率及語義相似度,得到新穎性度量值zscore。“廣角鏡頭-觸摸屏”組合以往未出現(xiàn)過,間接鏈接及語義相似度都比較低,所以該組合的新穎性程度更高;“增強現(xiàn)實-照相機”組合以往出現(xiàn)了960次,未來鏈接的可能性也很高,加權求和后的概率值較高,故該組合的常規(guī)性程度更高。由于該專利主題詞組合分布的中位數(shù)2.77小于該年所有專利主題詞組合的中位數(shù)2.94,該專利主題詞組合分布的第10個百分位數(shù)為-5.63<0,所以該專利的新穎性類型為低常規(guī)性/高新穎性(C-N+)。

    表2 示例專利主題詞組合的新穎性值

    4.2.2 指標評價

    新穎度測度方法的結果是輸出一個按照新穎度概率排序的列表。由于沒有基礎數(shù)據來比較結果,所以邀請四位人工智能相關專業(yè)領域研究人員來對數(shù)據進行標注,以評估指標效果。為了減少主觀因素對結果的影響,標注人員比較標注兩項專利的相對新穎性程度,而不是標注一項專利的新穎性程度。比如,隨機選擇兩項專利PA和PB來進行比較,研究人員需要結合自身經驗并查閱資料判斷同時期的兩項人工智能專利的相對新穎性。若PA比PB更新穎,則(PA,PB)被標記為1;反之,標記為-1;若認為PA和PB同樣新穎,標記為0。四位研究人員單獨標注,若產生不一致,則以多數(shù)人標注結果為準。從2001—2019年每年隨機抽取50對專利,在評價集中共產生950個樣本,考察四位研究人員標注的結果,兩兩一致性均超過85%,因此本文認為人工標注結果具有可靠性。

    若本文提出測度新穎性方法得出的(PA,PB)新穎性程度比較結果與人工標注結論相同,則認為該測度方法是正確的。采用準確率指標,其計算公式為n′/n,其中n′為新穎性測度指標預測正確的樣本數(shù),n為總樣本數(shù)。三種單一指標與綜合指標的Spearman兩兩相關性以及各指標的準確率結果如表3所示。綜合指標與三個單項指標呈正相關,且顯著性水平為0.01。從結果可以看出,本文提出的基于組合概率的指標相比于單一指標提高了準確率。

    表3 指標間Spearman相關系數(shù)及準確率

    4.3 主題新穎性與影響力的關系研究

    專利的新穎性特征與其影響力是否存在關系?這里研究了新穎性特征與表征專利影響力的被引次數(shù)的關系。

    4.3.1 新穎性與高被引

    本節(jié)研究專利的高新穎性與高被引之間是否存在聯(lián)系。先是時間段的選擇。被引次數(shù)隨時間累積,如圖5所示,在各個時間段內成為高被引專利的閾值相差較大。在2001—2005年,被引次數(shù)排名前1%的閾值為100,排名前5%的閾值為53;而2016—2019年,被引次數(shù)排名前1%的閾值為6,排名前5%的閾值為3。采用2001—2005年和2006—2010年這兩個較早的時間段,研究專利新穎性與被引次數(shù)的關系。

    圖5 不同時間段專利被引次數(shù)排名前x%的閾值(x=1,5,10)

    表4和表5列出的是2001—2005年被引次數(shù)排名前10位和新穎性排名前10位的專利。初步可以看出兩者之間的關系,被引次數(shù)排名前10位的專利中有9個都屬于高新穎性類型的專利,僅有1項專利(US10740242)為低新穎性。新穎性值排名較高的專利其被引次數(shù)卻不一定高,因為新穎性專利本身具有一定的風險性和不確定性,即高被引的專利一般都具有高新穎性,但是具備高新穎性不一定成為高被引專利。

    表4 被引次數(shù)排名前10位的專利

    表5 新穎性值排名前10位的專利

    圖6展示的是在2001—2005年和2006—2010年兩個時間段內專利新穎性類型與高被引專利的關系??v坐標表示的是四種不同類型的高被引專利占該時間段專利總數(shù)的比例,采用三種方法定義高被引專利,分別是被引次數(shù)排名前1%、5%和10%。不論采用哪種定義高被引專利的方法,也不論在哪個時間段,低常規(guī)性/高新穎性(C-N+,D)相比于其他類型是高被引專利的概率均最高。相比之下,高常規(guī)性/低新穎性(C+N-,A)、高常規(guī)性/高新穎性(C+N+,B)和低常規(guī)性/低新穎性(CN-,C)類型的專利成為高被引的概率要低得多。

    圖6 專利新穎性類型與高被引的關系A表示高常規(guī)性/低新穎性(C+N-),B表示高常規(guī)性/高新穎性(C+N+),C表示低常規(guī)性/低新穎性(C-N-),D表示低常規(guī)性/高新穎性(C-N+)。

    4.3.2 新穎性與平均被引

    圖7展示的是不同主題內容組合新穎性類型專利在不同時間的平均被引次數(shù)。在2001—2019年時間段內,高常規(guī)性/高新穎性專利(C+N+,B)平均被引次數(shù)最高,有5.16次;低常規(guī)性/低新穎性專利(C-N-,C)平均被引次數(shù)最低,僅有1.62次。這說明在專利寫作過程中,注重新穎性的同時,也需要結合傳統(tǒng)常規(guī)知識的表述或傳承,相對來說能夠產生更高的影響力。

    圖7 不同主題新穎性類型專利的平均被引情況

    5 總結與展望

    本文提出了一種基于知識組合概率來衡量專利技術主題內容新穎性的方法,該方法綜合考慮了知識元之間的直接共現(xiàn)概率、未來鏈接概率和語義相似概率,通過主題詞組合值分布的第10個百分位數(shù)和中位數(shù)來衡量專利的新穎性與常規(guī)性。該方法通過人工智能領域的發(fā)明專利進行了驗證,利用人工標注的數(shù)據來評價,準確率可以達到0.851,優(yōu)于只使用單一指標來測度主題內容新穎性的方法。

    從新穎性與影響力的關系來看,具備高新穎性特征的專利相比于其他類型更有可能成為高被引專利。高新穎性/高常規(guī)性專利(C+N+)平均被引次數(shù)最高。這對于專利發(fā)明人來說具有一定的啟示作用,在進行選題及撰寫專利文檔時,要注重結合新穎性內容和常規(guī)性內容。此外,很多技術成果長期處在無人問津的狀態(tài),其影響往往需要很長的時間才能充分顯現(xiàn)出來,僅用事后指標(如被引次數(shù))并不適合識別新穎性專利。本文提出綜合多種事前指標的測度方法可以及時監(jiān)測潛在新穎性知識組合,盡早發(fā)現(xiàn)新穎性專利,降低高新穎性專利被延遲發(fā)現(xiàn)的風險。

    本文評估指標的數(shù)據由于缺乏基準數(shù)據,利用人工標注來評價;未來的工作將精心設計更加嚴謹?shù)脑u估方法和更加全面的測度指標,并將其應用于其他領域,以證明該方法的廣泛可行性。綜合評價技術新穎性,既要考慮評價事前指標,如本文提出的poccur、plink和psemantic這三個指標;也要考慮評價事后指標,如被引次數(shù);還要考慮到技術新穎性可能來源于科學知識,如被引科技論文數(shù)及主題內容等。因此,在本文技術新穎性測度的基礎上,未來工作需要進一步構建能夠識別重大突破性技術的相關指標和算法,期望有效識別對科技發(fā)展有重大影響的新興技術和顛覆性技術。

    黎平县| 板桥市| 曲麻莱县| 兴文县| 松江区| 久治县| 亚东县| 沁阳市| 织金县| 如东县| 闽清县| 霍城县| 宝丰县| 连山| 大悟县| 靖边县| 集贤县| 鄂州市| 林甸县| 从江县| 玉树县| 崇信县| 武功县| 精河县| 平度市| 木兰县| 水城县| 陆良县| 五常市| 高邑县| 江北区| 高邮市| 高青县| 呼图壁县| 琼海市| 江津市| 资阳市| 延长县| 奉节县| 绩溪县| 清原|