馮 嶺 謝世博 劉 斌
1(華北水利水電大學(xué)信息工程學(xué)院 河南 鄭州 450046)2(武漢大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430072)
作為一種重要的科技信息載體,專利數(shù)據(jù)中包含了豐富的技術(shù)信息。根據(jù)世界知識(shí)產(chǎn)權(quán)組織的統(tǒng)計(jì),專利數(shù)據(jù)中包含了世界上90%~95%的研發(fā)成果[1]。從專利數(shù)據(jù)中不僅可以檢索到最新的科技信息,更能通過專利分析和挖掘來發(fā)現(xiàn)當(dāng)前各個(gè)領(lǐng)域的技術(shù)創(chuàng)新人才。專利數(shù)據(jù)是評(píng)價(jià)和發(fā)現(xiàn)技術(shù)創(chuàng)新人才的重要依據(jù)之一[2]。
當(dāng)前已經(jīng)存在了一些基于專利數(shù)據(jù)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法。例如,文獻(xiàn)[3]提出了一種基于合作網(wǎng)絡(luò)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法,通過網(wǎng)絡(luò)中不同節(jié)點(diǎn)的點(diǎn)度中心度、中間中心度和接近中心度來找出團(tuán)隊(duì)中的技術(shù)創(chuàng)新人才。文獻(xiàn)[4]分析了專利作為學(xué)術(shù)評(píng)價(jià)指標(biāo)的選取,提出將專利的質(zhì)量、授權(quán)狀態(tài)、有效性以及許可和轉(zhuǎn)讓情況等作為評(píng)價(jià)技術(shù)創(chuàng)新人才的指標(biāo)。文獻(xiàn)[5]則構(gòu)建了企業(yè)科技人才評(píng)價(jià)的指標(biāo)體系,通過專利申請(qǐng)數(shù)量、專利被引次數(shù)、平均專利被引次數(shù)、著者總數(shù)、著者平均專利數(shù)等多個(gè)因素來評(píng)價(jià)技術(shù)創(chuàng)新人才。
然而,這些方法僅僅從各個(gè)特征的角度評(píng)估了各個(gè)發(fā)明人的技術(shù)創(chuàng)新實(shí)力,而沒有給出統(tǒng)一的學(xué)習(xí)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才。如何綜合考慮專利數(shù)據(jù)中包含的各種專利特征,并建立統(tǒng)一、有效的學(xué)習(xí)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,仍是當(dāng)前面臨的一個(gè)重要問題。
多層感知機(jī)模型是最為常見的深度學(xué)習(xí)模型之一,它在車牌字符識(shí)別[6]、財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警[7]和疾病早期識(shí)別[8]、競(jìng)爭(zhēng)性的協(xié)同進(jìn)化預(yù)測(cè)[9]等分類、識(shí)別和預(yù)測(cè)問題上得到了廣泛的應(yīng)用,并取得了較好的效果。因此,該模型可以用來構(gòu)建技術(shù)創(chuàng)新人才識(shí)別的學(xué)習(xí)模型,以發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才。
基于以上原因,本文在對(duì)專利發(fā)明人特征進(jìn)行了充分分析的基礎(chǔ)上,提出了一種基于多層感知機(jī)模型的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法。該方法首先從專利數(shù)據(jù)中抽取發(fā)明人的各個(gè)特征,然后基于抽取的發(fā)明人特征構(gòu)建多層感知機(jī)模型,并通過訓(xùn)練數(shù)據(jù)集對(duì)該模型中的參數(shù)進(jìn)行學(xué)習(xí),最后采用學(xué)習(xí)所得的多層感知機(jī)模型在專利數(shù)據(jù)集合中準(zhǔn)確地發(fā)現(xiàn)技術(shù)創(chuàng)新人才。
當(dāng)前的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法大體可以分為兩種:一種是通過對(duì)人才合作網(wǎng)絡(luò)中不同節(jié)點(diǎn)的中心性指標(biāo)進(jìn)行分析,以找出其中的技術(shù)創(chuàng)新人才;而另一種方法則通過構(gòu)建專利指標(biāo)體系來評(píng)估各個(gè)人才的技術(shù)創(chuàng)新實(shí)力。
基于合作網(wǎng)絡(luò)的方法首先基于科技人才之間的合作關(guān)系構(gòu)建合作網(wǎng)絡(luò),然后通過網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的點(diǎn)度中心度、中間中心度以及接近中心度等中心性指標(biāo)來找出其中的技術(shù)創(chuàng)新人才。在該方面,文獻(xiàn)[10]提出將合作網(wǎng)絡(luò)中點(diǎn)度中心度和中間中心度都較高的作者作為學(xué)術(shù)帶頭人的遴選指標(biāo);文獻(xiàn)[3]則在構(gòu)建的發(fā)明人合作網(wǎng)絡(luò)的基礎(chǔ)上,綜合考慮點(diǎn)度中心度、中間中心度以及接近中心度等指標(biāo),以了解各個(gè)發(fā)明人對(duì)團(tuán)隊(duì)影響程度的大小,從而確定其中的核心成員。然而,盡管這種方法具有一定的合理性,但該方法僅考慮了人才之間的合作關(guān)系的相關(guān)特征來發(fā)現(xiàn)技術(shù)創(chuàng)新人才,技術(shù)創(chuàng)新人才識(shí)別的查全率與查準(zhǔn)率不高,不能準(zhǔn)確地評(píng)價(jià)和發(fā)現(xiàn)技術(shù)創(chuàng)新人才[11-12]。
與基于合作網(wǎng)絡(luò)的方法不同,基于專利指標(biāo)體系的方法則分析了專利數(shù)據(jù)中包含的一系列專利特征,并構(gòu)建相應(yīng)的專利指標(biāo)體系來評(píng)估各個(gè)技術(shù)人才的創(chuàng)新實(shí)力。在該方面,文獻(xiàn)[4]分析了專利作為學(xué)術(shù)評(píng)價(jià)的指標(biāo)的選取,提出將專利的質(zhì)量、授權(quán)狀態(tài)、有效性以及許可和轉(zhuǎn)讓情況等作為評(píng)價(jià)技術(shù)創(chuàng)新人才的指標(biāo)。文獻(xiàn)[5]則等以丹麥維斯塔斯風(fēng)電技術(shù)集團(tuán)公司專利數(shù)據(jù)為研究樣本,構(gòu)建企業(yè)科技人才評(píng)價(jià)指標(biāo)體系,通過專利申請(qǐng)數(shù)量、專利被引次數(shù)、平均專利被引次數(shù)、著者總數(shù)、著者平均專利數(shù)等多個(gè)因素來評(píng)價(jià)各個(gè)發(fā)明人的技術(shù)創(chuàng)新實(shí)力。然而,這種方法僅僅從專利特征的角度分析了各個(gè)特征對(duì)發(fā)明人技術(shù)創(chuàng)新實(shí)力的影響,但卻沒有給出統(tǒng)一的學(xué)習(xí)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才。如何綜合考慮專利數(shù)據(jù)中包含的各種專利特征,并構(gòu)建統(tǒng)一、有效的學(xué)習(xí)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,仍是當(dāng)前面臨的一個(gè)重要問題。
多層感知機(jī)模型是最為常見的深度學(xué)習(xí)模型之一,它在車牌字符識(shí)別、財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警和疾病早期識(shí)別、競(jìng)爭(zhēng)性的協(xié)同進(jìn)化預(yù)測(cè)等分類、識(shí)別和預(yù)測(cè)問題上得到了廣泛的應(yīng)用,并取得了較好的效果,因此可以用來構(gòu)建技術(shù)創(chuàng)新人才的學(xué)習(xí)模型,以評(píng)估人才的技術(shù)創(chuàng)新實(shí)力。盡管我們也可以采用傳統(tǒng)的機(jī)器學(xué)習(xí)模型(如樸素貝葉斯分類器、支持向量機(jī)和決策樹等)來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,但傳統(tǒng)的機(jī)器學(xué)習(xí)模型只能基于人工定義的淺層特征用于模型的學(xué)習(xí),而多層感知機(jī)模型通常具有多個(gè)隱藏層,可以抽取深層特征用于模型的學(xué)習(xí),其準(zhǔn)確率更為精確。因此,本文將采用多層感知機(jī)來構(gòu)建技術(shù)創(chuàng)新人才的學(xué)習(xí)模型,以發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才。
基于專利數(shù)據(jù)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)即在專利集合中識(shí)別技術(shù)創(chuàng)新實(shí)力較強(qiáng)的發(fā)明人。本文提出了一種基于多層感知機(jī)的方法來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,該方法的主要步驟包括發(fā)明人特征抽取、多層感知機(jī)模型構(gòu)建與學(xué)習(xí)以及應(yīng)用多層感知機(jī)模型進(jìn)行發(fā)明人的技術(shù)創(chuàng)新實(shí)力評(píng)估等。
專利數(shù)據(jù)中包含了多種不同的特征信息。圖1給出了一個(gè)專利的部分結(jié)構(gòu)化特征的示例??梢钥吹?,專利中不僅包含專利號(hào)、申請(qǐng)日、標(biāo)題、申請(qǐng)人、發(fā)明人等信息,還包含了專利之間的引用信息。其中,發(fā)明人為撰寫該專利的作者,而申請(qǐng)人則為專利權(quán)的所有者,通常為一個(gè)企業(yè)或組織。除了以上的結(jié)構(gòu)化特征以外,專利數(shù)據(jù)中還包含了摘要、專利說明書、權(quán)利聲明等文本信息。
圖1 一個(gè)專利的部分結(jié)構(gòu)化特征的示例
為了構(gòu)建多層感知機(jī)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,我們首先抽取了反映各個(gè)發(fā)明人技術(shù)創(chuàng)新實(shí)力的專利特征。文中抽取的發(fā)明人特征包括專利申請(qǐng)量、專利總被引用量、合作發(fā)明人數(shù)量、合作發(fā)明人的平均專利申請(qǐng)量、申請(qǐng)人維持的專利數(shù)量以及所申請(qǐng)專利的文本特征等。
(1) 專利申請(qǐng)量 發(fā)明人所申請(qǐng)的專利數(shù)量反映了發(fā)明人的技術(shù)創(chuàng)新能力。一般來說,一個(gè)發(fā)明人申請(qǐng)的專利數(shù)量越多,則該發(fā)明人的技術(shù)創(chuàng)新實(shí)力越強(qiáng)。本文中,發(fā)明人所申請(qǐng)的專利數(shù)量用PN來表示。
(2) 專利總被引量 專利的被引用次數(shù)反映了專利的質(zhì)量和價(jià)值。一個(gè)發(fā)明人所申請(qǐng)專利的總被引量越高,則該發(fā)明人更可能為一個(gè)技術(shù)創(chuàng)新實(shí)力的發(fā)明人。對(duì)于專利集合中的任意發(fā)明人I,其專利總被引量SumCitedNum的計(jì)算公式為:
(1)
式中:P(I)為發(fā)明人I所申請(qǐng)的專利的集合,CitedNum(pi)為專利pi被引用的次數(shù)。
(3)合作發(fā)明人數(shù)量 發(fā)明人之間的合作關(guān)系反映了發(fā)明人在特定領(lǐng)域中的影響力和技術(shù)創(chuàng)新實(shí)力。一個(gè)發(fā)明人所合作的發(fā)明人數(shù)量越多,則該發(fā)明人的影響力越大。本文中,我們將與發(fā)明人I存在合作關(guān)系的發(fā)明人數(shù)量用CoNum來表示。
(4) 合作發(fā)明人的平均專利申請(qǐng)量 合作發(fā)明人的專利申請(qǐng)量反映了所合作發(fā)明人的技術(shù)創(chuàng)新實(shí)力。如果與發(fā)明人I存在合作關(guān)系的發(fā)明人的技術(shù)創(chuàng)新實(shí)力都較強(qiáng),則通常發(fā)明人I的技術(shù)創(chuàng)新能力也較強(qiáng)。我們用與發(fā)明人I存在合作關(guān)系的所有發(fā)明人的平均專利申請(qǐng)量CoPatNum來度量其合作發(fā)明人的平均技術(shù)創(chuàng)新實(shí)力,其計(jì)算公式表示為:
(2)
式中:m為與發(fā)明人I存在合作關(guān)系的發(fā)明人的數(shù)量,PN(Ii)為與發(fā)明人I存在合作關(guān)系的第i個(gè)發(fā)明人的專利申請(qǐng)數(shù)量。
(5) 申請(qǐng)人維持的專利數(shù)量 在技術(shù)創(chuàng)新能力強(qiáng)的企業(yè)工作的發(fā)明人往往創(chuàng)新能力也很強(qiáng)。因此,發(fā)明人所屬的企業(yè)或組織(通常稱為專利的申請(qǐng)人或?qū)@麢?quán)人)的技術(shù)創(chuàng)新實(shí)力也是影響發(fā)明人技術(shù)創(chuàng)新實(shí)力的一個(gè)重要因素。我們用發(fā)明人所屬的申請(qǐng)人(即發(fā)明人所屬的企業(yè)或組織)維持的專利數(shù)量來度量該申請(qǐng)人的技術(shù)創(chuàng)新實(shí)力,在文中用AplNum來表示。
(6) 專利文本特征 專利文本中記錄了重要的技術(shù)情報(bào)信息,直接反映了發(fā)明人研究主題、研究領(lǐng)域和技術(shù)創(chuàng)新實(shí)力。技術(shù)創(chuàng)新能力較強(qiáng)的發(fā)明人,其研究的主題和采用技術(shù)手段都較為新穎。而技術(shù)創(chuàng)新能力較弱的發(fā)明人,其所申請(qǐng)專利的研究主題和技術(shù)手段較為普通。因此,專利文本是影響發(fā)明人技術(shù)創(chuàng)新實(shí)力的又一重要因素。本文中,我們根據(jù)發(fā)明人所申請(qǐng)的專利文檔集合,用一組關(guān)鍵詞的空間向量來表示發(fā)明人的專利文本特征。對(duì)于專利集合中的任意發(fā)明人I,其專利文本特征表示為(w1,w2,…,wn),其中n為關(guān)鍵詞的個(gè)數(shù),wi對(duì)應(yīng)于第i個(gè)關(guān)鍵詞在發(fā)明人I中的權(quán)重。wi的計(jì)算采用類似TF-IDF公式的方法進(jìn)行度量,即如果某個(gè)關(guān)鍵詞在一個(gè)發(fā)明人申請(qǐng)的專利文檔中出現(xiàn)的頻率高,并且在其他發(fā)明人所申請(qǐng)的專利文檔中很少出現(xiàn),則認(rèn)為此關(guān)鍵詞在該發(fā)明人的空間向量中的權(quán)重越高,其計(jì)算公式為:
(3)
根據(jù)以上抽取的發(fā)明人特征,我們采用基于多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法來評(píng)估各個(gè)發(fā)明人的技術(shù)創(chuàng)新實(shí)力,以發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才。如圖2所示,該多層感知機(jī)模型共包括4層:第一層為輸入層,該輸入為從專利集合中提取的特征向量,即2.1節(jié)中抽取的各個(gè)發(fā)明人特征的權(quán)重;第二、三層為隱藏層,用來從輸入層的基本特征中抽取更高層次的特征信息;第四層為輸出層,用于輸出各個(gè)發(fā)明人是否為技術(shù)創(chuàng)新人才的概率。其中,每一層神經(jīng)元節(jié)點(diǎn)的輸出都是前一層神經(jīng)元節(jié)點(diǎn)的函數(shù)。
圖2 采用的多層感知機(jī)模型的網(wǎng)絡(luò)結(jié)構(gòu)
(4)
對(duì)于多層感知機(jī)模型中的第一至三層,我們選用選用修正線性單元ReLU(Rectified linear unit)作為該層的激活函數(shù),即f(z)=max{0,z}。
對(duì)于多層感知機(jī)模型中的第四層,由于我們的輸出是發(fā)明人為技術(shù)創(chuàng)新人才的概率,即需要將輸出映射到取值范圍為(0,1)的區(qū)間,因此我們采用sigmoid函數(shù)作為本層的激活函數(shù),即:
(5)
模型參數(shù)學(xué)習(xí):
為了能夠基于構(gòu)建的多層感知機(jī)模型來發(fā)現(xiàn)專利集合中的技術(shù)創(chuàng)新人才,我們首先需要對(duì)該多層感知機(jī)模型進(jìn)行學(xué)習(xí)。多層感知機(jī)模型的學(xué)習(xí)主要是對(duì)各層節(jié)點(diǎn)之間的連接權(quán)重進(jìn)行學(xué)習(xí),其學(xué)習(xí)過程通常采用基于隨機(jī)梯度下降原理的誤差反向傳播(BP)算法[13]來進(jìn)行實(shí)現(xiàn)。即首先給多層感知機(jī)的初始權(quán)值設(shè)置一個(gè)小的隨機(jī)數(shù),然后將訓(xùn)練樣本集輸入到多層感知機(jī)網(wǎng)絡(luò),采用基于隨機(jī)梯度下降原理的誤差反向傳播(BP)算法對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整網(wǎng)絡(luò)參數(shù),從而使得采用多層感知機(jī)模型運(yùn)算后的實(shí)際輸出值盡量接近期望輸出值。在文中即為使得計(jì)算出的發(fā)明人為技術(shù)創(chuàng)新人才的概率值與發(fā)明人是否為技術(shù)創(chuàng)新人才的標(biāo)簽盡量接近。我們采用均方誤差作為訓(xùn)練過程中的損失函數(shù),該損失函數(shù)J(w)可以表達(dá)為:
(6)
式中:hw(x(i))是采用文中的多層感知機(jī)模型計(jì)算出來的第i個(gè)發(fā)明人為技術(shù)創(chuàng)新人才的概率;yi是預(yù)先標(biāo)記好的第i個(gè)發(fā)明人的標(biāo)簽,用來表示該發(fā)明人是否為一個(gè)技術(shù)創(chuàng)新人才(如果yi=1,表示該發(fā)明人是技術(shù)創(chuàng)新人才,如果yi=0,表示該發(fā)明人是技術(shù)創(chuàng)新人才);m為專利集合中發(fā)明人的總數(shù)量。
通過BP算法,我們可以對(duì)多層感知機(jī)中的參數(shù)進(jìn)行有效的學(xué)習(xí)。從而,在測(cè)試階段,我們即可使用訓(xùn)練得到的多層感知機(jī)模型來計(jì)算各個(gè)發(fā)明人為技術(shù)創(chuàng)新人才的概率。
為了驗(yàn)證文中所提出方法的有效性,我們將提出的基于多層感知機(jī)的技術(shù)人才發(fā)現(xiàn)方法與文獻(xiàn)[3]中的基于合作網(wǎng)絡(luò)中心度的方法以及傳統(tǒng)的機(jī)器學(xué)習(xí)方法(包括支持向量機(jī)、樸素貝葉斯和決策樹分類算法等)進(jìn)行了對(duì)比。實(shí)驗(yàn)中采用的專利數(shù)據(jù)集為從歐洲專利局Espacenet系統(tǒng)下載的“華為科技有限公司”和“電動(dòng)汽車”領(lǐng)域的專利數(shù)據(jù),兩個(gè)數(shù)據(jù)集的細(xì)節(jié)描述如表1所示。
表1 使用的專利數(shù)據(jù)集的描述
圖3 技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法的實(shí)驗(yàn)設(shè)置
在測(cè)試階段,同樣地,根據(jù)基于T2時(shí)間間隔中申請(qǐng)的專利集合對(duì)各個(gè)發(fā)明人申請(qǐng)專利的數(shù)量進(jìn)行統(tǒng)計(jì),并將申請(qǐng)專利數(shù)量最多的前百分之k個(gè)發(fā)明人標(biāo)記為技術(shù)創(chuàng)新人才,其他發(fā)明人標(biāo)記為非技術(shù)創(chuàng)新人才。然后,我們基于T1時(shí)間間隔內(nèi)申請(qǐng)的專利來抽取各個(gè)發(fā)明人的特征,采用訓(xùn)練階段得到的多層感知機(jī)模型來計(jì)算各個(gè)發(fā)明人為技術(shù)創(chuàng)新人才的概率,并將概率最大的前百分之k個(gè)發(fā)明人標(biāo)記為技術(shù)創(chuàng)新人才,其他發(fā)明人標(biāo)記為非技術(shù)創(chuàng)新人才。最后,我們將基于T1時(shí)間間隔內(nèi)的專利文檔計(jì)算得到的各個(gè)發(fā)明人的標(biāo)簽與基于T2時(shí)間間隔內(nèi)的專利文檔預(yù)先標(biāo)記的各個(gè)發(fā)明人的標(biāo)簽進(jìn)行對(duì)比,以驗(yàn)證所提出方法的效果。
我們根據(jù)采用文中方法計(jì)算得到的發(fā)明人標(biāo)簽的準(zhǔn)確率來驗(yàn)證所提出方法的效果。該準(zhǔn)確率可以用公式表示為:
(7)
我們從企業(yè)(“華為科技有限公司”的專利數(shù)據(jù)集)和研究領(lǐng)域(“電動(dòng)汽車”專利數(shù)據(jù)集)兩個(gè)維度對(duì)文中提出的基于多層感知機(jī)的技術(shù)人才發(fā)現(xiàn)方法進(jìn)行實(shí)證分析,以驗(yàn)證所提出方法的有效性。
表2給出了基于多層感知機(jī)的方法(Multi-layer Perceptron,MLP)與基于合作網(wǎng)絡(luò)中心度的方法(Network Centrality,NC)以及傳統(tǒng)的機(jī)器學(xué)習(xí)方法,包括支持向量機(jī)(Support Vector Machine,SVM),樸素貝葉斯(Naive Bayes,NB),決策樹算法(Decision Tree,DT)等,在“華為科技有限公司”的專利數(shù)據(jù)集上進(jìn)行技術(shù)創(chuàng)新人才發(fā)現(xiàn)的準(zhǔn)確率。
表2 “華為科技有限公司”數(shù)據(jù)集上各個(gè)方法的準(zhǔn)確率
在該專利數(shù)據(jù)集上,我們給出了在不同的k值下五種方法的準(zhǔn)確率。其中,k為被標(biāo)記為技術(shù)創(chuàng)新人才的發(fā)明人在整個(gè)發(fā)明人集合中的所占的比例。
我們首先分析了同一種方法在不同k值下的準(zhǔn)確率變化。由3.1節(jié)可知,當(dāng)k較小時(shí),采用文中方法標(biāo)記為技術(shù)創(chuàng)新人才的數(shù)量和預(yù)先標(biāo)記的技術(shù)創(chuàng)新人才的數(shù)量都較少,而同時(shí)被標(biāo)記為非技術(shù)創(chuàng)新人才的數(shù)量都較多(即兩種方式都有大量的發(fā)明人被標(biāo)記為非技術(shù)創(chuàng)新人才)。因此,對(duì)于任意發(fā)明人,其通過文中方法計(jì)算得到的標(biāo)簽值與預(yù)先標(biāo)記的標(biāo)簽值有較大的概率相等(即都有較大的概率都被標(biāo)記為非技術(shù)創(chuàng)新人才)。根據(jù)式(7)可知,此時(shí)各個(gè)方法的準(zhǔn)確率一般都較高;而當(dāng)k增大時(shí),同時(shí)被標(biāo)記為非技術(shù)創(chuàng)新人才的數(shù)量減少,其通過文中方法計(jì)算得到的標(biāo)簽值與預(yù)先標(biāo)記的標(biāo)簽值相等的概率也相應(yīng)的減小。此時(shí),各個(gè)方法的準(zhǔn)確率一般也會(huì)隨之下降。從表2中各個(gè)方法的準(zhǔn)確率可以看到,同一種方法的準(zhǔn)確率都隨著k值的增大而減小。
我們也比較了不同方法在同一k值下的準(zhǔn)確率??梢钥吹?,在表2中,當(dāng)k=2,4,6,8,10時(shí),采用基于合作網(wǎng)絡(luò)中心度的方法和樸素貝葉斯方法和決策樹方法計(jì)算得到的技術(shù)創(chuàng)新人才的準(zhǔn)確率均低于文中提出的基于多層感知機(jī)的方法。而對(duì)于采用支持向量機(jī)的方法,當(dāng)k=2,4,6,8時(shí),該方法的準(zhǔn)確率同樣低于基于多層感知機(jī)的方法,僅在k=10時(shí),兩個(gè)方法的準(zhǔn)確率基本相等。由此可知,在“華為科技有限公司”的專利數(shù)據(jù)集上,采用多層感知機(jī)的方法進(jìn)行技術(shù)創(chuàng)新人才發(fā)現(xiàn)的準(zhǔn)確率在絕大多數(shù)情況下都高于采用合作網(wǎng)絡(luò)中心度的方法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法。即相對(duì)于其他方法,文中所提出的基于多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法具有更好的效果。
在表3中,我們給出了在“電動(dòng)汽車”專利數(shù)據(jù)集上五種方法的準(zhǔn)確率??梢钥吹?,對(duì)于同一種方法在不同k值下的準(zhǔn)確率變化趨勢(shì)上,同表2中的結(jié)果,大多數(shù)方法的有效性都隨著k值的增大而減小,僅樸素貝葉斯方法在k=10時(shí),其準(zhǔn)確率與k=8時(shí)相比略有上升。而對(duì)于各個(gè)方法在同一k值下的準(zhǔn)確率對(duì)比上,當(dāng)k=2,4,6,8,10時(shí),采用文中提出的基于多層感知機(jī)的技術(shù)人才發(fā)現(xiàn)方法的準(zhǔn)確率均高于基于合作網(wǎng)絡(luò)中心度的方法、樸素貝葉斯方法和決策樹算法。即在不同的k值下,采用多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法比以上三種方法具有更好的效果。對(duì)于采用支持向量機(jī)的方法,當(dāng)k=2,4時(shí),該方法的準(zhǔn)確率與基于多層感知機(jī)的方法相等;當(dāng)k=6,10時(shí),基于多層感知機(jī)的方法的準(zhǔn)確率略低于采用支持向量機(jī)的方法;而當(dāng)k=8時(shí),基于多層感知機(jī)的方法的準(zhǔn)確率略高于采用支持向量機(jī)的方法。即在總體上,采用基于多層感知機(jī)的方法進(jìn)行技術(shù)創(chuàng)新人才發(fā)現(xiàn)的準(zhǔn)確率與采用支持向量機(jī)的方法總體上相差不多。總而言之,在“電動(dòng)汽車”專利數(shù)據(jù)集上,基于多層感知機(jī)的技術(shù)人才發(fā)現(xiàn)方法的效果仍好于基于合作網(wǎng)絡(luò)中心度的方法和大多數(shù)傳統(tǒng)的機(jī)器學(xué)習(xí)方法。
表3 “電動(dòng)汽車”數(shù)據(jù)集上各個(gè)方法的準(zhǔn)確率
由以上兩個(gè)數(shù)據(jù)集上各個(gè)方法的準(zhǔn)確率對(duì)比可以看出,文中提出的基于多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法在絕大多數(shù)情況下都比其他方法具有更好的判別效果。產(chǎn)生該結(jié)果的原因是,對(duì)于基于合作網(wǎng)絡(luò)中心度的方法,該方法僅僅考慮了發(fā)明人之間的合作關(guān)系對(duì)發(fā)明人技術(shù)創(chuàng)新實(shí)力的影響,而忽略了發(fā)明人的其他專利特征,如專利申請(qǐng)量、專利總被引量、合作發(fā)明人的平均專利申請(qǐng)量等,造成該方法的效果不佳。而對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如樸素貝葉斯,支持向量機(jī)和決策樹算法等,盡管綜合考慮了發(fā)明人的各種專利特征,并構(gòu)建了相應(yīng)的機(jī)器學(xué)習(xí)模型用于技術(shù)創(chuàng)新人才的識(shí)別,但這些方法只能基于人工定義的淺層專利特征用于模型的學(xué)習(xí),其準(zhǔn)確率仍有待提高。而文中采用的多層感知機(jī)模型則具有多個(gè)隱藏層,可以從人工定義的淺層專利特征中進(jìn)一步抽取深層的特征用于模型的學(xué)習(xí),因此采用多層感知機(jī)模型來進(jìn)行技術(shù)創(chuàng)新人才發(fā)現(xiàn)的結(jié)果更為精確。綜上所述,在技術(shù)創(chuàng)新人才發(fā)現(xiàn)的問題上,與已有的技術(shù)創(chuàng)新人才方法相比,基于多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法具有更好的判別效果。
本文提出了一種基于多層感知機(jī)的技術(shù)創(chuàng)新人才發(fā)現(xiàn)方法,該方法不僅抽取了反映發(fā)明人技術(shù)創(chuàng)新實(shí)力的多個(gè)發(fā)明人特征,而且構(gòu)建了統(tǒng)一的模型對(duì)各個(gè)發(fā)明人的技術(shù)創(chuàng)新實(shí)力進(jìn)行評(píng)估。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法只能通過人工定義的淺層特征進(jìn)行模型學(xué)習(xí)的方式相比,文中提出的基于多層感知機(jī)的方法可以通過加入多個(gè)隱藏層來抽取更為深層的特征用于技術(shù)創(chuàng)新人才發(fā)現(xiàn)模型的學(xué)習(xí),在技術(shù)創(chuàng)新人才發(fā)現(xiàn)問題上具有更好的效果。