李世紀(jì),沈有為,羅時(shí)鍇,尹若云,岳 麗
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥230009;2.合肥工業(yè)大學(xué) 軟件學(xué)院,安徽 合肥230009)
創(chuàng)新能力作為一個(gè)企業(yè)評(píng)估創(chuàng)造核心競爭力、占領(lǐng)市場、獲得經(jīng)濟(jì)利潤的重要衡量標(biāo)準(zhǔn),在知識(shí)經(jīng)濟(jì)時(shí)代,逐漸成為技術(shù)交易市場的核心問題,成為眾多學(xué)者研究分析的對(duì)象。而專利對(duì)于技術(shù)創(chuàng)新能力的評(píng)價(jià)是一項(xiàng)重要指標(biāo),其對(duì)于企業(yè)進(jìn)行有針對(duì)性的技術(shù)創(chuàng)新戰(zhàn)略選擇和合理分配研發(fā)資源具有重要的理論和現(xiàn)實(shí)意義。
手機(jī)行業(yè)作為進(jìn)入21世紀(jì)發(fā)展最為迅速的產(chǎn)業(yè)之一,行業(yè)整體呈現(xiàn)高活躍、快迭代的趨勢。
目前,國內(nèi)手機(jī)市場主要被華為、小米、OPPO、ViVo四家企業(yè)占據(jù),競爭十分激烈。各廠手機(jī)相關(guān)技術(shù)不斷地被研發(fā)出來,各自旗艦機(jī)型的差距也在逐步逼近,在某項(xiàng)領(lǐng)域的突破創(chuàng)新和企業(yè)自身創(chuàng)新能力對(duì)標(biāo)同等級(jí)其他產(chǎn)品進(jìn)行市場競爭已經(jīng)成為主流方式。
本文以國內(nèi)四家主流手機(jī)廠商為例,通過專利計(jì)量與專利文本的結(jié)合,運(yùn)用LDA主題模型和基于熵值法的權(quán)重計(jì)算,建立一套客觀公正、清晰明了的企業(yè)創(chuàng)新能力評(píng)估方法體系,為手機(jī)市場和相關(guān)領(lǐng)域研究提供準(zhǔn)確客觀的企業(yè)創(chuàng)新能力評(píng)估方法支持。
針對(duì)本項(xiàng)目所研究的手機(jī)行業(yè)創(chuàng)新能力的評(píng)估,在主流資源平臺(tái)十分少見,已有的研究主要分為對(duì)手機(jī)行業(yè)整體能力的評(píng)估、創(chuàng)新能力評(píng)估的方法和專利評(píng)估領(lǐng)域三個(gè)方面。
對(duì)于手機(jī)行業(yè)的評(píng)估,主要是基于波特五力模型和SCP模型等進(jìn)行綜合分析評(píng)估。
對(duì)于創(chuàng)新能力的評(píng)估,國內(nèi)一些學(xué)者對(duì)區(qū)域?qū)用娴目萍紕?chuàng)新評(píng)估進(jìn)行了大量研究,崔俊富等針對(duì)科技領(lǐng)域創(chuàng)造力的評(píng)估主要集中在科技創(chuàng)新能力評(píng)估[1]。一些學(xué)者還針對(duì)具體領(lǐng)域的科學(xué)創(chuàng)新評(píng)估進(jìn)行了研究。余本功等基于主題模型(LDA)和專利數(shù)據(jù)對(duì)汽車領(lǐng)域建立技術(shù)創(chuàng)新能力評(píng)價(jià)的方法體系[2];周劍等提出一套覆蓋制造業(yè)企業(yè)全局的量化融合評(píng)估體系和評(píng)價(jià)方法[3]。
在專利評(píng)估領(lǐng)域,國內(nèi)主要集中于對(duì)專利價(jià)值影響因素做總體分析。而對(duì)于技術(shù)創(chuàng)新能力評(píng)價(jià)方面,國內(nèi)外許多學(xué)者從不同的維度構(gòu)建了企業(yè)技術(shù)創(chuàng)新評(píng)價(jià)體系。
統(tǒng)計(jì)主題模型自提出以來,在文本挖掘技術(shù)中得到了廣泛應(yīng)用。它經(jīng)歷了漫長的發(fā)展過程,已成功應(yīng)用于許多重要領(lǐng)域。其中,LDA模型是主題模型的主要代表。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)呈指數(shù)式增長,研究人員如何從這些海量文獻(xiàn)中全面、快速、準(zhǔn)確地識(shí)別出研究主題,并探索其演化趨勢,一直以來都是情報(bào)學(xué)的研究重點(diǎn)[4]。而文本挖掘技術(shù)是幫助科研人員從海量非結(jié)構(gòu)化文獻(xiàn)中發(fā)現(xiàn)新興主題結(jié)構(gòu)的途徑之一,LDA模型作為一種對(duì)文本信息進(jìn)行語義抽取的主題模型,為科研人員進(jìn)行文本主題挖掘提供了一種新方法。LDA模型廣泛應(yīng)用于文本信息檢索、主題發(fā)現(xiàn)和演化、圖像處理、聚類、推薦系統(tǒng)、過濾系統(tǒng)、預(yù)測系統(tǒng)、資源標(biāo)識(shí)等諸多領(lǐng)域。國內(nèi)學(xué)者對(duì)LDA模型進(jìn)行了比較深入的研究,已取得了較為豐富的研究成果。
LDA主題模型是一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。其理論基礎(chǔ)為:每一篇文章都是由一定概率的主題構(gòu)成,而這些主題又由一定概率的詞構(gòu)成?;谶@一理論,通過LDA主題模型可以得到文檔-主題以及主題-詞這兩個(gè)多項(xiàng)式分布。如圖1所示,其中M代表文檔的數(shù)目,K代表主題數(shù)目,Nm代表文本的長度,即文本中所包含的詞語數(shù)量。
圖1
通過LDA主題模型,可以快速準(zhǔn)確地對(duì)文本進(jìn)行主題提取,故選用LDA主題模型來進(jìn)行專利文本數(shù)據(jù)的分析。
本研究以中國手機(jī)行業(yè)為實(shí)驗(yàn)對(duì)象,根據(jù)國際數(shù)據(jù)公司(IDC)2015-2019年間的中國智能手機(jī)市場報(bào)告,選取這五年中國市場占有量最高的四家國產(chǎn)智能手機(jī)廠商——華為技術(shù)有限公司(華為)、OPPO廣東移動(dòng)通信有限公司(OPPO)、維沃移動(dòng)通信有限公司(ViVo)、小米科技有限責(zé)任公司(小米)為中國手機(jī)行業(yè)代表,專利數(shù)據(jù)來源為佰騰網(wǎng)。
根據(jù)IDC的報(bào)告顯示,2019年華為、OPPO、ViVo、小米的國內(nèi)市場總占有率達(dá)到了自2015年以來最高的84.4%,故以2019年為截止點(diǎn),選取2015-2019這五年的專利數(shù)據(jù)。由于專利的數(shù)量指標(biāo)更偏重于已被授權(quán)的專利,故選取四家企業(yè)公開日在這五年的專利;而專利的內(nèi)容指標(biāo)更偏重于近期企業(yè)的研究方向,故選取申請(qǐng)日在這五年的專利。通過佰騰網(wǎng),共檢索到這四家企業(yè)公開日在這五年間的發(fā)明公開、發(fā)明授權(quán)以及實(shí)用新型專利119061條,共獲得這四家企業(yè)申請(qǐng)日在這五年間的發(fā)明專利以及實(shí)用新型專利文本摘要71695條。
如圖2所示,本研究旨在從專利計(jì)量和專利內(nèi)容兩個(gè)維度去評(píng)價(jià)手機(jī)企業(yè)的創(chuàng)新能力,其中專利的計(jì)量指標(biāo)包括企業(yè)的發(fā)明公開數(shù)量、發(fā)明授權(quán)數(shù)量、實(shí)用新型數(shù)量、年申請(qǐng)量變化量、專利技術(shù)分布五項(xiàng),專利的內(nèi)容指標(biāo)包括企業(yè)的創(chuàng)新關(guān)鍵詞數(shù)和企業(yè)的創(chuàng)新核心值。
圖2
專利的內(nèi)容指標(biāo)不同于專利的計(jì)量指標(biāo),后者可以通過專利的數(shù)據(jù)檢索直接獲得,而前者需要對(duì)專利的文本數(shù)據(jù)進(jìn)行挖掘分析,其主要研究流程如圖3所示。首先獲得這四家企業(yè)五年間的中國專利數(shù)量以及專利摘要,對(duì)每家企業(yè)以及全行業(yè)的專利摘要進(jìn)行數(shù)據(jù)處理。接著在Python環(huán)境下對(duì)每家企業(yè)以及全行業(yè)的專利摘要分別進(jìn)行LDA主題提取,得到每家企業(yè)以及全行業(yè)的主題-詞分布。最后通過篩選全行業(yè)的主題-詞分布得出手機(jī)領(lǐng)域創(chuàng)新關(guān)鍵詞集合,計(jì)算每個(gè)創(chuàng)新關(guān)鍵詞的重要值,取每家企業(yè)的主題-詞分布與領(lǐng)域創(chuàng)新關(guān)鍵詞的交集,計(jì)算得到每家企業(yè)的創(chuàng)新核心值。
圖3
如圖4所示,在獲取到每家企業(yè)的專利計(jì)量指標(biāo)和內(nèi)容指標(biāo)后,對(duì)各項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算出每家企業(yè)的各項(xiàng)指標(biāo)比重,運(yùn)用比重計(jì)算出各項(xiàng)指標(biāo)的熵值,通過熵值得出各項(xiàng)指標(biāo)的權(quán)重,最后計(jì)算得出每家企業(yè)的技術(shù)創(chuàng)新能力評(píng)價(jià)值。
圖4
通過佰騰網(wǎng),可以檢索到華為、OPPO、ViVo、小米這四家企業(yè)的專利計(jì)量指標(biāo)。其中專利數(shù)量選擇的是這四家企業(yè)公開日期為2015.1.1-2019.12.31的中國發(fā)明專利數(shù)、實(shí)用新型專利數(shù)和授權(quán)發(fā)明專利數(shù);專利的變化趨勢選擇的是這四家企業(yè)申請(qǐng)日期為2015.1.1-2019.12.31的中國專利年申請(qǐng)量變化量均值;技術(shù)分布趨勢均值選擇的是這四家企業(yè)申請(qǐng)日期為2015.1.1-2019.12.31的中國專利中,B部、G部和H部專利所占比例的平均值。統(tǒng)計(jì)結(jié)果見表1所列。
表1
對(duì)于專利內(nèi)容指標(biāo)所需的數(shù)據(jù),可以通過佰騰網(wǎng),下載這四家企業(yè)申請(qǐng)日在這五年間國內(nèi)發(fā)明公開、發(fā)明授權(quán)、實(shí)用新型專利摘要,并且過濾掉少于100字的摘要,共獲得83626條有效數(shù)據(jù)。在獲得這些有效摘要后,引入手機(jī)行業(yè)的專業(yè)術(shù)語表,并且建立停用詞表(其中主要包含一些無用詞匯),在Python環(huán)境下使用“JIEBA分詞”模塊,對(duì)摘要文本進(jìn)行分詞處理。
在進(jìn)行LDA主題模型聚類前,我們需要計(jì)算得到困惑度最低時(shí)的主題數(shù)。困惑度用來度量一個(gè)概率分布或概率模型預(yù)測樣本的好壞程度,在LDA主題模型中,困惑度最低時(shí)聚類的效果更好。在Python環(huán)境下,生成主題數(shù)-困惑度的函數(shù)圖。如圖5所示,整個(gè)手機(jī)行業(yè)的專利文本在主題數(shù)為16時(shí),可使困惑度達(dá)到最小。
圖5
在獲得整個(gè)手機(jī)行業(yè)的主題數(shù)后,在Python環(huán)境下對(duì)所有的專利文本進(jìn)行LDA主題聚類,每個(gè)主題保留出現(xiàn)頻率最高的前10個(gè)詞,共得到160個(gè)詞。其中,去除掉區(qū)域、位置、空間等單獨(dú)出現(xiàn)沒有意義的詞,去除掉硬件、終端等無法確定具體指向的詞,合并數(shù)據(jù)傳輸、傳輸數(shù)據(jù)等表意相同的詞,最后得到了28個(gè)手機(jī)領(lǐng)域創(chuàng)新關(guān)鍵詞。其中,有關(guān)于拍照的:圖像、像素、攝像頭;有關(guān)于充電的:電流、功率、電壓、電量、電池;有關(guān)于顯示的:顯示屏、觸控、亮度等。利用公式(1),分別計(jì)算得出每個(gè)手機(jī)領(lǐng)域創(chuàng)新關(guān)鍵詞Tj的重要值 (IT)j:
其中,K為對(duì)手機(jī)領(lǐng)域進(jìn)行LDA主題聚類時(shí)的主題數(shù)目,即為16;P(iT)j為第j個(gè)關(guān)鍵詞在主題i中的概率;Ni為第i個(gè)主題中所包含的創(chuàng)新關(guān)鍵詞數(shù)量。
在獲得手機(jī)領(lǐng)域創(chuàng)新關(guān)鍵詞后,分別對(duì)這四家企業(yè)的專利文本進(jìn)行困惑度計(jì)算,經(jīng)過比對(duì)后,取主題數(shù)為26可使四家企業(yè)的平均困惑度達(dá)到最小。分別對(duì)四家企業(yè)的專利文本進(jìn)行LDA主題聚類,選取主題數(shù)為26,每個(gè)主題數(shù)下保留前10個(gè)概率最高的詞,得到四家企業(yè)的LDA主題聚類結(jié)果。將每家企業(yè)的聚類結(jié)果與手機(jī)領(lǐng)域的創(chuàng)新關(guān)鍵詞比對(duì),可以得到每家企業(yè)所包含的創(chuàng)新關(guān)鍵詞,根據(jù)公式(2)計(jì)算得出企業(yè)t在手機(jī)領(lǐng)域的創(chuàng)新核心值Ct:
其中,n表示手機(jī)領(lǐng)域的創(chuàng)新關(guān)鍵詞數(shù),即為28;k為對(duì)每家公司進(jìn)行LDA主題聚類時(shí)的主題數(shù),即為26;h表示對(duì)每家企業(yè)進(jìn)行LDA主題聚類時(shí)每個(gè)主題下詞的數(shù)目,即為10;R(iT)j表示手機(jī)領(lǐng)域創(chuàng)新關(guān)鍵詞Tj在主題i下,詞概率由高到低的排序。
計(jì)算結(jié)束后,可以得到每家企業(yè)的專利內(nèi)容指標(biāo),其中包含創(chuàng)新關(guān)鍵詞數(shù)以及創(chuàng)新核心值,見表2所列。
表2
在得到企業(yè)的專利計(jì)量指標(biāo)以及內(nèi)容指標(biāo)后,對(duì)所有的指標(biāo)數(shù)據(jù)進(jìn)行0-1標(biāo)準(zhǔn)化處理,見表3所列。
表3
利用公式(3)計(jì)算出指標(biāo)j在公司i下所占據(jù)的比重:
其中Xij為表3中指標(biāo)j在公司i的數(shù)值,其中m=4,n=7。各項(xiàng)指標(biāo)在每家企業(yè)所占據(jù)的比重見表4。
表4
在得到各項(xiàng)指標(biāo)在每家公司所占據(jù)的比重后,利用公式(4)計(jì)算指標(biāo)j的熵值:
其中m=4,n=7。
在得到各項(xiàng)指標(biāo)的熵值后,利用公式(5)計(jì)算指標(biāo)j的權(quán)重:
其中n=7。
經(jīng)過計(jì)算,各項(xiàng)指標(biāo)的熵值ej與權(quán)重aj見表5所列。
表5
得到各項(xiàng)指標(biāo)的熵值與權(quán)重后,根據(jù)公式(6)計(jì)算企業(yè)i的技術(shù)創(chuàng)新能力評(píng)價(jià)值。
四家企業(yè)的技術(shù)創(chuàng)新能力評(píng)價(jià)值見表6所列。
表6
根據(jù)最后的企業(yè)技術(shù)創(chuàng)新能力評(píng)價(jià)值,我們可以發(fā)現(xiàn)維沃移動(dòng)通信有限公司(ViVo)這幾年間的專利數(shù)量雖然少于小米科技有限責(zé)任公司(小米),但其技術(shù)創(chuàng)新評(píng)價(jià)值高于小米。
對(duì)比中國人民大學(xué)企業(yè)創(chuàng)新課題組發(fā)布的《2019中國企業(yè)創(chuàng)新能力百強(qiáng)排行榜》[5],其中華為技術(shù)有限公司(華為)、OPPO廣東移動(dòng)通信有限公司(OPPO)、維沃移動(dòng)通信有限公司(ViVo)、小米科技有限責(zé)任公司(小米)分別位列第一、第三、第六、第十,這與我們的研究結(jié)果非常相似,唯一的偏差在于華為與OPPO的排名。根據(jù)佰騰網(wǎng)的檢索顯示,華為公開日在2015-2019年間的世界發(fā)明專利有41835條,而其中中國發(fā)明專利為27603條,由于華為擁有很大一部分國外的專利,而我們只針對(duì)了中國發(fā)明專利進(jìn)行研究,所以導(dǎo)致了實(shí)驗(yàn)的誤差。
我們可以發(fā)現(xiàn),評(píng)價(jià)一家企業(yè)的創(chuàng)新能力不僅僅要從企業(yè)的專利數(shù)量出發(fā),而應(yīng)該結(jié)合專利的內(nèi)容,從專利計(jì)量和專利內(nèi)容兩個(gè)維度去評(píng)價(jià)。專利的內(nèi)容從一定層面上可以反映出企業(yè)的研究方向是否與整個(gè)行業(yè)一致,只有在對(duì)的方向上做更多的事,才能更加有效而持續(xù)地創(chuàng)新。