陳玲 林平 段堯清
摘要:[目的/意義]在產(chǎn)業(yè)鏈視角下,以虛擬現(xiàn)實技術(shù)為例,構(gòu)建VR專利產(chǎn)業(yè)鏈語料庫,挖掘中國VR專利的技術(shù)主題、研發(fā)熱點和未來發(fā)展趨勢。[方法/過程]首先,利用Python爬取VR領(lǐng)域的專利文本,通過數(shù)據(jù)清洗得到有效語料庫;然后,結(jié)合IPC分類號和K-means聚類算法,構(gòu)建并驗證VR專利產(chǎn)業(yè)鏈;最后,基于TF-IDF算法和LDA主題模型,識別出產(chǎn)業(yè)鏈視角下中國VR專利的核心技術(shù)主題及其綜合強度、技術(shù)研發(fā)熱點和未來趨勢。[結(jié)果/結(jié)論]當(dāng)前中國VR產(chǎn)業(yè)鏈各環(huán)節(jié)的專利比例不均衡,上游研發(fā)最熱門,其次是下游應(yīng)用,最薄弱的是中游制作。主題挖掘方面,上游熱點為軟件研發(fā),中游熱點為影視制作,下游熱點為醫(yī)療、教育、娛樂應(yīng)用。未來趨勢方面,產(chǎn)業(yè)鏈上游將以電數(shù)字?jǐn)?shù)據(jù)處理、光學(xué)元件、圖像通信等技術(shù)為主流,中游將以車輛部件、動力裝置、減振裝置等技術(shù)為主流,下游將以室內(nèi)游戲、醫(yī)學(xué)診斷、鑒定等技術(shù)為主流。
關(guān)鍵詞:K-means聚類算法? ?LDA主題模型? 技術(shù)主題演化? 文本挖掘? VR(虛擬現(xiàn)實)
分類號:G250
DOI:10.13266/j.issn.2095-5472.2020.013
引用格式:陳玲, 林平, 段堯清. 產(chǎn)業(yè)鏈視角下結(jié)合K-means和LDA的專利技術(shù)主題挖掘與趨勢分析 ——以虛擬現(xiàn)實技術(shù)為例[J/OL]. 知識管理論壇, 2020, 5(3): 135-146[引用日期]. http://www.kmf.ac.cn/p/208/.
1? 引言
專利是衡量科學(xué)技術(shù)發(fā)展的重要指標(biāo),專利內(nèi)容挖掘是提高科學(xué)技術(shù)競爭力的主要途徑之一。專利內(nèi)容挖掘涉及專利分類、專利聚類、主題識別、技術(shù)趨勢分析等方面,其中專利技術(shù)主題分析是其研究的核心所在。專利技術(shù)主題分析聚焦于識別專利文本的主題(如對主題進行分類、構(gòu)建主題間的相互關(guān)系、預(yù)測主題的發(fā)展趨勢等),對技術(shù)研發(fā)內(nèi)容具有高度的概括性和代表性[1]。隨著深度學(xué)習(xí)和機器學(xué)習(xí)的興起,文本挖掘被越來越廣泛地應(yīng)用在技術(shù)專利主題分析中,其中以LDA(Latent Dirichlet Allocation)主題模型尤為突出。專利技術(shù)主題分析方法主要是抽取專利文獻(xiàn)標(biāo)題、摘要及技術(shù)要點中的技術(shù)特征詞,利用文本挖掘方法選擇獲得主題詞,建立主題詞之間的共現(xiàn)關(guān)聯(lián)關(guān)系,從而聚類獲得技術(shù)主題[2]。專利技術(shù)主題分析常用的方法包括:①利用專利的分類屬性作為其技術(shù)主題;②通過專利共現(xiàn)網(wǎng)絡(luò)和引用關(guān)系為專利聚類;③使用SAO(subject -action -object)結(jié)構(gòu)語義相似度識別、主題模型或主題聚類等方式從專利等科技文獻(xiàn)中挖掘技術(shù)主題;④借助技術(shù)主題的時間信息,使用時間序列分析等方式預(yù)測技術(shù)主題演化趨勢[3]。
在信息技術(shù)快速發(fā)展的知識經(jīng)濟時代,虛擬現(xiàn)實作為戰(zhàn)略新興技術(shù)的代表,涉及通信、互聯(lián)網(wǎng)、新媒體等多個領(lǐng)域,具有突出的跨界融合性與技術(shù)交叉性,有望引領(lǐng)新一輪技術(shù)的變革。眾多科技新興企業(yè)均在VR領(lǐng)域積極布局,主要科技大國也均把VR列為戰(zhàn)略新興領(lǐng)域,中國在國家“十三五”規(guī)劃綱要、G20工商峰會上的重要講話中提出要發(fā)展人工智能和虛擬現(xiàn)實等技術(shù),大力支持虛擬現(xiàn)實(VR)等新興前沿領(lǐng)域創(chuàng)新和產(chǎn)業(yè)化,建設(shè)創(chuàng)新型世界經(jīng)濟[4-8]。在產(chǎn)業(yè)鏈視角下,深度挖掘中國VR領(lǐng)域的專利技術(shù)主題、技術(shù)熱點與發(fā)展趨勢,可以分別從宏觀、中觀和微觀不同的角度對政府、產(chǎn)業(yè)和企業(yè)提供不同的情報服務(wù),在此基礎(chǔ)上制定相應(yīng)的競爭戰(zhàn)略;有助于相關(guān)政府部門、VR科研機構(gòu)和企業(yè)等主體在中國和全球范圍內(nèi)更好地進行專利布局,為中國VR產(chǎn)業(yè)發(fā)展提供參考建議,最終提高中國VR領(lǐng)域的整體產(chǎn)業(yè)競爭力。
2? 相關(guān)研究
2.1? 虛擬現(xiàn)實
虛擬現(xiàn)實是以計算機技術(shù)為核心,生成與現(xiàn)實環(huán)境在視、聽、觸感等方面高度近似的數(shù)字化環(huán)境。用戶借助相關(guān)設(shè)備與虛擬環(huán)境中的對象進行交互,從而產(chǎn)生真實環(huán)境的感受和體驗。目前關(guān)于虛擬現(xiàn)實的研究主要集中在技術(shù)研究[4-5]、系統(tǒng)研究[6-7]、應(yīng)用研究[8]3個方面:①虛擬現(xiàn)實技術(shù)研究。學(xué)者主要從立體顯示技術(shù)[9]、傳感器技術(shù)[10]、三維圖形生成技術(shù)[11]等方面將虛擬和現(xiàn)實環(huán)境進行混合、實時交互、三維注冊。②虛擬現(xiàn)實系統(tǒng)研究。主要分為硬件研究和軟件研究,硬件研究包括三維跟蹤定位設(shè)備、人體運動捕捉設(shè)備、觸覺力覺反饋設(shè)備等的研究[12];軟件研究包括數(shù)據(jù)庫研究[13],三維動畫、網(wǎng)絡(luò)場景等應(yīng)用軟件研究[14],基于Vizard軟件、Virtools軟件、EON軟件等的虛擬現(xiàn)實開發(fā)平臺研究[15]。③虛擬現(xiàn)實應(yīng)用研究。隨著技術(shù)不斷地進步與成熟,虛擬現(xiàn)實技術(shù)逐漸被應(yīng)用到教育[16]、醫(yī)療[17]、圖書館[18]、博物館[19]等不同場合,從而為人們的生產(chǎn)、生活、學(xué)習(xí)帶來巨大的影響與沖擊。
2.2? 基于文本挖掘的專利技術(shù)主題分析
技術(shù)主題分析是文本挖掘在專利分析中的重要應(yīng)用之一。目前已有較多利用文本挖掘方法進行專利技術(shù)主題分析的研究成果,依次包括詞頻統(tǒng)計分析、共詞分析、文本聚類分析、文本挖掘技術(shù)與引文聚類相結(jié)合的技術(shù)主題分析[20]。①基于詞頻統(tǒng)計的技術(shù)主題研究。主要是通過IPC分類號、高頻詞等的統(tǒng)計分析,研究某技術(shù)領(lǐng)域的主題分布情況[21]。②基于共詞分析的技術(shù)主題研究。主要包括共詞網(wǎng)絡(luò)分析、共詞聚類分析和戰(zhàn)略圖分析3種方法,可以比較客觀地揭示技術(shù)領(lǐng)域中的各技術(shù)主題及技術(shù)主題之間的相互關(guān)聯(lián)[22-23]。③基于文本聚類的技術(shù)主題研究。主要是對專利進行聚類,形成代表技術(shù)主題的多個聚簇;為每個聚簇生成主題詞,從而直觀有效地表示技術(shù)主題的分布情況[24]。④基于文本挖掘與引文聚類相結(jié)合的技術(shù)主題研究。主要從文本信息與引用信息的底層融合角度,分析技術(shù)研究熱點、識別新興技術(shù)主題、預(yù)測技術(shù)主題的發(fā)展趨勢[25]。
4.1? 基于IPC分類號的專利產(chǎn)業(yè)鏈構(gòu)建
依據(jù)文獻(xiàn)調(diào)研、專家咨詢和專利的IPC分類號,將虛擬現(xiàn)實產(chǎn)業(yè)鏈分為工具/設(shè)備設(shè)計、內(nèi)容制作、行業(yè)應(yīng)用。在此基礎(chǔ)上,選取專利的IPC分類號作為語義情景的限定,為所有專利賦予產(chǎn)業(yè)鏈語義。在提取IPC分類號時,不同的IPC層級會產(chǎn)生不同的聚類效果?;贗PC大類的劃分過于粗泛,聚類效果不明顯;基于IPC大組的劃分過于密集,同樣不適合聚類;而基于IPC小類的劃分,能夠在區(qū)分度明顯的基礎(chǔ)上保證規(guī)模不過于巨大,因而最終選定以主IPC分類號小類作為語言情景的限定。為了研究過程的簡易性及結(jié)果展示的直觀性,將專利數(shù)據(jù)涉及的產(chǎn)業(yè)鏈與IPC小類進行編碼,部分編碼分布情況如表3所示。其中,產(chǎn)業(yè)鏈上游為“工具/設(shè)備設(shè)計”,產(chǎn)業(yè)鏈中游為“內(nèi)容制作”,產(chǎn)業(yè)鏈下游為“行業(yè)應(yīng)用”。
4.2? 基于關(guān)鍵詞聚類的專利產(chǎn)業(yè)鏈驗證
研究采用K-means算法驗證已構(gòu)建的專利產(chǎn)業(yè)鏈。首先,合并“同類關(guān)鍵詞”。通過人工觀察,將包含“本發(fā)明”“本發(fā)明專利”“本專利”等數(shù)據(jù)的關(guān)鍵詞,統(tǒng)一合并為“發(fā)明專利”。其次,采用K-means算法中的歐氏距離來計算數(shù)據(jù)對象間的距離。根據(jù)相似性原則,將具有較高相似度的數(shù)據(jù)對象劃分至同一類簇,將具有較高相異度的數(shù)據(jù)對象劃分至不同類簇。
VR專利摘要文本的K-means聚類效果如圖2所示。依據(jù)產(chǎn)業(yè)鏈的分類特性和已有關(guān)于產(chǎn)業(yè)鏈劃分的研究文獻(xiàn)可知,專利產(chǎn)業(yè)鏈通常劃分為上、中、下3類[32]或基礎(chǔ)、技術(shù)、應(yīng)用3類[33-34]。據(jù)此,研究將類簇個數(shù)K值設(shè)定為3,將專利文本聚集成3類主題。從圖2中可以看到3個類簇有效地分隔開來,相似主題的文獻(xiàn)聚集在一起,文本聚類效果較好。其中黃色表示“工具/設(shè)備設(shè)計”主題,紫色表示“行業(yè)應(yīng)用”主題,綠色表示“內(nèi)容制作”主題;且“工具/設(shè)備設(shè)計”專利聚類數(shù)量>“行業(yè)應(yīng)用”專利聚類數(shù)量>“內(nèi)容制作”專利聚類數(shù)量。觀察聚類結(jié)果可知,“工具”“設(shè)備”等關(guān)鍵詞聚為一類,劃分至“工具/設(shè)備設(shè)計”專利類別;“游戲生產(chǎn)”“聲音生產(chǎn)”“視頻生產(chǎn)”等關(guān)鍵詞聚為一類,劃分至“內(nèi)容制作”專利類別;“醫(yī)療應(yīng)用”“教育應(yīng)用”“旅游應(yīng)用”等關(guān)鍵詞聚為一類,劃分至“行業(yè)應(yīng)用”專利類別。基于關(guān)鍵詞聚類的VR專利產(chǎn)業(yè)鏈驗證結(jié)果,與上文中基于IPC分類號的VR專利產(chǎn)業(yè)鏈構(gòu)建結(jié)果具有一致性。據(jù)此,根據(jù)產(chǎn)業(yè)鏈的構(gòu)建和驗證結(jié)果,對中國VR專利進行分類,構(gòu)建產(chǎn)業(yè)鏈語料庫。
5? 產(chǎn)業(yè)鏈視角下中國VR專利的技術(shù)主題與趨勢分析
5.1? 基于TF-IDF算法的技術(shù)關(guān)鍵詞挖掘
為了避免LDA主題分析抽取出的特征詞匯不具主題代表性,研究首先使用TF-IDF算法對所得詞匯賦予不同權(quán)重,有效過濾常見詞匯,保留重要詞匯,進而提高主題特征詞的抽取準(zhǔn)確率。TF-IDF是一種計算詞語權(quán)重的經(jīng)典統(tǒng)計方法,由詞頻(term frequency,TF) 和逆向文檔頻率(inverse document frequency,IDF) 兩部分?jǐn)?shù)據(jù)組成。TF-IDF的計算如公式(1)所示,其中,tfi,j代表詞語wi在文檔dj中出現(xiàn)頻率,idfi代表詞語wi在文本庫d中的逆向文檔頻率。通過公式可以看出,詞語wi對文檔dj 的重要程度和它在文檔dj中出現(xiàn)的頻率成正比,和它在整個文本庫dj中包含詞語wi的文檔數(shù)成反比。
依照產(chǎn)業(yè)鏈語料庫數(shù)據(jù)和編碼分詞,在Python中提取摘要文本關(guān)鍵詞;整合相似的文本數(shù)據(jù),刪除無實際作用的字段,根據(jù)TF-IDF算法計算關(guān)鍵詞權(quán)重。TF-IDF算法是通過計算特征詞在整個文本庫中出現(xiàn)的總頻率,從而標(biāo)記出關(guān)鍵詞的重要程度。產(chǎn)業(yè)鏈各環(huán)節(jié)中國VR專利摘要文本的高頻關(guān)鍵詞及權(quán)重計算結(jié)果如表4所示,可以看出“發(fā)明專利”類型在產(chǎn)業(yè)鏈上、中、下游的比重均較大。此外,產(chǎn)業(yè)鏈上游“工具/設(shè)備設(shè)計”中“發(fā)明專利”類型占比較大,產(chǎn)業(yè)鏈中游“內(nèi)容制作”中“外觀設(shè)計”類型專利占比較大,產(chǎn)業(yè)鏈下游“行業(yè)應(yīng)用”中“實用新型”類型專利占比較大。
5.2? 基于LDA模型的技術(shù)主題詞挖掘
在基于LDA模型的主題挖掘中,最佳主題數(shù)目的確定是最為關(guān)鍵的一步,本文使用Gibbs采樣的方法推斷LDA模型中所涉及的多個分布。首先,充分參考虛擬現(xiàn)實產(chǎn)業(yè)鏈環(huán)節(jié)數(shù)量后, 將各個環(huán)節(jié)的輸出主題數(shù)目初步確定為3-10個,對LDA模型進行訓(xùn)練。其次,通過計算模型困惑度Perplexity來判斷模型的好壞,從而確定該模型的最佳參數(shù),即使用不同數(shù)量的主題分別建模,隨機將語料庫劃分為訓(xùn)練集與測試集,訓(xùn)練集和測試集比例為8:2。最后,通過計算困惑度10次結(jié)果的平均值將產(chǎn)業(yè)鏈上游的最佳主題數(shù)目確定為4個,將產(chǎn)業(yè)鏈中游的最佳主題數(shù)目確定為3個,將產(chǎn)業(yè)鏈下游的最佳主題數(shù)目確定為7個。
通過充分了解該領(lǐng)域的技術(shù)知識,對中國虛擬現(xiàn)實領(lǐng)域?qū)@M行技術(shù)主題標(biāo)注,確定主題名稱。某種程度上,使用LDA主題模型挖掘到的主題可視為從技術(shù)鏈角度對虛擬現(xiàn)實技術(shù)進行細(xì)分,如表5所示。由表5可以看出,每個主題之間的區(qū)分非常明顯。產(chǎn)業(yè)鏈上游——“工具/設(shè)備設(shè)計”的4個主題分別為輸入設(shè)備、顯示設(shè)備、拍攝設(shè)備、軟件;產(chǎn)業(yè)鏈中游——“內(nèi)容制作”的3個主題分別為影視、聲音、游戲;產(chǎn)業(yè)鏈下游——“行業(yè)應(yīng)用”的7個主題分別為房地產(chǎn)、旅游、工業(yè)、軍事、醫(yī)療、教育、娛樂。
5.3? 產(chǎn)業(yè)鏈視角下的技術(shù)主題強度與熱點分析
經(jīng)文獻(xiàn)研究與小組討論認(rèn)為,產(chǎn)業(yè)鏈視角下技術(shù)主題強度的衡量指標(biāo)主要包括:產(chǎn)業(yè)鏈各環(huán)節(jié)的專利數(shù)量權(quán)重與專利文檔概率。其中,產(chǎn)業(yè)鏈各環(huán)節(jié)的專利權(quán)重為上、中、下游專利數(shù)量在總專利數(shù)量中的占比,文檔概率為上、中、下游產(chǎn)業(yè)鏈視角下各主題的隸屬概率值。產(chǎn)業(yè)鏈視角下各技術(shù)主題的綜合強度計算如公式(2)所示:
TIi為第i個主題的綜合強度。其中,i為專利的15個主題(i=1,2,3,……,14),p為這14個主題分別對應(yīng)的三個產(chǎn)業(yè)鏈環(huán)節(jié)(p=1,2,3)。LDAi為第i個主題的LDA權(quán)重值,nip為第i個主題所對應(yīng)的第p個產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量,為第p個產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量
權(quán)重值;為第i個主題的LDA權(quán)重值與其所對應(yīng)的第p個產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量權(quán)重值之乘積。
根據(jù)LDA模型提取的權(quán)重值,結(jié)合產(chǎn)業(yè)鏈各環(huán)節(jié)的專利數(shù)量,計算出產(chǎn)業(yè)鏈視角下各技術(shù)主題的綜合強度分布,結(jié)果如表6所
示。由表6的綜合主題強度可知,上游“工具/設(shè)備設(shè)計”產(chǎn)業(yè)鏈的強度最大,是當(dāng)前最熱門的研究領(lǐng)域;其次是下游“行業(yè)應(yīng)用”,也是中國VR領(lǐng)域研發(fā)的共同關(guān)注焦點;最后是中游“內(nèi)容制作”產(chǎn)業(yè)鏈,是中國VR領(lǐng)域研發(fā)的薄弱環(huán)節(jié)。從表6所示的各技術(shù)主題強度分布來看,在“工具/設(shè)備設(shè)計”環(huán)節(jié),研發(fā)熱點集中在Topic4軟件研發(fā)和Topic1輸入設(shè)備;在“內(nèi)容制作”環(huán)節(jié),研發(fā)熱點集中在Topic5影視;在“行業(yè)應(yīng)用”環(huán)節(jié),研發(fā)熱點集中在Topic12醫(yī)療、Topic13教育、Topic14娛樂。
5.4? 產(chǎn)業(yè)鏈視角下的技術(shù)發(fā)展趨勢分析
基于產(chǎn)業(yè)鏈語料庫中的IPC編碼,統(tǒng)計分析了中國VR專利的熱點技術(shù)領(lǐng)域,部分統(tǒng)計結(jié)果如表7所示。結(jié)合表7的專利熱點技術(shù)領(lǐng)域以及表6的VR產(chǎn)業(yè)鏈各環(huán)節(jié)技術(shù)主題的強度分布,可以分析出未來5-10年中國VR專利的發(fā)展趨勢。具體體現(xiàn)在:①中國VR專利研發(fā)在產(chǎn)業(yè)鏈各個環(huán)節(jié)均會呈上升趨勢,且上游研發(fā)與中、下游研發(fā)之間的增長幅度會漸漸趨于一致,三者之間的專利數(shù)量差距會緩慢減小。②熱點研發(fā)環(huán)節(jié)仍會集中在上游的“工具/設(shè)備設(shè)計”,且以G06(計算;推算;計數(shù))、G02(光學(xué))、H04(電通信技術(shù))等技術(shù)領(lǐng)域為主流。③產(chǎn)業(yè)鏈下游的“行業(yè)應(yīng)用”研發(fā)環(huán)節(jié)將會呈迅猛增長態(tài)勢,且以A63(運動;游戲;娛樂活動)、A61(醫(yī)學(xué)或獸醫(yī)學(xué);衛(wèi)生學(xué))、E04(建筑物)等技術(shù)領(lǐng)域為主流。④產(chǎn)業(yè)鏈中游的“內(nèi)容制作”作為薄弱研發(fā)環(huán)節(jié)會保持緩慢上升,且以B60(一般車輛)、F16(工程元件或部件;為產(chǎn)生和保持機器或設(shè)備的有效運行的一般措施)、B64(飛行器;航空;宇宙航行)等技術(shù)領(lǐng)域為主流。
6? 結(jié)論與展望
6.1? 研究結(jié)論
研究主要得出以下幾個方面的結(jié)論:
(1)在產(chǎn)業(yè)鏈的構(gòu)建與驗證方面,結(jié)合IPC分類號、K-means聚類的定性和定量分析可知,中國VR專利的上游材料端為“工具/設(shè)備設(shè)計”,中游生產(chǎn)端為“內(nèi)容制作”,下游應(yīng)用端為“行業(yè)應(yīng)用”;且上游材料端專利聚類數(shù)量>下游應(yīng)用端專利聚類數(shù)量>中游生產(chǎn)端專利聚類數(shù)量。此外,不僅在專利數(shù)量方面,而且在專利文本挖掘方面,目前中國VR行業(yè)更加注重上游產(chǎn)業(yè)端專利,且上游專利和中、下游專利之間的差距較大,產(chǎn)業(yè)鏈各環(huán)節(jié)的專利比例不均衡。
(2)在研發(fā)主題分布方面,結(jié)合VR產(chǎn)業(yè)鏈語料庫的TF-IDF關(guān)鍵詞權(quán)重值、LDA概率權(quán)重值可知,“發(fā)明專利”類型在產(chǎn)業(yè)鏈上、中、下游的比重均較大。此外,上游研發(fā)主題包括輸入設(shè)備、顯示設(shè)備、拍攝設(shè)備、軟件等工具/設(shè)備,其中“發(fā)明專利”類型占比較大;中游研發(fā)主題包括影視、聲音、游戲等內(nèi)容制作,其中“外觀設(shè)計”類型占比較大;下游研發(fā)主題包括房地產(chǎn)、旅游、工業(yè)、軍事、醫(yī)療、教育、娛樂等行業(yè)應(yīng)用,其中“實用新型”類型占比較大。
(3)在主題強度與研發(fā)熱點挖掘方面,結(jié)合產(chǎn)業(yè)鏈視角下各主題的研發(fā)強度可知:綜合主題強度中,上游是當(dāng)前最熱門的研究鏈,其次是下游產(chǎn)業(yè)鏈,最薄弱的是中游產(chǎn)業(yè)鏈,這與IPC分類號、K-means聚類結(jié)果相一致,進一步驗證了研究結(jié)果的科學(xué)性。此外,從各技術(shù)主題的強度分布來看,上游研發(fā)熱點為輸入設(shè)備和軟件,諸如“信息輸入設(shè)備”“數(shù)據(jù)輸入設(shè)備”“客戶端輸入設(shè)備”等;中游研發(fā)熱點為影視,諸如“VR高清立體影視柔性傳輸線”“用于虛擬現(xiàn)實影視制作的穩(wěn)拍系統(tǒng)”“VR影視拍攝履帶車”“用于播放3D影視的VR眼鏡”等;下游研發(fā)熱點為醫(yī)療、教育、娛樂,醫(yī)療諸如“基于VR技術(shù)的醫(yī)療手術(shù)模擬仿真系統(tǒng)”“基于虛擬現(xiàn)實的醫(yī)療設(shè)備操控系統(tǒng)”“基于虛擬現(xiàn)實的醫(yī)療設(shè)備演示系統(tǒng)”等,教育諸如“基于VR技術(shù)的小學(xué)生科技教育系統(tǒng)”“基于VR和動作捕捉的遠(yuǎn)程教育系統(tǒng)”“VR安全教育動感座椅”等,娛樂諸如“三自由度虛擬現(xiàn)實游樂設(shè)備”“基于真實球拍的協(xié)同式增強現(xiàn)實乒乓球系統(tǒng)”“虛擬與現(xiàn)實有機結(jié)合的開心農(nóng)場及實現(xiàn)方法”等。
(4)在技術(shù)發(fā)展趨勢方面,中國VR專利研發(fā)在產(chǎn)業(yè)鏈各個環(huán)節(jié)均會呈上升趨勢,且上游研發(fā)與中、下游研發(fā)之間的專利差距會緩慢減小。通過進一步細(xì)分的IPC分類號可知,產(chǎn)業(yè)鏈上游“工具/設(shè)備設(shè)計”的具體技術(shù)研發(fā)趨勢為G06F(計算;推算;計數(shù)——電數(shù)字?jǐn)?shù)據(jù)處理)、G02B(光學(xué)——光學(xué)元件、系統(tǒng)或儀器)、H04N(電通信技術(shù)——圖像通信,如電視)等領(lǐng)域;產(chǎn)業(yè)鏈下游“行業(yè)應(yīng)用”的具體技術(shù)研發(fā)趨勢為A63F(運動;游戲;娛樂活動——利用小型運動物體的室內(nèi)游戲)、A61B(醫(yī)學(xué)或獸醫(yī)學(xué);衛(wèi)生學(xué)——診斷;外科;鑒定)、E04H(建筑物——專門用途的建筑物或類似的構(gòu)筑物)等領(lǐng)域;產(chǎn)業(yè)鏈中游“內(nèi)容制作”的具體技術(shù)研發(fā)趨勢為B60R(一般車輛——不包含在其他類目中的車輛、車輛配件或車輛部件)、B64D(飛行器;航空;宇宙航行——用于與飛機配合或裝到飛機上的設(shè)備;飛行衣;降落傘;動力裝置或推進傳動裝置的配置或安裝)、F16F(工程元件或部件——彈簧;減震器;減振裝置)等領(lǐng)域。
(5)研究雖然是以VR專利領(lǐng)域為例進行實證分析,但相關(guān)研究思路、研究框架和研究方法可擴展到其他領(lǐng)域進行專利分析應(yīng)用。在數(shù)據(jù)采集與清洗的基礎(chǔ)上,基于IPC分類號構(gòu)建專利產(chǎn)業(yè)鏈,并通過K-means聚類進行產(chǎn)業(yè)鏈驗證,通過定性和定量研究方法的結(jié)合,而不僅僅是通過單一的定性方法,進行專利產(chǎn)業(yè)鏈的構(gòu)建,為專利領(lǐng)域產(chǎn)業(yè)鏈研究提供新的研究視角。在產(chǎn)業(yè)鏈視角下,通過計算上、中、下游專利文本的關(guān)鍵詞權(quán)重、主題詞權(quán)重,進而結(jié)合二者衡量專利的綜合強度,以此挖掘?qū)@募夹g(shù)主題強度與熱點,預(yù)測專利的技術(shù)發(fā)展趨勢,為專利文本挖掘和技術(shù)主題分析提供新的研究思路。
6.2? 對策建議
中國VR正處于產(chǎn)業(yè)爆發(fā)的前夕,即將進入持續(xù)高速發(fā)展的窗口期??梢灶A(yù)見,在未來的五年內(nèi),VR消費市場將迅速爆發(fā),行業(yè)應(yīng)用有望全面展開,文化內(nèi)容將日趨繁榮,技術(shù)體系和產(chǎn)業(yè)格局也將初步形成。為推動我國VR產(chǎn)業(yè)發(fā)展,建議從以下方面開展工作:①進一步加強虛擬現(xiàn)實技術(shù)的研發(fā)。政府應(yīng)支持設(shè)立重大相關(guān)研發(fā)項目,為產(chǎn)業(yè)發(fā)展提供共性技術(shù)、關(guān)鍵技術(shù)甚至顛覆性技術(shù)的供給;圍繞虛擬現(xiàn)實產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),加強產(chǎn)學(xué)研合作,積極引導(dǎo)企業(yè)與科研單位投入虛擬現(xiàn)實研究,在關(guān)鍵技術(shù)上開展深度合作。②大力促進虛擬現(xiàn)實技術(shù)的市場化和產(chǎn)業(yè)化。以虛擬現(xiàn)實技術(shù)在工業(yè)、文化、教育、娛樂和醫(yī)療等領(lǐng)域帶來的廣闊前景為契機,明確產(chǎn)業(yè)政策支持的方向。? ? ③盡快建立虛擬現(xiàn)實技術(shù)的行業(yè)標(biāo)準(zhǔn)。形成我國虛擬現(xiàn)實技術(shù)標(biāo)準(zhǔn)體系,鞏固自主技術(shù)布局占位,提高產(chǎn)業(yè)自主話語權(quán)。
6.3? 研究展望
研究的局限性在于選取的檢索數(shù)據(jù)庫為“中國專利數(shù)據(jù)庫”,數(shù)據(jù)僅限于在華申請的專利,且數(shù)據(jù)庫沒有相應(yīng)的引文數(shù)據(jù),無法做到與引文指標(biāo)的對比分析。因此,在下一階段的研究中,可以選擇德溫特專利數(shù)據(jù)庫(Derwent Innovation Index,DII)作為檢索數(shù)據(jù)庫,德溫特數(shù)據(jù)庫及其專利引文索引涵蓋100多個國家、40多個專利機構(gòu),數(shù)據(jù)最早可追溯至1963年,為大規(guī)模的專利文獻(xiàn)研究提供了規(guī)范可靠的數(shù)據(jù)來源,而它的及時更新又為專利技術(shù)前沿的研究提供了可能,是企業(yè)和相關(guān)研究人員分析專利情報必不可少的工具。
參考文獻(xiàn):
[1] 楊超, 朱東華, 汪雪鋒, 等.專利技術(shù)主題分析:基于SAO結(jié)構(gòu)的LDA主題模型方法[J].圖書情報工作, 2017, 61(3): 86-96.
[2] 李姝影, 張鑫, 許軼, 等.核心專利集篩選及專利技術(shù)主題識別影響[J].情報學(xué)報, 2019, 38(1): 17-24.
[3] 陳偉, 林超然, 李金秋, 等.基于LDA-HMM的專利技術(shù)主題演化趨勢分析——以船用柴油機技術(shù)為例[J].情報學(xué)報, 2018(7): 732-741.
[4] 張婷婷.網(wǎng)絡(luò)綜合布線實驗室虛擬現(xiàn)實技術(shù)下的設(shè)計與研究[J].電子測試, 2019(3): 106-107.
[5] 孫柏林.區(qū)塊鏈+虛擬技術(shù):仿真技術(shù)的新動向[J].計算機仿真, 2019, 36(1): 8-13, 35.
[6] 周永偉.巖石工程虛擬現(xiàn)實系統(tǒng)的建立及應(yīng)用[J].山西建筑, 2019, 45(2): 77-79.
[7] 謝敬偉.分布式虛擬現(xiàn)實交互仿真系統(tǒng)研究[D].杭州:浙江大學(xué), 2017.
[8] PAN X, HAMILTON A F D C. Why and how to use virtual reality to study human social interaction: the challenges of exploring a new research landscape[J].British journal of psychology, 2018:395-417.
[9] 劉子騰.面向虛擬人體解剖模型的交互式立體顯示方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2017.
[10] 李發(fā)達(dá).基于多傳感器的交通控制硬件在環(huán)仿真技術(shù)研究與應(yīng)用[D].北京:北京工業(yè)大學(xué), 2017.
[11] 周雪, 李颯.基于真實感圖形生成技術(shù)的三維偶動畫創(chuàng)作探索[J].中國教育技術(shù)裝備, 2017(16): 43-44.
[12] 許兵.基于虛擬現(xiàn)實設(shè)備的典型飛機機翼裝配仿真[D].沈陽:沈陽航空航天大學(xué), 2017.
[13] 閻麗, 胡丹丹, 閻春元, 等.基于感知覺學(xué)習(xí)的兒童視覺及智能虛擬現(xiàn)實數(shù)據(jù)庫系統(tǒng)對弱視治療效果的研究[J].臨床醫(yī)學(xué)工程, 2006(2): 32-33.
[14] 周哲泓, 薛錦云, 黃捷文. 虛擬現(xiàn)實軟件系統(tǒng)開發(fā)方法研究[J]. 計算機工程與科學(xué), 2019, 41 (11): 1968-1975.
[15] 申閆春, 王銳, 郭富榮, 等.基于并行渲染的虛擬現(xiàn)實開發(fā)平臺設(shè)計與實現(xiàn)[J].計算機仿真, 2012, 29(11): 24-27.
[16] 劉園.VR技術(shù)在教育領(lǐng)域的研究與應(yīng)用[J].電腦知識與技術(shù), 2016, 12(16): 207-208.
[17] BA?OS R M, GUILLEN V, QUERO S, et al. A virtual reality system for the treatment of stress-related disorders: a preliminary analysis of efficacy compared to a standard cognitive behavioral program[J]. International journal of human-computer studies, 2011, 69(9): 602-613.
[18] 陸穎雋, 程磊.基于虛擬現(xiàn)實技術(shù)的圖書館信息資源建設(shè)與服務(wù)創(chuàng)新研究——以CADAL為例[J].圖書與情報, 2017(4): 8-12.
[19] 丁錚.增強現(xiàn)實和虛擬現(xiàn)實在博物館的應(yīng)用[J].信息與電腦(理論版), 2017(24): 47-50.
[20] 胡阿沛, 張靜, 雷孝平, 等.基于文本挖掘的專利技術(shù)主題分析研究綜述[J].情報雜志, 2013(12): 88-92.
[21] 張彬, 陳永翀, 張艷萍, 等.鋰漿料電池國際專利技術(shù)分析[J].儲能科學(xué)與技術(shù), 2017(5): 1000-1007.
[22] 隗玲, 許海云, 劉春江, 等.技術(shù)領(lǐng)域主題發(fā)現(xiàn)研究——以基因工程疫苗領(lǐng)域為例[J].數(shù)字圖書館論壇, 2017(1): 39-47.
[23] 張杰, 劉美佳, 翟東升.基于專利共詞分析的RFID領(lǐng)域技術(shù)主題研究[J].科技管理研究, 2013, 33(10): 129- 132, 140.
[24] 林廣杰.基于頻繁項集的海量文本聚類研究[D].北京:北京郵電大學(xué), 2015.
[25] 丁麒, 莊志畫, 劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務(wù)工單主題分析應(yīng)用[J].電力需求側(cè)管理, 2016(A01): 55-57.
[26] 王镠富, 胡等金.基于產(chǎn)業(yè)鏈的專利叢林測量與對策研究[J].情報理論與實踐, 2019, 42(4): 101-106.
[27] 張杰, 趙君博, 翟東升, 等.基于主題模型的微藻生物燃料產(chǎn)業(yè)鏈專利技術(shù)分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(2): 52-64.
[28] 吳紅, 伊惠芳, 馬永新, 等.面向?qū)@夹g(shù)主題分析的WI—LDA模型研究[J].圖書情報工作, 2018(17): 68-74.
[29] 張超.基于專利數(shù)據(jù)挖掘的技術(shù)趨勢分析方法[D].大連:大連理工大學(xué), 2014.
[30] 林志堅, 諶凱, 潘婷婷, 等.國內(nèi)外虛擬現(xiàn)實技術(shù)專利分析研究[J].競爭情報, 2018:24-32.
[31] 黃立業(yè), 趙輝, 王堅, 等.基于專利分析的產(chǎn)業(yè)競爭情報分析框架研究[J].情報科學(xué), 2015(4): 59-63.
[32] 王靜宇, 劉穎琦, KOKKO A .基于專利信息的中國新能源汽車產(chǎn)業(yè)技術(shù)創(chuàng)新研究[J].情報雜志, 2016, 35(1): 36-42.
[33] 于申, 楊振磊.全球人工智能產(chǎn)業(yè)鏈創(chuàng)新發(fā)展態(tài)勢研究[J].天津經(jīng)濟, 2019(5): 13-18.
[34] 方思, 李國秋.全球無人駕駛汽車專利分析——從產(chǎn)業(yè)鏈和技術(shù)鏈的二維角度[J].競爭情報, 2016,12(5): 27-36.
作者貢獻(xiàn)說明:
陳? 玲:數(shù)據(jù)收集與分析,論文起草與修改,論文最終版本修訂;
林? 平:數(shù)據(jù)分析;
段堯清:提出整體研究思路與框架,修改論文。
Technology Topic Mining and Trend Analysis from the Perspective of Industrial Chain Combined with K-Means and LDA
——Taking Virtual Reality Technology as an Example
Chen Ling1? ?Lin Ping1? ?Duan Yaoqing1,2
1School of Information Management, Central China Normal University, Wuhan 430079
2Hubei Research Center of Data Governance and Intelligent Decision-making, Wuhan 430079
Abstract: [Purpose/significance] From the perspective of industry chain, this paper takes virtual reality technology as an example, constructs VR patent industry chain corpus, and explores the technical theme, research and development hotspot and future development trend of China VR patent. [Method/process] First of all, this paper used Python to crawl the patent text in VR field and got effective corpus through data cleaning. Secondly, combining IPC classification number and K-means clustering algorithm, this paper constructed and validates VR patent industry chain. In addition, based on TF-IDF algorithm and LDA theme model, we identified the core technology themes and their comprehensive strength, technology research and development hotspots and future trends of China VR patents from the perspective of production chain. [Result/conclusion] At present, the proportion of patents in each link of China VR industry chain is unbalanced. The upstream link is the most popular, followed by the downstream link, and the weakest link is the midstream link. In terms of theme mining, the upstream hot spot is software development, the midstream hot spot is film and television production, and the downstream hot spot is medical, educational and entertainment applications. In terms of future trends, the upstream of the industrial chain will be dominated by technologies such as electronic digital data processing, optical components, image communication, etc., the midstream will be dominated by technologies such as vehicle components, power devices, damping devices, etc., and the downstream will be dominated by technologies such as indoor games, medical diagnosis, identification, etc..
Keywords: K-means clustering algorithm? ? LDA theme model? ? technology theme evolution? ?text mining? ? VR