蔣明亮 曹亮 鄭建華 劉雙印 符志強
摘要:為了能充分發(fā)現(xiàn)和挖掘當前海量專利之間的數(shù)據(jù)價值,該文設計了一個大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術的專利信息平臺,討論了平臺的具體系統(tǒng)架構,并描述了信息平臺的功能的設計與實現(xiàn)情況,最后詳細給出了專利分析預測模塊中各種核心算法對專利價值挖掘的支持。該平臺不但很好地支持專利數(shù)據(jù)信息管理的功能,還能從海量專利數(shù)據(jù)中發(fā)現(xiàn)專利數(shù)據(jù)存在的隱藏關系和規(guī)則,以及預測未來科學技術發(fā)展的趨勢,以便輔助政府部門、科研機構、高新企業(yè)進行專利戰(zhàn)略布局和專利技術研發(fā)。
關鍵詞:數(shù)據(jù)挖掘;平臺設計;專利信息
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)23-0138-03
Abstract: In order to fully discover and excavate the data value of the current massive patents, this paper designs a patent information platform based on data mining technology in massive data environment, discusses the design and implementation of the function of the platform, finally, gives a detailed description of the support of various core algorithms to the patent value mining in the patent analysis and prediction module. This platform not only well support the patent information management functions, but also found hidden relationships and rules of patent from the massive patent data exist, and forecast the trend of development of science and technology in the future, in order to assist the government departments, research institutions and high-tech enterprise to make patent strategy and patent technology development.
Key words: data mining; platform design; patent data
專利文獻是國家發(fā)明創(chuàng)新成果的重要載體,是分析科學技術發(fā)展態(tài)勢的重要情報來源,在國家和企業(yè)制定科技發(fā)展戰(zhàn)略中起到重要的作用。如果可以合理利用現(xiàn)有的專利成果,不但可以提高研發(fā)的起點,還可以節(jié)約研發(fā)費用和研發(fā)時間[1]。專利信息是目前世界上最大的技術信息集,中國國家知識產(chǎn)權局每年都受理上百萬件發(fā)明專利申請。目前的專利信息系統(tǒng)大多只是支持專利數(shù)據(jù)的錄入、管理、查詢、簡單統(tǒng)計等基本功能,但面對如此海量的有價值的專利信息資源,如何發(fā)現(xiàn)和提取專利數(shù)據(jù)中隱藏著的關系、規(guī)則和有價值信息越來越受到國內(nèi)外專家學者的關注與重視。
該文基于上述研究背景,提出基于數(shù)據(jù)挖掘技術的專利信息平臺,能實現(xiàn)海量專利數(shù)據(jù)的分布式存儲和計算,結合經(jīng)典的數(shù)據(jù)挖掘算法,能高效地完成專利數(shù)據(jù)的統(tǒng)計、分析和預測。平臺提供的功能都設計為服務對外開放,可以通過WS/REST接口方便訪問,還提供具體的應用功能,用戶通過系統(tǒng)提供的WEB應用頁面可以直接完成專利的查詢和檢索。
1 平臺整體架構設計
該數(shù)據(jù)挖掘專利信息平臺采用分層的思想進行設計[2],將其分成四層,分別是數(shù)據(jù)接入層、數(shù)據(jù)計算存儲層、服務層和應用層,圖1給出了具體的平臺系統(tǒng)架構圖。
數(shù)據(jù)接入層主要完成數(shù)據(jù)的收集、數(shù)據(jù)的預處理、數(shù)據(jù)的抽取、以及轉換和加載。接入的數(shù)據(jù)可以外部專利數(shù)據(jù)、內(nèi)部專利數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和日志數(shù)據(jù)等,這些數(shù)據(jù)都要經(jīng)過收集、抽取、清洗、轉換和合成,并按照預先定義的數(shù)據(jù)模型,加載到平臺的分布式數(shù)據(jù)庫。Sqoop完成Hadoop和關系數(shù)據(jù)庫之間數(shù)據(jù)的轉換和傳遞,能將關系數(shù)據(jù)庫的數(shù)據(jù)導入到Hadoop的HDFS中,也能將HDFS的數(shù)據(jù)導進關系數(shù)據(jù)庫,如MySQL ,Oracle ,Postgres等。Flume將各個服務器中的大量的日志數(shù)據(jù)收集起來,傳輸?shù)紿DFS中存儲,在數(shù)據(jù)挖掘時使用。
數(shù)據(jù)計算存儲層的核心是分布式文件系統(tǒng)HDFS和并行計算框架MapReduce[3]。HDFS[4]負責完成平臺數(shù)據(jù)文件的分布式存儲,它主要優(yōu)勢是可以橫向擴展,能顯著提升性能,卻不容易達到瓶頸,以及高容錯性、高可靠性,但它存在存儲大量小文件時效率低下的問題。MapReduce負責平臺中大規(guī)模數(shù)據(jù)集的并行計算,并能自動劃分計算數(shù)據(jù)、計算任務、分配集群節(jié)點、以及計算結果收集等。該平臺也加入了Spark作為MapReduce的補充,它是基于分布式內(nèi)存的大規(guī)模并行處理框架,能很好地提升大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和分析的性能。在HDFS文件系統(tǒng)上加入HBase,它是分布式面向列的數(shù)據(jù)庫,提供快速隨機訪問海量非結構化和半結構化數(shù)據(jù)。Hive將類似SQL 的HQL語句通過解釋器轉換成MapReduce任務提交到Hadoop 集群運行,能支持對實時性要求不高的大數(shù)據(jù)集的批處理任務、以及簡單統(tǒng)計分析功能。該平臺采用ZooKeeper解決分布式環(huán)境下進程相互同步的問題,能提供比如配置管理,負載均衡,名字服務和分布式同步等功能。
服務層通過WS和REST接口的方式向應用層提供專利查詢、專利管理、服務管理、數(shù)據(jù)挖掘算法和數(shù)據(jù)文件管理等服務。服務層的核心是數(shù)據(jù)挖據(jù)算法,由R、Mahout和Spark MLlib提供支持。R是腳本式語言,簡單易用,能提供了豐富的包,功能覆蓋了簡單的數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計,到復雜的數(shù)據(jù)挖掘算法,以及機器學習算法,且具有強大的圖形展示功能,但當數(shù)據(jù)量比較大時性能達不到要求。Mahout提供一些擁有良好可擴展和維護性的經(jīng)典數(shù)據(jù)挖掘算法的實現(xiàn),包括聚類、分類、回歸和關聯(lián)等等,且性能要比R好很多,可支持大規(guī)模在線系統(tǒng)數(shù)據(jù)分析和挖掘的應用。它利用Hadoop的分布式特征,將任務切分后通過MapReduce來計算完成。但有些數(shù)據(jù)挖掘的算法需要很多個步驟迭代計算時,使用Hadoop的MapReduce計算框架效率會比較低,而SparkMLlib是基于RDD,算法運算效率很高,尤其適合迭代多的計算,可以很好地補充Mahout這方面的不足。MLlib是Spark的機器學習庫,包括經(jīng)典學習算法實現(xiàn)和工具類,主要支持分類,回歸,聚類和協(xié)同過濾四種常用功能。
應用層包括專利百科、專利咨詢、綜合服務、專利檢索和專利分析預測五大應用。這些應用功能是由服務層提供支持,而且還可以擴展,只要利用服務層提供的功能做組合就可以實現(xiàn)更多應用功能。下面的章節(jié)會對這些應用的系統(tǒng)功能的設計進行闡述。
2 系統(tǒng)平臺的功能設計
該平臺的系統(tǒng)功能包括專利百科、綜合服務、專利咨詢、專利檢索、專利分析預測和第三方接口等模塊,其中專利分析預測功能是最核心部分。圖2給出了具體的功能模塊圖,圖3給出專利信息資源網(wǎng)的首頁。
專利百科給出專利的相關知識、政策、法律、法規(guī)。專利咨詢給出專利最新的資訊。綜合服務可以幫助用戶找專利、找需求、找服務和找資金。專利檢索提供檢索發(fā)明專利、實用新型專利和外觀設計專利的功能。專利分析預測通過數(shù)據(jù)挖掘算法對專利大數(shù)據(jù)進行分析和預測。第三方軟件接口提供對外的功能接口。
3 專利分析預測模塊的設計
專利分析預測模塊是整個系統(tǒng)功能最重要的部分,負責對專利大數(shù)據(jù)進行各類數(shù)據(jù)挖掘算法運算后,得到專利數(shù)據(jù)的內(nèi)在隱藏聯(lián)系、規(guī)則和價值,并通過圖表簡明扼要地呈現(xiàn)給用戶。它由關聯(lián)分析模塊、分類分析模塊、聚類分析模塊、回歸分析模塊和可視化模塊組成,支持的數(shù)據(jù)挖掘算法包括:邏輯回歸、支持向量機、樸素貝葉斯、K最近鄰、決策樹、K-均值、Clara、Clarans、Apriori、FPTree、廣義回歸神經(jīng)網(wǎng)絡。
分類分析模塊能根據(jù)專利對象的共同屬性將專利數(shù)據(jù)通過專利分類模型映射到不同的專利類別中,用戶可以觀察到某段時間內(nèi)專利申請情況的不同分類,可以預測那些類別的科技研究和應用開發(fā)是近段時間的熱點,甚至的未來三五年的研究熱點。也可以將存量專利數(shù)據(jù)進行分類分析,可以從專利分類視角得到科技發(fā)展的趨勢。
聚類分析模塊能將專利數(shù)據(jù)劃分成若干分組,而且同一組內(nèi)的專利數(shù)據(jù)具有較高的相識度。分類是一種監(jiān)督式學習方法,需要標注訓練數(shù)據(jù)和測試數(shù)據(jù),以及通過學習建立模型,然后根據(jù)模型推測新數(shù)據(jù)的分類。而聚類是非監(jiān)督式學習方法,不需要標注訓練數(shù)據(jù),是通過發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的相似性進行歸類。專利文檔中的摘要內(nèi)容可以進行聚類分析,根據(jù)專利摘要之間的相識度對專利文檔歸類,以及分析出專利申請的聚類圖。
關聯(lián)分析模塊能通過算法找出專利大數(shù)據(jù)集中有意義有價值的隱藏聯(lián)系,并能用圖形化的方式直觀地給出技術研究領域里某些屬性同時出現(xiàn)的規(guī)則和模型,甚至可以預測某些領域將要出現(xiàn)的新研究新技術新應用的趨勢。關聯(lián)分析模塊通過計算支持度和置信度來確定專利數(shù)據(jù)隱藏聯(lián)系的價值,支持度很低的規(guī)則,一般是沒有意義的規(guī)則,都會給刪除掉。置信度越高的規(guī)則,一般都是可靠的規(guī)則,能給出專利數(shù)據(jù)有價值聯(lián)系的可能性越大。
回歸分析分析現(xiàn)象之間相關的具體形式,確定其因果關系,并用數(shù)學模型來表現(xiàn)其具體關系。而相關分析研究的是現(xiàn)象之間是否相關、相關的方向和密切程度,一般不區(qū)別自變量或因變量[5]。該平臺也支持回歸分析,在專利大數(shù)據(jù)分析中,通過建立合適的回歸模型,并通過專利大數(shù)據(jù)確定參數(shù)的值來提高回歸模型相關性,以更好地擬合實測數(shù)據(jù)。然后利用這些模型進行專利申報、科研技術、技術應用等方面的發(fā)展趨勢預測。
可視化模塊能將統(tǒng)計、分析和挖掘到的專利之間的聯(lián)系、規(guī)則和趨勢以用戶容易理解的方式呈現(xiàn)出來,也能生成簡單易懂的可視化圖表,如直方圖、散點圖、柱狀圖、條形圖、餅圖、箱線圖,折線圖,復雜的分析挖掘結果可以用矩陣圖、聚類圖和趨勢圖等呈現(xiàn),而且不同的數(shù)據(jù)挖掘方法可以使用有針對性的圖表來顯示。用戶通過進一步分析這些直觀專業(yè)的圖表,可以很容易地可洞察到最前沿的科研動態(tài),迅速把握特定技術發(fā)展的方向,準確預測未來技術創(chuàng)新的趨勢。
4 結束語
專利文獻是科技發(fā)展態(tài)勢的重要情報來源,是制定科技戰(zhàn)略的重要依據(jù)。而傳統(tǒng)專利情報分析方法,如原文分析法和簡單統(tǒng)計分析等等,已經(jīng)不能滿足科學技術發(fā)展的需求,而結合數(shù)據(jù)挖掘、人工智能、神經(jīng)網(wǎng)絡等技術的專利可視化分析方法將是專利文獻分析預測的未來的趨勢。該文利用數(shù)據(jù)挖掘技術設計和開發(fā)了一個專利信息平臺,借助數(shù)據(jù)挖掘算法、機器學習算法和神經(jīng)網(wǎng)絡算法使得平臺能深入地挖掘專利文獻群中隱含的有價值的關系和規(guī)律,為技術創(chuàng)新管理提供了可靠的情報保障和決策依據(jù)。
參考文獻:
[1] 馬芳, 王效岳. 基于數(shù)據(jù)挖掘技術的專利信息分析[J]. 情報科學, 2008(26): 1672-1675.
[2] 孫馬莉. 大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺設計研究[J]. 安陽師范學院學報, 2016: 105-108.
[3] 曹云鵬, 王海峰. 面向計算模式的中間數(shù)據(jù)通訊優(yōu)化[J]. 計算機應用, 2018, 38(4): 1078-1083.
[4] 顧玉宛, 王文聞, 孫玉強. 一種面向中海量小文件的存取優(yōu)化方法[J]. 計算機應用研究, 2017, 34(8): 2319-2323.
[5] 孫文生. 統(tǒng)計學[M]. 北京: 中國農(nóng)業(yè)出版社, 2014.
【通聯(lián)編輯:謝媛媛】