溫家凱 農(nóng)強
(廣西達譯商務服務有限責任公司,廣西 南寧 530007)
【摘 要】文章介紹了一個在線專利檢索分析系統(tǒng),闡述了系統(tǒng)的體系結構、各模塊的功能、關鍵技術。該系統(tǒng)在分布式大數(shù)據(jù)采集、基于Lucene與Mysql數(shù)據(jù)庫結合的全文索引、基于Mina框架的分布式在線分析架構等基礎上實現(xiàn)的專利信息檢索和統(tǒng)計分析,在大規(guī)模數(shù)據(jù)方面體現(xiàn)出較好的效率,并提供檢索結果自動翻譯、檢索詞智能擴展和產(chǎn)業(yè)分類導航等特色功能,可以幫助普通用戶更便捷地利用專利信息。
【關鍵詞】專利檢索自動翻譯;檢索擴展;專利分析;分布式;全文檢索Lucene Mina
【中圖分類號】TP311 【文獻標識碼】A 【文章編號】1674-0688(2016)06-0034-05
0 引言
隨著知識經(jīng)濟的深入發(fā)展,專利已成為企業(yè)市場競爭力的核心要素和最重要的資產(chǎn)構成。進入新世紀以來,許多企業(yè)特別是西方跨國公司通過“專利圈地”,壟斷高端技術領域,排擠競爭對手,攫取了巨大的市場利益??梢哉f,對于后發(fā)展欠發(fā)達地區(qū)的企業(yè)而言,加強技術創(chuàng)新并及時將創(chuàng)新成果申請專利保護,既是保護自身利益的迫切需要,也是躋身市場競爭制高點的必然選擇,更是其發(fā)展和壯大的必由之路。本文開發(fā)了一個在線專利數(shù)據(jù)檢索分析系統(tǒng)PatentOnline,為廣西重點產(chǎn)業(yè)提供以產(chǎn)業(yè)細分為基礎的專利檢索及分析服務,幫助企業(yè)了解競爭對手的技術水平和跟蹤最新技術發(fā)展動向,提高研發(fā)起點、加快產(chǎn)品升級和防范知識產(chǎn)權風險。
1 總體設計
系統(tǒng)采用MVC 3層結構:展示層、邏輯層和數(shù)據(jù)服務層(如圖1所示)。展示層負責基于Web界面的用戶交互與展示;邏輯層負責對數(shù)據(jù)進行處理,并與數(shù)據(jù)服務層進行交互;數(shù)據(jù)服務層負責采集與專利相關的數(shù)據(jù),進行數(shù)據(jù)清洗、數(shù)據(jù)抽取轉(zhuǎn)換等操作,并為上層提供數(shù)據(jù)訪問的接口。
1.1 在線專利檢索子系統(tǒng)
1.1.1 快捷檢索模塊
快捷檢索模塊提供類似搜索引擎的簡潔界面(僅一個檢索框)給用戶進行檢索??旖輽z索功能提供2種檢索行為。
(1)專利號檢索。用戶輸入申請?zhí)柣蚬_公告號進行檢索。
(2)關鍵詞檢索。用戶輸入關鍵詞,系統(tǒng)對發(fā)明名稱、摘要、發(fā)明人進行全文檢索查詢,返回查詢結果??梢暂斎攵鄠€關鍵詞,用空格隔開,默認是“邏輯與”的關系。
1.1.2 表格檢索模塊
表格檢索模塊提供給用戶同時對多個檢索字段進行檢索的功能,檢索字段包括申請?zhí)?、發(fā)明名稱、公開(公告)號、公開(公告)日、IPC分類號、申請人、申請日、發(fā)明人、主題詞、摘要、主權利要求、優(yōu)先權項、國別省市代碼、代理機構代碼、申請人地址。字段內(nèi)支持檢索詞使用“and”和“or”運算。
1.1.3 自定義表達式檢索模塊
用戶可根據(jù)自己定義的表達式來進行檢索。支持“and”“or”“not”“xor”等多條件查詢。單擊“》”顯示更多的邏輯關系。鼠標移至“?”顯示幫助說明文檔。對每個查詢條件的字段名稱有相應的字母對應,點擊“字段名稱”可查看。單擊某個字段名稱,自動在自定義表達式輸入框中填充,用戶輸入自己想要查詢的表達式,點擊“檢索”按鈕,就會檢索到相應的數(shù)據(jù)。單擊“檢索歷史”,顯示之前檢索的歷史記錄。在檢索歷史記錄中點擊某條檢索表達式,會自動填充在自定義表達式的輸入框中,方便操作。
1.1.4 主題檢索模塊
主題檢索模塊是根據(jù)中國分類主題詞表實現(xiàn)的關聯(lián)性搜索功能。用戶可以通過“主題檢索”-“查看主題內(nèi)容”來查看所輸入檢索詞的主題詞信息。信息包括主要類目相關內(nèi)容和次要類目相關內(nèi)容。通過點擊“主題檢索”—“生成主題表達式”來生成專利檢索表達式。主題檢索模塊提供了3種專利檢索方式:{1}根據(jù)檢索詞的正式和非正式主題詞來進行專利搜索的“精準檢索”。{2}根據(jù)檢索詞的正式主題詞、非正式主題詞、下位詞來進行專利搜索的“模糊檢索”。{3}將檢索詞的正式主題詞、非正式主題詞翻譯成英文的“英文檢索”。
1.1.5 同義詞檢索模塊
同義檢索模塊是根據(jù)同義詞詞庫來實現(xiàn)的相關搜索功能。用戶可以通過“同義檢索”—“查看同義詞內(nèi)容”來查看所輸入檢索詞的同義詞信息。通過點擊“同義檢索”—“生成同義詞表達式”來生成專利檢索表達式。同義檢索模塊提供了3種專利檢索方式:{1}根據(jù)檢索詞的同義詞進行專利搜索的“同義檢索”。{2}根據(jù)同義詞的相關主題詞進行專利檢索的“同義擴展檢索”。{3}將檢索詞的同義詞翻譯成英文的“英文檢索”。
1.1.6 自動翻譯模塊
該模塊提供對檢索結果的自動翻譯。系統(tǒng)調(diào)用外部專利機器翻譯系統(tǒng)接口,將英文檢索結果中的專利信息(標題和摘要)自動翻譯成中文,以幫助用戶快速地了解檢索結果信息。
1.1.7 IPC分類導航模塊
IPC分類導航顯示各IPC分析的信息,可點擊展開節(jié)點來查看各分類節(jié)點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進行查看信息。用戶可以選擇對指定分類的專利集合進行檢索(有數(shù)量限制)。
1.1.8 行業(yè)分類導航模塊
行業(yè)分類導航功能和IPC分類導航功能相同,只是分類不同??牲c擊展開節(jié)點來查看各分類節(jié)點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進行查看信息。對選擇的某個分類專利集合進行檢索。
1.1.9 專利管理模塊
該模塊由“表達式”“標引”“專題庫”和“模板”4個部分組成。該模塊可幫助用戶在日常使用中積累自己的專利檢索表達式,對感興趣的專利進行標引,建立自己的專利專題庫。
1.1.10 用戶管理模塊
用戶分為普通用戶和高級用戶。系統(tǒng)對不同用戶賦予不同的使用和管理權限。例如,高級用戶可放寬進行專利分析的數(shù)量限制。
1.2 在線專利分析子系統(tǒng)
對專利數(shù)據(jù)進行多元統(tǒng)計和指標分析是指對專利文獻的有關特征進行統(tǒng)計或按照指標算法進行分析。該子系統(tǒng)能夠?qū)崟r對用戶選擇的專利集合(專利檢索結果集或是專利專題庫)進行各種專利分析操作,并顯示分析結果。
1.2.1 總體趨勢分析
總體趨勢分析按專利申請日期或?qū)@_日期統(tǒng)計專利數(shù)量。
1.2.2 國省分析
通過專利信息的國省分析,可以了解行業(yè)發(fā)展的重點區(qū)域及不同區(qū)域內(nèi)專利研發(fā)的重點方向和各區(qū)域之間技術的差異性、不同區(qū)域內(nèi)專利技術的主要競爭者(申請人)和發(fā)明人。國省分析包括國省分布狀況、國省申請人分析、國省發(fā)明人分析及國省技術分類分析。
1.2.3 申請人分析
申請人分析包括申請人趨勢分析、申請人構成分析、申請人國省分析、申請人技術分類構成、申請人綜合比較、合作申請人分析及申請人區(qū)域構成。
1.2.4 發(fā)明人分析
發(fā)明人分析包括發(fā)明人趨勢分析、發(fā)明人構成分析、發(fā)明人國省分析、合作發(fā)明人分析。
1.2.5 技術分類分析
技術分類分析包括技術分類趨勢分析、技術分類構成分析、技術分類國省分析、技術分類申請人構成、技術關聯(lián)度分析及技術分類區(qū)域構成。
1.2.6 中國專項分析
針對于中國的專利數(shù)據(jù)進行的分析,它主要包括專利類型分析、國省分布狀況。
1.2.7 區(qū)域分析
區(qū)域是指專利的受理國信息,包括國家、組織,比如美國、德國、WIPO等。區(qū)域分析用于了解不同區(qū)域產(chǎn)業(yè)產(chǎn)品及其技術的特點和差異,包括區(qū)域趨勢分析、區(qū)域構成分析、區(qū)域技術領域構成(IPC構成)、區(qū)域申請人構成。
1.2.8 自動生成分析報告
將上述分析結果形成報告,可導出成Word格式。分析報告模板可以自定義,并可以定制分析報告模板。
2 關鍵技術
2.1 分布式專利大數(shù)據(jù)采集
本系統(tǒng)平臺的專利數(shù)據(jù)來源于互聯(lián)網(wǎng)的多個國內(nèi)外數(shù)據(jù)源,數(shù)據(jù)格式多樣,數(shù)據(jù)總量龐大,需要用程序自動化進行持續(xù)性的長期采集抽取。以下為系統(tǒng)設計與實現(xiàn)的要點。
2.1.1 編程語言
使用Perl或Python這種腳本語言來實現(xiàn)。Perl和python都擅長處理文本,無需編譯,修改方便,入門容易,擁有強大、豐富的模塊擴展。
2.1.2 增量式采集
由于專利數(shù)據(jù)量極其龐大,全世界中英文專利共約1億份,所以將其全部采集是個長期的過程。因此,整個流程中每個步驟都是以增量的方式來處理,每個步驟都要識別上一步驟傳遞來的增量數(shù)據(jù)包進行轉(zhuǎn)換處理,并記錄處理日志,以便以后能夠根據(jù)日志恢復全部數(shù)據(jù)。系統(tǒng)以定時或不定時方式生成增量采集到數(shù)據(jù)包,導入平臺。
2.1.3 并行采集方式
為提高采集的帶寬利用率和采集效率,系統(tǒng)以并行進程或多線程的方式進行采集。為了避免對數(shù)據(jù)源服務器造成壓力,需要限制訪問的頻率,同時使用多個IP出口輪換。
2.1.4 魯棒性
系統(tǒng)核心進程可以任意中斷,不影響后繼重啟后采集。
2.1.5 自動化
整個系統(tǒng)要求有較高的自動化程度,不需要專門安排人員來監(jiān)控,失敗操作能夠自動重啟,并有較完善的日志記錄,以便發(fā)現(xiàn)和修復問題。
2.2 基于Lucene與Mysql數(shù)據(jù)庫結合的中文專利信息全文檢索
本系統(tǒng)平臺的數(shù)據(jù)庫是使用Mysql管理的,雖然能夠較方便地對專利數(shù)據(jù)進行組織和操作,但是用戶無法控制其信息索引的方式。由于是針對西文字符開發(fā)的,Mysql在對中文信息進行全文索引時問題較大,因此本系統(tǒng)平臺采用了目前流行的Lucene技術,并與Mysql結合使用一起管理專利數(shù)據(jù)庫。通過Lucene為專利數(shù)據(jù)庫中的海量專利信息建立索引,實現(xiàn)全文檢索,可以較好地解決海量專利信息在檢索方面的效率問題。
2.2.1 Lucene介紹
Lucene[1]是Apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包。它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文2種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。
2.2.2 倒排索引
Lucene像其他主流Web搜索引擎一樣,采用的是倒排索引技術。倒排索引在實際應用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因此稱為倒排索引(inverted index)。帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件(inverted file)。
搜索引擎的關鍵步驟就是建立倒排索引,倒排索引一般表示為一個關鍵詞,然后是它的頻度(出現(xiàn)的次數(shù))、位置(出現(xiàn)在哪一篇文章或網(wǎng)頁中,及有關的日期、作者等信息),它相當于為互聯(lián)網(wǎng)上幾千億頁網(wǎng)頁做了一個索引,好比一本書的目錄、標簽一般。在本系統(tǒng)中,我們以字段文本分詞并過濾掉停用詞后得到詞語作為關鍵詞,為需要全文檢索的專利信息字段建立倒排索引。專利檢索時就能夠快速查找到關鍵詞所在的專利。
2.2.3 中文分詞
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。漢語的句子不同于英文句子,英文單詞之間有間隔,漢語文本中詞與詞之間沒有明確的分隔標記,而是連續(xù)的漢字串。詞是構成句子的基本單位。若要計算機智能地理解漢語中的每一句話,則必須讓計算機明白該句子的各個詞的含義。也就是說,需要計算機智能地把每一句話都正確地切分出來,才不會造成理解上的偏差。以詞為單位作為搜索引擎索引的Key值,會大大提高搜索引擎結果的準確性。
目前,現(xiàn)有的分詞算法主要可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法??紤]到技術的可行性,我們選擇易于實現(xiàn)的基于字符串匹配的分詞方法。
為了提高分詞的正確率,我們將主題詞表及各行業(yè)的專業(yè)詞加入分詞詞典中。
2.3 基于Mina框架的分布式專利在線分析架構
考慮到專利數(shù)據(jù)庫沉重的存儲壓力,以及實現(xiàn)分析算法的SQL語句復雜度,本系統(tǒng)主要設計思路是將分析算法主要實現(xiàn)在應用層,數(shù)據(jù)庫只是單純作為存儲。并且,將該部分功能實現(xiàn)成獨立服務,支持任意擴展。
上層分析系統(tǒng)使用Apache Mina[2]遠程服務調(diào)用分析服務,傳遞參數(shù)和分析結果。Apache Mina是一個能夠幫助用戶開發(fā)高性能和高伸縮性網(wǎng)絡應用程序的框架。它通過Java nio技術基于TCP/IP和UDP/IP協(xié)議提供了抽象的、事件驅(qū)動的、異步的API。
為了提高性能,在Mysql存儲層與應用層間可使用memcache、redis等作為緩存,如取專利數(shù)據(jù)、緩存分析計算結果等。
3 系統(tǒng)運行效果
在對上述技術研究的基礎上,本文設計和實現(xiàn)了一個在線專利檢索分析系統(tǒng)。以下簡單展示一下特色功能。
3.1 高級檢索
用戶可根據(jù)自己定義的表達式來進行檢索。支持“and”“or”“not”“xor”等多條件查詢(如圖2所示)。
3.2 檢索詞智能擴展
用戶單擊高級檢索頁面右側(cè)的“檢索詞智能擴展”(如圖3所示),可展開檢索詞智能擴展功能區(qū),在“檢索詞”文本框中輸入關鍵字,如“電腦”,然后可在右側(cè)選擇“主題檢索”或“同義檢索”。
3.3 自動翻譯英文專利
在使用英文關鍵詞檢索得到的英文專利檢索結果頁的上方,用戶點擊“自動翻譯”鏈接,系統(tǒng)會自動將結果頁中的專利標題和摘要信息翻譯成中文,以便用戶閱讀理解(如圖4所示)。
3.4 產(chǎn)業(yè)分類導航和IPC分類導航
產(chǎn)業(yè)分類導航和IPC分類導航分別如圖5、圖6所示。
3.5 在線分析
申請人分析圖如圖7所示;專利趨勢分析圖如圖8所示。
4 結語
本文開發(fā)了一個在線專利檢索分析系統(tǒng),闡述了系統(tǒng)的體系結構、各模塊的功能、關鍵技術。系統(tǒng)在系統(tǒng)架構、全文索引等基礎上實現(xiàn)的專利信息檢索和統(tǒng)計分析在大規(guī)模數(shù)據(jù)方面體現(xiàn)出較好的效率;系統(tǒng)提供自動翻譯檢索結果、產(chǎn)業(yè)分類導航、檢索詞智能擴展等具有特色能夠有效幫助普通用戶使用的功能,在用戶體驗、可視化界面和交互性等方面取得較好的效果。系統(tǒng)具有較大的使用價值,未來將應用在自然語言處理和語義分析等技術領域,從而進一步提升系統(tǒng)的性能。
參 考 文 獻
[1]Lucene.Welcome to Apache Lucene[EB/OL].http://lucene.apache.org,2016-03-17.
[2]Mina.Welcome to Apache MINA[EB/OL].http://mina.apache.org,2016-03-12.
[責任編輯:鐘聲賢]
【作者簡介】溫家凱,男,任職于廣西達譯商務服務有限責任公司,研究方向:自然語言處理(深度學習、機器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯(lián)網(wǎng)應用;農(nóng)強,男,任職于廣西達譯商務服務有限責任公司,研究方向:自然語言處理(深度學習、機器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯(lián)網(wǎng)應用。