摘 要:專利信息是集技術、經(jīng)濟、法律信息于一體的重要情報分析數(shù)據(jù)來源,也是支持技術創(chuàng)新管理的重要決策依據(jù)。由于專利使用的術語比論文更為抽象,基于統(tǒng)計的信息標注效果并不理想。本文利用亞洲語言信息檢索測評會議提供的英文專利文摘數(shù)據(jù),采用條件隨機場模型,有針對性地標注技術及其功效信息,為專利技術功效矩陣分析奠定了基礎。
關鍵詞:條件隨機場;信息標注;專利技術
中圖分類號:D923.42
專利是支持技術創(chuàng)新管理的重要決策依據(jù),也是人們依據(jù)國家法律,對自己的智力活動所獲得的成果謀取權力保護的過程[1]。專利作為一種特殊的文獻類型,涵括了工業(yè)產(chǎn)權情報、技術情報、商業(yè)經(jīng)濟情報,是一個具有戰(zhàn)略研究意義的情報源,歷來被視為一種科技發(fā)展的重要參考坐標。專利能夠廣泛深入地應用于科技發(fā)展態(tài)勢及分布,技術前沿的分析研究,為國家的科技戰(zhàn)略層決策、企業(yè)科技創(chuàng)新、提供參考與分析依據(jù)。同時,專利也給廣大科研人員和工程技術工作人員提供方法與建議,成為一股重要的推動力[2]。
專利信息分析是從專利文獻中采集專利信息,通過科學的方法對專利信息進行加工、整理、和分析,最終形成專利情報和謀略的一類科學勞動的集合[2]。目前,專利分析中普遍使用的分析指標多針對專利的著錄項信息,如專利所在國別、專利發(fā)明人、專利申請人、專利分類號、專利申請日等,而對專利技術內(nèi)容的挖掘需要對專利的文本內(nèi)容進行處理與分析。專利摘要中記載的大量技術內(nèi)容特征(如反映技術的改進、換代、新穎性、功效用途、關鍵技術要素等重要細節(jié)性內(nèi)容)因受技術限制、人工成本和時間的限制,一直沒得到很好的利用,限制了專利分析方法的進一步發(fā)展。
1 專利技術及其功效標注
1.1 專利技術及其功效
本文所用的語料為專利摘要語料,其目的是從專利標題及摘要中提取基本技術(Technology)及其功效(Effect)的內(nèi)容[3]。技術,是指專利文獻中涉及到的算法、工具、材料或者數(shù)據(jù),包括每項研究或發(fā)明中使用到的算法、工具、材料或數(shù)據(jù)。功效,是指技術與相應產(chǎn)生的功效或者效果,包括一個屬性及其取值。屬性,包括一項技術對應功效中屬具有的屬性。值,包括一項技術對應功效中屬具有的屬性對應的取值。通過技術及其功效挖掘,為專利數(shù)據(jù)集中創(chuàng)建技術趨勢圖譜奠定了基礎。
1.2 條件隨機場
2001年,Lafferty等人首次提出CRFS[4],其思想主要來源于最大熵模型(Max entropy)。條件隨機場(Conditional Random Fields,CRFS)是一種常用的基于概率統(tǒng)計的信息抽取技術模型,其可用于最大化條件概率。可以把CRFS看成是一個無向圖模型或馬爾可夫隨機場,它是一種用來標記和切分序列化數(shù)據(jù)的統(tǒng)計框架模型。目前,CRFS在解決英文淺層分析、英文命名實體識別等問題時已經(jīng)取得了良好的效果。
在模型的算法復雜度,特征選取兼容性,數(shù)學理論基礎等方面,條件隨機場CRFS和另一常用的隱馬爾科夫HMM相比都有優(yōu)勢,優(yōu)勢主要在于以下幾點[5]:
(1)能夠在同一個模型中無限制集成不同特征,特別是可加入遠距離約束,更能揭示語言學特征。
(2)CRFS采用聯(lián)合條件概率P(T/W)建模,避免了HMM的獨立性假設和二元假設,具有更合理的數(shù)學推導。
(3)CRFS保留了HMM中的之前標記的狀態(tài)對當前狀態(tài)標記的影響,使特征的選擇更為合理。
(4)CRFS采用無向圖模型,是對整個標記序列求解聯(lián)合概率,在整個序列范圍內(nèi)歸一化,較HMM具有更合理的數(shù)學理論基礎,同時也避免了因求解局部觀察值概率所帶來的標記偏置問題。
在實證研究方面,研究人員已經(jīng)進行了角色識別、科技術語標注、地名識別等應用,證明了CRFS的高效性,因此,筆者在本文中采用CRFS模型作為信息標注的統(tǒng)計工具。
1.3 基于CRFs的專利技術及其功效標注
基于CRFs的標注模型能夠綜合利用對字、詞、詞性等多層次的資源。CRFs標注模型的實現(xiàn)主要包括模型特征標記、構建訓練模型、利用訓練數(shù)據(jù)對模型進行訓練、訓練結果輸出等環(huán)節(jié)。本文的專利摘要信息標注流程如圖1所示。運行CRFs標注模型使用的是開源軟件CRF++[6]。專利摘要信息標注主要包括詞頻統(tǒng)計、形成訓練文本、特征選擇、特征模板定義,以及標注結果等步驟。
1.3.1 詞頻統(tǒng)計
詞頻統(tǒng)計目標是統(tǒng)計訓練樣本的詞頻,以作為CRF訓練時的一個特征加入到CRFS模型中。為了詞頻統(tǒng)計更加客觀準確,實際操作中需要對單復數(shù)、時態(tài)等進行了詞干化處理。詞干化可以采用Porter Stemming算法。
1.3.2 特征選擇
本文定義了三個特征用于CRFs標注模型中,具體內(nèi)容如下:
特征1:詞性特征。我們在分析了“技術”標簽中發(fā)現(xiàn),標注內(nèi)容大多以名詞,或者名詞短語的形式出現(xiàn),因此,選擇詞性作為定義特征1。詞性標注的任務就是根據(jù)一個詞在某個特定句子中的上下文,為這個詞標注正確的詞性。詞性標注工具較多,本文選取了POStagger[8]進行詞性標注。
特征2:冠詞特征。我們在分析了“技術”標簽中的內(nèi)容發(fā)現(xiàn),標注內(nèi)容如果是以名詞短語形式出現(xiàn),則其開頭的首字母多為a、an、the等冠詞。系統(tǒng)對于冠詞特征,進行二元分類,即是否為冠詞。如果是冠詞,則特征2的參數(shù)值為1,否則參數(shù)值為0。
特征3:詞頻特征。在選定詞性特征,冠詞特征后,本文也將詞頻作為一個重要特征引入。實際操作中,為了詞頻更加客觀,對單復數(shù)、時態(tài)等進行了詞干化處理。
1.3.3 形成訓練文本
詞頻統(tǒng)計完成后,需要形成訓練文本。為了添加特征方便CRF工具進行訓練,必須對訓練文本進行格式轉換,。CRF工具要求的輸入文本每個單詞一行,每行使用空格間隔成多列,除單詞外的均為特征列。使用空行標注句子的結束。具體示例如下:
本文根據(jù)已標注語料將信息進行分類,定義了位置標簽。系統(tǒng)對于冠詞特征,進行二元分類,即是否為冠詞。為冠詞是值為1,否則值為0。系統(tǒng)分類時使用7個標簽,分別為:
表1
1.3.4 特征模板定義
特征模板,是對上下文環(huán)境中的特定位置和特定信息的考慮,反映了所要考慮的語言現(xiàn)象的選取標準,它指導和限定了機器學習過程的空間范圍。本文所用的特征模板定義如下:
1.3.5 標注結果
經(jīng)過上述步驟,完成對專利的標注工作。標注內(nèi)容的示例如下:
2 實驗結果與分析評價
具體實驗過程中,本文采用了所有語料中的251條作為訓練文檔集,50條作為測試文檔集。
在對標注性能進行評估時,采用常用的3個評測指標:準確率(P)、召回率(R)、綜合指標F值(F),P和R的計算公式如下[7]:
(1)訓練文檔語料規(guī)模較小,限制了用CRFS模型的機器學習效果。用于訓練的文檔集大小,對模型的標注效果有比較重要的影響。
(2)訓練語料中的標注對象比較復雜,有短語,也有部分短語帶修飾成分的結構,還有少數(shù)句子,進一步限制統(tǒng)計特征的明顯性。
3 結束語
筆者試圖通過計算機的自動處理將專利摘要信息中的技術以及功效等關鍵信息自動提取出來,以有助于最大化降低專利分析的人工成本。本文通過對NTCIR會議所提供專利語料的特點和識別難點的詳細分析,利用條件隨機場模型設計了包括詞頻統(tǒng)計、特征選擇、形成訓練文本、特征模板定義等模塊的信息標注模型,并進行了技術功效詞標注的實證研究,取得了較好的標注結果。
參考文獻:
[1]馮美玉.功能性限定兩種解釋方式之比較[J].科技與法律,2013(03):37-40.
[2]彭愛東.企業(yè)專利情報信息研究[D].南京大學,2000.
[3]The 8th NTCIR Workshop [EB/OL].http://research.nii.ac.jp/ntcir/ntcir-ws8/ws-en.html.
[4]劉開瑛,郭炳炎.自然語言處理[M].北京:科學出版社,1991.
[5]Settles B.Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[C].In:Proceedings of the International Joint Workshop on Normal Language Processing in Biomedicine and its Application(NLPBA).Geneva,Switzerland,2004:103-107.
[6]postagger.1.0[CP/OL].http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/.
[7]李霄,丁晟春.垃圾商品評論信息的識別研究[J].現(xiàn)代圖書情報技術,2013(01):63-68.
[8]鄒濤.一種電子產(chǎn)品領域命名實體識別方法研究[D].西安電子科技大學,2010(01).
[9]王世昆,李紹滋,陳彤生.基于條件隨機場的中醫(yī)命名實體識別[J].廈門大學學報,2009(05).
[10]王昊,鄧三鴻.HMM和CRFs在信息抽取應用中的比較研究[J].現(xiàn)代圖書情報技術,2007(12).
[11]陰晉嶺,王惠臨.詞性標注的方法研究——結合條件隨機場和基于轉換學習的方法進行詞性標注[J].現(xiàn)代圖書情報技術,2009(03).
[12]徐丹丹.專利文本聚類分析及可視化研究[D].南京理工大學,2009(05).
[13]馬芳,王效岳.基于數(shù)據(jù)挖掘技術的專利信息分析[J].情報科學,2008(11).
[14]邱洪華.中美航空發(fā)動機專利信息比較分析[J].湘潭大學學報(哲學社會科學版),2013(01).
[15]唐田田,劉平,張鵬.岡珀茲曲線模型在專利發(fā)展趨勢預測中的應用[J].現(xiàn)代圖書情報技術,2009(11).
作者簡介:胡秧(1976.06-),女,浙江紹興人,助教,學士,研究方向:計算機軟件。
作者單位:紹興職業(yè)技術學院 信息工程學院,浙江紹興 312000