摘要:基于香港雙語法例語料庫,從法律術語與標點符號之間的聯(lián)系出發(fā),探討法律術語及法律術語定義的自動抽取研究中標點符號的作用。
關鍵詞:法律術語,自動抽取,標點符號
中圖分類號:N04;H155
文獻標識碼:A
文章編號:1673—8578(2009)04-0027-04
一引言
雙語法例資料系統(tǒng)(Bilingual Laws InformationSystem,簡稱BLIS)是中華人民共和國香港特別行政區(qū)政府建立的一個關于所有現時實施的香港法律的主體條例及附屬法例的中文文本和英文文本的資料系統(tǒng),可以通過網絡進行檢索。其主頁如圖1所示:
BLIS包括如下內容:
1香港成文法的中文及英文文本
所有現實實施的香港主體條例及附屬法規(guī);
所有香港主體條例及附屬法規(guī)(包括已經廢除的法規(guī))追溯到1997年6月30日為止的過去版本。
2憲法類文件、全國性法律及其他有關文件
中華人民共和國憲法、香港特別行政區(qū)基本法、全國人民代表大會的有關決定、全國人民代表大會常務委員會的有關決定及解釋,以及中英聯(lián)合聲明;
在香港特別行政區(qū)實施的全國性法律;
香港特別行政區(qū)立法會議事規(guī)則。
3香港法例所用的詞匯用語
英漢法律詞匯;
漢英法律詞匯。
4條例主題索引
條例中文主題索引;
條例英文主題索引。
可以看出,BLIS是研究香港法律術語的一個非常寶貴的語言資源,基于該語料將分析和抽取法律術語和法律術語定義。
使用計算機來自動抽取術語,必須首先找出術語的形式標記。經過仔細觀察發(fā)現,BLIS文本中的標點符號,特別是雙引號、書名號和括號等標點符號,可以作為BLIS法律術語抽取的重要的形式標記。
本文分析和總結了BUS中的標點符號與法律術語及法律術語定義之間的聯(lián)系和規(guī)律,并利用它們之間并存的特征來自動提取法律術語和法律術語定義句。
研究中使用了21萬個句子組成的中文BLIS語料。筆者選擇雙引號、書名號和括號等符號作為研究的切入點,這些標點符號與BLIS語料中的法律術語、法律術語定義有著緊密的聯(lián)系。
二雙引號、圓括號與法律術語定義之間的聯(lián)系
觀察部分語料后發(fā)現,法律術語定義句中經常有雙引號和圓括號同時出現的現象,基于此特點做了如下幾項工作,來探討法律術語定義句與雙引號和圓括號之間的規(guī)律和聯(lián)系,并抽取出BLIS中有標點符號標記的法律術語定義句。
(一)抽取包含雙引號句
從21萬個句子中抽取出所有包含雙引號的句子,做法如下:假設雙引號是成對出現的,但是一個句子中可以有成對出現的雙引號和單個出現的雙引號(記錄緯度的時候會用到單個雙引號),所以在設計程序的時候選擇雙引號出現的個數大于等于2的句子,最起碼保證不會丟失成對出現的雙引號,但是也會抽取出一些不符合條件的句子來。
使用這樣的方法,在21萬個中文句子中獲得13833個句子(包含重復的)。
部分實例:
例1、“原有法律”(1aws previously in force)指在緊接1997年7月1日之前屬有效并已被采用為香港特別行政區(qū)法律的普通法、衡平法、條例、附屬法例(亦指附屬立法)及習慣法;
例2、“作為”(act),用于罪行或民事過失時,包括一連串作為、任何違法的不作為和一連串違法的不作為;
例3、“行政上訴委員會”(Administrative Ap—peMs Board)指根據《行政上訴委員會條例》(第442章)設立的行政上訴委員會(由1994年第6號第32條增補);
例4,“成人”“成年人”(adult)指年滿18歲的人(由1990年第32號第6條修訂)。
結果分析:
1、21萬個句子中只有1萬多個句子包含雙引號句,說明包含雙引號的句子占所有句子中的小部分,所以該項研究也只是法律術語研究的小部分內容。
2、觀察后,在1萬多個雙引號句子中,雙引號和圓括號經常出現在同一句子中,雙引號中是中文法律術語,圓括號中是該中文法律術語對應的英文法律術語,而且雙引號和圓括號在位置上緊鄰。根據這樣的特點開始做下一步工作。
(二)抽取包含雙引號緊臨左圓括號句
在第一步的結果上,抽取了所有包含雙引號緊鄰左圓括號的句子,共獲得11643個符合條件的句子。但是包含雙引號不包含圓括號的句子也有可能是法律術語定義句,或包含雙引號句也可能不是法律術語定義句。
例如:
例1“上午”一詞表示由午夜至隨后的正午的一段時間,“下午”一詞表示由正午至隨后的午夜的一段時間;如這些詞聯(lián)用兩次于某一指定時間,或聯(lián)用于“日落”或“日出”等詞,須解作關乎一段連接的時間。
例2“九龍”指九龍半島的一部分,即在1860年10月24日成為香港一部分的該部分。
例3(a)“本人,謹以至誠,據實聲明及確認”;(由1997年第123號第5條修訂)
只包含雙引號的句子(2190個)中大部分不是法律術語定義句,但是雙引號中的字符串大部分還是法律術語,不過有必要對左右雙引號中的詞串的長度做個限定,例如不能大于10。
雖然這一步的結果中大部分已經是法律術語定義句,但是考慮到法律術語定義句中應該包含一些和“定義句”相關的特征詞,經觀察,“指”“包括”“含義”三個詞在定義句中出現頻率比較高,因此做了下一步的實驗。
(三)抽取包含特征詞的句子
在上一步結果的基礎上,找出包含“指”“包括”“含義”幾個特征詞的句子。
結果如下:
包含“指”“包括”“含義”中任何一個詞的句子共有11233(重復)個;
包含“指”的句子有9 007個;
包含“包括”的句子有2 394個;
包含“含義”的句子有694個;
不包含“指”“包括”“含義”中任何一個詞的句子有410個。
結果分析:
1包含任一以上三個特征詞的句子:除了一些斷句現象外,大部分句子是法律術語定義句。而且大部分句子中包含結構“就……而言”,這樣的句子需要再重新定位和尋找真正法律術語定義。
例如“適當審裁體”(appropriate tribunal)就督察而言,具有第16條給予該詞的含義,而就初級警務人員而言,則具有第4條給予該詞的含義。
從該例子看,需要再找到第16條和第4條才能真正找到該法律術語的定義。在抽取到的結果中有1255處存在該現象。
2不包含任一以上三個關鍵詞的句子:
1)有斷句現象:該現象是在進行句子切分的時候遺留下來的問題。
例“立法會”(Legislative Council)一
2)非法律術語定義句,聲明性句子:
例“市值租金”(prevailing market rent)一詞,凡于本條例的條文內出現,均須與1983年6月10日前該條文內的“公平市值租金”(fair market rent)一詞作相同解釋。
3)句子中包含定義句特有的特征詞,而且是法律術語句,但是這些句子的數量很小,這些關鍵詞有:“被稱為、解釋作、解釋、含義、解釋為、意義、定義、稱為、當作、須解、已予界定、即、為、稱、視為、說明”。
例1凡付款予持票人的匯票的持有人以交付方式轉讓匯票而沒有在匯票上背書,則該人被稱為“以交付方式轉讓匯票的移轉人”(transferor bydelivery)。
例2在第49至49R條中,凡提述“從資本中撥款支付”(payraent out 0f capital)之處,均須按照第491條解釋。
例3“作商業(yè)用途”(use for trade),就度量衡器具而言,具有第10條給予該語句的意義。
4)無任何標志詞,但句子是法律術語定義句。
例“離子濃度測量法”(ion metric method)是基于被測量的輻射所產生的離子化情況而進行的一種測量方法。
5)特殊情況
例1
“你是否想就控罪作出響應?除非你有話要說,否則無須說話,但無論你說些什么,都會以書面記錄下來,并可能在你的審訊中作為證據?!?由1965年第49號第16條修訂;由1983年第48號第3條修訂)
例2存放食物及水的糧食箱須顯明地標示“food”或“water”(視何者適當而定)。
例3
“(e)任何交由根據《地產代理條例》(第5ll章)第4條設立的地產代理監(jiān)管局行使司法管轄權的訴訟,而地產代理監(jiān)管局并沒有根據或依據該條例第49條拒絕就該訴訟行使司法管轄權?!?/p>
例4董事局由一名主席(“主席”(the Chair,man))及普通成員組成,主席由總督委任,普通成員人數亦由總督決定(由9至15名不等)。
像如上情況,需要長度限制和判斷編碼(英文還是中文)來篩選后決定是否為法律術語定義句。
法律術語定義句的搜索過程可用如下流程圖表示(圖2):
最終獲得了10615個法律術語定義句。有些結果還需要人工再校對和再處理。如果假設包含“就…而言”結構句子也是法律術語定義句,那么隨機抽樣錯誤率較低。
現在只是抓住法律術語與標點符號之間明顯的特點分析了雙引號法律術語及定義句之間的關系。BLIS定義句的更多特點還有待繼續(xù)研究和討論。
三雙引號和書名號與法律術語之間的聯(lián)系
前面結合標點符號自動抽取了法律術語定義,下面再結合雙引號和書名號來自動抽取法律術語。
(一)結合雙引號抽取法律術語
經觀察發(fā)現,在BIAS語料庫中有雙引號標記的字符串大部分是法律術語,但是也有一些特殊情況。
1帶雙引號標記的法律術語的特殊情況分析:
1)在一個句子中雙引號不一定成對出現,人們在標注緯度時也可以使用單個的雙引號。
例最西南端位于北緯22°20′39″
2)除了法律術語之外,其他一些特殊符號、項目符號、數字和日期等也帶有雙引號標記。
例“&”“(A)”“2年”“3個月”
3)有些是由于語料從繁體字轉換為簡體字時遺留下來的問題,在雙引號中會看到一些內容混亂的現象。
例“……業(yè)主立案法團”“《保護野鳥及野生哺乳動物條例》+(附表7)”“《公眾生(食物)條例》“《國際海事組織谷物規(guī)則》”
2提取符合如下條件的法律術語:
由于帶有雙引號標記的不一定都是法律術語,所以按照如下步驟篩選出法律術語候選集。
步驟:
1)帶雙引號;
2)雙引號中的字長大于等于1;
3)雙引號中不再有其他標點符號出現。
根據上面的步驟進行法律術語提取,得到了中文法律術語不重復項8022個。該結果還有部分不是法律術語,需要人工或者用其他方法去除。
(二)書名號與法律術語的聯(lián)系
觀察發(fā)現,在BIAS中書名號中的字符串大部分是法律條例,也屬于法律術語。而且書名號和法律術語之間的聯(lián)系沒有雙引號復雜,因此將提取的所有書名號詞串共l 361個記錄在法律術語庫中。
例如:《公司條例》《破產條例》《證券及期貨條例》《法律執(zhí)業(yè)者條例》《資本規(guī)則》《精神健康條例》。
四總結
通過對BLIS語料的特點分析,發(fā)現可以利用BIAS語料中標點符號、法律術語和法律術語定義之間的聯(lián)系來輔助抽取有特殊標記的法律術語和法律術語定義。其中有標點符號特點但不是法律術語或法律術語定義的情況,有待進一步提出排除規(guī)則和其他解決方案。這也說明了某些標點符號在用法上的復雜性。
注釋
①見http://www,1egislation,gOV,hk/
②由于中英文雙引號經常有混用的情況,所以我們在本實驗中,中英文雙引號都考慮進來。
③斷句現象是由于在語料中錯誤的自動切分句子造成的。
④不把“是”作為定義句的特征詞的情況下。
參考文獻
[1]Heribert Picht,Jennifer Draskau,Terminology:An Intmduc·tion[M],University 0f Surrey En~and,1985
[2]GB/T 15834—1995,標點符號用法[s]
[3]馮志偉,現代術語學引論[M],語文出版社,1997
[4]張榕,術語定義抽取、聚類與術語識別研究[D],北京:北京語言文化大學,2003
[5]張艷,漢語術語定義的結構分析和提取[D],北京:中國科學院,2003
[6]那日松,法律術語抽取研究[D],北京:中國傳媒大學,2008