何焱,丁玲
1.遵義醫(yī)藥高等??茖W校,貴州遵義563002 2.哈爾濱工業(yè)大學深圳研究生院,廣東深圳518055
關于領域語料庫的研究
何焱1,丁玲2
1.遵義醫(yī)藥高等??茖W校,貴州遵義563002 2.哈爾濱工業(yè)大學深圳研究生院,廣東深圳518055
在網(wǎng)絡信息愈加龐雜的背景下,分類技術被廣泛的采用,但分類技術一般都需要標準的語料作為訓練集,而這些語料往往是通過人工標注的方法來滿足其標準性和準確性。這樣開發(fā)周期相對較長、工作量大,而且不易改變分類。本文針對這一問題,研究如何根據(jù)各領域網(wǎng)站的本體結(jié)構從中獲取語料并將這些語料按照給定的分類體系重新組織凈化,最終獲得高質(zhì)量的分類語料庫。
語料庫;本體結(jié)構;分類體系
1992年以來,中國大量的研究中文處理的單位分別建立起來語料庫[1],中文信息處理的研究中,語料庫是基本的語言資源。中文信息處理離不開語料庫的支持,重要性越顯突出。中文語料庫迅速發(fā)展,包括通用語料庫,平行語料庫和學習者語料庫等[2]。比較有代表性的通用語料庫是人民日報語料庫。另外清華大學的大型中文語料庫收集了多種分類,可用于處理語言信息的各個方面[3]。
在自然語言處理研究領域,語料的重要性不言而喻,無論是文本分類、文本聚類、自動文摘、問答等經(jīng)典的自然語言處理研究課題,都需要大量的經(jīng)標注的語料進行實驗。然而,經(jīng)標注的語料通常難以獲得,未標注的語料獲取較為容易,因此語料標注就成了各種自然語言處理研究工作不可缺少的一項工作。許多自然語言領域的專家借助社會標注的力量完成了語料庫建設。但是社會標注應用到語料庫建設中具有一定的局限性,如隨意性、不一致性、不可控性等。對特定領域來說,此領域的專業(yè)網(wǎng)站所帶來的信息更為豐富,這些信息里就含有了領域本體,可以將這些網(wǎng)站里的信息看作是標注好的語料來加以利用,本文主要研究基于錨文本的領域語料庫的研究。
1.1 網(wǎng)站本體結(jié)構分析與提取
1.1.1 網(wǎng)站本體結(jié)構分析對于特定領域的網(wǎng)站來說,信息總是會按照該領域的某一分類體系進行劃分并放在不同的頁面里??梢哉f,這個網(wǎng)站的結(jié)構中就包含了該領域的本信息[4]。直觀的看,網(wǎng)站信息可以被組織成一種層次結(jié)構,例如,進入Yahoo網(wǎng)站,會沿著目錄層次Home>Science>Biology>Zoology>Animals,Insects,and Pets去搜索有關Animals,Insects,and Pets的內(nèi)容,該條路徑也明顯地指出了Animals,Insects,and Pets在生物學科中所屬的分類。該網(wǎng)站的領域本體信息可以從圖里抽象出來形成一棵樹,該樹所表現(xiàn)的就是這個網(wǎng)站的本體結(jié)構。例如健康領域的權威網(wǎng)站39健康網(wǎng)//www.39.net,我們可以從它的主頁導航欄如圖1上看出該網(wǎng)站的明顯的信息分類情況。
圖1 39健康網(wǎng)主頁導航Fig.1 39 Health Net homepage navigation
根據(jù)首頁,我們可以將它的網(wǎng)站結(jié)構表示成一個層級分明的結(jié)構圖(圖2):
圖2 39健康網(wǎng)網(wǎng)站機構圖Fig.2 39 Health Net site organization chart
通過對大量的領域網(wǎng)站結(jié)構進行分析,本文得出一個結(jié)論,領域網(wǎng)站的拓撲結(jié)構中蘊含了該領域的本體結(jié)構,或者說可以從領域網(wǎng)站的拓撲結(jié)構中獲取領域本體結(jié)構。
1.1.2 基于網(wǎng)頁結(jié)構及錨文本信息的網(wǎng)站本體結(jié)構提取領域網(wǎng)站的網(wǎng)頁在視覺上可以看出明顯的分塊,通常每一個分塊就代表一個本體類別。通過分析大量的領域網(wǎng)站首頁本文發(fā)現(xiàn),每一個分塊的標題一般都是一個錨文本鏈接,該鏈接指向的網(wǎng)頁是該分類的首頁,本文稱之為二級首頁,類似地的會有三級首頁、四級首頁……。
這些首頁中的分塊信息體現(xiàn)在網(wǎng)頁源文件里就是一系列的<table>標簽或<div>標簽加上錨文本鏈接。<table>標簽或<div>標簽體現(xiàn)了網(wǎng)頁的結(jié)構,錨文本鏈接給出了該結(jié)構對應的本體信息,因此我們可以利用這兩者的結(jié)合來構造一個領域網(wǎng)站所蘊含的本體結(jié)構樹。
首先,對首頁源文件進行處理,過濾掉非<table>標簽或<div>標簽同時保留鏈向本站的錨文本鏈接,對于前后都被文本包圍的鏈接由于其一般屬于網(wǎng)站的關鍵詞導航,不具有實際意義,所以將其也過濾掉。因為網(wǎng)站一般含有廣告鏈接,而這些鏈接是不鏈接到本站的,所以可以通過判斷該錨文本鏈接的指向來將廣告鏈接去掉。這些經(jīng)過濾后形成的源文件具有如下形式,本文稱之為結(jié)構化源文件:
然后追蹤里面的錨文本鏈接,從而獲得二級、三級等首頁的結(jié)構化源文件。通過處理這些源文件,我們可以近似的構造出本體結(jié)構樹。
具體算法描述如下:
在系統(tǒng)實驗的過程中,我們保留了一下四種情況的實驗結(jié)果:
(1)完全匹配路徑的情況下,無類別同義詞輸入
(2)完全匹配路徑的情況下,有類別同義詞輸入
(3)非完全匹配路徑的情況下,無類別同義詞輸入
(4)非完全匹配路徑的情況下,有類別同義詞輸入
為了驗證系統(tǒng)的有效性,我們在系統(tǒng)經(jīng)過以上四種情況的每種情況下,系統(tǒng)生成結(jié)果的17個類別中隨機選擇10個類別,并且每個類別中隨機選出100篇文本作為訓練集,另外100篇文本作為測試集使用。并且本章將從多個方面考察生成的文本語料庫中文本標注的準確性。
2.1 評價方法
為了評價本系統(tǒng)生成的文本語料庫的性能,需要借助于對文本分類性能的評價標準。而評價文本分類的整體性能時,最常用的方法是用F-Measure[5]值來表示,F(xiàn)-Measure值越大,分類的性能就越高。
在統(tǒng)計學中,F(xiàn)-Measure值是測試準確率的測量方法。在計算F-Measure值的過程中需要計算兩個變量:準確率(precision)p和召回率(recall)r,這兩者的計算方法如下:
其中:nij——分類前標注為類別i,分類后仍然分為類別i的文檔數(shù)
ni——分類后類別i所含有的文章總數(shù)
mi——分類前被標注為類別i的文檔總數(shù)
傳統(tǒng)的F-Measure值計算方法是準確率與召回率的調(diào)和平均數(shù):
平均準確率和平均召回率分別為:
總的F-Measure值為加權平均值:
2.2 實驗結(jié)果及分析
實驗由以下兩大部分組成:人工識別文本語料的準確率;根據(jù)分類結(jié)果分析。下文中所涉及到的“完全路徑匹配”定義是完全按照給定分類體系所指定的分類路徑匹配情況下所獲得的文本。而“非完全路徑匹配”是指路徑部分匹配,一般是最下層部分分類。
2.2.1 人工判斷語料庫自動構建系統(tǒng)獲得文本的準確率本系統(tǒng)所采用的聚類算法是凝聚層次聚類(Agglomerative Hierarchical Clustering,AHC)算法,因此需要對參數(shù)進行調(diào)整。參數(shù)調(diào)整范圍為0~1,我們對參數(shù)分別取值0.1、0.5、0.9三個值。表1分別是每組參數(shù)中隨機取5個分類的準確率統(tǒng)計:
表1 凝聚層次聚類參數(shù)調(diào)整文本準確率Table 1Agglomerative hierarchical clustering accuracy parameter adjustment text
根據(jù)以上實驗得出結(jié)論:針對于本系統(tǒng),結(jié)合聚類算法的最佳聚類參數(shù)為0.1。我們?nèi)∽詈蠼Y(jié)果,則之后的實驗分析將針對這個參數(shù)進行。
2.2.2 根據(jù)隨機抽取5類的分類結(jié)果分析因為本系統(tǒng)的目標是自動構建標準的文本語料庫,那么驗證系統(tǒng)結(jié)果的最好方式就是用系統(tǒng)生成的文本做文本訓練集,應用在文本分類中,從而分析語料庫的優(yōu)劣。
將文本集抽象為向量空間模型,其中特征抽取部分利用TF-IDF來表示每個詞在文章中的權重。這里我們還是對非完全路徑匹配且有同義詞的方法所獲得的數(shù)據(jù)進行實驗。在其中隨機抽取出5個類別進行分類,每個類別隨機取100篇文章作為文本訓練集,另外,100篇文章作為測試集,測試集與訓練集是完全不重合的,并且是人工標注的標注測試集,而且以下所有分類均基于本測試集進行測試,以保證分析結(jié)果的有效性與準確性。實驗采用開源代碼決策樹C4.5進行分類。
2.2.2.1 人工標注語料庫進行分類我們對每個類別均人工標注區(qū)別于測試語料的100篇文本,通過分類器分類結(jié)果如圖3,以下為了更清楚的表達分類結(jié)果,都用表2的形式表示。其中,行標表示目標分類,列標表示實際分類。
表2 人工標注領域語料庫分類數(shù)據(jù)Table 2 Corpus annotation field of artificial classification data
根據(jù)上述數(shù)據(jù)我們計算如下:
設F(i)是類別i的F值,則,
F(1)=0.959F(2)=0.929F(3)=0.949F(4)=0.974
F(5)=0.990
可得分類平均準確率、平均召回率、以及F值:
平均準確率:96.2%
平均召回率:96.0%
F值:0.961
2.2.2.2 聚類后語料庫分類聚類后對以上分類分別隨機抽取100篇文本作為分類器的訓練集,分類結(jié)果見表3:
表3 聚類后領域語料庫分類數(shù)據(jù)Table 3After clustering categorical data domain corpus
圖3 人工標注領域語料庫分類結(jié)果Fig.3 Corpus annotation field of artificial classification results
根據(jù)上述數(shù)據(jù)可得分類平均準確率、平均召回率、以及F值:
平均準確率:94.8%
平均召回率:94.4%
F值:0.946
2.2.3 根據(jù)獨立的全部14類的分類結(jié)果分析根據(jù)以上實驗,我們確定了聚類時所使用的文本間相似度為0.1時效果較好。但是以上實驗是采用隨機抽取5個分類的樣本進行分析的,具有較大的局限性,所以我們接下來設計了用相互獨立的全部14個類別抽樣進行分類訓練,對比分類效果。
2.2.3.1 人工標注語料庫進行分類我們?nèi)匀粚γ總€類別均人工標注區(qū)別于測試語料的100篇文本,通過分類器分類結(jié)果如表4中,行標表示目標分類,列標表示實際分類。由于分類比較多,表格里省去了類別名稱,這里用類別編號代替。其中的5(健身)、8(養(yǎng)生)、16(美容)均為大分類,即包含了其他分類的分類,這里不參與分類實驗對比。
根據(jù)下述數(shù)據(jù)我們計算可得分類平均準確率、平均召回率、以及F值:
平均準確率:83.1%
平均召回率:81.2%F值:0.821
表4 人工標注領域語料庫分類數(shù)據(jù)Table 4 Corpus annotation field of artificial classification data
2.2.3.2 聚類后語料庫分類聚類后對14個分類分別隨機抽取100篇文本作為分類器的訓練集,分類結(jié)果如表5:
表5 聚類后領域語料庫分類數(shù)據(jù)Table 5After clustering categorical data domain corpus
根據(jù)上述數(shù)據(jù)我們計算可得分類平均準確率、平均召回率、以及F值:
平均準確率:79.8%
平均召回率:78.6%
F值:0.792
本文通過對大量領域網(wǎng)站的網(wǎng)站結(jié)構進行分析,總結(jié)了領域網(wǎng)站組織信息的規(guī)律,采用基于網(wǎng)頁結(jié)構及錨文本信息的方法提取出了領域網(wǎng)站的本體結(jié)構。同時用大量的實驗數(shù)據(jù)證明語料庫自動構建技術切實有效。
[1]劉華.超大規(guī)模分類語料庫構建[J].現(xiàn)代圖書情報技術,2006(1):70-73
[2]衛(wèi)乃興.2003年上海語料庫語言學國際會議述評[J].解放軍外國語學院報,2004(1):56-59
[3]王建新.我國在語料庫語言學研究方面的部分發(fā)展[J].大連外國語學院報,1999(3):17-20
[4]Fang J,Guo L,Niu Y.Documents classification by using ontology reasoning and similarity measure[C].Yantai:Fuzzy Systems and Knowledge Discovery,2010:1535-1539
[5]Li X,Wang Y,Acero A.Learning query intent from regularized click graphs[C].New York:Proceedings of the 31st SIGIR Conference,2008:339-346
Research on Corpus in a Field
HE Yan1,DING Ling2
1.College of Zunyi Medical and Pharmaceutical,Zunyi 563002,China 2.Harbin Institute of Technology Shenzhen Graduate School,Shenzhen 518055,China
Under the more complex background of a network information,classification technology is widely adopted. Classification techniques generally required standard corpus as a training set,and these data go often through the method of manual annotation to meet their standards and accuracy.Therefore,it is relatively long to develope,and has a heavy workload, and it is not easy to change the classification.Aiming at this problem,the study on how to obtain data from the ontology structure of field websites and then to reorganize and purify according to the given classification system.In the end,to get the high qualitative classified corpus.
Corpus;ontology structure;classification system
TP392
A
1000-2324(2014)03-0360-06
2012-12-22
2013-01-18
互聯(lián)網(wǎng)醫(yī)學信息自主整合方法研究(黔科合J字[2013]2335號)
何焱(1975-),女,碩士,副教授.研究方向:計算機網(wǎng)絡應用、數(shù)量處理.E-mail:190792074@qq.com