摘要:針對(duì)單純的Pre-query和單純的Post-query分類(lèi)方法對(duì)中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)的不足,本文提出了三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法,并且基于該方法設(shè)計(jì)了相應(yīng)的分類(lèi)系統(tǒng)。通過(guò)實(shí)驗(yàn)表明:對(duì)于實(shí)驗(yàn)數(shù)據(jù)源,這種自動(dòng)分類(lèi)方法比單純的Pre-query分類(lèi)方法、單純的Post-query分類(lèi)方法以及無(wú)影響度差別的文獻(xiàn)[2]的分類(lèi)方法的查全率、查準(zhǔn)率和F1值都要高。
關(guān)鍵詞:Deep Web;數(shù)據(jù)源自動(dòng)分類(lèi);中文;三段式
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)14-3599-03
A Three-phase Gradual Refining Data Source Automatic Classification of Chinese Deep Web
HU Ping
(Department of computer, Huaihua University, Huaihua 418000,China)
Abstract: This paper presents a three-phase gradual refining data source automatic classification of Chinese Deep Web, and designs corresponding system based on this method. It has improved simple Pre-query and simple Post-query classification method. Eperiments show that: this method has the highest recall rate, the highest precise rate and the highest F1 value, among simple Pre-query, simple Post-query, our method and document's method that has no difference in effect on classification, for experiment data source.
Key words: Deep Web; Automatic Classification of Data Source; Chinese; Three-phase
1 引言
Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)是當(dāng)前的Deep Web研究中的一個(gè)熱點(diǎn)。它實(shí)現(xiàn)將Deep Web資源按照現(xiàn)實(shí)的領(lǐng)域以自動(dòng)的方式進(jìn)行分類(lèi),以最終提高Deep Web資源的利用率。本文主要研究Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法。目前,該研究還是一個(gè)剛剛起步的過(guò)程。Ipeirotis、Hedley、B.He、Qian Peng、Barbosa L等人 [1-4] 都提出了相應(yīng)的Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法。但是已有的研究工作只單純地采用Post-query或Pre-query方法中的一種,并且絕大部分都忽略了上下文描述內(nèi)容文本的利用和這些依據(jù)信息對(duì)分類(lèi)影響度的差別。此外,中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)研究也很少。
2 三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法
2.1 三個(gè)階段結(jié)合的分類(lèi)策略
單純的Post-query分類(lèi)方法,只依據(jù)查詢(xún)返回的Web數(shù)據(jù)庫(kù)內(nèi)容摘要來(lái)分類(lèi)。由于它返回的結(jié)果畢竟只是數(shù)據(jù)庫(kù)的部分內(nèi)容,而當(dāng)數(shù)據(jù)庫(kù)的記錄具有較多屬性時(shí),這種方法則難以取得較好的分類(lèi)效果。
而單純的Pre-query分類(lèi)方法,只依據(jù)查詢(xún)接口表單網(wǎng)頁(yè)自身的特征來(lái)分類(lèi)。它僅適合數(shù)據(jù)庫(kù)的內(nèi)容可以完全由表單的特征表示出來(lái)的情形,它對(duì)一些查詢(xún)接口表單中不含有任何基于領(lǐng)域特征屬性的Deep Web數(shù)據(jù)源無(wú)法分類(lèi),從而使得這種方法總的分類(lèi)效果不好。尤其是對(duì)中文Deep Web數(shù)據(jù)源,如果僅僅采用這種Pre-query方法,由于有較多的中文數(shù)據(jù)源的查詢(xún)接口是不含有任何基于領(lǐng)域特征屬性的簡(jiǎn)單查詢(xún)接口,其自動(dòng)分類(lèi)效果則會(huì)更加不理想。
為此,本文提出了一種三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法。該方法將Post-query和Pre-query方法有機(jī)地結(jié)合起來(lái),并且設(shè)置了兩種不同的分類(lèi)影響因子,通過(guò)Deep Web查詢(xún)接口表單特征的利用、Deep Web數(shù)據(jù)庫(kù)內(nèi)容摘要的利用以及上下文描述內(nèi)容文本的利用,這三個(gè)階段逐步提高了中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)的效果。
本文的分類(lèi)策略包含以下三個(gè)階段:
1)Deep Web查詢(xún)接口表單特征的利用——作為分類(lèi)的第一階段。因?yàn)樵谒蠨eep Web查詢(xún)接口中有相當(dāng)多的查詢(xún)接口包含有基于領(lǐng)域的特征屬性,并且Deep Web查詢(xún)接口表單特征利用的分類(lèi)影響度遠(yuǎn)遠(yuǎn)超過(guò)了上下文描述內(nèi)容文本,此外,本文的Deep Web數(shù)據(jù)庫(kù)摘要利用方案的基礎(chǔ)是已知查詢(xún)接口是否含有基于領(lǐng)域的特征屬性的,因此,本文使用Pre-query分類(lèi)方法,將其作為分類(lèi)的第一階段。由于Deep Web查詢(xún)接口表單中的控件的文本標(biāo)簽、內(nèi)部名和其值域提供了相應(yīng)的語(yǔ)義和領(lǐng)域相關(guān)信息,因此在這一階段抽取這些表單特征作為分類(lèi)依據(jù)信息并對(duì)其進(jìn)行標(biāo)準(zhǔn)化操作。
2)Deep Web數(shù)據(jù)庫(kù)內(nèi)容摘要的利用——作為分類(lèi)的第二階段。在這一階段又結(jié)合了Post-query分類(lèi)方法,其關(guān)鍵作用是:它能填補(bǔ)第一階段無(wú)法給出任何簡(jiǎn)單Deep
Web查詢(xún)接口及其Web數(shù)據(jù)庫(kù)的所屬領(lǐng)域的空缺。另外,還可以對(duì)高級(jí)Deep Web查詢(xún)接口及其Web數(shù)據(jù)庫(kù)在上一階段得到的可能領(lǐng)域作進(jìn)一步的細(xì)化。在Deep Web數(shù)據(jù)庫(kù)內(nèi)容摘要的利用過(guò)程中,本文從查詢(xún)項(xiàng)選擇出發(fā),根據(jù)返回記錄的關(guān)聯(lián)對(duì)Deep Web數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行獲取并且經(jīng)過(guò)抽取與查詢(xún)相關(guān)的信息形成Deep Web數(shù)據(jù)庫(kù)內(nèi)容摘要,并且將其作為分類(lèi)依據(jù)信息進(jìn)行了標(biāo)準(zhǔn)化操作。
3)上下文描述內(nèi)容文本的利用——作為分類(lèi)的第三階段。由于上下文描述內(nèi)容文本的利用對(duì)Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)的影響要比前兩者小,因此,本文將其單獨(dú)于查詢(xún)接口表單作為第三階段的輔助分類(lèi)。與文獻(xiàn)[2]的方法相比,本文去除了噪音信息,找出了真正的Deep Web上下文描述內(nèi)容文本。本文的上下文描述內(nèi)容文本發(fā)現(xiàn)算法是利用文本塊中出現(xiàn)的滿(mǎn)足上下文描述內(nèi)容文本特征的多少,來(lái)判斷它是上下文描述內(nèi)容文本的可能性的。
2.2 領(lǐng)域的確定
本文中提出的三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法是基于Deep Web數(shù)據(jù)源與領(lǐng)域知識(shí)庫(kù)中主題之間的相似度實(shí)現(xiàn)的。而Deep Web數(shù)據(jù)源與領(lǐng)域知識(shí)庫(kù)中主題之間的相似度又包括:Deep Web查詢(xún)接口表單特征內(nèi)容文本與領(lǐng)域知識(shí)庫(kù)中主題文檔之間的相似度Sim(P,Y),Deep Web數(shù)據(jù)庫(kù)內(nèi)容摘要與領(lǐng)域知識(shí)庫(kù)中主題文檔之間的相似度Sim(D,Y),上下文描述內(nèi)容文本與領(lǐng)域知識(shí)庫(kù)中主題文檔之間的相似度Sim(M,Y)。
在分類(lèi)的第一階段得到的Sim(P,Y);第二階段得到的Sim(D,Y);第三階段得到的Sim(M,Y) ,它們的具體計(jì)算方法描述如下:
1)Deep Web查詢(xún)接口表單抽取特征內(nèi)容文本pdj用一維向量(pw1,j, pw2,j,…, pwt,j)表示,其中pwi,j為權(quán)重。
2)Deep Web數(shù)據(jù)庫(kù)的內(nèi)容摘要CS(D) 用一維向量(w1,w2,w3……wt)表示,其中wi為權(quán)重。
3)Deep Web上下文描述內(nèi)容文本mdj用一維向量(mw1,j, mw2,j,…, mwt,j)表示,其中mwi,j為權(quán)重。
4)領(lǐng)域數(shù)據(jù)庫(kù)中每個(gè)主題描述信息文檔ydj用一維向量 (yw1,j, yw2,j,…, ywt,j)表示,其中ywt,j為權(quán)重。
本文將使用如下余弦相似度公式計(jì)算Sim(P,Y)、Sim(D,Y)以及Sim(M,Y):
下面以Deep Web查詢(xún)接口表單特征內(nèi)容文本與領(lǐng)域知識(shí)庫(kù)中主題文檔之間的相似度Sim(P,Y)的計(jì)算為例來(lái)說(shuō)明Sim(P,Y)、Sim(D,Y)和Sim(M,Y)的計(jì)算方法。
即
由于Deep Web查詢(xún)接口表單特征和數(shù)據(jù)庫(kù)內(nèi)容摘要本身直接就是數(shù)據(jù)源的信息,而上下文描述內(nèi)容文本塊是間接的反映Deep Web查詢(xún)接口及后臺(tái)數(shù)據(jù)庫(kù)內(nèi)容,因此,很顯然上下文描述內(nèi)容文本的利用對(duì)Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)的影響要比這兩者小。在本文的分類(lèi)算法中,設(shè)置兩種不同的分類(lèi)影響因子ud和ux:Deep Web查詢(xún)接口表單特征和數(shù)據(jù)庫(kù)內(nèi)容摘要的利用對(duì)應(yīng)的是較大的影響因子ud,而上下文描述內(nèi)容文本利用對(duì)應(yīng)的是較小的影響因子ux。在本文中將Sim(P,Y), Sim(D,Y), Sim(M,Y)都乘以其相應(yīng)的分類(lèi)影響因子ud或ux,并且將這三項(xiàng)乘積相加就得到數(shù)據(jù)源與領(lǐng)域知識(shí)庫(kù)中主題之間的相似度。因此,可以得到確定Deep Web數(shù)據(jù)源所屬領(lǐng)域的計(jì)算公式,如公式(4):
接下來(lái),就是依據(jù)公式(4)來(lái)確定Deep Web數(shù)據(jù)源其所屬的領(lǐng)域:首先,依據(jù)公式(4)計(jì)算Deep Web數(shù)據(jù)源與領(lǐng)域知識(shí)庫(kù)中主題之間的相似度值,然后將主題(領(lǐng)域)依據(jù)這個(gè)相似度值降序排列,選取k個(gè)與Deep Web數(shù)據(jù)源相似度值最高的主題,該相似度值最高的k個(gè)主題就是這個(gè)Deep Web數(shù)據(jù)源所屬的領(lǐng)域主題。如果每個(gè)數(shù)據(jù)源只屬于一個(gè)主題,即k=1。
2.3 自動(dòng)分類(lèi)系統(tǒng)的設(shè)計(jì)
圖1是三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)系統(tǒng)的模型圖。
該分類(lèi)系統(tǒng)輸入的是包含Deep Web 查詢(xún)接口的頁(yè)面和數(shù)據(jù)庫(kù)(即,一個(gè)數(shù)據(jù)源);輸出的是該數(shù)據(jù)源所屬的領(lǐng)域主題;它主要由第一階段模塊、第二階段模塊、第三階段模塊以及領(lǐng)域確定模塊組成。在圖中,領(lǐng)域知識(shí)庫(kù)主要為上述模塊中的相似度比較提供領(lǐng)域主題文檔。本文的領(lǐng)域知識(shí)庫(kù)主要參照了雅虎中文的分類(lèi)目錄體系,使用了其分類(lèi)目錄的前一、二層作為主題和子主題,并且使用一個(gè)主題目錄下所有子目錄中出現(xiàn)的所詞匯集合作為該大主題(領(lǐng)域)的描述信息。該系統(tǒng)還對(duì)各個(gè)模塊的分類(lèi)依據(jù)信息進(jìn)行了標(biāo)準(zhǔn)化,該過(guò)程包括:“基于‘詞元’的中文分詞”、“同義詞替換”和“以空間向量模型表示”幾個(gè)部分。本文中的“詞元”字典和同義詞字典都是以雅虎中文分類(lèi)目錄詞為基礎(chǔ)的,并與分類(lèi)領(lǐng)域密切相關(guān)。
3 實(shí)驗(yàn)
本文針對(duì)中文站點(diǎn),在前文所述的自動(dòng)分類(lèi)系統(tǒng)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集是人工收集的392個(gè)中文數(shù)據(jù)源,表1給出了這些Deep Web數(shù)據(jù)源人工分類(lèi)結(jié)果。
本文將三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法分別與單純的Pre-query分類(lèi)方法、單純的Post-query分類(lèi)方法、無(wú)影響度差別的文獻(xiàn)[2]的分類(lèi)方法進(jìn)行了比較實(shí)驗(yàn),并采用了評(píng)估文本分類(lèi)的指標(biāo):查準(zhǔn)率、查全率和F1值。實(shí)驗(yàn)結(jié)果如表2所示。
從表2可知:對(duì)于實(shí)驗(yàn)數(shù)據(jù)源,本文的自動(dòng)分類(lèi)方法比單純的Pre-query分類(lèi)方法、單純的Post-query分類(lèi)方法以及無(wú)影響度差別的文獻(xiàn)[2]的分類(lèi)方法的分類(lèi)效果都要好(查全率、查準(zhǔn)率和F1值都有相應(yīng)的提高),對(duì)其方法都起到了一定的改進(jìn)作用。
表2 幾種自動(dòng)分類(lèi)方法的分類(lèi)結(jié)果比較
4 結(jié)論
本文的三段式逐步求精的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法將Post-query和Pre-query方法有機(jī)地結(jié)合起來(lái),并且設(shè)置了兩種不同的分類(lèi)影響因子,通過(guò)三個(gè)階段逐步提高了中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)的效果。
本文的貢獻(xiàn)在于:它解決了單純的Pre-query分類(lèi)方法無(wú)法對(duì)不包含任何基于領(lǐng)域特征屬性的簡(jiǎn)單Deep Web查詢(xún)接口表單所對(duì)應(yīng)的數(shù)據(jù)源分類(lèi)的問(wèn)題;并且解決了單純的Post-query分類(lèi)方法,在Deep Web數(shù)據(jù)庫(kù)的記錄具有較多屬性時(shí),其分類(lèi)結(jié)果的查準(zhǔn)率、查全率和F1值比較低的問(wèn)題。還提出了三種分類(lèi)依據(jù)信息對(duì)自動(dòng)分類(lèi)的影響度有差別的問(wèn)題,改進(jìn)了文獻(xiàn)[2]自動(dòng)分類(lèi)方法。它為目前的中文Deep Web數(shù)據(jù)源自動(dòng)分類(lèi)方法研究提供了一種新的參考。
參考文獻(xiàn):
[1] B He, T Tao, K C C Chang. Organizing structured web sources by query schemas: a clustering approach[C]. In Proceedings of the 13th Conference on Information and Knowledge Management. Washington: ACM Press,2004.22-31.
[2] Barbosa L, Freire J, Silva A. Organizing hidden-Web databases by clustering visible Web documents. In: Doqac A, ed. Proc. of IEEE the 23rd Int’l Conf. on Data Engineering.I stanbul: IEEE Computer Society, 2007. 326-335.
[3] Yih-Ling Hedley, Muhammad Younas, Anne E James. The categorisation of hidden web databases through concept specificity and coverage[C].In proceedings of the 2005 international workshop on web and mobile information Systems,2005:371-376.
[4] 劉偉,孟小峰,孟衛(wèi)一.Deep Web數(shù)據(jù)集成問(wèn)題研究.科技報(bào)告,WAMDM-TR-2006.3-7.