[摘 要]本文以知網(wǎng)知識庫為基礎(chǔ),運(yùn)用語義分析方法,通過語義的相似度計(jì)算實(shí)現(xiàn)在電子文檔中抽取到有用的關(guān)鍵句和關(guān)鍵信息。
[關(guān)鍵詞]電子商務(wù) 語義 關(guān)鍵信息 抽取
一、前言
近年,我國電子商務(wù)投資規(guī)模和發(fā)展處于快速增長和爆發(fā)時期,電子商務(wù)已經(jīng)成為企業(yè)和個人商務(wù)活動中不可或缺的組成部分。面對海量的商品信息,消費(fèi)者如何從這些電子文檔中快速有效的找到有用的信息,成為信息檢索領(lǐng)域的重要研究方向。信息抽取是一個有效的解決方法,是具有較高實(shí)用價值的關(guān)鍵技術(shù)。從已有研究看,運(yùn)用語義方法做信息抽取還相對較少,而信息抽取不可能完全擺脫自然語言模型的影響,語義關(guān)系仍然是實(shí)現(xiàn)信息抽取的基礎(chǔ),比較其他信息抽取技術(shù),能夠提高查全率和查準(zhǔn)率,并降低復(fù)雜度。本文將通過語義分析方法,對電子商務(wù)網(wǎng)站的自由文本做相應(yīng)處理和語義相似度計(jì)算,實(shí)現(xiàn)關(guān)鍵信息抽取。
二、相似度計(jì)算
大部分基于語義做自然語言處理的研究,都是以知網(wǎng)為基礎(chǔ)。知網(wǎng)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。在知網(wǎng)中,詞匯語義的描述被定義為義項(xiàng)(概念),每一個詞可以表達(dá)為幾個義項(xiàng),義項(xiàng)又是由一種知識表示語言來描述的,這種知識表示語言所用的詞匯稱作義原。其語義樹并不涵蓋所有詞語,而將描述詞匯語義的義原用樹狀結(jié)構(gòu)組織起來,義原根據(jù)義原之間的屬性關(guān)系分為多棵義原樹,樹與樹之間存在一定的關(guān)系,形成網(wǎng)狀知識結(jié)構(gòu)。其義原數(shù)量很少,但組合起來可以表達(dá)數(shù)以萬計(jì)詞語。所以將詞語相似度計(jì)算轉(zhuǎn)換為義原相似度計(jì)算可以提高計(jì)算效率,有利于知識庫的擴(kuò)展。
1.詞語相似度計(jì)算
根據(jù)知網(wǎng)的義項(xiàng)描述和義原結(jié)構(gòu),算法可做如下表達(dá),設(shè)定兩個詞語■有n個義項(xiàng)表示■,…,■,■有m個義項(xiàng)表示,■…,■,本計(jì)算中默認(rèn)所有義項(xiàng)的相似度最大值為詞語之間相似度,具體表達(dá)式為:
■ (1)
其中■為■和■的相似度,■為■和■的相似度。這樣就通過計(jì)算義項(xiàng)的相似度值得到義項(xiàng)所對應(yīng)的詞語之間的相似度,最后由計(jì)算義原相似度來實(shí)現(xiàn)。這樣就將相似度計(jì)算由詞語轉(zhuǎn)換為義項(xiàng)最終轉(zhuǎn)換為基本單位義原。通過計(jì)算語義距離及義原之間相對位置關(guān)系得到義原相似度。知網(wǎng)結(jié)構(gòu)中,語義距離是影響義原相似度的基本因素,于是得到經(jīng)驗(yàn)公式通過語義距離計(jì)算義原之間相似度:
■(2)
其中p為義原;d為義原層次結(jié)構(gòu)中路徑長度;為可調(diào)節(jié)參數(shù)。
分析發(fā)現(xiàn),義原的相對位置也是義原之間相對關(guān)系的很大影響因素,對(2)式做出改進(jìn),加入義原相對位置的影響因素h(義原在義原樹中的深度):
■(3)
具體處理文本時總結(jié)發(fā)現(xiàn),實(shí)詞在文本中表達(dá)本質(zhì)含義,而虛詞主要作為詞語之間的連接等。所以,為提高效率,本文在計(jì)算相似度時只計(jì)算實(shí)詞部分。
依據(jù)知網(wǎng)結(jié)構(gòu),將實(shí)詞相似度計(jì)算用下面的計(jì)算完成。
(1) 第一獨(dú)立義原計(jì)算:對兩個義項(xiàng)計(jì)算第一獨(dú)立義原相似度可由式(3)的計(jì)算方法算出,這里記第一獨(dú)立義原為:■。
(2) 其他獨(dú)立義原計(jì)算:相似度記作■,計(jì)算表達(dá)式如下:
■(4)
(3) 關(guān)系義原計(jì)算:兩個義項(xiàng)的相似度記為■,計(jì)算表達(dá)式如下:
■(5)
(4) 符號義原計(jì)算:相似度記作■,基于在義原結(jié)構(gòu)中表示形式相同的原因,符號義原計(jì)算與關(guān)系義原計(jì)算相近,如下式:
■(6)
于是,兩個義項(xiàng)語義表達(dá)式的整體相似度記為
■(7)
鑒于知網(wǎng)結(jié)構(gòu)和描述,第一獨(dú)立義原之外的其他義原相似度是相對獨(dú)立的,對公式進(jìn)行改進(jìn):
■(8)
至此可計(jì)算出兩個實(shí)詞的相似度。
2.句子相似度計(jì)算
這里計(jì)算句子相似度計(jì)算時只計(jì)算實(shí)詞,包括動詞(Verb)、名詞(Noun)、代詞(Pron)、副詞(Adv)、形容詞(Adj)、數(shù)詞(Num)、量詞(Quan)等。即,一個句子可根據(jù)上述分類得到如下集合:{Verb,Noun,Pron,Adv,Adj,Num,Quan}
設(shè)句子Sen經(jīng)過分詞之后包含m 個詞:
■(9)
再根據(jù)實(shí)詞分類,得到分類集合:
■(10)
根據(jù)各個實(shí)詞在句子中所做的成分及作用分析,句子之間相同詞性的詞匯之間相似度可以衡量句子之間的相似度,這里設(shè)兩個句子的實(shí)詞分類集合分別為:
■。
設(shè)動詞集合V的兩個集合為:
■(11)
■(12)
設(shè)句子■和■的相似度矩陣為■,
■(13)
其中■為兩詞相似度。
兩句子動詞集合的相似度:
■(14)
根據(jù)這種方法,即可得到其他分類集合的相似度。那么全句的相似度如下表示(為權(quán)系數(shù)):
■(15)
三、關(guān)鍵句抽取算法
對于目前我們所遇到的絕大多數(shù)電子商務(wù)網(wǎng)頁中的電子文本都具有一定的模式,它的特點(diǎn)是基本符合對商品描述的基本模式,一般包含的基本信息是:品牌、質(zhì)地、顏色、細(xì)節(jié)等。而這些梗概信息也正是要抽取的關(guān)鍵元素。通過對大量文本的觀察、統(tǒng)計(jì)發(fā)現(xiàn),在一個完整的文本中,會存在一個句子完全包含這些關(guān)鍵元素,即關(guān)鍵句。抽取的基本思想是,一個完整文本中的句子,與其它句子或者相關(guān),或者完全不相關(guān)。關(guān)鍵句作為信息量最大的句子與其他句子一定具有相關(guān)性;非關(guān)鍵句之間則是相互獨(dú)立的。根據(jù)這個思想,關(guān)鍵句的抽取有如下算法:輸入:包含自由文本的文檔 ;輸出:代表該文檔的關(guān)鍵信息
步驟:
Step1 將輸入的文檔進(jìn)行句子劃分,得到其句子集D(W)。
Step2 對D(W)的每一個句子進(jìn)行分詞處理,過濾虛詞,形成實(shí)詞集合W{ W1 , W2 ,…, Wn },其中Wi, i=1,2,…n, 為第i個句子對應(yīng)的實(shí)詞集合。
Step3利用公式(15)計(jì)算任意兩個由詞集合表示的句子■的語義相似度,設(shè)為■
Step4 對每個句子與其他所有句子的語義相似度值求和,設(shè)句子■對應(yīng)和值為■則■,n為句子數(shù)目。
Step5 計(jì)算■,并將其對應(yīng)的句子作為關(guān)鍵句輸出。
四、實(shí)驗(yàn)結(jié)果及分析
為評價本算法性能,本實(shí)驗(yàn)使用中國科學(xué)院計(jì)算機(jī)技術(shù)研究所研制的ICTCLAS系統(tǒng)的中文分詞和詞性標(biāo)注功能,用Java語言實(shí)現(xiàn)算法。使用的語料為電子商務(wù)網(wǎng)頁上摘錄的200段文本。以召回率和準(zhǔn)確率作為算法評價指標(biāo):
■(16)
■(17)
具體實(shí)驗(yàn)結(jié)果如圖所示。
從實(shí)驗(yàn)結(jié)果看,本文算法對處理文本的類型具有一定的依賴性,對于主題比較鮮明的文本具有較高的抽取率。而對于同類型語料,不同語料數(shù)量的測試結(jié)果差別不大,因此算法對語料輸入數(shù)量并不敏感,可見本算法能夠保持較高的穩(wěn)定性。體現(xiàn)了語義在自然語言處理中的優(yōu)勢。
參考文獻(xiàn):
[1]董振東,董強(qiáng).知網(wǎng)[EB/OL]. http://www.keenage.com., 2003-
07-12.
[2]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[A].第三屆漢語詞匯語義學(xué)研討會論文集[C],臺北: [s n], 2002. 59-76
[3]牛之賢,白鵬洲,段富.基于框架語義標(biāo)注的自由文本信息抽取研究[J].計(jì)算機(jī)工程與應(yīng)用.2008,44(25) 143~145
[4]金博,史彥君.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào), Mar,2005,Vol.45,No.2 292~297
[5]ZHANG Hua-ping,Yu Hong-kui,Xiong De-yi,etal. HHMM-based Chinese lexical analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics[C]. Sapporo: [s n],2003