寇宛秋,李 芳
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海200240)
當(dāng)今社會(huì)已經(jīng)進(jìn)入信息大爆炸的時(shí)代,信息量以幾何級(jí)別速度不斷增加。據(jù)調(diào)查顯示,《紐約時(shí)報(bào)》一周的信息量相當(dāng)于17世紀(jì)學(xué)者畢生所能接觸到的信息量的總和。伴隨著信息爆炸的是信息匱乏,海量的信息魚龍混雜,收集信息所花費(fèi)的成本已經(jīng)超過了信息本身的價(jià)值。如何獲取有價(jià)值的信息,已經(jīng)成為信息爆炸時(shí)代極為重要的議題。
話題模型被普遍用來解決這個(gè)問題。話題通常被表示成詞項(xiàng)的概率分布,話題模型通過對(duì)文檔集進(jìn)行降維,將詞項(xiàng)空間中的文檔變換到話題空間,模擬文檔的生成過程。在話題模型中,一個(gè)話題用一組關(guān)鍵詞來表示,有些話題有一個(gè)明確的語義信息,例如,“房價(jià)”、“住房”、“土地”、“市場、“上漲”,有些話題沒有,例如,“網(wǎng)友”、“創(chuàng)意”、“得意”、“廣電總局”、“影像”。因此,在實(shí)際應(yīng)用中,需要一個(gè)標(biāo)簽來表示話題的語義信息。相對(duì)于單個(gè)詞項(xiàng),短語能夠表示較完整的語義信息,如何從話題模型中得到更具解釋性的短語描述,作為話題的標(biāo)簽是本文研究的目的。
本文的組織結(jié)構(gòu)如下:第2節(jié)主要介紹相關(guān)工作,第3節(jié)是話題標(biāo)簽抽取方法的描述,第4節(jié)是實(shí)驗(yàn)結(jié)果和分析,第5節(jié)是結(jié)論和展望。
話題模型應(yīng)用最廣的是LDA模型,是DAVID BLEI在2003年提出的[1]。之后很多研究者基于文檔特點(diǎn)對(duì)LDA做了很多拓展,例如,Blei在2004年提出的Hierarchical LDA[2],將話題間的結(jié)構(gòu)描述為樹;Hidden Topic Markov Model(HTMM)[2]用句子的分布來表示話題;Author Topic Model(ATM)[3]在話題模型中引入作者信息,用以處理科技文獻(xiàn)。
話題標(biāo)簽抽取研究可以分為四種方法,第一種是調(diào)整話題模型結(jié)果的權(quán)重,例如,Weighted Latent Dirichlet Allocation(WLDA)模型[4],在 LDA模型中,每個(gè)單詞都被等同看待,而WLDA為每個(gè)單詞賦予一個(gè)不同的權(quán)重。很多特征權(quán)重被用在該模 型 中,例 如,Pointwise Mutual Information(PMI),CHI測(cè)試,信息增益等。本文方法采用了WLDA的思路,利用權(quán)重公式對(duì)LDA建模結(jié)果進(jìn)行權(quán)重調(diào)整處理。
第二種方法是采用短語為單元描述話題,傳統(tǒng)話題模型采用單個(gè)詞語作為話題關(guān)鍵詞,而一些研究者用短語取代單個(gè)詞語。例如,Multiword-Enhanced Author Topic Model[5],該模型根據(jù)詞性標(biāo)注信息抽取符合特定短語模式的短語,然后基于這些短語和單詞構(gòu)建話題模型。本文方法采用這一思想,用短語取代單詞表示話題。
第三種方法是在話題結(jié)果中引入語義信息,例如,POSLDA 模 型[6],該 模 型 是 LDA 模 型 和HMMLDA模型[7]的擴(kuò)展,該模型將文檔中的詞項(xiàng)分為三個(gè)類別,形容詞、動(dòng)詞和名詞,可以表示話題涉及的事物、動(dòng)作和描述信息。
第四種方法是對(duì)LDA生成的話題結(jié)果進(jìn)行組合處理,例如,Turbo Topic[8],該方法基于 LDA 的結(jié)果抽取可能的短語。算法步驟如下:
(1)對(duì)文檔進(jìn)行LDA建模,得到文檔-話題分布,詞項(xiàng)-話題分布和每個(gè)單詞所屬話題的詞對(duì):
(2)對(duì)每一個(gè)單詞,判斷該單詞周圍的單詞是否和該單詞屬于同樣的話題,如果屬于,則這兩個(gè)單詞可能組成一個(gè)短語,再根據(jù)似然估計(jì),判斷它們是否可以組成短語,如果可以,則加入到短語集合中;
(3)重復(fù)步驟(2),直到找不出新的短語。
本文綜合了以上幾種方法,引入了特征權(quán)重、詞性分析、短語表示等因素,產(chǎn)生話題的標(biāo)簽,有效提高了話題模型結(jié)果的可解釋性。
話題標(biāo)簽信息是話題內(nèi)容的概括與總結(jié),能夠綜合地反映話題內(nèi)容,增強(qiáng)話題的可解釋性。表1展示了LDA建模生成的話題信息和采用本文方法抽取的話題標(biāo)簽信息。
表1 話題信息與對(duì)應(yīng)的話題標(biāo)簽
表2為本文使用到的主要符號(hào)和定義。
表2 話題標(biāo)簽抽取研究涉及的符號(hào)
話題標(biāo)簽抽取方法主要包括四個(gè)步驟:話題建模,種子詞抽取,關(guān)鍵短語抽取和話題標(biāo)簽選擇。話題建模是利用LDA模型對(duì)輸入的文本集合進(jìn)行建模,種子詞抽取是對(duì)LDA話題結(jié)果進(jìn)行重排序,選擇權(quán)重最大的前三個(gè)詞作為種子詞,關(guān)鍵短語生成是根據(jù)種子詞和其他詞匯出現(xiàn)次數(shù)等信息生成短語,話題標(biāo)簽選擇是從這些短語中選擇最終話題標(biāo)簽。
根據(jù)文獻(xiàn)[9]提出的LDA結(jié)果重排序方法,根據(jù)下面公式對(duì)LDA結(jié)果,調(diào)整話題詞項(xiàng)的權(quán)重,進(jìn)行重排序。
TF-IDF被廣泛用于評(píng)估詞項(xiàng)在文檔中的重要性。詞項(xiàng)在文檔中出現(xiàn)的次數(shù)越多,包含該詞項(xiàng)的文檔數(shù)目越少,就越重要。wi在話題zj中的重要性權(quán)重計(jì)算如式(1)所示。
(b)話題覆蓋度
用于計(jì)算一個(gè)話題在文檔集合上的覆蓋程度,覆蓋度高的話題中詞項(xiàng)的權(quán)重更大。話題覆蓋度用一個(gè)話題在所有文檔中的概率之和除以總文檔數(shù)來表示(如式(2)所示)。
(c)PMI
PMI統(tǒng)計(jì)概率分布中兩個(gè)變量的相關(guān)性,公式如式(3)所示。
詞匯wi與同一話題(top-10)中其他9個(gè)詞匯越相關(guān),則該詞匯的權(quán)重越高,某一詞匯的關(guān)聯(lián)度計(jì)算用PMI的平均值。
因此,結(jié)合 TF-IDF,覆蓋度以及和PMI,權(quán)重計(jì)算公式如式(4)所示。
根據(jù)式(4),對(duì)每個(gè)話題前十個(gè)單詞進(jìn)行權(quán)重重排序,選出前三個(gè)單詞作為關(guān)鍵短語抽取的種子詞。
初始關(guān)鍵短語集合等于種子詞集合,運(yùn)用bootstrapping算法迭代生成短語,當(dāng)短語的權(quán)重大于閾值,則加入到關(guān)鍵短語集合中。用Wseed表示種子詞集合,用P表示關(guān)鍵短語集合(初始階段等于Wseed),用 WLDA表示LDA話題前十個(gè)詞。短語(p1,p2)同時(shí)滿足下述條件,則為關(guān)鍵短語:
(1)p1,p2是屬于P∪WLDA中的任意短語或單詞
(2)p1,p2中至少有一個(gè)屬于P
(3)(p1,p2)的權(quán)重大于閾值
算法1描述了關(guān)鍵短語生成的過程。
算法1 話題關(guān)鍵短語生成算法
在抽取出關(guān)鍵短語后,需要從關(guān)鍵短語集合中最終選出解釋性強(qiáng)的短語作為話題標(biāo)簽。本文提出兩種標(biāo)準(zhǔn)選擇話題標(biāo)簽:短語的完整性和泛化度。
3.3.1 短語完整性標(biāo)準(zhǔn)
湖州市推動(dòng)綠色礦業(yè)發(fā)展的實(shí)踐與展望(龔西征) ........................................................................................9-13
根據(jù)實(shí)驗(yàn)結(jié)果,有些權(quán)重最高的關(guān)鍵短語缺乏關(guān)鍵信息,例如,關(guān)鍵短語“卡恩涉嫌”、“同比增長”、“中方支持”。這些短語在語義上并不完整,“卡恩涉嫌”缺少賓語,“同比增長”缺少主語,“中方支持”缺少賓語。大部分不完整的短語均是動(dòng)詞性短語。因此,短語完整性規(guī)則如下:如果關(guān)鍵短語集合中權(quán)重最高的短語是動(dòng)詞詞組,而且缺少主語或賓語,則按照完整性規(guī)則,在關(guān)鍵短語集合中重新選擇。
判斷以及選擇方法如下:
假設(shè)關(guān)鍵短語集合P中權(quán)重最高的短語為pmax,那么有以下兩種情況。
(1)如果該短語第一個(gè)詞為動(dòng)詞,或者第一個(gè)動(dòng)詞前沒有名詞,則判定短語pmax缺乏主語;
(2)如果該短語最后一個(gè)詞為動(dòng)詞或者最后一個(gè)動(dòng)詞后面沒有名詞,則判定pmax缺乏賓語。
對(duì)于判定缺乏主語或賓語的短語pmax,在關(guān)鍵短語集合P中,按權(quán)重從高到低的順序搜索滿足如下條件的短語p,作為最后的標(biāo)簽:
(1)p包含短語pmax;
(2)p中含有主語(動(dòng)詞前的名詞)或賓語(動(dòng)詞后的名詞)。
實(shí)驗(yàn)發(fā)現(xiàn)了另一種現(xiàn)象,即權(quán)重最高的關(guān)鍵短語只是描述話題特定的方面,例如,“治理北京大氣污染”,而其他的關(guān)鍵短語為“大氣污染”“大氣污染防治”,更好的描述短語是“大氣污染”。這類短語一般是名詞性短語,為了解決這種問題,本文引入概念泛化規(guī)則:關(guān)鍵短語集合中權(quán)重最高的短語,如果是名詞短語,則根據(jù)該集合中其他詞匯進(jìn)行泛化,選擇關(guān)鍵短語最大的公共子串作為該話題的標(biāo)簽。
具體步驟如下:
計(jì)算關(guān)鍵短語集合P中短語p的泛化度。
(a)對(duì)于同時(shí)滿足條件i和條件ii的短語p,按照式(5)計(jì)算泛化度
i.短語p屬于P中權(quán)重最高的三個(gè)短語或者權(quán)重前三的短語包含p;
ii.P中至少存在兩個(gè)包含p的短語
(b)對(duì)于不滿足(a)中條件的短語p,按照式(6)計(jì)算泛化度。話題標(biāo)簽根據(jù)如下規(guī)則得出:
實(shí)驗(yàn)共選取了兩個(gè)語料集進(jìn)行測(cè)試:2013年兩會(huì)新聞數(shù)據(jù)集和在2009至2013年發(fā)生的新聞事件集合。先預(yù)處理,分詞并抽取名詞動(dòng)詞形容詞,去掉單個(gè)字以及高頻低頻詞,然后用LDA對(duì)其進(jìn)行建模。實(shí)驗(yàn)設(shè)置參數(shù)α==0.01,其中K為話題數(shù)目。我們采取了一套自適應(yīng)的話題數(shù)目計(jì)算方法,根據(jù)新聞文本數(shù)目以及信息量隨時(shí)間的變化趨勢(shì)確定話題數(shù)目[9]。表3是不同事件對(duì)應(yīng)的新聞數(shù)目、詞匯數(shù)目、話題數(shù)目等信息,按照話題數(shù)目從小到大的順序展示。
話題標(biāo)簽抽取方法對(duì)新聞?wù)Z料進(jìn)行處理,主要包括三個(gè)步驟:種子詞抽??;關(guān)鍵短語集合生成;話題標(biāo)簽選擇。表4和表5分別展示了事件語料話題標(biāo)簽抽取實(shí)驗(yàn)和兩會(huì)語料話題標(biāo)簽抽取實(shí)驗(yàn)各步驟的結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,種子詞抽取方法能夠有效去除話題背景詞,抽取相關(guān)的重要詞匯。例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題2,話題關(guān)鍵詞中有很多背景詞,例如,“臺(tái)灣”“馬英九”等,根據(jù)3.1節(jié)提出的權(quán)重公式計(jì)算后,降低了背景詞的權(quán)重,提高了“兩岸關(guān)系”等詞匯的權(quán)重,更能反映話題的語義信息。
表3 實(shí)驗(yàn)語料說明
表4 事件語料話題標(biāo)簽抽取結(jié)果
表5 兩會(huì)語料話題標(biāo)簽抽取結(jié)果
關(guān)鍵短語生成步驟可以產(chǎn)生有效的話題關(guān)鍵短語,例如臺(tái)灣領(lǐng)導(dǎo)人選舉事件中能夠生成和事件有關(guān)的“臺(tái)灣領(lǐng)導(dǎo)人選舉”、“臺(tái)灣領(lǐng)導(dǎo)人”等短語;2011年春節(jié)事件中能夠生成“回家過年”、“燃放煙花”等短語;兩會(huì)事件話題58中能夠生成和文化領(lǐng)域相關(guān)的“傳統(tǒng)文化”、“文化遺產(chǎn)”等。
根據(jù)完整性和泛化規(guī)則選擇的標(biāo)簽可以給出話題特定的語言信息,例如,2011春節(jié)話題4,“接待游客同比增長”而不是缺乏主語的“同比增長”。另一方面,臺(tái)灣領(lǐng)導(dǎo)人話題2“兩岸關(guān)系”作為標(biāo)簽,“兩岸關(guān)系”的泛化程度比“兩岸和平”高;例如,兩會(huì)話題30,話題標(biāo)簽“經(jīng)濟(jì)轉(zhuǎn)型”更能概括話題關(guān)鍵短語的信息。
4.3.1 精度評(píng)測(cè)
人工評(píng)測(cè)話題的標(biāo)簽是否符合話題的語義。評(píng)測(cè)需要的數(shù)據(jù)是話題標(biāo)簽以及該話題所占權(quán)重最大的文檔標(biāo)題。評(píng)測(cè)者根據(jù)新聞?lì)}目人工總結(jié)出關(guān)鍵短語,并和自動(dòng)抽取的話題標(biāo)簽進(jìn)行比較,語義相關(guān)的判定話題標(biāo)簽正確,評(píng)分為1,部分相關(guān)的評(píng)分0.5,不相關(guān)的為0。例如,人工總結(jié)的短語是“兩岸和平”,計(jì)算機(jī)抽取的是“兩岸關(guān)系”,則該標(biāo)簽的精度為0.5;例如,人工總結(jié)的短語是“救援情況”,計(jì)算機(jī)抽取的標(biāo)簽是“登陸美國”,則該標(biāo)簽的精度是0。
本文實(shí)驗(yàn)中有兩位評(píng)測(cè)者對(duì)全部語料進(jìn)行評(píng)測(cè)。計(jì)算出的精度如表6所示。結(jié)果顯示,話題標(biāo)簽抽取方法在兩會(huì)語料的精度可以達(dá)到39.5%,在事件語料上的精度可以達(dá)到27.9%。
表6 實(shí)驗(yàn)評(píng)測(cè)結(jié)果
根據(jù)實(shí)驗(yàn)評(píng)測(cè)結(jié)果,可以得到如下結(jié)論。
(a)話題標(biāo)簽抽取方法能較好的總結(jié)話題內(nèi)容,所抽取的標(biāo)簽短語由話題關(guān)鍵詞組成,能夠表示特定的語義信息。
(b)兩會(huì)語料的精度要高于事件語料,主要因?yàn)閮蓵?huì)語料討論的是話題,有一些固定的主題,例如,“國防軍事”“教育”“住房問題”等,兩會(huì)語料中抽取的話題標(biāo)簽往往由名詞性短語組成。而事件的話題信息比較特定,包括與事件有關(guān)的信息,事件語料中抽取的話題標(biāo)簽有很多包含動(dòng)詞短語,反映事件特定的信息。
線索標(biāo)簽抽取方法存在不足,最主要是精度較低,這是因?yàn)楸疚奶岢龅年P(guān)鍵短語作為話題標(biāo)簽,短語更能反映話題的語義信息,但人工評(píng)測(cè)時(shí),短語比詞匯更容易錯(cuò)誤。另一方面,不同人對(duì)同一類文檔總結(jié)的標(biāo)簽也不相同,很難得出一個(gè)正確的答案。表7展示了部分錯(cuò)誤的話題標(biāo)簽。
表7 錯(cuò)誤結(jié)果分析
從錯(cuò)誤結(jié)果可以看出(表7),錯(cuò)誤原因包括以下幾個(gè)方面。
(1)部分LDA話題結(jié)果語義不明確,例如,兩會(huì)話題20,話題關(guān)鍵詞為“旅游”、“新華網(wǎng)”、“全國”、“江蘇”、“建設(shè)”、“市長”、“人大代表”、“老百姓”、“記者”、“游客”,并不具有明顯的語義信息。生成的關(guān)鍵短語只有“新華網(wǎng)記者”。
(2)對(duì)動(dòng)詞詞組的處理不完善,例如,事件“2011年春節(jié)”話題3,關(guān)鍵短語為“回家過年”、“拜年方式”、“過年回家”,方法判定“回家過年”缺乏賓語,判定錯(cuò)誤。方法在判斷包含動(dòng)詞的短語和動(dòng)詞性短語的關(guān)系上有所欠缺。
(3)部分短語泛化性偏高或偏低。例如,事件“馬云卸任CEO”,抽取的標(biāo)簽為“阿里巴巴集團(tuán)”,過于概括,不能表示具體的話題信息。例如兩會(huì)事件話題29抽取的標(biāo)簽為“山西生產(chǎn)”,過于具體。方法在選擇適中的泛化度上有待提升。
4.3.2 對(duì)比實(shí)驗(yàn)
本文方法同文獻(xiàn)[9]中提出的方法進(jìn)行了比較,均根據(jù)LDA話題結(jié)果生成話題標(biāo)簽短語,如表8所示。
實(shí)驗(yàn)結(jié)果可以看出,本文的方法得到的短語能夠表示特定的語義信息,例如兩會(huì)話題33,文獻(xiàn)[9]標(biāo)簽為“收入”,而本文選擇了“社區(qū)養(yǎng)老服務(wù)”,語義上更為完整;例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題2,本文標(biāo)簽為“兩岸關(guān)系”比文獻(xiàn)[9]“兩岸和平”更泛化和確切。本文方法部分實(shí)驗(yàn)結(jié)果不如文獻(xiàn)[9]中方法,例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題0,本文標(biāo)簽“臺(tái)灣地區(qū)”泛化度偏高,不如文獻(xiàn)[9]“臺(tái)灣地區(qū)領(lǐng)導(dǎo)人選舉”。
表8 對(duì)比實(shí)驗(yàn)結(jié)果
根據(jù)同樣的標(biāo)準(zhǔn)答案,表9是兩種方法精度的對(duì)比結(jié)果。可以看出本文方法的精度要高于文獻(xiàn)[9],在兩會(huì)語料中提高精度12%,在事件語料上提高精度4%。說明短語的完整性以及泛化度考慮方法的合理性。
表9 對(duì)比評(píng)測(cè)結(jié)果
本文提出了一種基于種子詞的話題標(biāo)簽抽取方法。方法首先根據(jù)提出的權(quán)重計(jì)算公式抽取每個(gè)話題的種子詞,然后,采用bootstrapping思想,迭代產(chǎn)生包含種子詞匯的關(guān)鍵短語集合,最后根據(jù)短語的完整性和泛化度選擇話題標(biāo)簽。
本文對(duì)新聞事件語料和兩會(huì)報(bào)告語料進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法能夠有效地抽取出話題標(biāo)簽,相對(duì)于文獻(xiàn)[9]中的方法,本文抽取的短語完整性和概括性更高。本文主要的貢獻(xiàn)是:將種子詞抽取與bootstrapping方法引入到話題標(biāo)簽抽取的研究中;利用詞性標(biāo)注與短語結(jié)構(gòu)信息抽取話題標(biāo)簽;根據(jù)短語的完整性和泛化原則,抽取表達(dá)力更強(qiáng)的標(biāo)簽短語。
本文的方法還存在很多不足之處,后續(xù)工作包括以下三個(gè)方面:研究題目信息與話題之間的關(guān)系;使用更有效的LDA結(jié)果重排序公式;將話題標(biāo)簽抽取工作融合進(jìn)話題模型中,以短語為基本詞匯單元,同時(shí)引入詞性標(biāo)注信息等信息。
[1]Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
[2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展,計(jì)算機(jī)學(xué)報(bào)[J],2011,34(8):1423-1436.
[3]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.
[4]Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.
[5]Johri N,Roth D,Tu Y.Experts'retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.
[6]William Darling,F(xiàn)ei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.
[7]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.
[8]Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.
[9]閆澤華.基于LDA的新聞線索抽取研究[D].上海交通大學(xué)碩士論文,2012.
[10]Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476).
[11]Blei D M,Lafferty J D.Visualizing topics with multiword expressions[J].arXiv preprint arXiv:0907.1013,2009.
[12]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:977-984.
[13]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[C]//Proceedings of Data Mining.ICDM 2007.Seventh IEEE International Conference on.IEEE,2007:697-702.
[14]Nallapati R,F(xiàn)eng A,Peng F,et al.Event threading within news topics[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management.ACM,2004:446-453.
[15]Lau J H,Newman D,Karimi S,et al.Best topic word selection for topic labelling[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:605-613.
[16]Carmel D,Roitman H,Zwerdling N.Enhancing cluster labeling using wikipedia[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval.ACM,2009:139-146.
[17]Song Y,Pan S,Liu S,et al.Topic and keyword reranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM conference on Information and knowledge management.ACM,2009:1757-1760.