袁書(shū)寒,向 陽(yáng),鄂世嘉
同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 上海 201804
基于特征學(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解及其發(fā)展趨勢(shì)
袁書(shū)寒,向 陽(yáng),鄂世嘉
同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 上海 201804
大數(shù)據(jù)中蘊(yùn)含著重要的價(jià)值信息,文本大數(shù)據(jù)作為大數(shù)據(jù)的重要組成部分,是人類(lèi)知識(shí)的主要載體。特征作為數(shù)據(jù)內(nèi)在規(guī)律的反映,將文本大數(shù)據(jù)映射到反映數(shù)據(jù)本質(zhì)的特征空間是文本大數(shù)據(jù)語(yǔ)義理解的重要手段。介紹了文本大數(shù)據(jù)的特征表示、特征學(xué)習(xí),進(jìn)而梳理了特征學(xué)習(xí)在文本大數(shù)據(jù)內(nèi)容理解中的進(jìn)展,最后闡述了基于特征學(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解未來(lái)的發(fā)展趨勢(shì)。
文本大數(shù)據(jù);特征學(xué)習(xí);內(nèi)容理解
近年來(lái),隨著互聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)空間中的信息總量在飛速膨脹,網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。如何充分挖掘大數(shù)據(jù)中蘊(yùn)含的價(jià)值成為全社會(huì)共同關(guān)注的話題。
在20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(mén)(Bill Inmon)提出數(shù)據(jù)倉(cāng)庫(kù)的概念,激活了沉睡在數(shù)據(jù)庫(kù)中多年的歷史數(shù)據(jù),使之用于數(shù)據(jù)分析與決策支持,以挖掘出隱藏在數(shù)據(jù)背后的有價(jià)值信息。而在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)每分鐘都在產(chǎn)生大量的數(shù)據(jù),YouTube每分鐘內(nèi)上傳的視頻長(zhǎng)達(dá)72 h,F(xiàn)acebook上每分鐘共分享了多達(dá)246萬(wàn)條信息,Instagram每分鐘可產(chǎn)生21萬(wàn)張新照片1https://www. domo.com/learn/ data-neversleeps-2;在數(shù)據(jù)快速增長(zhǎng)、數(shù)據(jù)類(lèi)型多樣、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的背景下,傳統(tǒng)的基于靜態(tài)、淺層的數(shù)據(jù)分析方法,已經(jīng)無(wú)法適應(yīng)當(dāng)前越來(lái)越多的對(duì)數(shù)據(jù)語(yǔ)義深層理解和計(jì)算應(yīng)用的需求。因此,大數(shù)據(jù)的分析、挖掘成為學(xué)術(shù)界、工業(yè)界共同的研究熱點(diǎn)。
文本大數(shù)據(jù)是網(wǎng)絡(luò)大數(shù)據(jù)的重要組成部分,人們?nèi)粘9ぷ骱蜕钪薪佑|最多的電子文檔也是以文本的形式存在。從海量文本數(shù)據(jù)中挖掘有價(jià)值的信息、知識(shí),一直都是學(xué)術(shù)界研究的熱點(diǎn)問(wèn)題,但是文本大數(shù)據(jù)的復(fù)雜性和規(guī)模性,導(dǎo)致傳統(tǒng)的全量數(shù)據(jù)模式下對(duì)文本進(jìn)行分析變得異常困難。挖掘海量文本數(shù)據(jù)的特征是降低計(jì)算時(shí)空復(fù)雜性、實(shí)現(xiàn)文本語(yǔ)義理解的重要手段。
本文主要介紹近年來(lái)伴隨特征學(xué)習(xí)技術(shù)的發(fā)展,對(duì)海量文本數(shù)據(jù)特征發(fā)現(xiàn),進(jìn)而實(shí)現(xiàn)語(yǔ)義理解方面所取得的新進(jìn)展。
人類(lèi)是通過(guò)識(shí)別出物體的特征來(lái)認(rèn)識(shí)不同的物體的,因此,特征作為數(shù)據(jù)本質(zhì)的反映是理解數(shù)據(jù)的重要手段。將文本大數(shù)據(jù)映射到其特征空間,首先需要確定文本大數(shù)據(jù)的特征表示方式,正如不同的人認(rèn)識(shí)同一物體時(shí),會(huì)以不同的方式抽象物體的特征,特征表示方式也不盡相同,但是一個(gè)良好的特征表示方式是保證特征可理解、可計(jì)算的基礎(chǔ);在確定了特征表示方式的基礎(chǔ)上,從文本大數(shù)據(jù)中學(xué)習(xí)能夠精確表達(dá)文本語(yǔ)義的特征是實(shí)現(xiàn)內(nèi)容理解的關(guān)鍵。
2.1 特征表示
由于文本大數(shù)據(jù)的多源異構(gòu)性,實(shí)現(xiàn)海量文本的內(nèi)容理解首先需要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可操作的結(jié)構(gòu)化模型,文本特征表示將文本信息映射到計(jì)算機(jī)可理解的特征空間,從而為計(jì)算機(jī)理解文本語(yǔ)義提供基礎(chǔ)。在文本數(shù)據(jù)分析領(lǐng)域,傳統(tǒng)的算法依賴人工定義反映輸入數(shù)據(jù)性質(zhì)的特征作為模型的輸入,而為了盡可能地反映自然語(yǔ)言規(guī)律,提高算法的準(zhǔn)確性,人工定義特征往往數(shù)量十分龐大,通常這一步驟稱作特征工程。為了生成大量的特征,特征工程首先定義一系列的特征模板(feature template),利用特征模板進(jìn)一步產(chǎn)生語(yǔ)言的特征。例如,在語(yǔ)言模型的研究中,定義三元特征模板(trigram feature template),對(duì)于訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的任意三元組(u,v,w),若在出現(xiàn)詞語(yǔ)u、v的情況下,出現(xiàn)詞語(yǔ)w,則該特征為1;類(lèi)似地,還可以定義二元特征模板、一元特征模板或詞語(yǔ)前綴模板等。從特征模板的定義可以看出,最終生成的特征可以高達(dá)數(shù)十萬(wàn)甚至數(shù)百萬(wàn)級(jí)別,這也導(dǎo)致人工定義的特征十分稀疏,只有極少部分的特征為非0值,而當(dāng)測(cè)試語(yǔ)料中出現(xiàn)訓(xùn)練數(shù)據(jù)中沒(méi)有的特征時(shí),將訓(xùn)練數(shù)據(jù)產(chǎn)生的特征應(yīng)用于測(cè)試數(shù)據(jù),效果并不理想;且人工定義特征在面對(duì)特定任務(wù)時(shí),通常存在過(guò)度細(xì)化的問(wèn)題,而面對(duì)海量數(shù)據(jù)時(shí),又存在表示不足的問(wèn)題。
近年來(lái),表示學(xué)習(xí)(representation learning)或非監(jiān)督的特征學(xué)習(xí)(unsupervised feature learning)由于其可以自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)特征,從而有效地避免繁瑣的人工參與,成為重要的研究方向。深度學(xué)習(xí)作為特征學(xué)習(xí)的主要手段,不僅可以利用海量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)分類(lèi)、回歸等傳統(tǒng)機(jī)器學(xué)習(xí)的目標(biāo),還可以在模型的訓(xùn)練過(guò)程中產(chǎn)生層次化的抽象特征,該特征表示是提高訓(xùn)練準(zhǔn)確性的重要基礎(chǔ)。圖1[1]對(duì)比了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在實(shí)現(xiàn)步驟上的不同。
一般而言,特征學(xué)習(xí)的目的在于學(xué)習(xí)一種數(shù)據(jù)的轉(zhuǎn)換方式,用于從數(shù)據(jù)中抽取有效的特征信息,最終使得數(shù)據(jù)的分類(lèi)、預(yù)測(cè)更加準(zhǔn)確,而有價(jià)值的特征信息應(yīng)該滿足表達(dá)性、抽象性、排他性等要求[2]。
圖1 深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)步驟對(duì)比
(1)表達(dá)性
表達(dá)性是指合理大小的特征應(yīng)該能夠有效表示足夠大的輸入數(shù)據(jù)。傳統(tǒng)的文本數(shù)據(jù)理解以one-hot的形式表示,n維的空間只能表示n個(gè)特征。分布表示(distributed representations)是一種基于神經(jīng)網(wǎng)絡(luò)的表示方式,其思想來(lái)自于認(rèn)知表示,它認(rèn)為腦中的一個(gè)物體可以用許多描述該物體的神經(jīng)元來(lái)有效表示,這些神經(jīng)元可以獨(dú)立地激活或不激活,例如,一個(gè)n維的二值神經(jīng)元集合,可以描述 2n個(gè)不同的數(shù)據(jù),即每一個(gè)數(shù)據(jù)都由所有的神經(jīng)元共同表示,而每個(gè)神經(jīng)元都參與到各個(gè)不同數(shù)據(jù)的表示[3]中去。因此,分布表示可以看作由n維連續(xù)實(shí)值向量構(gòu)成的特征空間,向量的每一維共同構(gòu)成數(shù)據(jù)的特征表示向量,特征表示維度不會(huì)隨著數(shù)據(jù)數(shù)量的增加而增加。
(2)抽象性
文本特征是對(duì)文本數(shù)據(jù)本身的抽象表示,因此文本的特征對(duì)文本數(shù)據(jù)的抖動(dòng)應(yīng)具有相應(yīng)的頑健性,同時(shí)也不應(yīng)該因任務(wù)的不同而變化。通常而言,對(duì)特征的抽象也具有層次性,低層次的抽象特征來(lái)源于輸入數(shù)據(jù),高層次的抽象特征來(lái)源于對(duì)低層次抽象特征的進(jìn)一步學(xué)習(xí),抽象的層次越高對(duì)數(shù)據(jù)抖動(dòng)的不變性就越強(qiáng),例如,相似的詞匯、同義語(yǔ)句應(yīng)該有相似的特征。因此,特征的抽象性反映了特征的不變性和層次性。
(3)排他性
文本特征的排他性是指特征應(yīng)該刻畫(huà)數(shù)據(jù)不同方面的性質(zhì),對(duì)于互不相同的性質(zhì),其特征也應(yīng)該互相排斥。例如,文本是由文本的結(jié)構(gòu)、文本中詞語(yǔ)的選擇、文本詞語(yǔ)出現(xiàn)的順序等多種互相關(guān)系的因素共同組成,而有效的特征表示應(yīng)該能夠盡可能多地分離出互相關(guān)聯(lián)的因素,使得不同的抽象特征反映不同的文本內(nèi)在因素。
文本大數(shù)據(jù)特征的表達(dá)性、抽象性和排他性定義了特征表示的不同層次,逐層遞進(jìn)。文本大數(shù)據(jù)的表達(dá)性保證了文本特征必須適合刻畫(huà)非結(jié)構(gòu)化數(shù)據(jù),并且特征表示本身能夠以固定的結(jié)構(gòu)描述文本;在此基礎(chǔ)上,文本特征應(yīng)該是對(duì)文本內(nèi)容的歸納和抽象,文本大數(shù)據(jù)是無(wú)窮盡的,但是特征應(yīng)該是有限的;最后,特征的排他性要求特征能夠使一個(gè)對(duì)象區(qū)別于其他對(duì)象,即如果一個(gè)文本具有某個(gè)特征,那么這個(gè)特征就能使這個(gè)文本區(qū)別于不具有這個(gè)特征的文本,從而為文本內(nèi)容的精確理解提供基礎(chǔ)。
2.2 特征學(xué)習(xí)
特征表示規(guī)約了特征的抽象形式,特征學(xué)習(xí)則指在選擇特征表示的規(guī)范下,學(xué)習(xí)數(shù)據(jù)的特征。目前,對(duì)特征的學(xué)習(xí)主要有兩類(lèi)方法:一類(lèi)是通過(guò)監(jiān)督學(xué)習(xí)的方法,利用訓(xùn)練數(shù)據(jù)構(gòu)建適合描述數(shù)據(jù)特征的模型;另一類(lèi)是非監(jiān)督學(xué)習(xí)的方法,該類(lèi)方法主要通過(guò)降維將數(shù)據(jù)約簡(jiǎn)至特征空間,以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律。近年來(lái),由于深度學(xué)習(xí)可以自動(dòng)發(fā)現(xiàn)結(jié)構(gòu)化深層次特征,從而逐漸成為特征學(xué)習(xí)的主要方法。深度學(xué)習(xí)本質(zhì)上是一個(gè)深度、多層的神經(jīng)網(wǎng)絡(luò)模型,由于它在圖像處理、語(yǔ)音識(shí)別、自然語(yǔ)言處理等應(yīng)用上的重大突破而成為研究熱點(diǎn)。
2006年,Hinton等人[4]利用受限玻爾茲曼機(jī)(restricted Bolzman machine)非監(jiān)督地預(yù)訓(xùn)練(pre-training)深層神經(jīng)網(wǎng)絡(luò)中每一層模型的參數(shù),進(jìn)而利用反向傳播算法有監(jiān)督地更新整體模型的參數(shù),極大地提高了模型在圖像識(shí)別上的準(zhǔn)確率。其中,每一層受限玻爾茲曼機(jī)預(yù)訓(xùn)練得到的模型都可以看作對(duì)圖像不同層次上的抽象特征。因此,早期的深度學(xué)習(xí)算法可分為兩個(gè)階段,首先是對(duì)每一層神經(jīng)網(wǎng)絡(luò)非監(jiān)督地預(yù)訓(xùn)練該層模型參數(shù),得到各層的抽象特征表示,進(jìn)而將預(yù)先訓(xùn)練好的各層神經(jīng)網(wǎng)絡(luò)模型疊加,以構(gòu)成深度模型,并依據(jù)訓(xùn)練數(shù)據(jù)中的標(biāo)注信息對(duì)整個(gè)模型的參數(shù)進(jìn)行調(diào)優(yōu)(finetune),以提高算法的準(zhǔn)確性,從而體現(xiàn)出深度神經(jīng)網(wǎng)絡(luò)復(fù)雜模型帶來(lái)的表示能力提高的優(yōu)勢(shì)。隨著深度學(xué)習(xí)技術(shù)的自身發(fā)展[5,6],深度模型逐漸不再依賴非監(jiān)督的預(yù)訓(xùn)練,而是直接學(xué)習(xí)出結(jié)構(gòu)化的模型并用于預(yù)測(cè),特征學(xué)習(xí)也即通過(guò)深度模型訓(xùn)練得到的層次化的抽象特征。
由于語(yǔ)言本身是一個(gè)復(fù)雜的結(jié)構(gòu)對(duì)象,借助于特征學(xué)習(xí)方法可以較好地刻畫(huà)語(yǔ)言的復(fù)雜結(jié)構(gòu),從而實(shí)現(xiàn)對(duì)文本大數(shù)據(jù)的內(nèi)容理解?;谔卣鲗W(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解目前主要從兩個(gè)方面展開(kāi):第一個(gè)方面是面向非結(jié)構(gòu)化文本,以詞匯為基本單元,抽象詞匯的特征,進(jìn)而組合以表示語(yǔ)句的特征,并在特征表示的基礎(chǔ)上實(shí)現(xiàn)對(duì)文本內(nèi)容的理解;第二個(gè)方面是面向結(jié)構(gòu)化知識(shí)數(shù)據(jù),以知識(shí)表示三元組為基本單元,從非結(jié)構(gòu)化文本中抽取出計(jì)算機(jī)可操作的結(jié)構(gòu)化知識(shí),實(shí)現(xiàn)知識(shí)的發(fā)現(xiàn)、推理等,從而理解文本的內(nèi)容。
3.1 面向非結(jié)構(gòu)化文本的內(nèi)容理解
詞匯作為自然語(yǔ)言的最小組成單元,學(xué)習(xí)其特征是讓計(jì)算機(jī)理解詞匯進(jìn)而理解文本的基礎(chǔ);在理解詞匯的基礎(chǔ)上,闡述語(yǔ)義組合方法,語(yǔ)義組合通過(guò)將詞匯組合成短語(yǔ)、語(yǔ)句的特征表示,從而讓計(jì)算機(jī)理解文本大數(shù)據(jù)內(nèi)容。
3.1.1 詞匯理解
在計(jì)算機(jī)中,所有的字符都是以固定的編碼形式表示,例如,漢字“中”在Unicode編碼中表示為“4E2D”,字母“A”的Unicode編碼為“0041”。計(jì)算機(jī)中的文字是由無(wú)任何意義的編碼拼接而成,均無(wú)法直接應(yīng)用于文本理解。因此,一種能夠刻畫(huà)詞匯語(yǔ)義特征的表示方式是實(shí)現(xiàn)詞匯語(yǔ)義理解的關(guān)鍵。
以詞匯為基本單位,旨在研究建立合適的詞語(yǔ)表示模型,經(jīng)典的當(dāng)屬以WordNet[7]和知網(wǎng)(HowNet)[8]為代表的人工編制的知識(shí)庫(kù)。WordNet中每個(gè)詞項(xiàng)(synsets)都代表詞匯的一個(gè)具體含義,詞項(xiàng)間通過(guò)詞義的語(yǔ)義關(guān)系建立聯(lián)系,形成完善的詞匯網(wǎng)絡(luò),以表達(dá)詞匯語(yǔ)義。知網(wǎng)則是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系構(gòu)成網(wǎng)狀的知識(shí)系統(tǒng),知網(wǎng)定義義原為最小的語(yǔ)義概念單元,并通過(guò)義原對(duì)義項(xiàng)的結(jié)構(gòu)屬性相互關(guān)系描述詞匯語(yǔ)義。這類(lèi)人工知識(shí)庫(kù)對(duì)詞匯的語(yǔ)義描述雖然準(zhǔn)確,但是其規(guī)模小,缺乏可擴(kuò)展性和自適應(yīng)能力,難以滿足文本大數(shù)據(jù)語(yǔ)義理解的需要。
利用特征學(xué)習(xí)方法實(shí)現(xiàn)詞匯的語(yǔ)義表示源自神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,語(yǔ)言模型的訓(xùn)練目的是最大化詞匯出現(xiàn)的概率分布。在參考文獻(xiàn)[9]中,作者基于前向神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,隨機(jī)初始化訓(xùn)練語(yǔ)料庫(kù)中的詞向量表示,以海量文本作為訓(xùn)練數(shù)據(jù),假設(shè)在文本中套用滑動(dòng)窗口產(chǎn)生的短句為正例樣本f,將滑動(dòng)窗口中的某個(gè)詞隨機(jī)替換為詞典中的任一詞所產(chǎn)生的錯(cuò)誤短句為負(fù)樣本f′,并令正例樣本的得分比負(fù)例樣本的得分高,以Hinge loss為目標(biāo)函數(shù),該目標(biāo)函數(shù)在正例樣本和負(fù)例樣本中劃分距離為1的邊界,從而利用反向傳播算法更新詞向量,通過(guò)訓(xùn)練得到的詞匯表示向量,使得相似的詞的特征表示也相似。
由于神經(jīng)語(yǔ)言模型復(fù)雜,基于多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算詞匯表示向量,存在計(jì)算量較大的問(wèn)題,訓(xùn)練時(shí)間往往需要幾天甚至數(shù)周。Mikolov等人[10]提出了Word2vec模型,該模型極大簡(jiǎn)化了多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),僅包含一層投影層,使得計(jì)算效率大幅提高。該模型包括連續(xù)詞袋模型(continue bag of words,CBOW)和Skip-gram模型兩種詞向量的訓(xùn)練方法。CBOW模型的目標(biāo)是給定窗口為n的上下文wc,預(yù)測(cè)中間的詞wi,其中,投影層為對(duì)所有的上下文詞向量求平均值,即并利用投影層預(yù)測(cè)目標(biāo)詞wi的概率;Skip-gram模型的目標(biāo)則是給定目標(biāo)詞wi,預(yù)測(cè)上下文的詞wc的概率。
3.1.2 語(yǔ)義組合
詞匯特征表示向量在一定程度上解決了詞匯的語(yǔ)義理解問(wèn)題,語(yǔ)義組合則是將詞匯組合成詞組或者語(yǔ)句的語(yǔ)義表示形式,已實(shí)現(xiàn)語(yǔ)句級(jí)的語(yǔ)義理解。語(yǔ)義組合符合人們理解語(yǔ)句的方式,人們理解語(yǔ)句不是通過(guò)直接記憶句子,而是在理解詞語(yǔ)和詞語(yǔ)組合方式的基礎(chǔ)上理解句子的含義。語(yǔ)義組合的目的是將基本的詞語(yǔ)單元組合,以表達(dá)復(fù)雜語(yǔ)句的語(yǔ)義,語(yǔ)句整體的語(yǔ)義看作部分語(yǔ)義的組合函數(shù)。因此,語(yǔ)義組合是詞匯語(yǔ)義理解向語(yǔ)句語(yǔ)義理解的重要手段。語(yǔ)義組合函數(shù)定義為[12]:p=f(u,v,R,K),其中,u、v表示待組合部分,R表示u、v間的關(guān)系,K表示用于語(yǔ)義組合的其他上下文知識(shí)。
若將R定義為簡(jiǎn)單的線性關(guān)系,則可以實(shí)現(xiàn)基于加法p=u+v和乘法p=u·v的組合函數(shù),這種組合方式雖然簡(jiǎn)單,但在組合時(shí)忽略了詞在文本中出現(xiàn)的順序,即u+v=v+u或u·v=v·u,存在明顯的缺陷。這導(dǎo)致不同含義的詞組可能有相同的表示形式,例如“種子植物”和“植物種子”有相同的表示,但是這兩個(gè)詞組前者描述一類(lèi)植物,后者表示種子,意義并不相同。有研究顯示,英文文章的含義 80%來(lái)自于詞的選擇,20%來(lái)自于詞的順序,因此忽略詞序?qū)φZ(yǔ)義理解有較大的損失。
基于特征學(xué)習(xí)的復(fù)雜模型由于符合語(yǔ)義組合的方式、刻畫(huà)語(yǔ)句的特征,獲得廣泛的關(guān)注,并在語(yǔ)句的語(yǔ)義理解上取得很好的效果。遞歸自編碼(recursive autoencoders)[13]是一種非線性的語(yǔ)義組合模型,它以遞歸的方式組合自編碼網(wǎng)絡(luò),構(gòu)建短語(yǔ)或句子的語(yǔ)義特征表示。遞歸自編碼模型是由自編碼模型組合而成,自編碼模型是一種非監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,該模型以輸出數(shù)據(jù)約等于輸入數(shù)據(jù)為訓(xùn)練目標(biāo)更新模型參數(shù),得到編碼后的隱藏層g為模型輸入數(shù)據(jù)的特征。如圖2所示,u、v為待組合的兩個(gè)詞語(yǔ)的特征表示向量,利用自編碼模型計(jì)算組合后詞組的特征表示為了訓(xùn)練詞組的特征表示,模型解碼詞組特征得到目標(biāo)訓(xùn)練模型的參數(shù)和詞組的特征表示向量。如圖3所示,在得到二元詞組的語(yǔ)義組合表示的基礎(chǔ)上,可以遞歸地?cái)U(kuò)展為一棵二叉樹(shù)的結(jié)構(gòu)以實(shí)現(xiàn)語(yǔ)義擴(kuò)展。目前,將句子構(gòu)建成樹(shù)有兩種方式:一是利用貪心算法構(gòu)建一棵樹(shù),對(duì)于長(zhǎng)度為n的句子,計(jì)算n-1個(gè)連續(xù)二元詞組所構(gòu)造的自編碼模型錯(cuò)誤率,選擇錯(cuò)誤率最低的兩個(gè)節(jié)點(diǎn)組合構(gòu)成一棵二叉樹(shù),在剩下的n-2個(gè)節(jié)點(diǎn)中,繼續(xù)選擇自編碼模型錯(cuò)誤率最低的連續(xù)兩個(gè)節(jié)點(diǎn)組合,直到組合至根節(jié)點(diǎn)為止;二是利用語(yǔ)法樹(shù)構(gòu)建遞歸自編碼,該方法將句子解析為語(yǔ)法樹(shù)的形式,這不僅降低了計(jì)算復(fù)雜性,還保留了句子的語(yǔ)法結(jié)構(gòu),因此語(yǔ)義組合后能得到更好的語(yǔ)句特征。
圖2 自編碼模型
圖3 基于遞歸自編碼的語(yǔ)義組合模型
利用語(yǔ)義組合方法構(gòu)建的抽象語(yǔ)句特征表示,可以更好地識(shí)別出語(yǔ)句的內(nèi)在語(yǔ)義,使得相似的語(yǔ)句有相似的特征表示,從而用于語(yǔ)句的情感挖掘、詞組相似性、同義語(yǔ)句識(shí)別等語(yǔ)義理解任務(wù)中。
3.2 面向結(jié)構(gòu)化知識(shí)的內(nèi)容理解
結(jié)構(gòu)化知識(shí)是文本內(nèi)容理解的產(chǎn)物,同時(shí)也可用于文本的內(nèi)容理解。知識(shí)數(shù)據(jù)作為搜索引擎、智能問(wèn)答重要的信息源,扮演著越來(lái)越重要的角色。通過(guò)知識(shí)圖譜可以建立實(shí)體的關(guān)系網(wǎng)絡(luò),賦予豐富的語(yǔ)義信息,從而為文本理解提供基礎(chǔ)。
3.2.1 知識(shí)表示
將知識(shí)表示成計(jì)算機(jī)可計(jì)算的符號(hào)化形式,是讓計(jì)算機(jī)理解知識(shí)的基礎(chǔ)。對(duì)知識(shí)表示的研究伴隨著計(jì)算機(jī)的整個(gè)發(fā)展階段,提出了一系列表示方法,如謂詞邏輯表示方法、框架式表示方法、產(chǎn)生式表示方法和面向?qū)ο蟊硎痉椒ǖ?,不同的知識(shí)表示方法對(duì)問(wèn)題解決有不同的幫助。良好的知識(shí)表示方法應(yīng)能滿足不同類(lèi)型使用者的要求,一般來(lái)說(shuō),對(duì)知識(shí)表示的要求應(yīng)考慮以下幾個(gè)方面:表示知識(shí)的范圍要廣泛,表示的形式要適合于推理,并且要具有可解釋的能力。
隨著語(yǔ)義網(wǎng)的發(fā)展,將知識(shí)以本體(ontology)的形式進(jìn)行組織,以描述概念和概念間的關(guān)系,這已經(jīng)成為重要的知識(shí)表示方式;但是,由于本體的結(jié)構(gòu)過(guò)于復(fù)雜,近年來(lái)語(yǔ)義結(jié)構(gòu)相對(duì)簡(jiǎn)單的知識(shí)圖譜成為知識(shí)表示的熱門(mén)發(fā)展方向。
通常,知識(shí)圖譜包括大量的實(shí)體(如奧巴馬、夏威夷)、實(shí)體的語(yǔ)義類(lèi)別(如奧巴馬屬于政治家分類(lèi),夏威夷屬于城市的分類(lèi))和實(shí)體間的關(guān)系(如奧巴馬和夏威夷的關(guān)系是奧巴馬出生于夏威夷),并以三元組的形式表示(主體,關(guān)系,客體),記作(el,r,er)(如(奧巴馬,出生于,夏威夷))。
由于知識(shí)圖譜的重要作用,學(xué)術(shù)界和工業(yè)界都在努力構(gòu)建大規(guī)模知識(shí)圖譜,以滿足實(shí)際應(yīng)用需要,其中,典型的知識(shí)圖譜包括Freebase、NELL(never-ending language learning)等。Freebase是以眾包的形式構(gòu)建的知識(shí)圖譜,因而包含一定的噪音數(shù)據(jù),目前已包含大于4 000萬(wàn)個(gè)實(shí)體、大于 20 000種關(guān)系,共大約 19 億條記錄;而NELL項(xiàng)目自2010年以來(lái),不斷地從互聯(lián)網(wǎng)中抽取結(jié)構(gòu)化數(shù)據(jù),且不停地迭代更新已有數(shù)據(jù)的置信度,目前已累計(jì)超過(guò)5 000萬(wàn)條知識(shí)數(shù)據(jù)。
3.2.2 知識(shí)發(fā)現(xiàn)
利用特征學(xué)習(xí)表示知識(shí)數(shù)據(jù)是在詞匯特征表示捕捉詞匯語(yǔ)義的基礎(chǔ)上,構(gòu)建關(guān)系的表示方法,進(jìn)而實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)的發(fā)現(xiàn)。其中,經(jīng)典的工作是TransE模型[14],該模型將三元組中的關(guān)系看作主體到客體的翻譯,使得三元組滿足的線性轉(zhuǎn)換。利用特征表示向量描述實(shí)體和關(guān)系,可以更加容易地計(jì)算實(shí)體間的語(yǔ)義關(guān)系。但是該方法不能很好地刻畫(huà)多對(duì)一、一對(duì)多或多對(duì)多的關(guān)系,例如在多對(duì)一的關(guān)系中,在關(guān)系r和客體的特征表示向量相同的情況下,由于三元組滿足的映射要求,使得不同主體的特征表示也會(huì)相同,這顯然不符合特征的語(yǔ)義表示,因此該模型未來(lái)還有繼續(xù)改進(jìn)的空間。
在得到實(shí)體、關(guān)系的特征語(yǔ)義表示的基礎(chǔ)上,可以進(jìn)一步實(shí)現(xiàn)關(guān)系的抽取和發(fā)現(xiàn)。例如,給定主體el和客體er,通過(guò)判斷與er-el最相似的關(guān)系特征表示向量r,確認(rèn)兩個(gè)實(shí)體間的關(guān)系;或在給定主體el和關(guān)系r的情況下,判斷與el+r最相似的客體er,從而發(fā)現(xiàn)新的三元組知識(shí)數(shù)據(jù)。實(shí)驗(yàn)顯示,通過(guò)簡(jiǎn)單的向量加減法可以發(fā)現(xiàn)新的事實(shí)數(shù)據(jù)或判斷實(shí)體間的關(guān)系,這極大提高了知識(shí)發(fā)現(xiàn)的效率。
3.2.3 知識(shí)推理
計(jì)算機(jī)的推理能力是計(jì)算機(jī)智能的重要體現(xiàn)。在知識(shí)圖譜中,基于實(shí)體關(guān)系的推理是發(fā)現(xiàn)隱藏知識(shí)的重要手段。傳統(tǒng)的基于規(guī)則的推理方式,由于完全依賴人為定義,發(fā)現(xiàn)的關(guān)系受限于人為定義的規(guī)則庫(kù),因此自動(dòng)化的關(guān)系推理是豐富現(xiàn)有知識(shí)圖譜的重要手段。在基于線性關(guān)系發(fā)現(xiàn)知識(shí)數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步擴(kuò)展線性轉(zhuǎn)換關(guān)系,可以實(shí)現(xiàn)多關(guān)系組合推理[15],給定兩個(gè)相關(guān)聯(lián)三元組根據(jù)三元組的線性變換規(guī)則,可以認(rèn)為在實(shí)體、關(guān)系的特征語(yǔ)義空間中,多個(gè)三元組間存在的組合推理關(guān)系,從而實(shí)現(xiàn)知識(shí)的推理。
3.2.4 隱式關(guān)系發(fā)現(xiàn)
知識(shí)圖譜是對(duì)文本大數(shù)據(jù)內(nèi)容理解的產(chǎn)物,同時(shí),知識(shí)圖譜作為豐富的知識(shí)資源可以反作用于文本的內(nèi)容理解。由于個(gè)體文檔通常只包含少量的關(guān)系數(shù)據(jù),這些關(guān)系數(shù)據(jù)可能不足以體現(xiàn)完整的實(shí)體關(guān)系網(wǎng),但是通過(guò)與已有的知識(shí)圖譜匹配,可以完善實(shí)體間的關(guān)系,從而發(fā)現(xiàn)現(xiàn)有文本中無(wú)法挖掘的隱式關(guān)系,滿足文本數(shù)據(jù)深層次內(nèi)容理解的需要。
基于特征學(xué)習(xí)的方法在文本內(nèi)容理解問(wèn)題上已經(jīng)取得了一系列突破,未來(lái)結(jié)合網(wǎng)絡(luò)大數(shù)據(jù)的涌現(xiàn),對(duì)文本內(nèi)容理解的研究還將繼續(xù)發(fā)展。針對(duì)非結(jié)構(gòu)化文本的內(nèi)容理解,深度學(xué)習(xí)由于其可以抽象高層次的概念特征,是未來(lái)重要的研究方向;而針對(duì)結(jié)構(gòu)化知識(shí)的內(nèi)容理解,知識(shí)圖譜可以結(jié)構(gòu)化、形式化地刻畫(huà)文本的語(yǔ)義內(nèi)容,進(jìn)而實(shí)現(xiàn)關(guān)聯(lián)推理,是實(shí)現(xiàn)文本內(nèi)容深度理解的重要手段。
深度學(xué)習(xí)作為非結(jié)構(gòu)化文本內(nèi)容理解的重要方法,未來(lái)將繼續(xù)探索適合文本內(nèi)容理解的模型,以提高內(nèi)容理解的準(zhǔn)確性。語(yǔ)言是一種序列模型,語(yǔ)言本身具有一定連續(xù)性,因此一個(gè)能刻畫(huà)語(yǔ)言時(shí)序特征的模型是實(shí)現(xiàn)文本內(nèi)容理解的重要基礎(chǔ)。由于遞歸神經(jīng)網(wǎng)絡(luò)具有一定的時(shí)序性和記憶性,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本的特征符合語(yǔ)言的形式,在機(jī)器翻譯、自然語(yǔ)言生成等應(yīng)用中都取得較好的結(jié)果,遞歸神經(jīng)網(wǎng)絡(luò)正逐漸成為文本內(nèi)容理解的重要模型。在遞歸神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,有研究進(jìn)一步提出有長(zhǎng)期記憶能力的遞歸模型,并將該模型用于自動(dòng)問(wèn)答中[16],取得了較好的結(jié)果。具有較強(qiáng)記憶能力的模型對(duì)于文本內(nèi)容理解起著重要的作用。
同時(shí),對(duì)基于深度學(xué)習(xí)方法自動(dòng)學(xué)習(xí)的文本特征的可解釋性也是未來(lái)研究的方向。不同于直觀的人工定義特征,通過(guò)特征學(xué)習(xí)方法得到文本抽象特征,其對(duì)人而言的可解釋性并不強(qiáng)。最近,Google的研究人員提出了Deep Dream方法,可視化地針對(duì)圖像識(shí)別的深度模型各層特征2http:// googleresearch. blogspot. ch/2015/06/ inceptionismgoing-deeperinto-neural.html。對(duì)于文本而言,目前對(duì)于文本的抽象特征以及模型自身的可解釋性都還有待進(jìn)一步研究,只有理解了模型及其抽象特征,才能更好地實(shí)現(xiàn)文本內(nèi)容的理解。
知識(shí)圖譜作為結(jié)構(gòu)化知識(shí)的重要組織形式,刻畫(huà)實(shí)體關(guān)系的演化是重要發(fā)展方向。實(shí)體間的關(guān)系是不斷演化發(fā)展的,具有時(shí)序性,因此有其自身的生命周期,繪制一張動(dòng)態(tài)的知識(shí)關(guān)系網(wǎng),對(duì)文本大數(shù)據(jù)內(nèi)容理解的實(shí)時(shí)性有很大幫助。此外,目前的知識(shí)圖譜圍繞實(shí)體展開(kāi),描述實(shí)體間的關(guān)系;未來(lái)如何從文本大數(shù)據(jù)中抽取事件信息,實(shí)現(xiàn)事件的發(fā)現(xiàn)和推理,是文本大數(shù)據(jù)全面深入內(nèi)容理解的重要方向。
隨著文本大數(shù)據(jù)的涌現(xiàn),文本處理已經(jīng)從數(shù)據(jù)不足轉(zhuǎn)向數(shù)據(jù)過(guò)量,雖然文本大數(shù)據(jù)主要是無(wú)標(biāo)注或者弱標(biāo)注的數(shù)據(jù),但是這類(lèi)數(shù)據(jù)正好為特征學(xué)習(xí)方法提供了數(shù)據(jù)基礎(chǔ),進(jìn)而實(shí)現(xiàn)了特征發(fā)現(xiàn)基礎(chǔ)上的文本語(yǔ)義理解?;谔卣鲗W(xué)習(xí)的文本內(nèi)容理解有了許多探索和突破,但是由于自然語(yǔ)言自身的復(fù)雜性、模糊性,特征學(xué)習(xí)需要更為準(zhǔn)確的結(jié)構(gòu)以刻畫(huà)自然語(yǔ)言。相信隨著特征學(xué)習(xí)技術(shù)的發(fā)展和對(duì)自然語(yǔ)言本身認(rèn)識(shí)的加深,對(duì)文本大數(shù)據(jù)的內(nèi)容理解能力一定會(huì)進(jìn)一步提高。
[1] Bengio Y. Deep learning: theoretical motivations. Presented at the Deep Learning Summer School, 2015
[2] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798~1828
[3] Bengio Y. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2009, 2(1): 1~127
[4] Hinton G E, Osindero S. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527~1554
[5] Srivastava N, Hinton G, Krizhevsky A,et al. Dropout: asimple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 2014, 15(1): 1929~1958
[6] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines. Proceedings of the 27th International Conference on Machine Learning (ICML-10), Haifa, Israel, 2010: 807~814
[7] Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39~41
[8] 董振東, 董強(qiáng), 郝長(zhǎng)伶. 知網(wǎng)的理論發(fā)現(xiàn). 中文信息學(xué)報(bào), 2007, 21(4): 3~9 Dong Z D, Dong Q, Hao C L. Theoretical findings of HowNet. Journal of Chinese Information Proceeding, 2007, 21(4): 3~9
[9] Collobert R, Weston J. A unified architecture for natural language processing : deep neural networks with multitask learning. Proceedings of the 25th International Conference on Machine Learning, Helsinki, Finland, 2008
[10] Mikolov T, Corrado G, Chen K,et al. Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, Florida, USA, 2013: 1~12
[11] Maaten L V D, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008(9): 2579~2605
[12] Mitchell J, Lapata M. Composition in distributional models of semantics. Cognitive Science, 2010, 34(8): 1388~1429
[13] Socheer R, Perelygin A, Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment treebank. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP 2013), Washington DC, USA, 2013: 1631~1642
[14] Bordes A, Usunier N, Garcia-Duran A,et al. Translating embeddings for modeling multi-relational data. Proceedings of Conference on Advances in Neural Information Processing Systems (NIPS), South Lake Tahoe, Nevoda, US, 2013: 2787~2795
[15] Garcia-Durran A, Bordes A, Usunier N. Composing relationships with translations. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP 2015), Lisbon, Portugal, 2015: 286~290
[16] Sukhbaatar S, Szlam A, Weston J,et al. End-to-end memory networks. arXiv Preprint arXiv:1503.08895, 2015
袁書(shū)寒,男,同濟(jì)大學(xué)博士生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、深度學(xué)習(xí)、大數(shù)據(jù)分析。
向陽(yáng),男,同濟(jì)大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榇髷?shù)據(jù)分析、云計(jì)算、語(yǔ)義計(jì)算、管理信息系統(tǒng),主持和參與多項(xiàng)國(guó)家“973”計(jì)劃、“863”計(jì)劃、國(guó)家科技支撐計(jì)劃、國(guó)家自然科學(xué)基金項(xiàng)目,近年來(lái)發(fā)表論文50余篇。
鄂世嘉,男,同濟(jì)大學(xué)博士生,CCF學(xué)生會(huì)員,主要研究方向?yàn)樵朴?jì)算、知識(shí)圖譜、大數(shù)據(jù)系統(tǒng)。
Yuan S H, Xiang Y, E S J. Text big data content understanding and development trend based on feature learning. Big Data Research, 2015030
Text Big Data Content Understanding and Development Trend Based on Feature Learning
Yuan Shuhan, Xiang Yang, E Shijia
Department of Computer Science and Technology, Tongji University, Shanghai 201804, China
Big data contains important value information. Text big data as an important part of big data is the main carrier of human knowledge. Feature represents the inherent law of the data. Mapping the text big data to its feature space which reflects the nature of data is an important method to understand the semantic meaning of the text. Text big data feature representations and feature learning were reviewed. Then the progress of feature learning used in text content understanding was presented. Finally, the future development trends of big text data content understanding were discussed.
text big data, feature learning, content understanding
10.11959/j.issn.2096-0271.2015030
2015-08-26
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340404),上海市科委科研計(jì)劃項(xiàng)目(No.14511108002)
Foundation Items:The National Basic Research Program of China(973 Program)( No.2014CB340402), The Science and Technology Planning Project of Shanghai (No.14511108002)
袁書(shū)寒,向陽(yáng),鄂世嘉. 基于特征學(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解及其發(fā)展趨勢(shì). 大數(shù)據(jù),2015030