姜 華,歐陽紅,方紅旺,胡海英,劉玉璽
(國網(wǎng)信通產(chǎn)業(yè)集團(tuán)北京中電普華信息技術(shù)有限公司,北京 100085)
圖1 用戶自然語言問句轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句Fig.1 Example of converting question to formal query
客戶服務(wù)對(duì)于企業(yè)而言至關(guān)重要,其主要方式是問答交互模式,缺點(diǎn)在于維護(hù)成本高、 效率低、 知識(shí)無法共享、 用戶體驗(yàn)差. 人工智能的發(fā)展帶動(dòng)了以自然語言理解、 機(jī)器學(xué)習(xí)等關(guān)鍵技術(shù)為核心的自動(dòng)問答技術(shù)的突破和進(jìn)展,并在某些垂直領(lǐng)域得到廣泛應(yīng)用. 目前,自動(dòng)客服系統(tǒng)主流方法之一是基于知識(shí)庫的問答系統(tǒng). 其基本任務(wù)是面對(duì)結(jié)構(gòu)化的知識(shí)庫,深度理解用戶問題的語義,將用戶自然語言形式的問句轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句(SQL、 SPARQL),如圖1所示.
利用結(jié)構(gòu)化的查詢語句在已構(gòu)建的知識(shí)庫上直接檢索得到答案, 這其中的關(guān)鍵技術(shù)是識(shí)別問句中所蘊(yùn)含的語義關(guān)系,即在本例子中所蘊(yùn)含的知識(shí)庫語義關(guān)系是“最大需要份額”,這里假設(shè)一段文本片段中只蘊(yùn)含一種語義關(guān)系.
然而,這一任務(wù)并不容易,其難點(diǎn)在于用戶提問方式和表達(dá)方式多種多樣,很難用簡單手段分析出問句中所蘊(yùn)含的關(guān)系表達(dá)形式. 例如,在表達(dá)“最大需要份額”這一語義關(guān)系時(shí),用戶可以有“最大需求”“最大用量”“最大用電量”等多種不同的文本表達(dá)形式. 文[1-2]通常把這一任務(wù)看作是一個(gè)分類問題,將預(yù)設(shè)定的語義關(guān)系看作是給定的類別,其任務(wù)就是利用機(jī)器學(xué)習(xí)算法對(duì)用戶問題進(jìn)行分類. 在這種方式下,其核心問題之一就是特征表示: 即如何從問題文本中抽取有效特征. 傳統(tǒng)方法通常利用自然語言處理工具抽取不同類型的特征,例如詞形特征、 詞性特征[3]、 句法特征[4]、 語義特征[5]等, 但會(huì)帶來如下兩個(gè)問題.
1) 自然語言處理工具通常是一種級(jí)聯(lián)策略,例如: 句法分析依賴于分詞、 詞性標(biāo)注的結(jié)果. 因此每一級(jí)的錯(cuò)誤都會(huì)對(duì)于下一級(jí)處理產(chǎn)生負(fù)面影響. 如何避免級(jí)聯(lián)操作是一個(gè)難點(diǎn)問題.
2) 這種特征抽取方法過分依賴于多級(jí)自然語言處理工具,面對(duì)一些小語種時(shí)(如藏語、 蒙語等),這些自然語言處理工具很不完善,在這種情況下如何進(jìn)行特征抽取并搭建自動(dòng)客服系統(tǒng)極具挑戰(zhàn).
為解決上述問題,本研究提出一種基于雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的問題分類方法. 這種方法通過神經(jīng)網(wǎng)絡(luò)自動(dòng)從詞學(xué)習(xí)表示問句語義信息的特征,相對(duì)于傳統(tǒng)方法[3-4],不需要自然語言處理工具對(duì)于文本進(jìn)行分析,從而避免了多級(jí)自然語言處理工具抽取特征帶來的錯(cuò)誤累積問題,也能解決小語種環(huán)境下的自動(dòng)客服系統(tǒng)構(gòu)建問題. 另外,本研究給出一種雙向循環(huán)神經(jīng)網(wǎng)絡(luò)框架,在每一層中加入了長短時(shí)記憶模塊(long short term memory, LSTM),相對(duì)于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò),能有效解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的“梯度彌散”問題,從而使特征表示學(xué)習(xí)更加精準(zhǔn). 同時(shí),本文在網(wǎng)絡(luò)中加入基于主實(shí)體位置的分段最大池化操作, 相對(duì)于傳統(tǒng)最大池化操作能盡可能保留文本有效特征信息,并在一定程度上可以獲取問題文本的結(jié)構(gòu)信息. 通過在電力領(lǐng)域問題集上實(shí)驗(yàn)表明,該方法在不利用自然語言處理工具進(jìn)行特征提取的基礎(chǔ)上,相對(duì)于傳統(tǒng)方法,能夠有效地提高問句分類的精度.
在客服系統(tǒng)中,識(shí)別用戶問題中所蘊(yùn)含關(guān)系語義信息的關(guān)鍵是從用戶問題文本中抽取有效特征,構(gòu)建表征關(guān)系語義的特征向量. 傳統(tǒng)方法研究重點(diǎn)在于怎樣設(shè)計(jì)和提取具有區(qū)分性的語義特征,例如各種有效的詞匯、 句法和語義等特征. 文[6]利用Wikipedia的數(shù)據(jù)對(duì)問句文本語義進(jìn)行擴(kuò)充,有效提高了問題分類過程中的語義鴻溝問題. 針對(duì)問題文本中的語義關(guān)系識(shí)別任務(wù),文[4]設(shè)計(jì)了實(shí)體本身、 實(shí)體類型、 依存樹和解析樹等特征,然后使用最大熵分類器判斷實(shí)體間的關(guān)系. 文[7]將這些特征按照其句法信息進(jìn)行劃分,文[5]把包括基本詞組塊在內(nèi)的各種特征組合起來,特別把 WordNet和Name List等語義信息引入特征,取得了不錯(cuò)的效果. 文[8]又進(jìn)一步將句子的簡化準(zhǔn)邏輯形式作為特征,同時(shí)引入了多種語言特征. 文[9]通過統(tǒng)一的特征空間表達(dá)形式來研究不同特征對(duì)語義關(guān)系識(shí)別性能的影響,但是,其難點(diǎn)在于很難找出適合語義關(guān)系抽取的復(fù)雜的詞匯、 句法或語義特征.
為抽取更有效的語義特征,很多方法試圖通過構(gòu)造核函數(shù)來組合出更加復(fù)雜且有效的語義特征[10]. 文[11]提出依存樹核函數(shù)抽取并組合語義特征,同時(shí)依次增加詞性、 實(shí)體類型、 詞組塊、 WordNet上位詞等特征,最后使用SVM分類器進(jìn)行關(guān)系抽取. 其他核函數(shù)還包括: 最短依存樹核函數(shù)[12]、 字符串序列核函數(shù)[13]、 卷積樹核函數(shù)[14]、 最短路徑包含樹核[15]等.
目前,已有方法利用神經(jīng)網(wǎng)絡(luò)進(jìn)行問題語義關(guān)系識(shí)別,其目的也是為了解決傳統(tǒng)方法在特征提取過程對(duì)于自然語言處理工具的依賴以及多級(jí)處理造成的錯(cuò)誤積累問題. 文[16]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RNN)的語義關(guān)系識(shí)別方法. 其目的是利用遞歸神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)組合出文本中的高階語義特征,但是其仍然需要依賴于句法分析生成的句法樹結(jié)構(gòu). 因此,避免不了引入句法分析錯(cuò)誤對(duì)其性能的影響. 文[2]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)進(jìn)行文本語義關(guān)系抽取,能夠自動(dòng)從詞開始學(xué)習(xí)有效的文本語義特征. 文[17-18]在句法分析的基礎(chǔ)上,利用循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)抽取文本語義特征,同時(shí)加入了LSTM模塊來解決“梯度彌散”問題. 在標(biāo)準(zhǔn)測(cè)試集上實(shí)驗(yàn)表明該方法能夠有效提高語義關(guān)系識(shí)別精度. 但是,該方法仍然依賴于句法分析的結(jié)果.
問句語義關(guān)系分類任務(wù)就是識(shí)別問句中所包含的已經(jīng)預(yù)定義的語義關(guān)系. 例如圖1所給例子中,“山西省最大用電需求量是多少?”中蘊(yùn)含的語義關(guān)系是用電的“最大需求配額”這一語義關(guān)系. 這根據(jù)用戶自然語言問句構(gòu)建結(jié)構(gòu)化的查詢語句非常重要,其是鏈接問句中各個(gè)關(guān)鍵語義實(shí)體的關(guān)鍵步驟. 形式化描述如下:
給定問題S={w1, w2, …, wn},這里S表示問句,wi表示問句中的第i個(gè)字. 假設(shè)在知識(shí)庫中定義了K類語義關(guān)系,任務(wù)構(gòu)建一個(gè)模型,該模型能夠?qū)⒔o定問句S正確分類到所對(duì)應(yīng)的語義關(guān)系類別上去. 用p(k|S, θ)來表示問題被分到第k個(gè)類別的概率,這里θ 表示模型參數(shù).
圖2 雙向長短時(shí)記憶循環(huán)網(wǎng)絡(luò)Fig.2 Bi-directionallong short term memory network
針對(duì)文本語義表示問題,提出一種雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),如圖2所示.
問句中的每個(gè)詞被表示成為詞向量,并作為網(wǎng)絡(luò)的輸入. 隨后,問句的語義特征通過雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò),被自動(dòng)抽取出來,問句被表示成向量. 最后,問句的語義向量被輸入到一個(gè)softmax分類器,輸出是一個(gè)向量,這個(gè)向量的每一維對(duì)應(yīng)問題分類預(yù)定義的類別,而向量中的每一維的值表示當(dāng)前問句被分到某個(gè)類別的置信度,即 p(k|S, θ) .
3.1.1 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)
面對(duì)問句語義特征自動(dòng)學(xué)習(xí),本方法是基于循環(huán)神經(jīng)網(wǎng)絡(luò)[19]. 同時(shí),為解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)路中的語義單向傳遞問題,給出一種雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型, 如圖2所示. 對(duì)于問句中第i個(gè)詞wi,定義其左邊出現(xiàn)的上下文的語義表示為cL(wi). 同樣的,其右邊出現(xiàn)的上下文的語義表示為cR(wi). 則將每個(gè)詞左邊上下文的語義表示、 右邊上下文的語義、 當(dāng)前目標(biāo)詞的詞向量拼接起來組合成為當(dāng)前詞的語義表示Xi,則有:
Xi=[cL(wi),e(wi),cR(wi)]
(1)
[·]操作表示把目標(biāo)向量首尾拼接在一起. 基于此操作,對(duì)于問句中出現(xiàn)的每個(gè)詞,可以很好捕捉當(dāng)前詞的語義信息以及其上下文的有效信息,相對(duì)于標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò),所提模型能夠有效解決當(dāng)前詞之后的語義捕捉問題. 在模型學(xué)習(xí)過程中,可以通過一遍正向掃描得到每個(gè)詞左邊上下文語義表示cL,通過一遍逆向掃描得到每個(gè)詞右邊上下文語義表示cR. 算法的時(shí)間復(fù)雜度是O(N),N是句子的長度.
3.1.2 加入長短時(shí)記憶模塊
盡管雙向循環(huán)網(wǎng)絡(luò)能夠更加有效解決上下文語義的捕捉問題,但是在模型訓(xùn)練時(shí),仍然存在“梯度彌散”或“梯度消失”問題. 特別是問句中語義單元之間的長距離依賴問題仍然難以得到有效解決. 針對(duì)此問題,通過在循環(huán)神經(jīng)網(wǎng)絡(luò)中引入長短時(shí)記憶操作進(jìn)行解決.
3.1.3 基于主實(shí)體位置的分段最大池化
(2)
傳統(tǒng)方法多利用最大池化操作從本層輸出中抽取有效特征. 即從每一維度選取特征值最大的,則有:
(3)
最大池化操作的最大問題是特征抽取過于稀疏,只是按位抽取特征最大值,次有用的特征就會(huì)被忽略掉. 如果簡單地使用Top-K池化操作,則可以抽取更多有效特征,但是帶來的問題是會(huì)引入噪聲. 同時(shí)最大池化,由于只是單一的選取最大值,使得問句內(nèi)部很多結(jié)構(gòu)化的信息也容易被忽略.
為避免上面兩種問題,提出基于實(shí)體位置的分段最大池化操作. 采用分段最大池化,相對(duì)于傳統(tǒng)最大池化,能夠抽取更多有效特征,同時(shí)也盡量減少噪聲的引入. 由于段的劃分是根據(jù)問句中主實(shí)體的自然位置,則又可以有效獲取問句的結(jié)構(gòu)信息.
具體地,我們認(rèn)為問句中的主實(shí)體自然地把問句分為前后兩部分,每一部分都可能包含表征語義關(guān)系的有效特征,如圖3所示. 這兩個(gè)問句都是在問山東省95598的收費(fèi)標(biāo)準(zhǔn),其中語義關(guān)系為“收費(fèi)標(biāo)準(zhǔn)”. 問句的主實(shí)體是“95588”,其將問句劃為左(L)右(R)兩部分. 對(duì)于第一句,顯然在右半部分“標(biāo)準(zhǔn)收費(fèi)”是表征“收費(fèi)標(biāo)準(zhǔn)”這一語義關(guān)系的核心特征. 但是對(duì)于第二句,核心特征為左半部分的“資費(fèi)標(biāo)準(zhǔn)”. 但問題是,我們不能確定表征語義關(guān)系的有效特征位于哪一部分內(nèi). 因此,對(duì)每一段分別進(jìn)行池化操作,然后將每段結(jié)果拼接起來作為其學(xué)習(xí)到的有效特征表示,如圖4所示,則有
(4)
(5)
圖3 基于主實(shí)體位置的分段最大池化示例Fig.3 An example of segmentation-based max-pooling
圖4 基于主實(shí)體位置的分段最大池化Fig.4 Segmentation-based max-pooling
3.1.4 特征輸出以及分類
在文中所給網(wǎng)絡(luò)的最后一層是輸出層,同傳統(tǒng)神經(jīng)網(wǎng)絡(luò)類似:
y(4)=W(4)y(3)+b(4)
(6)
最后,利用softmax模型進(jìn)行分類,則有:
(7)
本網(wǎng)絡(luò)模型中,模型參數(shù)θ包括:θ={WI,WE,WO,UI,UE,UO,bI,bE,bO,W(2),W(4),b(2),b(4)}. 訓(xùn)練過程使對(duì)數(shù)似然函數(shù)最大化,即有:
(8)
其中: s是訓(xùn)練集合,classS是每個(gè)訓(xùn)練樣本的人工標(biāo)記類別信息. 使用隨機(jī)梯度下降算法SGD[20]進(jìn)行網(wǎng)絡(luò)模型參數(shù)的訓(xùn)練. 在訓(xùn)練過程中,同之前方法類似,在模型迭代的每一步,隨時(shí)挑選樣本來更新目標(biāo)函數(shù)的梯度以及參數(shù)值:
(9)
其中: α是學(xué)習(xí)率或者步長.
以電力領(lǐng)域問題分類數(shù)據(jù)來驗(yàn)證所提方法的性能. 其任務(wù)是在對(duì)給定的用戶問句中,判別給定的兩個(gè)實(shí)體之間的語義關(guān)系. 數(shù)據(jù)來源于電力領(lǐng)域的客服系統(tǒng),共25 568個(gè)問題,均為真實(shí)場(chǎng)景下的用戶問題,問題中的實(shí)體已經(jīng)事先識(shí)別出,語義關(guān)系類別數(shù)為17. 為獲得每個(gè)問題中給定實(shí)體間的語義關(guān)系標(biāo)注,聘請(qǐng)兩個(gè)標(biāo)注人員對(duì)每個(gè)問題進(jìn)行標(biāo)注,當(dāng)標(biāo)注結(jié)果不一致時(shí),由第三個(gè)標(biāo)注人員進(jìn)行判別. 前兩個(gè)人員標(biāo)注的Kappa值為0.67. 表1給出詳細(xì)例子,對(duì)測(cè)試集中問題及其語義關(guān)系進(jìn)行說明.
表1 電力領(lǐng)域問題集樣例Tab.1 Examples of questions
為說明本文方法的有效性,選取如下方法作為基準(zhǔn)系統(tǒng)與本方法進(jìn)行比較(見表2). 在實(shí)驗(yàn)中,所有方法的參數(shù)設(shè)置與原文相同.
表2 基準(zhǔn)系統(tǒng)Tab.2 Baselines
圖5 與已有基準(zhǔn)系統(tǒng)比較結(jié)果Fig.5 Comparison with baselines
圖5給出了在電力領(lǐng)域問題分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果. 從實(shí)驗(yàn)結(jié)果可以看出,本方法能夠有效提升問題語義關(guān)系識(shí)別的精度.
1) 本方法不需要人工設(shè)計(jì)特征,也不需要利用自然語言處理工具進(jìn)行特征提取,直接從詞學(xué)習(xí)表征語義關(guān)系的特征,與TM方法相比較,性能能夠提升4.5%.
2) 絕大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的方法(CNN、 RNN-LSTM以及本方法)較傳統(tǒng)方法(TM)性能均有提升. 這說明,傳統(tǒng)級(jí)聯(lián)式的利用自然語言處理工具抽取特征,確實(shí)會(huì)因錯(cuò)誤傳播造成性能損失. 而基于神經(jīng)網(wǎng)絡(luò)方法直接從詞學(xué)習(xí)特征表示,極大避免了特征抽取過程中的錯(cuò)誤傳播,因此能得到較好的結(jié)果.
3) 本方法相對(duì)于其他神經(jīng)網(wǎng)絡(luò)方法(MVRNN、 CNN、 RNN-LSTM),性能均有提高,最少性能提升2.1%. 這說明,本方法的網(wǎng)絡(luò)結(jié)構(gòu)能夠很好捕捉問題文本的語義信息,這要?dú)w功于在神經(jīng)網(wǎng)絡(luò)中加入了雙向操作、 記憶模塊(LSTM)以及最大池化操作進(jìn)行特征的抽取. 細(xì)節(jié)的比較在后面章節(jié)中給出.
相對(duì)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法,本方法解決了問題語義捕捉以及梯度彌散問題,特別建立雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及加入長短時(shí)記憶模塊. 在本實(shí)驗(yàn)中,特別對(duì)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及長短時(shí)記憶模塊的有效性進(jìn)行驗(yàn)證. 設(shè)定五個(gè)基準(zhǔn)系統(tǒng)L-RNN、 R-RNN、 Bi-RNN、 L-LSTM以及R-LSTM. L-RNN與R-RNN用標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行問題語義特征表示,他們的區(qū)別在于L-RNN是從左向右遞歸,R-RNN從右向左進(jìn)行遞歸,Bi-RNN相對(duì)于本方法去掉了LSTM模塊. L-LSTM和R-LSTM是在L-RNN和R-RNN基礎(chǔ)上分別加入LSTM模塊,相對(duì)于本方法,L-LSTM和R-LSTM沒有雙向結(jié)構(gòu). 實(shí)驗(yàn)結(jié)果如圖6所示.
從結(jié)果中可以看出雙向循環(huán)網(wǎng)絡(luò)相對(duì)于標(biāo)準(zhǔn)循環(huán)網(wǎng)絡(luò)能夠有效地提高識(shí)別精度,這說明從兩個(gè)方向?qū)W習(xí)問句的語義信息能夠有效地避免“梯度彌散”問題. 同時(shí),可以看到加入記憶模塊(LSTM)比不加該模塊的效果要好,這說明加入記憶模塊能有效獲取文本的語義信息. 同時(shí)考慮這兩部分,能取得最好的結(jié)果,這也驗(yàn)證了本方法的有效性.
為說明所提的基于實(shí)體位置分段池化操作的有效性,設(shè)計(jì)了如下比較方法: Max、 TopK. Max是在本研究所使用的基于長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上加入最大池化操作來進(jìn)行有效特征抽取,TopK是在本研究所使用基于長短時(shí)記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上加入TopK池化操作. 在實(shí)驗(yàn)中,分別取K=2和K=3. 本方法采用基于主實(shí)體位置的分段最大池化操作. 圖7給出了實(shí)驗(yàn)結(jié)果.
圖6 雙向循環(huán)網(wǎng)絡(luò)以及長短時(shí)記憶的有效性Fig.6 The effectiveness of the Bi-LSTM
圖7 基于主實(shí)體位置的分段最大池化的有效性Fig.7 Effectiveness of the segment-based max-pooling
從結(jié)果可以看出,基于主實(shí)體位置的分段最大池化操作性能要明顯優(yōu)于傳統(tǒng)池化操作. 這說明本方法能夠從問句文本中抽取有效特征. 其原因是通過基于主實(shí)體位置的分段最大池化能夠一定程度上動(dòng)態(tài)地獲取問句的結(jié)構(gòu)信息,同時(shí)相對(duì)于傳統(tǒng)最大池化能夠盡可能保留有效信息.
自動(dòng)客服系統(tǒng)中用戶問題文本語義分析的核心任務(wù)是識(shí)別問句文本中所蘊(yùn)含的語義關(guān)系. 針對(duì)這一任務(wù),本研究給出一種基于雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的問題語義學(xué)習(xí)方法. 這一方法相對(duì)于傳統(tǒng)問題分析方法在特征提取過程中,能有效避免對(duì)自然語言處理工具的過分依賴,能自動(dòng)從詞中直接學(xué)出問句的語義表示. 其中通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以及長短時(shí)記憶模塊可改善循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本語義學(xué)習(xí)所帶來的“梯度彌散”問題. 通過在電力領(lǐng)域客服系統(tǒng)的實(shí)際數(shù)據(jù)上測(cè)試比較,證明了本方法的有效性.
[1] ENDRICKX I, KIM S N, KOZAREVA Z,etal. Semeval-2010 task 8: multi-way classification of semantic relations between pairs of nominal[C]// Proceedings of the 5th International Workshop on Semantic Evaluation. [S.l.]: SemEval, 2010: 33-38.
[2] ZENG D, LIU K, LAI S,etal. Relation classification via convolutional deep neural network[C]//Proceedings of COLING. Dublin: [s.n.], 2014: 23-29.
[3] SUCHANEK F M, IFRIM G, WEIKUM G. Combining linguistic and statistical analysis to extract relations from web documents[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 712-717.
[4] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. Stroudsburg: Association for Computational Linguistics, 2004.
[5] ZHOU G D, SU J, ZHANG J,etal. Exploring various knowledge in relation extraction[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computing Machinery, 2005: 427-434.
[6] CAI L, ZHOU G, LIU K,etal. Learning to classify questions in CQA by leveraging wkipedia semantic knowledge[C]// Proceedings of CIKM. New York: ACM,2011: 1321-1330.
[7] ZHAO S, GRISHMAN R. Extracting relations with integrated information using kernel methods[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2005: 419-426.
[8] WANG T, LI Y, BONTCHEVA K,etal. Automatic extraction of hierarchical relations from text[C]//Proceedings of the 3rd European Conference on the Semantic Web: Research and Applications. Berlin: [s.n.], 2006: 215-229.
[9] JIANG J, ZHAI C. A systematic exploration of the feature space for relation extraction[C]//Proceedings of Human Language Technologies 2007 and the North American Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2007: 113-120.
[10] ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction[J]. The Journal of Machine Learning Research, 2003(3): 1083-1106.
[11] CULOTTA A,SORENSEN J. Dependency tree kernels for relation extraction[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004.
[12] BUNESCU R C, MOONEY R J. A shortest path dependency kernel for relation extraction[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2005: 724-731.
[13] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of Physiology, 1962, 160(1): 106-154.
[14] ZHANG M, ZHANG J, SU J,etal. A composite kernel to extract relations between entities with both flat and structured features[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2006: 825-832.
[15] ZHOU G, ZHANG M, JI D,etal. Tree kernel-based relation extraction with context-sensitive structured parse tree information[C]//Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg: Association for Computational Linguistics, 2007: 728-736.
[16] SOCHER R, HUVAL B, MANNING C D,etal. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg: Association for Computational Linguistics,2012: 1201-1211.
[17] XU Y, MOU L, LI G,etal. Classifying relations via long short term memory networks along shortest dependency paths[C]// Proceedings of EMNLP. Lisbon: [s.n.], 2005: 1785-1794.
[18] 胡新辰. 基于LSTM的語義關(guān)系分類研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué),2015.
[19] Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.
[20] Bottou L. Stochastic gradient learning in neural networks[C]//Proceedings of Neuro-Nmes. Nimes: EC2, 1991.