?
基于答案輔助的半監(jiān)督問題分類方法*
通信地址:215006 江蘇省蘇州市蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院Address:School of Computer Science & Technology,Soochow University,Suzhou 215006,Jiangsu,P.R.China
張棟,李壽山,周國(guó)棟
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
摘要:?jiǎn)栴}分類旨在對(duì)問題的類型進(jìn)行自動(dòng)分類,該任務(wù)是問答系統(tǒng)研究的一項(xiàng)基本任務(wù)。提出了一種基于答案輔助的半監(jiān)督問題分類方法。首先,將答案特征結(jié)合問題特征一起實(shí)現(xiàn)樣本表示;然后,利用標(biāo)簽傳播方法對(duì)已標(biāo)注問題訓(xùn)練分類器,自動(dòng)標(biāo)注未標(biāo)注問題的類別;最后,將初始標(biāo)注的問題和自動(dòng)標(biāo)注的問題合并作為訓(xùn)練樣本,利用最大熵模型對(duì)問題的測(cè)試文本進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,本文提出的基于答案輔助的半監(jiān)督分類方法能夠充分利用未標(biāo)注樣本提升性能,明顯優(yōu)于其他的基準(zhǔn)方法。
關(guān)鍵詞:?jiǎn)柎鹣到y(tǒng);問題分類;答案輔助;半監(jiān)督分類;標(biāo)簽傳播 田衛(wèi)東等人[10]根據(jù)對(duì)中文問題的分析,得出問題中的疑問詞和中心詞等對(duì)問題所屬類型起著決定性的作用。提出利用自學(xué)習(xí)方法建立疑問詞-類別和疑問詞+中心詞-類別兩種規(guī)則,并結(jié)合改進(jìn)貝葉斯模型的問題分類方法。該方法充分利用了關(guān)鍵詞對(duì)分類的貢獻(xiàn)。
1引言
問答系統(tǒng)能夠?yàn)橛脩籼岢龅淖匀徽Z言問題提供一個(gè)簡(jiǎn)明、準(zhǔn)確的答案,越來越受到人們的關(guān)注?,F(xiàn)有的問答系統(tǒng)主要包括三個(gè)模塊:?jiǎn)栴}分析、信息檢索和答案抽取。問答系統(tǒng)為了能夠正確回答用戶所提出的問題,首先需要對(duì)問題進(jìn)行分析,知道用戶想要尋找什么信息。此時(shí),問題分類作為問題分析最基礎(chǔ)的任務(wù),提供了重要支持[1]。
問題分類就是把給定的某個(gè)問題映射到多個(gè)類型中的某一個(gè)或者幾個(gè)類別中,以確定問題的類型。問題分類的第一個(gè)作用是有效地減小答案的候選空間。如:“怎么學(xué)習(xí)電腦維修呢?”經(jīng)過問題分類,該問題是一個(gè)“電腦”類的問題,問答系統(tǒng)就可以把這個(gè)問題的候選答案限制在“電腦”類的相關(guān)答案集合中。這樣就非常有效地減少了候選答案集合,充分提高了檢索效率。
問題分類的第二個(gè)作用是能夠決定答案的抽取策略,根據(jù)問題的不同類別采用不同的答案選擇策略和知識(shí)庫(kù)。如:“水瓶座男對(duì)天蝎座女表白說什么話最好?”經(jīng)過問題分類,該問題是“感情”類問題,檢索這類問題的答案就需要利用情感分析技術(shù)。
問題分類可以看作一種特殊的文本分類,然而,問題分類與傳統(tǒng)的文本分類存在一定差別。一方面,在傳統(tǒng)文本分類中詞頻信息對(duì)于區(qū)分文本中每個(gè)詞匯的貢獻(xiàn)程度很大,但在問題分類中詞頻信息不具明顯區(qū)分作用,因?yàn)閱栴}通常比較短,問題中每個(gè)詞匯的詞頻普遍為1[2]。單單利用問題進(jìn)行分類,往往由于信息量少而分錯(cuò)。另一方面,已標(biāo)注的問題資源比較匱乏,標(biāo)注語料又需要大量的時(shí)間、人力和物力[3]。因此,這就需要我們加入更多的輔助特征擴(kuò)充問題信息,同時(shí)充分利用大量的未標(biāo)注樣本信息,才能獲得較高的分類精度。
此外,傳統(tǒng)的問題分類普遍都是基于全監(jiān)督的分類方法,并且僅僅從問題中抽取特征進(jìn)行分類。與以往研究不同的是,本文提出的基于答案輔助的半監(jiān)督問題分類方法,一方面,該方法能夠充分利用問題已有的答案來擴(kuò)充分類信息,解決上面提到的問題包含的詞匯信息量少的難點(diǎn)。如表1所示,在未利用答案特征的情況下,直接利用問題特征進(jìn)行分類,“360問答開放平臺(tái)是做什么的?”被誤分為“非電腦”類問題。其原因可能是該問題中沒有包含 “電腦”“網(wǎng)絡(luò)”等關(guān)鍵詞。然而,加入了答案特征后再進(jìn)行分類,該問題則被準(zhǔn)確識(shí)別為“電腦”類問題。因?yàn)榇鸢柑卣髦邪盎ヂ?lián)網(wǎng)”這類明顯的與“電腦”類相關(guān)的關(guān)鍵詞。
Table 1 Examples of question classification
另一方面,該方法是一種半監(jiān)督學(xué)習(xí)方法,能夠充分利用未標(biāo)注問題的信息提升分類性能,解決標(biāo)注語料匱乏的問題[4]。此外,本文首次在問題分類研究中引入基于標(biāo)簽傳播的半監(jiān)督學(xué)習(xí)方法,該方法既可以使問題之間的標(biāo)簽互相傳播,也可以使答案之間的標(biāo)簽互相傳播,可以有效地提升標(biāo)簽預(yù)測(cè)準(zhǔn)確率。
具體而言,本文的方法先將答案特征加入到問題中,利用標(biāo)簽傳播方法預(yù)測(cè)未標(biāo)注問題的類別;再將已確定類別的問題作為訓(xùn)練樣本,利用最大熵模型進(jìn)行問題分類。實(shí)驗(yàn)結(jié)果表明,答案的信息有助于大幅提升問題分類準(zhǔn)確率。
本文其他部分組織如下:第2節(jié)介紹問題分類的相關(guān)工作;第3節(jié)描述問答語料的收集和構(gòu)成;第4節(jié)介紹本文提出的基于半監(jiān)督的問題分類方法;第5節(jié)給出實(shí)驗(yàn)設(shè)置與結(jié)果分析;第6節(jié)簡(jiǎn)述結(jié)論及下一步工作展望。
2相關(guān)工作
目前,問題分類研究主要集中在基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法上面。Ray S K等人[5]充分利用WordNet強(qiáng)大的語義特征和維基百科存儲(chǔ)的大量相關(guān)知識(shí)來擴(kuò)充問題所蘊(yùn)含的信息,從而提升問題分類性能;Hui Z等人[6]考慮了問題文本中詞序和詞間距對(duì)問題分類的影響,提出一種擴(kuò)展類順序規(guī)則模型;Mishra M等人[7]從問題文本中抽取出詞特征、句法特征、語義特征,融合這些特征訓(xùn)練三種分類器:最近鄰、樸素貝葉斯、支持向量機(jī),進(jìn)行問題分類;Yadav R等人[8]使用了一元、二元、三元詞特征以及詞性特征,采用樸素貝葉斯分類方法進(jìn)行問題分類的研究;Ligozat A L[9]將一部分英語問題語料庫(kù)翻譯為法語問題語料庫(kù),問題采用傳統(tǒng)的6個(gè)大類別以及細(xì)分的50個(gè)小類別,并使用LibSVM分類器分類這些問題。
劉小明等人[11]先對(duì)問題進(jìn)行淺層語義分析;再根據(jù)預(yù)定義的問題焦點(diǎn)結(jié)構(gòu)和焦點(diǎn)抽取規(guī)則,獲取問題焦點(diǎn)語義特征;然后標(biāo)示問題的類別為問題焦點(diǎn)中疑問對(duì)象在領(lǐng)域本體中的標(biāo)識(shí);最后根據(jù)焦點(diǎn)不同則問題不同的事實(shí),將焦點(diǎn)相同的問題歸為一類。
張巍等人[12]針對(duì)中文問題分類方法中布爾模型提取特征信息損失較大的問題,提出了一種新的特征權(quán)重計(jì)算方法。在提取問題特征時(shí),通過把信息熵算法和醫(yī)院本體概念模型結(jié)合在一起,進(jìn)行問題的特征模型計(jì)算,在此基礎(chǔ)上使用支持向量機(jī)方法進(jìn)行中文問題分類。
Liu L等人[13]認(rèn)為標(biāo)準(zhǔn)核函數(shù)的SVM方法忽視了中文問題的結(jié)構(gòu)信息,因而提出一種問題文本屬性核函數(shù)的SMO方法。該方法還同時(shí)使用了句法依賴關(guān)系和詞性特征。
多年來,傳統(tǒng)的問題分類研究?jī)H僅著眼于使用各種全監(jiān)督技術(shù)只針對(duì)問題本身進(jìn)行操作。與之不同的是,本文采用半監(jiān)督學(xué)習(xí)方法,一方面減小了人工標(biāo)注的工作量,另一方面通過將答案特征加入問題訓(xùn)練集中來擴(kuò)充問題的信息,協(xié)助問題進(jìn)行分類,以此提升問題分類的準(zhǔn)確率。
3語料收集與描述
本文語料來自好搜問答社區(qū)(http://wenda.haosou.com/),其大類別總共有15個(gè)。本文為了實(shí)驗(yàn)方便直觀以及下一步工作的需要,抓取了其中6個(gè)類別的問答數(shù)據(jù),分別是:電腦/網(wǎng)絡(luò)、文化/藝術(shù)、健康/醫(yī)療、生活、感情/家庭、體育/運(yùn)動(dòng)。每個(gè)類別包含2 000條問答(每個(gè)問題對(duì)應(yīng)一個(gè)答案),共12 000條問答,問答實(shí)例如表2所示。
Table 2 Question and answer examples of each category
4基于答案輔助的半監(jiān)督問題分類方法
如圖1所示是本文所提出的問題分類方法的完整架構(gòu)圖。首先將答案特征疊加到問題特征中;其次根據(jù)改進(jìn)后的標(biāo)簽傳播方法,利用已標(biāo)注問題預(yù)測(cè)未標(biāo)注問題的類別;然后剔除這些問題中的答案特征,確定問題文本訓(xùn)練集,使用最大熵模型訓(xùn)練問題文本分類器;最終利用問題文本測(cè)試集測(cè)試問題文本分類器的性能。
Figure 1 Semi-supervised question classification with the help of answers圖1 基于答案輔助的半監(jiān)督問題分類方法架構(gòu)圖
對(duì)于問題和答案文本,我們均采用一元詞特征。此外在預(yù)測(cè)未標(biāo)注問題時(shí),我們將答案特征加入到問題特征中來輔助問題分類。具體描述如表3所示。
Table 3 Examples of the unigram of question and
根據(jù)標(biāo)簽傳播LP(Label Propagation)算法基本理論,每個(gè)節(jié)點(diǎn)的標(biāo)簽按相似度傳播給相鄰節(jié)點(diǎn)。在節(jié)點(diǎn)傳播的每一步,每個(gè)節(jié)點(diǎn)根據(jù)相鄰節(jié)點(diǎn)的標(biāo)簽來更新自己的標(biāo)簽;與該節(jié)點(diǎn)相似度越大,其相鄰節(jié)點(diǎn)對(duì)其標(biāo)注的影響權(quán)值越大;相似節(jié)點(diǎn)的標(biāo)簽越趨于一致,其標(biāo)簽就越容易傳播。在標(biāo)簽傳播過程中,保持已標(biāo)注數(shù)據(jù)的標(biāo)簽不變,使其像一個(gè)源頭把標(biāo)簽傳向未標(biāo)注數(shù)據(jù)。最終,當(dāng)?shù)^程結(jié)束時(shí),相似節(jié)點(diǎn)的概率分布也趨于相似,可以劃分到同一個(gè)類別中,從而完成標(biāo)簽傳播過程[14,15]。具體算法如下所示:
算法1基于答案輔助的標(biāo)簽傳播方法
輸入:
初始已標(biāo)注問題樣本集合Lq,對(duì)應(yīng)的答案樣本集合La,分別包含n+個(gè)正類樣本和n-個(gè)負(fù)類樣本;
初始未標(biāo)注問題樣本集合Uq,對(duì)應(yīng)的答案樣本集合Ua;
初始已標(biāo)注問題與答案疊加樣本集合L=Lq+La,包含n+個(gè)正類樣本和n-個(gè)負(fù)類樣本;
初始未標(biāo)注問題與答案疊加樣本集合U=Uq+Ua;
輸出:
更新后的標(biāo)注問題樣本集合Lq;
程序:
(1)初始化;
P:n×r標(biāo)注矩陣,同時(shí)Pij標(biāo)識(shí)文檔i(i=0,…,n)屬于類別j(j=1,…,r)的概率;
PL:P0的前m行對(duì)應(yīng)的m個(gè)標(biāo)注實(shí)例L;
PU:P0的后n-m行對(duì)應(yīng)的n-m個(gè)未標(biāo)注實(shí)例U;
(2)循環(huán)迭代N次直到收斂;
(4)從L中剔除答案樣本集合La,得到最終的標(biāo)注問題樣本集合Lq。
在許多問題分類相關(guān)研究中,文檔通常用詞袋(Bag-of-words)模型化并用向量形式描述。在這些設(shè)置中,單詞與文檔間的關(guān)聯(lián)是不清晰的。為了更好地捕捉單詞和文檔之間的關(guān)系,本文采用基于文檔-詞的二部圖表述文檔與單詞的關(guān)系。文檔-詞的二部圖的連接關(guān)系由文檔和詞的連接矩陣表示,即n×V矩陣X;n為文檔數(shù)目,V是詞的數(shù)目。文檔-詞的二部圖僅存在文檔到詞及詞到文檔的連接關(guān)系。具體來講,文檔到詞及詞到文檔的轉(zhuǎn)移概率計(jì)算如下[16]:
如果文檔di包含詞wk,其權(quán)重為xik,則文檔di到單詞wk的轉(zhuǎn)移概率為xik/∑kxik;同理,單詞wk到文檔dj的轉(zhuǎn)移概率為xjk/∑kxjk。文檔di到文檔dj的轉(zhuǎn)移概率是由文檔di通過該文檔里面的所有詞到達(dá)文檔dj的概率之和,即tij=∑k(xik/∑kxik)·(xjk/∑jxjk)。得到文檔間的轉(zhuǎn)移概率之后,可以通過標(biāo)簽傳播算法計(jì)算未標(biāo)注樣本的標(biāo)簽。本文所提出的方法在每個(gè)文檔中均加入了答案特征,輔助問題分類。
5實(shí)驗(yàn)
實(shí)驗(yàn)使用6個(gè)主題的問答語料,每個(gè)主題設(shè)計(jì)為一個(gè)二元分類問題,即“該主題”與“非該主題”分類。例如:“電腦”類2 000條問答對(duì)(一個(gè)問題對(duì)應(yīng)一個(gè)答案),“非電腦”類是從其他5個(gè)主題中分別隨機(jī)選取400條問答對(duì),構(gòu)成2 000條問答語料。因此,實(shí)驗(yàn)中一共包括6個(gè)二元分類問題。語料分詞采用復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室開發(fā)的分詞軟件FudanNLP(https://code.google.com/p/fudannlp/)。分類算法采用MALLET機(jī)器學(xué)習(xí)工具包中的最大熵分類器(http://mallet.cs.umass.edu/),所有參數(shù)都設(shè)置為默認(rèn)值。分類特征選取詞的一元特征(Unigram),使用準(zhǔn)確率作為結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。根據(jù)初始標(biāo)注樣本規(guī)模的大小,我們給出兩組不同的實(shí)驗(yàn)設(shè)置:
(1)第一組6個(gè)二元主題分類任務(wù)的實(shí)驗(yàn),分別隨機(jī)選取每個(gè)主題5%的問答作為已標(biāo)注問題樣本,75%作為未標(biāo)注問題樣本,20%作為測(cè)試樣本。
(2)第二組6個(gè)二元主題分類任務(wù)的實(shí)驗(yàn),分別隨機(jī)選取每個(gè)主題10%的問答作為已標(biāo)注樣本,70%作為未標(biāo)注問題樣本,20%作為測(cè)試樣本。
實(shí)驗(yàn)比較方法詳細(xì)描述如下:
(1)Baseline:只利用初始標(biāo)注樣本訓(xùn)練問題分類器(沒有利用任何非標(biāo)注樣本);
(2)Self-training:利用整個(gè)特征空間構(gòu)建分類器,并用它迭代加入置信度最高的樣本擴(kuò)充標(biāo)注樣本集合;
(3)LP(問題):利用已標(biāo)注樣本通過標(biāo)簽傳播方法預(yù)測(cè)未標(biāo)注樣本的類別,將這些已確定類別的問題全部作為訓(xùn)練樣本,訓(xùn)練問題分類器;
(4)LP(問題+答案):將對(duì)應(yīng)的答案特征加入到已標(biāo)注和未標(biāo)注問題中,利用已標(biāo)注樣本通過LP預(yù)測(cè)未標(biāo)注樣本的類別,再剔除答案特征,將這些已確定類別的問題全部作為訓(xùn)練樣本,訓(xùn)練問題分類器。
圖2顯示當(dāng)初始標(biāo)注樣本為5%時(shí),4種方法的分類性能比較。從圖2中可以看出,我們的方法獲得的分類效果明顯優(yōu)于其他方法,分類準(zhǔn)確率比Self-training和LP方法分別平均提高了11.1%和3.9%。圖3顯示當(dāng)初始標(biāo)注樣本為10%時(shí),4種方法的分類性能比較。從圖3中可以看出,我們的方法同樣獲得了最佳的分類效果,分類準(zhǔn)確率比Self-training和LP方法分別平均提高10.7%和3.6%。具體比較結(jié)果如下:
(1)Self-training方法性能比Baseline還差,可能原因是,少量的問題標(biāo)注樣本剛開始預(yù)測(cè)的準(zhǔn)確率很低,再一步步地迭代錯(cuò)誤類別的問題樣本,帶來更大的錯(cuò)誤。
(2) 利用LP方法預(yù)測(cè)未標(biāo)注樣本再進(jìn)行問題分類,其分類準(zhǔn)確率要明顯高于Baseline和Self-training方法,這是因?yàn)長(zhǎng)P方法可以在標(biāo)注和未標(biāo)注的問題樣本中互相傳播標(biāo)簽,有效地提升標(biāo)簽預(yù)測(cè)準(zhǔn)確率。該實(shí)驗(yàn)結(jié)果說明LP方法在該任務(wù)中能夠發(fā)揮較好的優(yōu)越性。
(3) 本文提出的利用答案信息的LP方法,在12組實(shí)驗(yàn)中分類準(zhǔn)確率均遠(yuǎn)遠(yuǎn)高于其他3種方法。該結(jié)果表明答案信息確實(shí)可以擴(kuò)充問題分類信息,有效地提升了問題分類準(zhǔn)確率。
Figure 2 Comparison of different methods based on 5% of the initial labeled samples圖2 初始標(biāo)注樣本5%時(shí)不同半監(jiān)督分類方法性能比較
Figure 3 Comparison of different methods based on 10% of the initial labeled samples圖3 初始標(biāo)注樣本10%時(shí)不同半監(jiān)督分類方法性能比較
6結(jié)束語
本文針對(duì)問題分類任務(wù),提出了一種基于答案輔助的半監(jiān)督問題分類方法。該方法的特色在于充分利用已有答案的分類信息并能夠結(jié)合LP方法進(jìn)行半監(jiān)督分類,從而減少了大量的人工標(biāo)注工作。實(shí)驗(yàn)結(jié)果表明,該方法在不同主題的任務(wù)中都表現(xiàn)得都非常優(yōu)秀,分類準(zhǔn)確率明顯高于傳統(tǒng)的半監(jiān)督學(xué)習(xí)方法,進(jìn)一步地提高了半監(jiān)督問題分類的準(zhǔn)確率。
下一步工作中,我們將考慮使用更多的分類方法(如矩陣分解模型)進(jìn)一步提高半監(jiān)督問題分類性能。我們也將考慮利用更多的特征(如:語義、句法),考察這些特征是否可提高問題分類的準(zhǔn)確性。
參考文獻(xiàn):附中文
[1]LiXin,HuangXuan-jing,WuLi-de.CombinedmultipleclassifiersbasedonTBLalgorithmandtheirapplicationinquestionclassification[J].JournalofComputerResearchandDe-
velopment,2008,45(3):535-541.(inChinese)
[2]GaoChao.StudyonfeatureselectioninChinesequestionclassification[D].Anhui:AnhuiUniversityofTechnology,2011.(inChinese)
[3]LiS,HuangCR,ZhouG,etal.Employingpersonal/impersonalviewsinsupervisedandsemi-supervisedsentimentclassification[C]∥Procofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2010:414-423.
[4]LiS,HuangL,WangJ,etal.Semi-stackingforsemi-supervisedsentimentclassification[C]∥ProcofACL-2015,2015:27-31.
[5]RaySK,SinghS,JoshiBP.AsemanticapproachforquestionclassificationusingWordNetandWikipedia[J].PatternRecognitionLetters,2010,31(13):1935-1943.
[6]HuiZ,LiuJ,OuyangL.Questionclassificationbasedonanextendedclasssequentialrulemodel[C]∥ProcofIJCNLP, 2011:938-946.
[7]MishraM,KumarMishraV,SharmaHR.Questionclassificationusingsemantic,syntacticandlexicalfeatures[J].InternationalJournalofWeb&SemanticTechnology,2013,4(3):39-47.
[8]YadavR,MishraM,BhilaiS.QuestionclassificationusingNa?veBayesmachinelearningapproach[J].InternationalJournalofEngineeringandInnovativeTechnology(IJEIT),2013,2(8):291-294.
[9]LigozatAL.Questionclassificationtransfer[C]∥ProcofACL, 2013:429-433.
[10]TianWei-dong,GaoYan-ying,ZuYong-liang.Questionclassificationbasedonself-learningrulesandmodifiedBayes[J].ApplicationResearchofComputers,2010,27(8):2869-2871.(inChinese)
[11]LiuXiao-ming,FanXiao-zhong,LiFang-fang.Aquestionclassificationmethodcombiningdomainontologyandquestionfocus[J].TransactionsofBeijingInstituteofTechnology,2012,32(5):498-502.(inChinese)
[12]ZhangWei,ChenJun-jie.MethodofinformationentropyanditsapplicationinChinesequestionclassification[J].ComputerEngineeringandApplications,2013,49(10):129-131.(inChinese)
[13]LiuL,YuZ,GuoJ,etal.Chinesequestionclassificationbasedonquestionpropertykernel[J].InternationalJournalofMachineLearning&Cybernetics,2014,5(5):713-720.
[14]ZhangJun-li,ChangYan-li,ShiWen.Overviewonlabelpropagationalgorithmandapplications[J].ApplicationResearchofComputers,2013,30(1):21-25.(inChinese)
[15]LiS,XueY,WangZ,etal.Activelearningforcross-domainsentimentclassification[C]∥Procofthe32rdInternationalJointConferenceonArtificialIntelligence,2013:2127-2133.
[16]GaoWei,WangZhong-qing,LiShou-shan.Semi-supervisedsentimentclassificationwithaensemblestrategy[J].JournalofChineseInformationProcessing,2013,27(3):120-126.(inChinese)
[1]李鑫,黃萱菁,吳立德.基于錯(cuò)誤驅(qū)動(dòng)算法組合分類器及其在問題分類中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2008,45(3):535-541.
[2]高超.中文問題分類中特征選擇研究[D].安徽:安徽工業(yè)大學(xué),2011.
[10]田衛(wèi)東,高艷影,祖永亮.基于自學(xué)習(xí)規(guī)則和改進(jìn)貝葉斯結(jié)合的問題分類[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2869-2871.
[11]劉小明,樊孝忠,李方方.一種結(jié)合本體和焦點(diǎn)的問題分類方法[J].北京理工大學(xué)學(xué)報(bào),2012,32(5):498-502.
[12]張巍,陳俊杰.信息熵方法及在中文問題分類中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):129-131.
[14]張俊麗,常艷麗,師文.標(biāo)簽傳播算法理論及其應(yīng)用研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2013,30(1):21-25.
[16]高偉,王中卿,李壽山.基于集成學(xué)習(xí)的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào),2013,27(3):120-126.
張棟(1991-),男,江蘇揚(yáng)州人,碩士生,研究方向?yàn)樽匀徽Z言處理。E-mail:dzhangsuda@qq.com
ZHANGDong,bornin1991,MScandidate,hisresearchinterestincludesnaturallanguageprocessing.
李壽山(1980-),男,江蘇揚(yáng)州人,博士后,教授,CCF會(huì)員(E200033402M),研究方向?yàn)樽匀徽Z言處理。E-mail:lishoushan@suda.edu.cn
LIShou-shan,bornin1980,postdoctor,professor,CCFmember(E200033402M),professor,hisresearchinterestincludesnaturallanguageprocessing.
周國(guó)棟(1967-),男,江蘇常州人,博士后,教授,CCF會(huì)員(E200008769S),研究方向?yàn)樽匀徽Z言處理。E-mail:gdzhou@suda.edu.cn
ZHOUGuo-dong,bornin1967,postdoctor,CCFmember(E200008769S),hisresearchinterestincludesnaturallanguageprocessing.
A classification method for semi-supervised question classification with answers
ZHANG Dong,LI Shou-shan,ZHOU Guo-dong
(School of Computer Science & Technology,Soochow University,Suzhou 215006,China)
Abstract:Question classification aims at classifying the types of questions automatically, and this is a basic task of the question answering system. We propose a classification method for semi-supervised questions with answers. Firstly, we combine answer features with question features to realize sample expressions. Then we train a question classifier on labeled questions using label propagation algorithm to annotate the category of unlabeled questions automatically. The questions of initial annotation and automatic annotation are merged with each other as training samples, and the maximum entropy model is adopted to classify the testing samples. Experimental results demonstrate that the classification method for semi-supervised questions with answers in this paper can make full use of the unlabeled samples to improve the performance, and it outperforms other benchmark methods.
Key words:question answering system;question classification;answer aiding;semi-supervised classification;label propagation
作者簡(jiǎn)介:
doi:10.3969/j.issn.1007-130X.2015.12.024
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61331011);國(guó)家自然科學(xué)基金資助項(xiàng)目(61375073,61273320)
收稿日期:修回日期:2015-10-24
文章編號(hào):1007-130X(2015)12-2352-06