胡 萍
(合肥學(xué)院 管理系,安徽 合肥 230022)
以群件、即時(shí)通訊工具、網(wǎng)絡(luò)論壇、新聞和郵件列表為代表的在線群體研討平臺(tái)產(chǎn)生的海量數(shù)據(jù)[1],常常超出其處理信息的能力。依靠傳統(tǒng)人工分析文本的做法,不僅費(fèi)時(shí)、費(fèi)錢(qián)、費(fèi)力,而且通常不能全天循環(huán)工作[2]。因此,基于在線研討平臺(tái)的言語(yǔ)行為分類體系研究,即研究如何讓機(jī)器自動(dòng)分析文本,判斷研討狀態(tài),并根據(jù)這些數(shù)據(jù)為討論群體提供半自動(dòng)或自動(dòng)的干涉和輔助,就成為一個(gè)非常有意義的課題。
言語(yǔ)行為理論[3]認(rèn)為,人們說(shuō)話的同時(shí)是在實(shí)施某種行為,這種行為是通過(guò)語(yǔ)言表達(dá)完成的。一個(gè)言語(yǔ)行為體系由兩個(gè)因素組成。一方面,對(duì)言語(yǔ)行為的標(biāo)注必須十分清晰,這樣才有足夠的識(shí)別力。如果不是這樣,標(biāo)注者之間的統(tǒng)一性就會(huì)很低。另一方面,定義一個(gè)可以重用的分類體系可以提高效率,因?yàn)檫@樣的分類體系可以很容易地應(yīng)用于其他領(lǐng)域。大多數(shù)時(shí)候,人們會(huì)采用一部分已有的言語(yǔ)行為類別,然后自定義一些言語(yǔ)行為類別。
研討理論(Argumentation Theory)[4]是用來(lái)描述如何研討的理論。Toulmin提出了一套比較完備的知識(shí)表達(dá)結(jié)構(gòu),用來(lái)支持辯論過(guò)程中的知識(shí)表達(dá)和文本組織。Brockriede和Ehninger采用Toulmin的觀點(diǎn),將研討描述為“從事實(shí)出發(fā),通過(guò)推理,最后得出結(jié)論”[5]。
根據(jù)研討的時(shí)間、人力、資源壓力,我們可以將在線研討平臺(tái)分為同步研討和異步研討兩種工作平臺(tái)。同步研討就是所有用戶同時(shí)在線,并在有時(shí)間壓力的情況下進(jìn)行討論交流;異步研討就是用戶根據(jù)自己的時(shí)間安排選擇適當(dāng)?shù)臅r(shí)候上線,在沒(méi)有時(shí)間壓力的情況下進(jìn)行討論交流。同步研討平臺(tái)和異步研討平臺(tái)是兩種最具代表性的在線研討平臺(tái)。
在研究過(guò)程中,首先,收集研討平臺(tái)對(duì)應(yīng)的語(yǔ)言資料,提出相應(yīng)的言語(yǔ)行為分類體系;然后,在語(yǔ)料標(biāo)注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計(jì)言語(yǔ)行為分類所用的機(jī)器學(xué)習(xí)算法;在學(xué)習(xí)算法設(shè)計(jì)好以后,再進(jìn)行系統(tǒng)評(píng)估。在整個(gè)研究過(guò)程中,各個(gè)步驟可能需要反復(fù)多次調(diào)整,才能達(dá)到較好的效果。因此,這是一個(gè)螺旋式推進(jìn)的過(guò)程。
為了構(gòu)建在線研討言語(yǔ)行為分類體系,需要收集大量的語(yǔ)言資料,聘請(qǐng)專家閱讀這些資料,在前人類似研究的基礎(chǔ)上提出新的言語(yǔ)行為分類體系,并且,這個(gè)體系需要通過(guò)評(píng)估者間的信度測(cè)試。為了說(shuō)明一個(gè)言語(yǔ)行為分類對(duì)于研討是有效的,我們需要保證這個(gè)分類是客觀存在并且可重復(fù)操作和調(diào)整的,方法就是測(cè)試評(píng)估者間的信度。評(píng)估者間的信度給出了測(cè)量不同主觀判斷之間一致性的值。如果評(píng)估者之間沒(méi)有足夠的一致性,要么是因?yàn)榍捌谥笜?biāo)設(shè)計(jì)有問(wèn)題,要么是因?yàn)樵u(píng)估者理解指標(biāo)有缺陷。
語(yǔ)料標(biāo)注。語(yǔ)料標(biāo)注就是人工標(biāo)注發(fā)言所屬的行為,有時(shí)還要手工標(biāo)注關(guān)鍵特征。語(yǔ)料標(biāo)注工作量比較大,也是解決分類問(wèn)題和基于機(jī)器學(xué)習(xí)算法必不可少的內(nèi)容。為了進(jìn)行語(yǔ)料標(biāo)注,首先需要制定一個(gè)標(biāo)準(zhǔn)格式?;赬ML語(yǔ)法的標(biāo)注方法是目前比較流行的,因?yàn)閄ML格式的數(shù)據(jù)本身能夠自說(shuō)明,并且有眾多的工具可以進(jìn)行后期處理。當(dāng)資料較多、標(biāo)注任務(wù)較繁重時(shí),一個(gè)人難以完成。如果讓幾個(gè)人來(lái)標(biāo)注語(yǔ)料,在開(kāi)始標(biāo)注前就應(yīng)該對(duì)所有標(biāo)注者進(jìn)行培訓(xùn),只有所有標(biāo)注者間的信度達(dá)到預(yù)定的水平,正式的標(biāo)注工作才可以開(kāi)始,這樣結(jié)果才能達(dá)到足夠的一致性。
初始特征集的選擇。許多特征類別包含的特征數(shù)目是固定不變的。例如,句法特征中的標(biāo)點(diǎn)符號(hào)特征的個(gè)數(shù)就是固定的,因?yàn)闃?biāo)點(diǎn)符號(hào)的個(gè)數(shù)是固定的;鏈接特征、風(fēng)格特征和用戶特征的個(gè)數(shù)也是固定的。但是,言語(yǔ)行為分類的一個(gè)巨大挑戰(zhàn)是特征空間的維數(shù)過(guò)大。由于采用向量空間模型,原始特征空間通常由出現(xiàn)在文檔中的唯一的terms(words或phrases)組成,而一個(gè)中等大小的文本集合可能包含幾萬(wàn)到幾十萬(wàn)個(gè)terms。這樣的維數(shù)對(duì)于許多學(xué)習(xí)算法來(lái)說(shuō)都過(guò)大了。因此,在不影響分類精度的情況下,減少原始的維數(shù)就變得非常必要。而且,自動(dòng)實(shí)現(xiàn)這一目標(biāo)也非常重要,即不需要手工定義或構(gòu)建特征。自動(dòng)特征選擇方法包括根據(jù)語(yǔ)料統(tǒng)計(jì)除去那些無(wú)關(guān)的terms,以及通過(guò)將低層特征(如terms)合并成高層的正交維數(shù)的方法來(lái)構(gòu)建新的特征。基于n-grams的特征數(shù)目幾乎是無(wú)窮的。因此,n-grams空間的大小成為言語(yǔ)分類過(guò)程中非常重要的一個(gè)閥值。
設(shè)計(jì)機(jī)器學(xué)習(xí)算法。在語(yǔ)料標(biāo)注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計(jì)機(jī)器學(xué)習(xí)算法,最終完成對(duì)言語(yǔ)行為的有效分類。言語(yǔ)行為分類可以采用多種機(jī)器學(xué)習(xí)算法。其中最為成功的兩種方法是基于轉(zhuǎn)換的學(xué)習(xí)(Transformation Based Learning,TBL)和支持向量機(jī)(Support Vector Machine,SVM)。TBL算法以帶有一定激發(fā)環(huán)境的轉(zhuǎn)換式的方式存在,獲取所需的規(guī)則,易懂直觀,這樣既不需要花費(fèi)大量的機(jī)器存儲(chǔ)空間,又可從一定程度上避免數(shù)據(jù)稀疏的問(wèn)題。其基本思想是,用已標(biāo)注過(guò)的文字作為訓(xùn)練資料庫(kù)。首先采用一種初始標(biāo)注方法對(duì)語(yǔ)料進(jìn)行標(biāo)注,然后將結(jié)果與正確的文本進(jìn)行對(duì)比,通過(guò)預(yù)先設(shè)計(jì)好的目標(biāo)函數(shù)和轉(zhuǎn)換模板,找出應(yīng)用轉(zhuǎn)換模板后標(biāo)注錯(cuò)誤次數(shù)最少的轉(zhuǎn)換式,作為系統(tǒng)的新的標(biāo)注規(guī)則,再用該規(guī)則重新標(biāo)注語(yǔ)料。重復(fù)上述過(guò)程,每次轉(zhuǎn)化都會(huì)得到一條新的規(guī)則,直到找不出有價(jià)值的規(guī)則為止。SVM算法是一種實(shí)現(xiàn)了結(jié)構(gòu)風(fēng)險(xiǎn)最小化的方法,其被廣泛應(yīng)用于模式識(shí)別和機(jī)器學(xué)習(xí),也被應(yīng)用于言語(yǔ)行為分類。它的機(jī)器學(xué)習(xí)策略是保持經(jīng)驗(yàn)風(fēng)險(xiǎn)值固定而最小化置信范圍。SVM算法通過(guò)核函數(shù)將向量映射到一個(gè)更大維數(shù)的空間中,在這個(gè)空間里建立一個(gè)最大間隔超平面來(lái)將兩類樣本點(diǎn)分開(kāi),從而縮小n-grams空間,緩解數(shù)據(jù)稀疏問(wèn)題和過(guò)擬合的問(wèn)題。
常用的評(píng)估機(jī)器學(xué)習(xí)性能的方法有n-fold cross validation和 bootstrap兩種。N-fold cross validation方法將數(shù)據(jù)分成n(通常n=10)份,將其中n-1份作為訓(xùn)練數(shù)據(jù),最后1份作為測(cè)試數(shù)據(jù)。系統(tǒng)的綜合性能就是這n次結(jié)果的平均值。Bootstrap方法則是從訓(xùn)練集中用隨機(jī)的方法選擇一定數(shù)量的數(shù)據(jù)作為測(cè)試原始集,其他的數(shù)據(jù)作為訓(xùn)練集。這樣重復(fù)n(通常n=50)次,這n次的測(cè)試結(jié)果就是系統(tǒng)的綜合性能。人們可以根據(jù)研究問(wèn)題的不同特征,選擇適合在線研討平臺(tái)的系統(tǒng)評(píng)估方法。
[1] Koppel M.,Argamon S.,Shimoni A.R.Automatically Categorizing Written Texts by Author Gender[J].Literary and Linguistic Computing,2002(4).
[2] 程少川,張朋柱.電子公共大腦設(shè)計(jì)的信息組織研究[J].西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2001(1).
[3] Li,J.,Zhang,P.Z.,Cao,J.W.External Concept Support for Group Support Systems through Web Mining[J].Journal of the American Society for Information Science and Technology,2009(5).
[4] Limayem M.,DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups[J].Information Systems Research,2000(4).
[5] 蔣御柱,張朋柱,張興學(xué).群體研討支持系統(tǒng)中的智能可視化研究[J].管理科學(xué)學(xué)報(bào),2009(3).