魏忠鈺,丁佳玙,沈晨晨,高 源,梁敬聰,紀(jì)程煒,林嘉昱,黃萱菁
(1. 復(fù)旦大學(xué) 大數(shù)據(jù)學(xué)院,上海 200433;2. 復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433)
論辯(Argumentation)[1-3]以人的邏輯論證過(guò)程作為研究對(duì)象,是一個(gè)涉及邏輯、哲學(xué)、語(yǔ)言、修辭、計(jì)算機(jī)科學(xué)和教育等多學(xué)科的研究領(lǐng)域,相關(guān)研究工作可以追溯到亞里士多德時(shí)期[4]。近年來(lái),論辯研究引起計(jì)算語(yǔ)言學(xué)的關(guān)注,并催生了一個(gè)新的研究領(lǐng)域,即計(jì)算論辯學(xué)(Computational Argumentation)[5-6]。學(xué)者試圖將人類關(guān)于邏輯論證的認(rèn)知模型與計(jì)算模型結(jié)合起來(lái),以提高人工智能自動(dòng)推理的能力[7-8]。根據(jù)參與論辯過(guò)程的人數(shù)不同,計(jì)算論辯學(xué)的研究可以分成兩類,即,單體式論辯(Monological Argumentation)和對(duì)話式論辯(Dialogical Argumentation)。單體式論辯[6]的研究對(duì)象是僅有一個(gè)參與者的辯論性文本,如議論文和主題演講等。相關(guān)的研究包括論辯部件檢測(cè)[9]、論辯結(jié)構(gòu)預(yù)測(cè)[10-11]、論辯策略分類[12-13]和議論文評(píng)分[14-15]等。對(duì)話式論辯[16-17]的研究對(duì)象是針對(duì)某一個(gè)特定議題進(jìn)行觀點(diǎn)交互的論辯過(guò)程, 一般有多個(gè)參與者。相關(guān)的研究包括論辯結(jié)果預(yù)測(cè)[18-19]和論辯邏輯鏈抽取[20-21]等。近年來(lái),相關(guān)學(xué)者在單體式論辯研究中取得了一定程度的進(jìn)展,包括任務(wù)類型的確定、數(shù)據(jù)集合的構(gòu)建以及基線模型的提出等。但對(duì)于對(duì)話式論辯的相關(guān)研究還停留在初步階段,缺乏對(duì)相關(guān)場(chǎng)景和任務(wù)的系統(tǒng)化梳理與建模。
多參與者的論辯交互過(guò)程在現(xiàn)實(shí)世界中廣泛存在,如社交網(wǎng)絡(luò)[22-23]、司法領(lǐng)域[24-26]、教育領(lǐng)域[27-30]等。隨著社交媒體(微博、微信、知乎、臉書(shū)等)在世界范圍內(nèi)的影響力不斷擴(kuò)大,人們交流信息的方式也發(fā)生了革命性的變化。很多話題的討論都從“餐桌對(duì)話”的形式擴(kuò)展到在線平臺(tái),大量積累的用戶討論文本也因此成為大家對(duì)公眾議題進(jìn)行搜索的重要信息來(lái)源[31]。在法庭的案件審理過(guò)程中,控訴方和辯護(hù)方會(huì)針對(duì)一個(gè)特定案件的不同側(cè)面進(jìn)行觀點(diǎn)的交換,而法官和陪審團(tuán)則會(huì)基于這樣的交互信息,對(duì)案件的結(jié)果進(jìn)行最終的判決。每一場(chǎng)庭審記錄都包含大量控辯雙方的交互文本,成為法官和陪審團(tuán)解讀案件需要進(jìn)行深度理解的材料。在教育領(lǐng)域,議論文寫(xiě)作是學(xué)生在語(yǔ)言課程學(xué)習(xí)中的必修科目,學(xué)生需要對(duì)于給定主題給出自己的觀點(diǎn),而針對(duì)不同立場(chǎng)進(jìn)行論點(diǎn)的建構(gòu)和陳述是很常用的議論文寫(xiě)作手法。收集和利用現(xiàn)有的針對(duì)某特定議題的討論文本對(duì)于論文的寫(xiě)作至關(guān)重要。
隨著不同領(lǐng)域的對(duì)話式論辯性文本的積累,針對(duì)對(duì)話式論辯文本的自動(dòng)化理解工具和算法有越來(lái)越大的實(shí)際需求。經(jīng)典的對(duì)話式論辯分析任務(wù)以兩段論辯性文本作為輸入(原始論辯文本和回復(fù)論辯文本),在經(jīng)過(guò)針對(duì)每一個(gè)論辯性文本的論點(diǎn)抽取之后,深入的分析還包括三個(gè)子任務(wù),即,交互論點(diǎn)對(duì)抽取,交互策略識(shí)別以及論辯質(zhì)量評(píng)估。交互論點(diǎn)對(duì)抽取模塊旨在將來(lái)自兩段論辯性文本的論點(diǎn)進(jìn)行自動(dòng)化的匹配,交互策略識(shí)別則進(jìn)一步研究觀點(diǎn)對(duì)的交互性質(zhì)(贊成、反對(duì)、駁斥等),論辯質(zhì)量評(píng)估(有說(shuō)服力、欠說(shuō)服力等)。除了文本理解型的任務(wù)之外,生成式任務(wù)也在近年引起學(xué)界的廣泛關(guān)注,研究主題包括總結(jié)性論點(diǎn)生成和目標(biāo)論點(diǎn)生成。本綜述將覆蓋對(duì)話式論辯文本理解和生成兩部分的研究?jī)?nèi)容,并介紹智能論辯應(yīng)用的研究進(jìn)展。最后,本文總結(jié)了當(dāng)前的研究進(jìn)展并展望了未來(lái)的發(fā)展方向。
在對(duì)話式論辯中,一個(gè)核心的任務(wù)在于自動(dòng)識(shí)別出論辯雙方(或多方)關(guān)于某個(gè)特定議題、論點(diǎn)、或論據(jù),產(chǎn)生邏輯語(yǔ)義交互關(guān)系的論點(diǎn)對(duì),即交互式論點(diǎn)對(duì)識(shí)別。從一方面來(lái)看,該任務(wù)是理解對(duì)話式論辯文本結(jié)構(gòu)和內(nèi)容的基礎(chǔ),只有識(shí)別出雙方存在交互關(guān)系的論點(diǎn)對(duì),才能進(jìn)一步劃分整場(chǎng)論辯中雙方觀點(diǎn)的相互作用和演化過(guò)程,從而推進(jìn)更多對(duì)話式論辯中的下游任務(wù)的建模理解,如辯論摘要和論點(diǎn)說(shuō)服力質(zhì)量評(píng)估等;而從另一方面來(lái)說(shuō),該任務(wù)也是對(duì)話式論辯中最具有實(shí)際應(yīng)用前景的方向,不論是在線論壇亦或是內(nèi)容平臺(tái),識(shí)別出雙方的觀點(diǎn)交互后,有助于快速理解用戶之間或買家賣家之間的核心爭(zhēng)論點(diǎn),從而幫助人們迅速捕捉討論中涉及的多方訴求,精確定位到人們的真實(shí)意圖和根本分歧。
交互式論點(diǎn)對(duì)識(shí)別任務(wù)最早由Ji 等人在2019年提出。所謂交互式論點(diǎn)對(duì),便是指在對(duì)話式論辯的場(chǎng)景中(如辯論賽或在線辯論論壇等),參與的雙方就某一共同話題所產(chǎn)生的邏輯或語(yǔ)義上存在相關(guān)的論點(diǎn)對(duì)。圖1給出了ChangeMyView論壇中的兩條討論帖的示例,其中,帖A為該主題下的原始帖(Original Post),即“樓主”所發(fā)。而帖B為A的回復(fù)帖(Reply Post)。這兩篇帖子都旨在討論聯(lián)合養(yǎng)老制度的合理性,其中帖A支持聯(lián)合養(yǎng)老保險(xiǎn)制度,共分為五個(gè)論點(diǎn)句A1~A5,并從三個(gè)角度闡述了發(fā)帖者所認(rèn)為的合理性;而帖B反對(duì)該制度,也分為五個(gè)論點(diǎn)句B1~B5,并通過(guò)舉例論證的方式論證了自己的核心觀點(diǎn)“人們退休后的收入需求通常會(huì)隨著年齡的增長(zhǎng)而下降”。通過(guò)分析這兩篇帖子的文本,可以發(fā)現(xiàn)B1和A1之間存在直接的反對(duì)關(guān)系,因而這是一對(duì)交互式論點(diǎn)對(duì),相似地,B2和A5也共同成為一對(duì)交互式論點(diǎn)對(duì)。
圖1 CMV論壇中兩條發(fā)帖的內(nèi)容及其中論點(diǎn)交互的示例
Ji等人通過(guò)觀察分析Tan等人所爬取的CMV論壇數(shù)據(jù),發(fā)現(xiàn)在該論壇數(shù)據(jù)中,一些回復(fù)帖中存在對(duì)于原始帖(被回復(fù)的帖子)的直接引用(Quotation)。圖2是聯(lián)合養(yǎng)老保險(xiǎn)制度合理性討論下的示例,可以發(fā)現(xiàn)帖B對(duì)帖A中“你把錢放在信托里,信托把錢投資出去,然后它就會(huì)和其他所有人的錢混在一起?!边@句話進(jìn)行了引用,且引用后緊跟的一句話便是在回復(fù)該被引用句。在論壇數(shù)據(jù)里,這樣的引用由特殊符號(hào)“>”所標(biāo)識(shí)?;谠摪l(fā)現(xiàn),Ji 等人認(rèn)為回復(fù)貼中關(guān)于原始帖引用后的第一句話便是對(duì)于原始帖被引用句的交互論點(diǎn),即被引用句(Quotation Argument)和該回復(fù)句(Reply Argument)構(gòu)成交互式論點(diǎn)對(duì)。因此,Ji等人通過(guò)將CMV的文本數(shù)據(jù)進(jìn)行規(guī)則篩選,共獲得了13 046組引用回復(fù)論點(diǎn)對(duì),即交互式論點(diǎn)對(duì),并以此為正樣本,按照1∶4的比例在同一回復(fù)帖中采集其他句子作為負(fù)樣本,最終形成在五句候選回復(fù)論點(diǎn)句中找出正確的與被引用論點(diǎn)存在交互關(guān)系的論點(diǎn)句。
圖2 CMV論壇中回復(fù)帖關(guān)于原始帖存在引用現(xiàn)象示例
特別地,針對(duì)該交互式論點(diǎn)對(duì)識(shí)別任務(wù),Ji 等人[32]提出了通過(guò)離散變分自編碼器(Discrete Variational Auto Encoder)來(lái)對(duì)給定論點(diǎn)進(jìn)行離散化表示,意在從糅合的論點(diǎn)文本表示中分離出論辯主題、辯手行為特點(diǎn)等不同層面的特征,在所提數(shù)據(jù)集上的實(shí)驗(yàn)顯示該模型相比其他的文本編碼及匹配的基準(zhǔn)模型有著較大的性能提升。隨著該任務(wù)的提出,越來(lái)越多的研究者意識(shí)到交互式論點(diǎn)對(duì)任務(wù)在對(duì)話式論辯中的重要地位,并提出了相關(guān)改進(jìn)方法來(lái)提升模型性能[33]。Yuan等人[34]通過(guò)對(duì)該任務(wù)數(shù)據(jù)集的分析,發(fā)現(xiàn)對(duì)該任務(wù)的建模不止需要對(duì)文本相似度進(jìn)行計(jì)算,還需要對(duì)討論中包含的概念實(shí)體和推理過(guò)程進(jìn)行建模?;谠摪l(fā)現(xiàn),作者基于CMV數(shù)據(jù)集構(gòu)建了一個(gè)包含20余萬(wàn)節(jié)點(diǎn)和80余萬(wàn)條邊的論辯領(lǐng)域知識(shí)圖譜,將這一外部知識(shí)庫(kù)引入模型增強(qiáng)上下文理解能力,并提出了基于Transformer編碼器對(duì)推理路徑進(jìn)行建模來(lái)增強(qiáng)交互式論點(diǎn)對(duì)識(shí)別任務(wù)的方法。 Devlin等人[35]提出了大規(guī)模預(yù)訓(xùn)練模型BERT,憑借其龐大的參數(shù)和先進(jìn)的多頭自注意力機(jī)制,一時(shí)間在幾乎所有的自然語(yǔ)言處理相關(guān)的任務(wù)上都取得了最優(yōu)性能,在該任務(wù)上的表現(xiàn)也超過(guò)了Ji等人;Wu等人[36]使用混合提升(Mixup)方法,通過(guò)對(duì)訓(xùn)練樣本中的引用回復(fù)論點(diǎn)對(duì)及其訓(xùn)練目標(biāo)進(jìn)行線性插值,生成了大量的新的人造樣本,同時(shí)作者還增強(qiáng)了所提模型對(duì)于給定引用論點(diǎn)和候選回復(fù)論點(diǎn)對(duì)上下文的建模,基于上述數(shù)據(jù)增強(qiáng)以及額外信息建模的改進(jìn)使得其在該任務(wù)上模型的性能得到進(jìn)一步的提升。
論點(diǎn)對(duì)抽取(Argument Pair Extraction,APE)是對(duì)話式論辯領(lǐng)域的一個(gè)新任務(wù),目的是從兩篇相關(guān)的文章中成對(duì)抽取那些具有互動(dòng)關(guān)系的論點(diǎn)。圖3是同行評(píng)議場(chǎng)景下一個(gè)論點(diǎn)對(duì)抽取的例子,來(lái)自 Review-Rebuttal 數(shù)據(jù)集,左圖是論文的審稿意見(jiàn)(Review),右圖則是作者的回復(fù)(Rebuttal)。兩篇文章在句子級(jí)別上被劃分為論點(diǎn)和非論點(diǎn)。有陰影的為論點(diǎn),沒(méi)有陰影的為非論點(diǎn)。Review 中的論點(diǎn)可以與Rebuttal中的論點(diǎn)形成論點(diǎn)對(duì),表示它們?cè)谟懻撏粏?wèn)題。在這個(gè)例子中,兩個(gè)論點(diǎn)對(duì)分別用淺色陰影和深色陰影標(biāo)注出。
圖3 同行評(píng)議場(chǎng)景下論點(diǎn)對(duì)抽取的示例[37]
圖4 破壞論證的基本邏輯結(jié)構(gòu)
Cheng等人[38]指出,論點(diǎn)對(duì)抽取是一項(xiàng)非常有挑戰(zhàn)的任務(wù),其挑戰(zhàn)性主要體現(xiàn)在以下兩個(gè)方面: 第一,從數(shù)據(jù)的層面看,不同于常見(jiàn)的抽取任務(wù),該任務(wù)所面對(duì)的文本非常長(zhǎng),并且是兩篇文章;第二,從任務(wù)定義的層面看,不同于傳統(tǒng)的論辯關(guān)系預(yù)測(cè)任務(wù),論辯對(duì)抽取首先需要從文本中抽取出各個(gè)論點(diǎn),然后再判斷論點(diǎn)間的關(guān)系。
Bao等人[37]認(rèn)為之前在APE任務(wù)中的方法通過(guò)兩個(gè)分解的任務(wù)隱式地抽取出論點(diǎn)對(duì),缺乏論點(diǎn)對(duì)之間參數(shù)級(jí)交互的顯式建模,因而作者通過(guò)一個(gè)相互引導(dǎo)的框架來(lái)處理該論點(diǎn)對(duì)抽取任務(wù),該框架可以利用一篇文章中的一個(gè)論點(diǎn)的信息來(lái)指導(dǎo)識(shí)別另一篇文章中與該論點(diǎn)成對(duì)的論點(diǎn),以此方式使得兩篇文章可以在任務(wù)過(guò)程中相互引導(dǎo),此外作者還引入了一個(gè)句子間關(guān)系圖來(lái)描述評(píng)審和反駁文本句子之間的復(fù)雜交互作用,從而顯式地利用論點(diǎn)級(jí)語(yǔ)義信息更精確地提取論點(diǎn)對(duì)。
Cheng等人[39]則認(rèn)為以往APE任務(wù)上的研究將其看作是對(duì)直接連接在一起的兩篇文章的序列標(biāo)注問(wèn)題和二分類問(wèn)題,其局限性是沒(méi)有充分利用兩篇不同文章的獨(dú)特特征和內(nèi)在關(guān)系,從而提出了一種新的注意引導(dǎo)多層多交叉編碼方案來(lái)解決這一問(wèn)題,所提新模型處理兩個(gè)獨(dú)立序列編碼器的兩個(gè)段落,并通過(guò)注意相互更新它們的表示。此外,作者還通過(guò)更新兩個(gè)序列的笛卡爾積表示,將預(yù)測(cè)部分表述為一個(gè)表填充問(wèn)題,并引入了一個(gè)輔助注意力損失,以引導(dǎo)每個(gè)論點(diǎn)對(duì)齊成對(duì)的論點(diǎn)。
立場(chǎng)是指一個(gè)人對(duì)某個(gè)目標(biāo)(如物體、陳述或問(wèn)題)的總體觀點(diǎn)。對(duì)一個(gè)目標(biāo)采取一種立場(chǎng)意味著支持或反對(duì)它。論辯立場(chǎng)分析是對(duì)文本給定目標(biāo)的立場(chǎng)的分類。通常輸入是一種論辯性文本,是問(wèn)題或主張的某個(gè)目標(biāo),輸出是這段文本的觀點(diǎn)是贊成還是反對(duì),有時(shí)也會(huì)考慮諸如中立或不相關(guān)的類型。論辯立場(chǎng)分析這個(gè)任務(wù)具有挑戰(zhàn)性的原因在于: 一是立場(chǎng)可以不提及話題本身就被表達(dá);二是需要考慮所討論的概念的對(duì)比性;三是積極的立場(chǎng)可以用消極的情緒來(lái)表達(dá),反之亦然。但是立場(chǎng)和情緒的極性又往往是相關(guān)的。
對(duì)立場(chǎng)分類進(jìn)行計(jì)算建模有兩種方式: 一是標(biāo)準(zhǔn)文本分類,用針對(duì)特定話題的文本進(jìn)行訓(xùn)練;二是類似關(guān)系分類,以話題作為一個(gè)輸入。常用文本特征如下: 詞袋,單詞或單詞n-grams的分布;核心詞匯,主體性詞匯的術(shù)語(yǔ);POS,詞性標(biāo)簽的分布;話語(yǔ),論元間的連接詞關(guān)系;情緒,以主題導(dǎo)向的情緒極性[40-41]。
大多數(shù)立場(chǎng)分析方法是利用各種上下文信息,如相關(guān)論辯、討論帖的文本等,使用有監(jiān)督機(jī)器學(xué)習(xí)算法來(lái)學(xué)習(xí)主題,具體的立場(chǎng)分類方法如下: 利用對(duì)話中作者的知識(shí)[42]、利用對(duì)話中的對(duì)立觀點(diǎn)[41]、利用文本和話題目標(biāo)的情感和對(duì)比[43]、基于總體結(jié)構(gòu)的立場(chǎng)識(shí)別路由核[44]。
2010年,Somasundaran和Wiebe[40]探討了情感和爭(zhēng)論意見(jiàn)在意識(shí)形態(tài)辯論中分類立場(chǎng)的效用,建立了以情緒和爭(zhēng)論觀點(diǎn)及其目標(biāo)為特征的有監(jiān)督系統(tǒng)。2013年,Hasan和Ng[41]在辯論論壇上論辯雙方的辯論文本的立場(chǎng)標(biāo)簽上建立用戶交互約束和意識(shí)形態(tài)約束,從而檢測(cè)辯手所表達(dá)的立場(chǎng)。2016 年,Sobhani等人[45]開(kāi)發(fā)了一個(gè)立場(chǎng)檢測(cè)系統(tǒng),分析了包括情緒特征在內(nèi)的各種特征對(duì)于立場(chǎng)檢測(cè)的影響,并且在競(jìng)賽(SemEval-2016 task #6)中取得了優(yōu)異的結(jié)果。2017年,Bar-Haim等人[43]提出從情感和對(duì)比中得出立場(chǎng),基于與給定話題相關(guān)的主張,對(duì)該主張?jiān)谠搯?wèn)題上的立場(chǎng)進(jìn)行分類。采用的方法過(guò)程如下: 第一步,確定話題和主張的目標(biāo);第二步,針對(duì)每個(gè)目標(biāo)的情緒極性進(jìn)行分類;第三步,確定目標(biāo)是否具有對(duì)比性;第四步,從情感和對(duì)比中得出立場(chǎng)。
前文介紹的立場(chǎng)檢測(cè),可以簡(jiǎn)單理解為是將文本中所表達(dá)的對(duì)給定目標(biāo)的態(tài)度分類為“積極”“消極”或“中性”。這類立場(chǎng)檢測(cè)工作大多是假設(shè)文中提到給定的目標(biāo),或者給出每個(gè)目標(biāo)的訓(xùn)練數(shù)據(jù)。接下來(lái)介紹一些目標(biāo)或主題未知情況下的立場(chǎng)分析工作。
2016年,Augenstein等人[46]提出考慮立場(chǎng)檢測(cè)任務(wù)中目標(biāo)未知的情況,方法是: 首先,需要學(xué)習(xí)一個(gè)模型,來(lái)解釋文本對(duì)一個(gè)在文本中可能沒(méi)有提到的目標(biāo)的立場(chǎng);其次,需要學(xué)習(xí)這樣一個(gè)沒(méi)有標(biāo)記的目標(biāo)的訓(xùn)練數(shù)據(jù)的模型。例如,一條推特“特朗普是共和黨唯一誠(chéng)實(shí)的聲音”表達(dá)了對(duì)目標(biāo)唐納德·特朗普的積極立場(chǎng)。然而,當(dāng)以希拉里·克林頓為隱含目標(biāo)時(shí),這條推特表達(dá)了一種負(fù)面的立場(chǎng),因?yàn)橹С忠粋€(gè)政黨的候選人意味著對(duì)其他政黨的候選人的負(fù)面立場(chǎng)。在這個(gè)例子中,我們需要通過(guò)只使用其他目標(biāo)的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)希拉里·克林頓的模型。雖然這使得任務(wù)更具挑戰(zhàn)性,但這是一個(gè)更現(xiàn)實(shí)的場(chǎng)景,因?yàn)椴惶赡苡嗅槍?duì)每個(gè)感興趣的目標(biāo)的標(biāo)記訓(xùn)練數(shù)據(jù)。
2017年,Wachsmuth等人[44]提出基于總體結(jié)構(gòu)的立場(chǎng)識(shí)別核方法,給定一個(gè)單一的論辯性文本,在不知道所討論的主題的情況下,對(duì)立場(chǎng)和偏見(jiàn)進(jìn)行分類。假設(shè)論辯性文本的整體結(jié)構(gòu)是決定立場(chǎng)和偏見(jiàn)的決定性因素,采用的方法是: 從文本的論證結(jié)構(gòu)開(kāi)始,建模整體結(jié)構(gòu)的路由核(樹(shù)核的一個(gè)變體,可以捕獲順序結(jié)構(gòu)和層次結(jié)構(gòu)[47]),再根據(jù)整體結(jié)構(gòu)對(duì)立場(chǎng)和偏見(jiàn)進(jìn)行分類。2020年,Kobbe等人[48]提出了一個(gè)獨(dú)立于主題的方法,其主要關(guān)注事件后果,即我們?cè)诒磉_(dá)觀點(diǎn)時(shí),經(jīng)常提及某個(gè)事件發(fā)生的后果來(lái)支持我們的觀點(diǎn)或反對(duì)他人的觀點(diǎn)。該篇工作提出一種模式來(lái)匹配/建模這種表達(dá)方式,并直接根據(jù)模式的結(jié)果推理出其所表達(dá)的立場(chǎng),實(shí)現(xiàn)無(wú)監(jiān)督判斷一個(gè)句子對(duì)于目標(biāo)的立場(chǎng)。
當(dāng)有足夠的帶標(biāo)簽的訓(xùn)練數(shù)據(jù)時(shí),立場(chǎng)檢測(cè)任務(wù)很容易取得成功。然而,注釋足夠的數(shù)據(jù)會(huì)耗費(fèi)大量人力,這為將立場(chǎng)分類器泛化到具有新目標(biāo)的數(shù)據(jù)設(shè)置了顯著的障礙,且立場(chǎng)檢測(cè)有不同的任務(wù)變體,任務(wù)定義也各不相同,包括標(biāo)簽類型(如有些標(biāo)簽既包括同意、不同意和不相關(guān)的變體,又包括難以交叉映射的變體,如討論和問(wèn)題)、數(shù)據(jù)集和標(biāo)注規(guī)范不同。這些激發(fā)了跨目標(biāo)立場(chǎng)檢測(cè)的研究[49],它通過(guò)利用來(lái)自源目標(biāo)的大量注釋數(shù)據(jù)來(lái)推斷最終目標(biāo)的態(tài)度??缒繕?biāo)立場(chǎng)檢測(cè)的方法一般是利用不同目標(biāo)共享的常用詞匯或概念級(jí)知識(shí)來(lái)彌合不同目標(biāo)之間的知識(shí)差距。2020年,Zhang等人[50]提出了一種用于語(yǔ)義-情感知識(shí)轉(zhuǎn)移(SEKT)模型用于跨目標(biāo)立場(chǎng)檢測(cè),解決了基于概念的方法可能無(wú)法區(qū)分隱式帶有術(shù)語(yǔ)和上下文信息的立場(chǎng)的問(wèn)題。2021年,Hardalov等人[51]設(shè)計(jì)了一個(gè)針對(duì)端到端的跨領(lǐng)域的標(biāo)簽自適應(yīng)立場(chǎng)檢測(cè)框架,模型基于來(lái)自預(yù)訓(xùn)練語(yǔ)言模型的輸入表示,并使用混合專家和領(lǐng)域?qū)褂?xùn)練來(lái)適應(yīng),用于預(yù)測(cè)看不見(jiàn)的、用戶定義的域外標(biāo)簽。
論辯質(zhì)量反映了一個(gè)單元、一個(gè)論點(diǎn)或論證有多好。例如,前提是否可接受、語(yǔ)言上是否清楚、文字是否與討論有關(guān)、論證是否有說(shuō)服力、說(shuō)服是否有效、或論辯是否合理等。論辯質(zhì)量評(píng)估需要考慮以下幾點(diǎn): 一是目標(biāo)導(dǎo)向性,哪個(gè)方面重要取決于論證的目標(biāo);二是顆粒度,質(zhì)量評(píng)估可以在不同的文本顆粒度上進(jìn)行處理;三是維度,評(píng)估時(shí)可能要綜合多個(gè)質(zhì)量維度。
論辯質(zhì)量維度的分類有三個(gè)主要的方面,分別是邏輯性、修辭性、辯證性。邏輯性,指的是一個(gè)有說(shuō)服力的論點(diǎn)要具有可接受的、相關(guān)的和充分的前提: 局部可接受性,給出的前提值得被相信是真實(shí)的;局部相關(guān)性,該前提與結(jié)論相關(guān);局部充分性,有這個(gè)前提就足以得出結(jié)論了。修辭性,指的是有效的論證,能夠說(shuō)服目標(biāo)受眾,包括如下幾點(diǎn): 可信度,使作者值得被信任;情感吸引力,讓聽(tīng)眾愿意被說(shuō)服;清晰度,語(yǔ)言上清晰,盡可能簡(jiǎn)單;適當(dāng)性,語(yǔ)言上與聽(tīng)眾和話題匹配;順序性,以正確的行文順序呈現(xiàn)內(nèi)容。辯證性,指的是合理的論證,包括可接受的、相關(guān)的和充分的: 全局可接受性,值得以陳述的方式加以考慮;全局相關(guān)性,有助于解決給出的話題或問(wèn)題;全局充分性,充分反駁了潛在的反面意見(jiàn)[6]。
論辯質(zhì)量評(píng)估是識(shí)別論證中無(wú)可爭(zhēng)辯的缺陷或要求,是對(duì)論證中某些質(zhì)量維度的判斷,確定論證是否成功地達(dá)到了其目標(biāo)。例如,語(yǔ)言上是否清楚,說(shuō)服是否有效。通常來(lái)說(shuō),論辯質(zhì)量評(píng)估具有可選擇性和主觀性,即可以絕對(duì)地或相對(duì)地進(jìn)行質(zhì)量評(píng)估,且感知的質(zhì)量取決于讀者(聽(tīng)眾)或作者(發(fā)言者)的看法。論辯質(zhì)量評(píng)估的輸入是有論證性的文本、元數(shù)據(jù)、外部知識(shí)等,現(xiàn)有的評(píng)估方法有有監(jiān)督的分類/回歸、基于圖模型的分析等。
理論上,論辯質(zhì)量評(píng)估要在一致性、合理性或相似性方面給出對(duì)論辯質(zhì)量的標(biāo)準(zhǔn)觀點(diǎn),建議使用絕對(duì)質(zhì)量評(píng)級(jí)。而在實(shí)踐中,論辯質(zhì)量是由對(duì)某些群體的有效性決定的,這意味著通常相對(duì)質(zhì)量評(píng)級(jí)更合適。正所謂“一個(gè)有力的論據(jù)是一個(gè)有效的論據(jù),可以贏得聽(tīng)眾的支持,還是一個(gè)有效論據(jù),應(yīng)該贏得觀眾的支持?”[52]
在某種意義上,關(guān)于論辯質(zhì)量的問(wèn)題是論辯挖掘的終極問(wèn)題[53]。這說(shuō)明了論辯質(zhì)量評(píng)估的重要性。那么為什么要評(píng)估論辯的質(zhì)量呢?第一,在實(shí)踐中我們對(duì)論辯挖掘和對(duì)論斷的理解還不夠充分;第二,對(duì)于成功的論辯,我們需要找出“最佳”的論點(diǎn);第三,論辯質(zhì)量評(píng)估對(duì)任何計(jì)算論辯的應(yīng)用都至關(guān)重要。常見(jiàn)的應(yīng)用有: 論點(diǎn)搜索,哪個(gè)論點(diǎn)排名最高;寫(xiě)作支持,一個(gè)論辯文本有多好,是否存在什么缺陷;自動(dòng)決策,哪些論點(diǎn)比其他論點(diǎn)更重要。
絕對(duì)質(zhì)量評(píng)估是從一個(gè)預(yù)定義的量表中分配一個(gè)分?jǐn)?shù)作為評(píng)估結(jié)果。相對(duì)質(zhì)量評(píng)估是給定兩個(gè)實(shí)例,比較哪一個(gè)質(zhì)量更好。相對(duì)質(zhì)量評(píng)估通常要更容易,但絕對(duì)質(zhì)量評(píng)估傳播廣泛,而且通常效果很好。
絕對(duì)質(zhì)量評(píng)估要解決的問(wèn)題是預(yù)測(cè)一個(gè)論點(diǎn)是否好(或有說(shuō)服力、有效等)并給它的好壞評(píng)分。這里可以將質(zhì)量評(píng)估視為一個(gè)標(biāo)準(zhǔn)的分類或回歸任務(wù),主要是學(xué)習(xí)哪項(xiàng)特征或元數(shù)據(jù)代表了論辯的質(zhì)量?,F(xiàn)有的方法有: 支持力度,基于支持結(jié)論的證據(jù)數(shù)量[54];說(shuō)服力,基于參與者的交互作用來(lái)預(yù)測(cè)[55];組織性和力度,基于結(jié)構(gòu)的評(píng)估[56];充分性,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類[57],基于生成的結(jié)論進(jìn)行分類[58]。
2016年,Tan等人[55]提出基于交互作用的質(zhì)量評(píng)估,分析語(yǔ)言特征和交互特征與說(shuō)服的相關(guān)性,并根據(jù)說(shuō)服是否會(huì)發(fā)生的特征進(jìn)行預(yù)測(cè),以研究在討論中究竟是什么能說(shuō)服那些愿意被說(shuō)服的人。2016年,Wachsmuth等人[56]提出基于論辯挖掘的質(zhì)量評(píng)級(jí),給出一篇有說(shuō)服力的文章,給予論證相關(guān)的質(zhì)量維度評(píng)分,以研究能否利用論辯挖掘來(lái)評(píng)估有說(shuō)服力的論文的論證質(zhì)量。該工作采用的質(zhì)量維度包括: 組織性,論證順序安排得多有條理;論證的清晰度,即論文有多容易理解;一致性,文章與討論的問(wèn)題關(guān)系有多緊密;論證強(qiáng)度,支持這篇論文的論點(diǎn)有多有力[59-62]。
然而,獨(dú)立地評(píng)價(jià)一個(gè)論點(diǎn)的質(zhì)量可能是困難的,甚至是不夠可信的。相對(duì)質(zhì)量評(píng)估就是一種更簡(jiǎn)單或更現(xiàn)實(shí)來(lái)評(píng)估質(zhì)量的方法,因?yàn)橥ǔN覀冎粚?duì)可用的最佳論點(diǎn)感興趣,那么僅僅比較一個(gè)論點(diǎn)與其他論點(diǎn)的質(zhì)量就足夠了。目前的挑戰(zhàn)是還無(wú)法確定選出的最好的論點(diǎn)是否足夠好?,F(xiàn)有的方法有: 獲勝方,從辯論流中預(yù)測(cè)辯論獲勝方[63],從內(nèi)容和風(fēng)格中預(yù)測(cè)獲勝方[64];說(shuō)服力,SVM和Bi-LSTM的論辯質(zhì)量評(píng)估比較[65];支持力度,根據(jù)支持主張對(duì)論點(diǎn)進(jìn)行排名[66]。
2016年,Zhang等人[63]提出基于辯論流的質(zhì)量比較,通過(guò)挖掘正反方的支持點(diǎn),建模“會(huì)話流”(即一方什么時(shí)候提出自己的論點(diǎn),什么時(shí)候攻擊對(duì)方的論點(diǎn)),并用基于會(huì)話流特征的邏輯回歸分類器,預(yù)測(cè)一場(chǎng)完整的牛津式辯論的哪一方會(huì)贏。2016年,Habernal和Gurevych[65]提出基于SVM和Bi-LSTM的論辯質(zhì)量比較,用各種語(yǔ)言特征的非線性核支持向量機(jī)和雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),對(duì)給定的兩個(gè)具有相同主題和立場(chǎng)的論點(diǎn),預(yù)測(cè)哪一個(gè)更有說(shuō)服力。
2017年,Wachsmuth等人[6]提出代表理論的絕對(duì)質(zhì)量評(píng)估數(shù)據(jù),包含絕對(duì)專家評(píng)級(jí)、規(guī)范指南、15個(gè)預(yù)定義的質(zhì)量維度。2016年,Habernal和Gurevych[65]提出代表實(shí)踐的相對(duì)質(zhì)量評(píng)估數(shù)據(jù),包含相對(duì)層面比較和17+1個(gè)結(jié)果標(biāo)簽,沒(méi)有指南。2017年,Wachsmuth等人[6]用736個(gè)帶有評(píng)級(jí)和標(biāo)簽的論點(diǎn)對(duì)計(jì)算所有維度和結(jié)果的Kendall相關(guān)系數(shù),對(duì)理論與實(shí)踐的質(zhì)量評(píng)估進(jìn)行實(shí)證比較,結(jié)果表明,理論與實(shí)踐的匹配程度大于預(yù)期;理論可以在實(shí)踐中指導(dǎo)質(zhì)量評(píng)估;實(shí)踐指出了要注意哪些重點(diǎn)來(lái)簡(jiǎn)化理論。
質(zhì)量評(píng)估具有主觀性。首先,在許多維度上質(zhì)量評(píng)估本質(zhì)上都是主觀的;其次,質(zhì)量取決于一個(gè)問(wèn)題的不同方面的主觀權(quán)重。同時(shí),質(zhì)量評(píng)估也依賴于先入之見(jiàn)。如關(guān)于死刑的兩個(gè)論點(diǎn),“死刑使一種不可逆轉(zhuǎn)的暴力行為合法化。只要人類的判斷仍然容易出錯(cuò),處決無(wú)辜者的風(fēng)險(xiǎn)就永遠(yuǎn)無(wú)法消除?!薄八佬滩⒉荒茏柚谷藗兎赶聡?yán)重的暴力犯罪。只有被抓住并受到懲罰才令人沮喪?!蹦膫€(gè)與主題更相關(guān)呢?有兩種方法可以解決這個(gè)問(wèn)題,一是關(guān)注可以被評(píng)估為“客觀”的屬性,二是在質(zhì)量評(píng)估中包括一個(gè)讀者或聽(tīng)眾的模型。
客觀質(zhì)量評(píng)估要解決的問(wèn)題是如何在不學(xué)習(xí)主觀注釋的情況下評(píng)估質(zhì)量,以及什么是客觀的質(zhì)量指標(biāo)。其主要思想是基于所有論點(diǎn)所產(chǎn)生的結(jié)構(gòu)來(lái)評(píng)估質(zhì)量,適用于絕對(duì)評(píng)估和相對(duì)評(píng)估。其面臨的一大挑戰(zhàn)是對(duì)主觀注釋的評(píng)價(jià)的處理,可能的解決方案是依賴于對(duì)許多注釋者的多數(shù)評(píng)估?,F(xiàn)有的方法有: 可接受性,基于攻擊關(guān)系的評(píng)估[67];相關(guān)性,基于單元重復(fù)利用的評(píng)估[68];突出性,基于論點(diǎn)頻率的評(píng)估[69]。
2012年,Cabrio和Villata[67]提出基于攻擊關(guān)系的客觀評(píng)估,給定一組論點(diǎn),對(duì)攻擊進(jìn)行識(shí)別,并根據(jù)Dung提出的框架[70]評(píng)估論點(diǎn)的可接受性。Dung于1995年提出的抽象論證框架是一個(gè)有向圖,其中節(jié)點(diǎn)表示論點(diǎn),邊表示論點(diǎn)之間的攻擊關(guān)系,揭示了是否接受一個(gè)論點(diǎn)。2017年,Wachsmuth等人[68]提出基于單元重復(fù)利用的客觀評(píng)估,研究給定一組論點(diǎn),哪一個(gè)與某些話題最相關(guān),然而相關(guān)性是高度主觀的,即尋找一個(gè)“客觀”的相關(guān)性度量。該工作假設(shè)一個(gè)結(jié)論的相關(guān)性取決于網(wǎng)絡(luò)上的其他論點(diǎn)將其作為前提,暫時(shí)忽略論點(diǎn)的內(nèi)容和推理,從網(wǎng)絡(luò)規(guī)模上的結(jié)論重用中獲得結(jié)構(gòu)上的相關(guān)性。
主觀質(zhì)量評(píng)估要考慮的問(wèn)題是,有效的論證最終都需要考慮目標(biāo)受眾。如果不這樣做,人類幾乎不需要辯論。其主要思想是在質(zhì)量評(píng)估過(guò)程中建模目標(biāo)受眾,包括特定于受眾的正確標(biāo)注。然而,到目前為止,受眾模型很少被明確地包括在研究方法內(nèi),且一些帶標(biāo)注的語(yǔ)料庫(kù)實(shí)際上可能代表特定的受眾。現(xiàn)有的方法有: 不同的個(gè)性,感性論證與理性論證的有效性[71];不同的意識(shí)形態(tài),新聞社論的有效性[72]。
2017年,Lukin等人[71]提出基于個(gè)性的有效性評(píng)估,假設(shè)不同個(gè)性的人愿意接受不同類型的論點(diǎn),研究五大個(gè)性(開(kāi)放性、自覺(jué)性、外向性、一致性和精神性)對(duì)感性論證與理性論證有效性的影響。2018年,El Baff等人[72]提出基于意識(shí)形態(tài)(分為保守派和自由派)的有效性評(píng)估,假設(shè)先驗(yàn)立場(chǎng)取決于政治意識(shí)形態(tài)(和人格),研究意識(shí)形態(tài)(和人格)對(duì)新聞社論有效性的影響,即是否挑戰(zhàn)或加強(qiáng)立場(chǎng)。
對(duì)話式論辯另一個(gè)分支的研究則偏向于提出自動(dòng)化模型在對(duì)話式領(lǐng)域?qū)崿F(xiàn)對(duì)話生成任務(wù)。對(duì)話生成任務(wù)是人機(jī)交互中機(jī)器實(shí)現(xiàn)輸出的一個(gè)重要組成部分,如何讓機(jī)器按照我們預(yù)先設(shè)定的范式實(shí)現(xiàn)有效輸出是重中之重。具體的,對(duì)話生成任務(wù)大致可以分為總結(jié)性論點(diǎn)生成和目標(biāo)論點(diǎn)生成兩類。
最簡(jiǎn)單的對(duì)話式論辯生成任務(wù)之一是根據(jù)給定的觀點(diǎn)或論點(diǎn)文本集合,生成對(duì)應(yīng)的總結(jié)性句子,相當(dāng)于生成了一個(gè)特定的論點(diǎn)句。從別人那里收集意見(jiàn)是我們?nèi)粘;顒?dòng)的一個(gè)組成部分。發(fā)現(xiàn)別人的想法可以幫助我們?cè)谏畹牟煌矫鎸?dǎo)航,從日常任務(wù)的決定到判斷基本的社會(huì)問(wèn)題和形成個(gè)人意識(shí)形態(tài)。為了有效地吸收大量固執(zhí)己見(jiàn)的信息,迫切需要自動(dòng)化系統(tǒng)對(duì)一個(gè)實(shí)體或話題生成簡(jiǎn)潔流暢的意見(jiàn)總結(jié)。盡管在意見(jiàn)總結(jié)方面有大量的研究,但最突出的方法主要是采用抽取式摘要方法,即從原始文獻(xiàn)中選擇短語(yǔ)或句子納入摘要[73]。
Wang等人[74]從爛番茄網(wǎng)站上爬取影評(píng)并據(jù)此構(gòu)建了一個(gè)影評(píng)數(shù)據(jù)集,其中包括了3 731部電影和246 164條評(píng)論,同時(shí)每部電影都額外包含一句評(píng)價(jià)作為基準(zhǔn)。作者研究了為固執(zhí)己見(jiàn)的文本生成摘要的問(wèn)題。本文提出了一種基于注意力的神經(jīng)網(wǎng)絡(luò)模型,能夠從多個(gè)文本單元中吸收信息,構(gòu)建信息豐富、簡(jiǎn)潔、流暢的摘要。一種基于重要性的采樣方法被設(shè)計(jì)用來(lái)允許編碼器集成來(lái)自輸入的一個(gè)重要子集的信息。自動(dòng)評(píng)估表明,作者設(shè)計(jì)的系統(tǒng)在兩個(gè)新收集的電影評(píng)論和論點(diǎn)數(shù)據(jù)集上的性能優(yōu)于最先進(jìn)的抽象和提取摘要系統(tǒng)。而作者的系統(tǒng)摘要在人類評(píng)價(jià)中也被評(píng)為信息量更大、語(yǔ)法更規(guī)范的。
Li等人[75]重點(diǎn)研究了綜述總結(jié)的方法。不同于以往大多數(shù)采用語(yǔ)言規(guī)則或統(tǒng)計(jì)方法的研究,作者將審查挖掘任務(wù)定義為一個(gè)聯(lián)合結(jié)構(gòu)標(biāo)注問(wèn)題,提出了一種基于條件隨機(jī)場(chǎng)(CRFs)的機(jī)器學(xué)習(xí)框架。它可以利用豐富的特征聯(lián)合提取復(fù)習(xí)句的積極觀點(diǎn)、消極觀點(diǎn)和客體特征。語(yǔ)言結(jié)構(gòu)可以自然地融入到模型表示中。除了線性鏈結(jié)構(gòu),作者還研究了連接結(jié)構(gòu)和句法樹(shù)結(jié)構(gòu)。對(duì)電影評(píng)論和產(chǎn)品評(píng)論數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,結(jié)構(gòu)感知模型優(yōu)于許多當(dāng)時(shí)最先進(jìn)的論辯挖掘方法。
Syed等人[76]為了進(jìn)一步實(shí)現(xiàn)長(zhǎng)文本總結(jié),構(gòu)建了一個(gè)“論辯文本+中心論點(diǎn)”的大型語(yǔ)料庫(kù)WebisConcluGen-21。作者研究了兩種生成結(jié)論的范式;一種是提煉的,另一種是抽象的。后者利用論證知識(shí),通過(guò)控制代碼來(lái)增加數(shù)據(jù),并在語(yǔ)料庫(kù)的幾個(gè)子集上微調(diào)BART模型。作者深入分析了語(yǔ)料庫(kù)對(duì)任務(wù)的適用性、兩代范式之間的差異、信息性和簡(jiǎn)便性之間的權(quán)衡以及編碼論證知識(shí)的影響。其語(yǔ)料庫(kù)、代碼和訓(xùn)練的模型都是公開(kāi)的。
針對(duì)特定的話題生成支持或反對(duì)的高質(zhì)量論點(diǎn)文本,則是更為實(shí)際的論點(diǎn)生成任務(wù)。針對(duì)生成任務(wù)的早期工作,通常是先從語(yǔ)料庫(kù)中提取文本,然后按特定順序輸出,缺少綜合不同語(yǔ)料內(nèi)容的能力。產(chǎn)生高質(zhì)量的論點(diǎn)在決策和推理過(guò)程中起著至關(guān)重要的作用。許多最終決策都是在爭(zhēng)論或反駁中不斷推進(jìn)發(fā)展的,而當(dāng)這種爭(zhēng)論來(lái)到人機(jī)交互場(chǎng)景時(shí),生成高質(zhì)量論點(diǎn)的重要性就體現(xiàn)出來(lái)了。例如,立法機(jī)構(gòu)經(jīng)常進(jìn)行辯論,以確保法案獲得足夠的票數(shù)通過(guò);網(wǎng)上審議則是另一個(gè)常見(jiàn)的場(chǎng)景,它已經(jīng)成為征求公眾意見(jiàn)的一種流行方式。盡管如此,構(gòu)建有說(shuō)服力的論點(diǎn)對(duì)人類和計(jì)算機(jī)來(lái)說(shuō)都是一項(xiàng)艱巨的任務(wù)。
Hua等人[77]首先提出了目標(biāo)論點(diǎn)生成這一任務(wù),任務(wù)被構(gòu)建為建立這樣一個(gè)模型: 能夠針對(duì)給定的論述,自動(dòng)化生成不同立場(chǎng)的論點(diǎn)。作者提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)和編碼-解碼器結(jié)構(gòu)的論點(diǎn)生成模型,豐富了從維基百科外部檢索的論據(jù)。在Reddit上收集的大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)表明,根據(jù)自動(dòng)評(píng)估和人工評(píng)估,提出的模型比流行的序列到序列生成模型構(gòu)建了更多與主題相關(guān)的內(nèi)容。
Alshomary等人[78]重點(diǎn)關(guān)注了反論點(diǎn)的生成任務(wù)。此前的方法主要集中在反駁一個(gè)給定的結(jié)論,而他們研究的場(chǎng)景并不局限于此??紤]到識(shí)別論點(diǎn)的薄弱前提是有效反擊的關(guān)鍵,作者探索了破壞論證任務(wù),也就是通過(guò)攻擊一個(gè)論證的前提來(lái)反駁一個(gè)論證。下圖是破壞論證的一個(gè)基本邏輯結(jié)構(gòu),機(jī)器首先識(shí)別論證結(jié)構(gòu)中的弱前提,再針對(duì)弱前提生成反論點(diǎn)。具體的,作者提出了一種管道方法,首先評(píng)估這些前提的強(qiáng)度,然后針對(duì)較弱的前提提出反論點(diǎn)。一方面,人工評(píng)估和自動(dòng)評(píng)估都證明了識(shí)別弱前提在反論證生成中的重要性。另一方面,在考慮正確性和內(nèi)容豐富性時(shí),相比傳統(tǒng)方法,人工仲裁更喜歡這種基于弱前提檢索的反論點(diǎn)生成方法。
Hua等人[79]為了解決傳統(tǒng)論點(diǎn)生成模型中經(jīng)常產(chǎn)生與輸入不連貫和不忠實(shí)的輸出的問(wèn)題,提出了一個(gè)端對(duì)端訓(xùn)練的兩步生成模型,該模型能夠?qū)崿F(xiàn)句級(jí)別的內(nèi)容規(guī)劃和風(fēng)格規(guī)范。其中句子級(jí)別的內(nèi)容規(guī)劃首先決定要涵蓋的關(guān)鍵短語(yǔ)以及所需的語(yǔ)言風(fēng)格,然后是一個(gè)表面實(shí)現(xiàn)解碼器,生成相關(guān)和連貫的文本。模型主要考慮了三個(gè)不同維度上的子任務(wù)——Reddit中有說(shuō)服力的論點(diǎn)構(gòu)建,維基百科的簡(jiǎn)介生成以及科學(xué)文章的摘要生成。自動(dòng)評(píng)估表明,作者提出的系統(tǒng)可以大大超過(guò)競(jìng)爭(zhēng)比較。不僅如此,與不考慮語(yǔ)言風(fēng)格的變體相比,人工仲裁認(rèn)為該系統(tǒng)生成的文本更合理,表達(dá)更流暢。
有時(shí)我們不僅要限制目標(biāo)論點(diǎn)的主題,還會(huì)限制論點(diǎn)討論的具體角度。Schiller等人[80]提出了一個(gè)論點(diǎn)生成模型Arg-CTRL。這一模型可以為給定的主題、立場(chǎng)和角度生成句子級(jí)別的論點(diǎn)。作者定義了論證角度檢測(cè)問(wèn)題,并認(rèn)為這一問(wèn)題是實(shí)現(xiàn)針對(duì)論證角度的細(xì)粒度控制的必要方法,并將5 032個(gè)帶論證角度注釋的論辯文本集合為一個(gè)數(shù)據(jù)集。實(shí)驗(yàn)表明,Arg-CTRL模型能夠生成高質(zhì)量的、從特定角度切入的論點(diǎn),尤其適用于自動(dòng)生成反論點(diǎn)。
考慮到知識(shí)圖在支持一般文本生成任務(wù)中的有效性,Al-Khatib等人[81]研究了論證相關(guān)知識(shí)圖在控制論證生成中的應(yīng)用。在該研究中,作者構(gòu)建并填充了三個(gè)知識(shí)圖,利用它們的幾個(gè)組成部分將各種知識(shí)編碼到辯論門戶的文本和維基百科的相關(guān)段落中。具體操作上,作者使用編碼知識(shí)的文本來(lái)微調(diào)預(yù)先訓(xùn)練的文本生成模型GPT-2。模型有效性實(shí)驗(yàn)涵蓋了論證環(huán)境中的幾個(gè)重要維度,包括論證性和似是而非性,手動(dòng)和自動(dòng)地評(píng)估新創(chuàng)建的論證。結(jié)果表明,從編碼圖表的知識(shí)到辯論門戶文本產(chǎn)生的積極影響比那些沒(méi)有知識(shí)產(chǎn)生的論點(diǎn)質(zhì)量更好。
Wachsmuth等人[82]探究了語(yǔ)法修辭策略。好的論證不能僅有嚴(yán)密的邏輯結(jié)構(gòu),還需要有合理的語(yǔ)言結(jié)構(gòu)以及有溫度的表達(dá)。作者研究了在論點(diǎn)生成時(shí),如何將邏輯推理與對(duì)倫理和情感的訴求結(jié)合起來(lái)。這一策略意味著如何選擇和安排機(jī)器抽取的論點(diǎn)并將它們有效地串聯(lián)起來(lái)。在建模時(shí),作者讓26位專家針對(duì)10個(gè)主題,用不同的策略合成議論文本。研究發(fā)現(xiàn),當(dāng)采用相同的策略時(shí),專家對(duì)選擇的同意程度明顯更高。這意味著作者采用的語(yǔ)法修辭策略是成功的,因?yàn)殡m然不同文章的文本有顯著差異,但它們的安排保持穩(wěn)定,也即遵循了同一套語(yǔ)法修辭策略。
IBM于2019年公開(kāi)發(fā)布了人工智能辯手Project Debater[83]。Project Debater是全世界首個(gè)能與人類進(jìn)行復(fù)雜辯論的自動(dòng)化論辯系統(tǒng)。該項(xiàng)目由IBM團(tuán)隊(duì)自2012年啟動(dòng)開(kāi)發(fā),2021年3月登上了《Nature》雜志的封面。2019年2月11日Project Debater與H. Natarajan(納塔拉揚(yáng),世界大學(xué)生辯論賽冠軍)圍繞“是否應(yīng)當(dāng)補(bǔ)貼學(xué)前教育”展開(kāi)了一場(chǎng)公開(kāi)辯論,人類辯手持正方,AI辯手持反方。比賽采用簡(jiǎn)化后的議會(huì)制辯論,含15分鐘持題準(zhǔn)備時(shí)間,三輪交替發(fā)言環(huán)節(jié)。賽前,79%的聽(tīng)眾同意學(xué)前教育應(yīng)該得到補(bǔ)貼,13%的人不同意。賽后,62%的人同意,30%的人不同意。最終,人類辯手H. Natarajan獲得勝利。 如圖5所示,Project Debater系統(tǒng)包含論辯挖掘、論辯知識(shí)庫(kù)、論點(diǎn)反駁和論辯組織四個(gè)模塊[84]。論辯挖掘模塊從大的文本語(yǔ)料庫(kù)中找尋到議題相關(guān)的論點(diǎn)和駁論點(diǎn)。論辯知識(shí)庫(kù)包含論點(diǎn)、駁論點(diǎn)以及其他辯題下的相關(guān)文本;一旦給定辯題,系統(tǒng)在其中找到最相關(guān)的論辯語(yǔ)料。論點(diǎn)反駁模塊將前兩個(gè)模塊中潛在的相反論點(diǎn)與實(shí)際對(duì)手的陳詞做匹配,由此生成可能的回應(yīng)。最后,論辯組織模塊從其他模塊提供的文本中選擇性地組織出一則連續(xù)的發(fā)言。 圖6展示了Project Debater的性能評(píng)估結(jié)果。左圖展示了Project Debater與其他基線系統(tǒng)的對(duì)比。條形表示平均分?jǐn)?shù),其中5表示對(duì)“這篇演講是支持該主題的良好開(kāi)場(chǎng)演講”的觀點(diǎn)“非常同意”,1表示“非常不同意”。帶斜線的條形圖表示該系統(tǒng)中的語(yǔ)音是由人類生成的或依賴于人工編寫(xiě)的論點(diǎn)。右圖展示了最終系統(tǒng)的評(píng)估結(jié)果。“Project Debater”描述了Project Debater生成S1和S3時(shí)的結(jié)果。在“混合辯論者控制”中,第三次演講是由Project Debater在另一個(gè)辯題生成下的 S3。在“基線控制”中,S1和S3都是從全自動(dòng)基線系統(tǒng)之一中選擇的開(kāi)場(chǎng)白。條形表示平均分?jǐn)?shù),其中,5表示對(duì)于“第一個(gè)發(fā)言者在這場(chǎng)辯論中表現(xiàn)得不錯(cuò)”的觀點(diǎn)“非常同意”,1表示“非常不同意”。Project Debater的結(jié)果明顯優(yōu)于其他所有基準(zhǔn),并且非常接近人類專家的分?jǐn)?shù)。
圖5 IBM Project Debate 框架圖[83]
圖6 IBM Project Debater 評(píng)測(cè)結(jié)果[83]
為支撐該系統(tǒng)的搭建,項(xiàng)目團(tuán)隊(duì)在論辯挖掘、語(yǔ)音理解與生成、文本生成等多項(xiàng)子任務(wù)方面進(jìn)行了探索研究,構(gòu)建了大量?jī)?yōu)質(zhì)論辯子任務(wù)數(shù)據(jù)集,研究成果公開(kāi)發(fā)表在ACL、EMNLP等權(quán)威會(huì)議中。項(xiàng)目公開(kāi)了用于論辯系統(tǒng)構(gòu)建的API以及大量子任務(wù)數(shù)據(jù)集,包括主張檢測(cè)、主張邊界檢測(cè)、證據(jù)檢測(cè)、論點(diǎn)質(zhì)量評(píng)估、立場(chǎng)識(shí)別、關(guān)鍵點(diǎn)評(píng)估及立場(chǎng)生成等,廣泛用于學(xué)界研究[84]。
用語(yǔ)言和邏輯的角度分析辯論,一直是人們探尋辯論背后人類智慧規(guī)律的重要方法;而計(jì)算機(jī)、機(jī)器學(xué)習(xí)、人工智能等新技術(shù)的不斷發(fā)展,無(wú)疑讓計(jì)算論辯走上了發(fā)展的快車道,也讓越來(lái)越多的計(jì)算論辯成果落地成為可能。
面臨的挑戰(zhàn)作為一個(gè)源遠(yuǎn)流長(zhǎng)但直到最近才以一個(gè)整體為人們所關(guān)注的研究領(lǐng)域,目前計(jì)算論辯仍然存在一些挑戰(zhàn),有待后續(xù)研究攻堅(jiān)克難。
(1)缺乏通用的大型標(biāo)準(zhǔn)數(shù)據(jù)集近年來(lái),不斷有新的計(jì)算論辯任務(wù)涌現(xiàn)出來(lái),擴(kuò)充著這一子領(lǐng)域的譜系。這些新興任務(wù)的相關(guān)工作通常都缺乏既有的數(shù)據(jù)集,因此不得不自行標(biāo)注并構(gòu)建用于訓(xùn)練、測(cè)試的小型數(shù)據(jù)集。大規(guī)模標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集的空缺,使有關(guān)研究提出的模型無(wú)法在大型語(yǔ)料上驗(yàn)證效果,同時(shí)又導(dǎo)致更多的小數(shù)據(jù)集出現(xiàn),卻難以將它們統(tǒng)合為一個(gè)大型數(shù)據(jù)集。
(2)尚未形成一套完整的研究范式計(jì)算論辯的研究扎根于論辯分析理論,然而正如前文所述,目前與論辯相關(guān)的背景理論繁多,相互之間各有所長(zhǎng),卻并沒(méi)有形成能覆蓋絕大多數(shù)論辯場(chǎng)景的統(tǒng)一理論。采用不同理論基礎(chǔ)的研究工作往往會(huì)發(fā)展出不同的研究范式,這就為特定方向上各個(gè)研究的橫向?qū)Ρ扰c融合增添了阻礙。
發(fā)展趨勢(shì)當(dāng)下計(jì)算論辯也展現(xiàn)出一些有趣的發(fā)展趨勢(shì),其中的一個(gè)或多個(gè)有可能成為未來(lái)這一領(lǐng)域的研究主流。
(1) 基準(zhǔn)評(píng)測(cè)數(shù)據(jù)出現(xiàn),為計(jì)算論辯提供數(shù)據(jù)基石。雖然我們還沒(méi)能構(gòu)建出一個(gè)普適的大型基準(zhǔn)數(shù)據(jù)集,但如今人們每天都在生產(chǎn)大量論辯語(yǔ)料。在許多研究人員和標(biāo)注人員的不懈努力下,它們也在不斷衍生出各類數(shù)據(jù)量大、任務(wù)齊全、語(yǔ)種齊全的計(jì)算論辯專用數(shù)據(jù)。這些工作使得將來(lái)大型基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集的構(gòu)建成為可能。
(2) 小樣本學(xué)習(xí)、領(lǐng)域遷移方法成為研究熱點(diǎn)。作為自然語(yǔ)言處理的一個(gè)分支,在各種NLP任務(wù)中受到關(guān)注的小樣本學(xué)習(xí)和領(lǐng)域遷移方法自然也不會(huì)缺席計(jì)算論辯相關(guān)研究。事實(shí)上,許多特殊形式的論辯語(yǔ)料(如庭審記錄)并不容易大量獲取,而且在相似的論辯框架下可以蘊(yùn)含千萬(wàn)種語(yǔ)義信息,因此如何利用有限且有局限的論辯數(shù)據(jù)學(xué)習(xí)背后的論辯框架,是目前值得研究的熱點(diǎn)課題。
(3) 在邏輯判定之外,價(jià)值屬性開(kāi)始凸顯。過(guò)去的計(jì)算論辯研究多數(shù)注重論點(diǎn)本身蘊(yùn)含的語(yǔ)義和邏輯,對(duì)論點(diǎn)背后辯方的價(jià)值取向關(guān)注不多。但在社交媒體高度發(fā)達(dá)的今天,社交平臺(tái)上的許多交鋒實(shí)質(zhì)上體現(xiàn)了不同群體之間的價(jià)值觀與意識(shí)形態(tài)沖突。因此,越來(lái)越多的研究開(kāi)始探討論辯文本中蘊(yùn)含的價(jià)值屬性,即所謂的價(jià)值觀辯論或意識(shí)形態(tài)建模。
(4) 多模態(tài)信息的相關(guān)研究正在引起人們的關(guān)注。大多數(shù)的辯論信息都以論辯文本或語(yǔ)料的形式呈現(xiàn),但在許多情景(特別是線下的面對(duì)面辯論)中,辯論雙方的聲學(xué)特征、面部表情、肢體語(yǔ)言等非文本信息實(shí)際上都蘊(yùn)含一定的信息量,并且會(huì)影響辯論的質(zhì)量與結(jié)果。基于上述觀察,最近的一些研究開(kāi)始建立利用多模態(tài)信息的計(jì)算論辯技術(shù),并在論辯質(zhì)量評(píng)估等任務(wù)上取得了一定成果。
此外,還有許多新的方向與課題,例如,論辯信息的圖譜表示、群體語(yǔ)境下的自主論辯等,它們都有機(jī)會(huì)在接下來(lái)的數(shù)年時(shí)間里發(fā)展為計(jì)算論辯的又一個(gè)閃光點(diǎn)。無(wú)論如何,在如今這個(gè)充滿著觀點(diǎn)對(duì)立與信息繭房的社交媒體時(shí)代,已然發(fā)展出多種新的辯論形式,而計(jì)算論辯在這個(gè)時(shí)代迸發(fā)的無(wú)窮潛力,依然等待著人們的努力挖掘。