摘 要:目前,只有少量面向多任務(wù)學(xué)習(xí)的序數(shù)回歸方法。這些方法假設(shè)不同的任務(wù)具有相同的權(quán)重,對(duì)整體模型具有相同的貢獻(xiàn)。然而,在真實(shí)應(yīng)用中,不同任務(wù)對(duì)于整體模型的貢獻(xiàn)往往是不同的。為此,提出了一種基于任務(wù)權(quán)重自動(dòng)優(yōu)化的多任務(wù)序數(shù)回歸算法。首先,提出了基于支持向量機(jī)的多任務(wù)序數(shù)回歸模型,通過分類器參數(shù)共享,實(shí)現(xiàn)不同任務(wù)之間的信息遷移;其次,考慮到不同任務(wù)對(duì)整體模型可能具有不同貢獻(xiàn),賦予每個(gè)任務(wù)一個(gè)權(quán)重,這些權(quán)重將在學(xué)習(xí)過程中自動(dòng)優(yōu)化求解;最后,采用了啟發(fā)式框架,交替地建立多任務(wù)序數(shù)回歸模型和優(yōu)化任務(wù)權(quán)重。實(shí)驗(yàn)結(jié)果表明,提出方法相比于其他多任務(wù)序數(shù)回歸方法,平均0-1誤差降低了3.8%~12.3%,平均絕對(duì)誤差降低了4.1%~11%。考慮了每個(gè)任務(wù)的不同權(quán)重,通過自動(dòng)優(yōu)化這些權(quán)重,降低了多任務(wù)序數(shù)回歸模型的分類誤差。
關(guān)鍵詞:序數(shù)回歸; 多任務(wù)學(xué)習(xí); 權(quán)重優(yōu)化
中圖分類號(hào):TP181;O212.1文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-014-1052-06
doi:10.19734/j.issn.1001-3695.2023.08.0376
Multi-task ordinal regression with task weight discovery
Zeng Mengyue Xiao Yanshan Liu Bob
Abstract:At present, there are only a very few works done on multi-task ordinal regression (OR) . These works assume that different tasks contribute equally to the overall model. However, in practice, different tasks may have distinct contributions to the overall model. This paper proposed a novel multi-task ordinal regression method with task weight discovery method. Firstly, it presented a support-vector-machine-based multi-task OR model. By sharing the classifier parameters, the classification information could be transferred among different tasks. Secondly, considering that different tasks had different contributions to the overall model, it assigned each task a weight, which would be automatically optimized during the learning process. Finally, it adopted a heuristic framework to construct the multi-task OR model and optimized the task weights alternately. The experimental results show that the proposed method achieves 3.8% to 12.3% improvements in terms of MZE and 4.1% to 11% improvements in terms of MAE, compared to the existing multi-task OR methods. Considering the different weights of each task, and by automatically optimizing these weights, the proposed method reduces the classification error of the multi-task ordinal regression model.
Key words:ordinal regression; multi-task learning; task weight discovery
0 引言
序數(shù)回歸[1,2]是指在多分類學(xué)習(xí)中,不同類別之間具有一定的先后順序關(guān)系。例如,在圖像檢索中,一幅圖像可以根據(jù)與檢索問題的相關(guān)性,劃分為“高度相關(guān)”“一般相關(guān)”“部分相關(guān)”和“不相關(guān)”四個(gè)類別。這四個(gè)類別之間具有一定的先后順序關(guān)系,對(duì)于一個(gè)“高度相關(guān)”的圖像,如果把它劃分到“不相關(guān)”類別,比劃分到“一般相關(guān)”類別,前者的分類誤差比后者要大。這是因?yàn)?,“高度相關(guān)”圖像與“一般相關(guān)”圖像之間的距離比較近,而跟“不相關(guān)”圖像之間的距離比較遠(yuǎn),不同類別之間具有一定的先后順序關(guān)系。序數(shù)回歸與傳統(tǒng)的多分類學(xué)習(xí)不同,在傳統(tǒng)的多分類學(xué)習(xí)中,不同類別之間沒有先后順序關(guān)系;在序數(shù)回歸中,不同類別之間具有先后順序關(guān)系。
多任務(wù)學(xué)習(xí)是指聯(lián)合多個(gè)相關(guān)任務(wù)進(jìn)行學(xué)習(xí),通過共同訓(xùn)練來實(shí)現(xiàn)信息共享,利用來自相關(guān)任務(wù)的信息提升原始任務(wù)的性能。在實(shí)際應(yīng)用中,當(dāng)單個(gè)任務(wù)的訓(xùn)練樣本數(shù)量較少時(shí),學(xué)習(xí)所得到的分類器容易產(chǎn)生過擬合現(xiàn)象。為了緩解這個(gè)問題,研究者們提出了聯(lián)合多個(gè)相關(guān)任務(wù)進(jìn)行學(xué)習(xí),以提高整體模型的精度。目前的研究成果表明,相比于單任務(wù)學(xué)習(xí),聯(lián)合多個(gè)任務(wù)進(jìn)行學(xué)習(xí),能夠獲得更好的學(xué)習(xí)性能[3~7]。
目前的序數(shù)回歸算法主要針對(duì)單個(gè)任務(wù)的學(xué)習(xí)問題,在多任務(wù)序數(shù)回歸方面只有少量的研究工作。例如,Wang等人[8]提出了一種正則化多任務(wù)序數(shù)回歸方法,該方法使用結(jié)構(gòu)正則化項(xiàng)對(duì)多個(gè)序數(shù)回歸任務(wù)進(jìn)行建模。Gao等人[9]將多個(gè)位置的空間事件尺度預(yù)測(cè)視為多任務(wù)序數(shù)回歸問題,并將相似的事件尺度模式強(qiáng)加給空間較近的任務(wù)。Baly等人[10]設(shè)計(jì)了一種可用于新聞媒體可信度和政治意識(shí)形態(tài)的預(yù)測(cè)多任務(wù)序數(shù)回歸方法。文獻(xiàn)[11,12]也進(jìn)行了相關(guān)研究。但是,現(xiàn)有的多任務(wù)序數(shù)回歸方法大多假設(shè)不同任務(wù)具有相同的權(quán)重,對(duì)整體模型具有相等的貢獻(xiàn)。然而,在現(xiàn)實(shí)應(yīng)用中,不同任務(wù)具有不同的相關(guān)性,對(duì)整體模型的貢獻(xiàn)也不相同。如果它們被平等對(duì)待,整體模型的性能可能會(huì)受到限制。
針對(duì)在多任務(wù)序數(shù)回歸中,不同任務(wù)對(duì)整體模型具有不同貢獻(xiàn)的問題,本文提出了基于任務(wù)權(quán)重自動(dòng)優(yōu)化的多任務(wù)序數(shù)回歸算法(multi-task ordinal regression with task weight discovery,MORTD)。首先,在支持向量有序回歸模型的基礎(chǔ)上,提出了多任務(wù)序數(shù)回歸算法,通過分類器參數(shù)的共享,實(shí)現(xiàn)分類信息在不同任務(wù)之間的遷移;其次,考慮到不同任務(wù)對(duì)整體模型具有不同貢獻(xiàn),本文方法賦予每個(gè)任務(wù)一個(gè)權(quán)重,這些權(quán)重是未知變量,將在學(xué)習(xí)過程中進(jìn)行自動(dòng)優(yōu)化求解;最后,采用了啟發(fā)式的框架,交替地建立多任務(wù)序數(shù)回歸模型和優(yōu)化任務(wù)權(quán)重。與現(xiàn)有的多任務(wù)序數(shù)回歸算法[13,14]不同,本文方法可以自動(dòng)學(xué)習(xí)不同任務(wù)的權(quán)重,更好地發(fā)現(xiàn)任務(wù)之間的共享信息。在真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有的序數(shù)回歸算法,本文方法具有更好的分類性能。
1 多任務(wù)序數(shù)回歸相關(guān)工作
多任務(wù)序數(shù)回歸是指聯(lián)合多個(gè)相關(guān)的序數(shù)回歸學(xué)習(xí)任務(wù),通過同時(shí)訓(xùn)練這些相關(guān)任務(wù),實(shí)現(xiàn)不同任務(wù)之間的分類信息共享,提高整體模型的精度。目前,大部分的序數(shù)回歸工作都是針對(duì)單任務(wù)學(xué)習(xí),只有少量的序數(shù)回歸工作是面向多任務(wù)學(xué)習(xí)。
在多任務(wù)序數(shù)回歸工作中,Wang等人[8]提出了基于正則化的多任務(wù)序數(shù)回歸算法,采用正則化項(xiàng)來表示各個(gè)任務(wù)之間的相關(guān)性,并采用交替迭代方式來求解所建立的模型。Gao等人[9]將多個(gè)地點(diǎn)的事件規(guī)模預(yù)測(cè)轉(zhuǎn)換為多任務(wù)序數(shù)回歸問題,提出了應(yīng)用于事件規(guī)模預(yù)測(cè)的多任務(wù)序數(shù)回歸算法。Baly等人[10]提出了用于新聞媒體可信度和政治意識(shí)形態(tài)預(yù)測(cè)的多任務(wù)序數(shù)回歸方法,使用Copula函數(shù)和條件隨機(jī)域來預(yù)測(cè)新聞媒體可信度和政治意識(shí)形態(tài)的聯(lián)合概率分布函數(shù)。Walecki等人[12]采用了Copula函數(shù)來建立序數(shù)回歸框架,并對(duì)來自面部圖像的多個(gè)動(dòng)作單元強(qiáng)度進(jìn)行評(píng)估和建模。Hamsici等人[13]同時(shí)學(xué)習(xí)多個(gè)序數(shù)回歸任務(wù),對(duì)于每一個(gè)學(xué)習(xí)任務(wù),通過最大化連續(xù)類別之間的間距來建立最大邊界分類器。Xiao等人[15]考慮了多任務(wù)序數(shù)回歸的半監(jiān)督學(xué)習(xí)問題,使用流形學(xué)習(xí)方法,把無標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)融合到多任務(wù)序數(shù)回歸分類學(xué)習(xí)過程中。
這些多任務(wù)序數(shù)回歸方法假設(shè)不同的任務(wù)具有相同的權(quán)重,對(duì)整體模型具有相同的貢獻(xiàn)。但是,在真實(shí)應(yīng)用中,不同任務(wù)可能具有不同的相關(guān)性,對(duì)整體模型的貢獻(xiàn)也不相同。如果假設(shè)它們具有相同的貢獻(xiàn),整體模型的分類性能可能會(huì)受到影響。與現(xiàn)有的多任務(wù)序數(shù)回歸算法不同,本文考慮到不同任務(wù)對(duì)整體模型可能具有不同貢獻(xiàn),每個(gè)任務(wù)被賦予一個(gè)權(quán)重,這些權(quán)重是未知變量,將在學(xué)習(xí)過程中進(jìn)行自動(dòng)優(yōu)化求解。通過在訓(xùn)練過程中優(yōu)化任務(wù)權(quán)重,可以進(jìn)一步提高模型的分類精度。
2 MORTD算法原理
2.1 基本符號(hào)
3 實(shí)驗(yàn)結(jié)果及討論
為了研究本文算法的有效性,在多任務(wù)序數(shù)回歸數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)運(yùn)行的計(jì)算機(jī)硬件配置CPU為AMD Ryzen 7 5800H with Radeon Graphics 3.20 GHz,RAM為16.0 GB,操作系統(tǒng)為Microsoft Windows 11,實(shí)驗(yàn)環(huán)境為MATLAB。
3.1 基準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集
在本實(shí)驗(yàn)中,使用基準(zhǔn)多任務(wù)序數(shù)回歸數(shù)據(jù)集SCUT-FBP[19]、MSRA-MM(http://research.microsoft.com/en-us/projects/msrammdata/.)和UTKFace[20]數(shù)據(jù)集來驗(yàn)證本文算法的有效性。
SCUT-FBP是一個(gè)具有不同性別和種族的臉部顏值預(yù)測(cè)數(shù)據(jù)集,它包括亞洲男性(AM)、亞洲女性(AF)、高加索男性(CM)和高加索女性(CF)四個(gè)子數(shù)據(jù)集。AM、AF、CM和CF子數(shù)據(jù)集分別包含2 000、2 000、750和750張臉部圖像,每張臉部圖像具有一個(gè)顏值評(píng)分,評(píng)分值為{1,2,3,4,5},較高的評(píng)分表示該張臉部圖像顏值較高。將四個(gè)子數(shù)據(jù)集當(dāng)作四個(gè)相關(guān)聯(lián)的任務(wù),提取方向梯度直方圖(HOG)特征來表示圖像,樣本維度為200。
MSRA-MM 是一個(gè)圖像檢索數(shù)據(jù)集,包含68個(gè)子數(shù)據(jù)集。每個(gè)子數(shù)據(jù)集代表一個(gè)查詢,如cat、dog、horses、tiger等。由于MSRA-MM數(shù)據(jù)集中的子數(shù)據(jù)集太多,本次實(shí)驗(yàn)提取了四個(gè)動(dòng)物子數(shù)據(jù)集,即lion、tiger、horses和wolves,并將它們視為四個(gè)相關(guān)任務(wù)。這四個(gè)子數(shù)據(jù)集的圖像數(shù)量分別為971、961、959和965,總共有3 856張圖像。在這些任務(wù)中,每個(gè)圖像與其相應(yīng)查詢的相關(guān)性分為“非常相關(guān)”“相關(guān)”和“不相關(guān)”。每張圖像通過提取256維的RGB特征來表示。
UTKFace是一個(gè)具有長(zhǎng)年齡跨度(0~116歲)的面部年齡估計(jì)數(shù)據(jù)集,由9 778張人臉圖像組成,每張人臉圖像按年齡和種族進(jìn)行標(biāo)記。本次實(shí)驗(yàn)將每個(gè)種族視為一個(gè)任務(wù),從而獲得white、black、Asian、Indian和others五個(gè)相關(guān)任務(wù),人臉圖像數(shù)量分別為5 265、405、1 553、1 452和1 103。在這些任務(wù)中,每個(gè)人臉圖像都與五個(gè)年齡組中的一個(gè)相對(duì)應(yīng),即“兒童(0~6歲)”“青少年(7~17歲)”“青年(18~40歲)”“中年(41~65歲)”和“老年人(gt;65歲)”。每一張圖像使用59維的局部二值模式(LBP)特征進(jìn)行表示。
3.2 對(duì)比方法和實(shí)驗(yàn)設(shè)置
為了驗(yàn)證本文方法的有效性,將本文方法與單任務(wù)序數(shù)回歸方法(SVOREXC[21]、SVORIMC[21]、RMSVOR[22]和CWSVOR[23])、傳統(tǒng)的多任務(wù)學(xué)習(xí)方法(RMTL[24])以及多任務(wù)序數(shù)回歸方法(MSRSVM[13]和RMTOR[8])七種方法進(jìn)行比較。
SVOREXC、SVORIMC、RMSVOR和CWSVOR是單任務(wù)序數(shù)回歸方法,它們單獨(dú)訓(xùn)練序數(shù)回歸任務(wù),不能實(shí)現(xiàn)多個(gè)任務(wù)的聯(lián)合訓(xùn)練和信息共享。RMTL是一種傳統(tǒng)的多任務(wù)多分類方法,不是針對(duì)序數(shù)回歸問題提出的。因此,它的分類平面是無序的,不能融合類別之間的先后信息來提升模型的精度。 MSRSVM和RMTOR可用于解決多任務(wù)序數(shù)回歸問題,然而,它們假設(shè)不同的任務(wù)對(duì)整體模型具有相等的貢獻(xiàn),沒有考慮任務(wù)的權(quán)重。與這些對(duì)比方法不同,本文方法考慮了任務(wù)對(duì)整體模型的不同貢獻(xiàn),并通過自動(dòng)優(yōu)化權(quán)重的方式,將這些任務(wù)權(quán)重納入到分類模型中,提高學(xué)習(xí)的精度。
參數(shù)設(shè)置中,基于支持向量機(jī)的方法均采用線性核。對(duì)于對(duì)比方法SVOREXC、SVORIMC、RMSVOR、CWSVOR、RMTL、MSRSVM和RMTOR,采用它們各自文獻(xiàn)實(shí)驗(yàn)給出的參數(shù)范圍。具體來說,對(duì)于SVOREXC、SVORIMC、RMSVOR和CWSVOR, 正則化參數(shù)C從10[-3∶ 1∶ 3]中選取。對(duì)于RMTL,參數(shù)λ1和λ2從10[-5∶ 1∶ 5]中選取。對(duì)于MSRSVM,參數(shù)C從10[-3∶ 1∶ 3]中選取。對(duì)于RMTOR,參數(shù)λ從10[-5∶ 1∶ 5]中選取。對(duì)于MORTD,正則化參數(shù)C的取值范圍跟SVOREXC和SVORIMC中的正則化參數(shù)C相同,即參數(shù)C從10[-3∶ 1∶ 3]中選取。對(duì)于懲罰參數(shù)η,該參數(shù)決定了任務(wù)權(quán)重之和∑ t θ2t對(duì)整體模型的貢獻(xiàn),由于∑ t θ2t的值較小,參數(shù)η的值需要比較大,所以參數(shù)η從[10,50,100,1 000,5 000,10 000,20 000,100 000]中取值。對(duì)于閾值參數(shù)ε,它是迭代更新算法的終止條件,參照文獻(xiàn)[25],參數(shù)ε固定為0.001。
3.3 實(shí)驗(yàn)結(jié)果
表1給出了本文方法和對(duì)比方法的平均0-1誤差。從表1可以看出,本文MORTD方法相比于對(duì)比方法,獲得了更低的平均0-1誤差。例如,SCUTFBP-avg表示了SCUT-FBP數(shù)據(jù)集的四個(gè)相關(guān)任務(wù)AF、AM、CF和CM的平均結(jié)果。以SCUTFBP-avg為例,MORTD方法相比于對(duì)比方法,獲得了0.021~0.054的精度提升。對(duì)于MSRA-avg和UTKFace-avg,也觀察到了類似的情況。
表2給出了本文方法和對(duì)比方法的平均絕對(duì)誤差。在表2中,SCUT-FBP數(shù)據(jù)集有4個(gè)任務(wù),MSRA數(shù)據(jù)集有4個(gè)任務(wù),UTKFace數(shù)據(jù)集有5個(gè)任務(wù),總共有13個(gè)任務(wù)。在13個(gè)任務(wù)中,本文MORTD方法在11個(gè)任務(wù)中獲得了比對(duì)比方法更低的平均絕對(duì)誤差。
這是因?yàn)?,首先SVOREXC、SVORIMC、RMSVOR和CWSVOR是單任務(wù)序數(shù)回歸方法,它們只能訓(xùn)練單個(gè)任務(wù),不能利用任務(wù)之間的相關(guān)性來提高分類器的性能。與SVOREXC、SVORIMC、RMSVOR和CWSVOR不同,MORTD是多任務(wù)序數(shù)回歸方法,能夠?qū)⒍鄠€(gè)相關(guān)任務(wù)之間的分類信息整合到改進(jìn)序數(shù)回歸分類器中,以提高整體性能。其次,RMTL是傳統(tǒng)的多任務(wù)學(xué)習(xí)方法,訓(xùn)練所得到的分類平面是無序的,不能把序數(shù)回歸中標(biāo)簽的有序信息融合到分類器中。與RMTL不同,MORTD能夠?qū)?biāo)簽之間的有序信息引入學(xué)習(xí)過程,提升分類器的分類效果。最后,雖然MSRSVM和RMTOR是多任務(wù)序數(shù)回歸方法,但是,它們假設(shè)不同任務(wù)具有相同的權(quán)重,對(duì)整體模型的貢獻(xiàn)相同。與MSRSVM和RMTOR不同,本文MORTD方法考慮了各個(gè)任務(wù)對(duì)整體分類器的不同貢獻(xiàn),為每個(gè)任務(wù)分配一個(gè)未知的權(quán)重,這些任務(wù)權(quán)重可以在學(xué)習(xí)過程中自動(dòng)優(yōu)化。基于優(yōu)化的任務(wù)權(quán)重,可以提高分類器的整體性能。
3.4 參數(shù)敏感性分析
研究本文MORTD方法在不同參數(shù)值下的分類性能。在MORTD的目標(biāo)方程式(1)中,C是與分類誤差ξtji和ξt*ji相關(guān)的正則化參數(shù),η是與任務(wù)權(quán)重∑ t θ2t相關(guān)的參數(shù)。在不同的參數(shù)C和η值下,MORTD方法的平均0-1誤差(MZE)如圖1所示。從圖1中可以看出,一方面,參數(shù)C決定了分類誤差對(duì)學(xué)習(xí)模型的影響,當(dāng)參數(shù)C等于0.1或1時(shí),模型獲得最佳的分類性能。當(dāng)C值相對(duì)較小時(shí)(C<0.1),分類模型側(cè)重于最大化超平面間隔,對(duì)分類誤差的關(guān)注較少,導(dǎo)致分類誤差較高;當(dāng)C值相對(duì)較大時(shí)(C>1),分類模型側(cè)重于最小化分類誤差,沒有充分考慮超平面間隔的最大化,可能導(dǎo)致過擬合結(jié)果,使分類器泛化能力下降。另一方面,觀察圖1發(fā)現(xiàn),分類結(jié)果對(duì)η影響不敏感。在實(shí)踐中,需要根據(jù)不同的應(yīng)用問題找到C和η的最優(yōu)值。
3.5 在真實(shí)數(shù)據(jù)集上分析
為了驗(yàn)證MORTD方法的有效性,本文將MORTD方法應(yīng)用于阿爾茨海默?。ˋlzheimer’s disease neuroimaging initiative,ADNI)(http://www.loni.usc.edu/)診斷數(shù)據(jù)集(http://www.loni.usc.edu/)。該數(shù)據(jù)集包含971個(gè)核磁共振 (magnetic re-sonance imaging,MRI) 圖像,這些圖像來自于“50~59歲”“60~69歲”“70~79歲”和“≥80歲”四個(gè)年齡段的病人。對(duì)于每一個(gè)年齡段的MRI圖像,按照阿爾茨海默病的三個(gè)階段,可以劃分為“認(rèn)知正?!薄拜p度認(rèn)知障礙”和“阿爾茨海默癥”三個(gè)類別。阿爾茨海默病三個(gè)階段的MRI樣本圖像如圖2所示。因此,ADNI數(shù)據(jù)集的目的是,在MRI訓(xùn)練圖像上建立序數(shù)回歸分類模型,并把該模型應(yīng)用于未知MRI圖像的預(yù)測(cè),即把未知MRI圖像劃分到“認(rèn)知正常”“輕度認(rèn)知障礙”和“阿爾茨海默癥”三個(gè)類別之一。參照文獻(xiàn)[8],本文把每一個(gè)年齡段看作是一個(gè)序數(shù)回歸任務(wù),因此,四個(gè)年齡段可以看作是四個(gè)相關(guān)的序數(shù)回歸任務(wù)。
從表3和4可以看出,相比于單任務(wù)序數(shù)回歸方法SVOREXC、SVORIMC、RMSVOR和CWSVOR,MORTD 獲得了更低的分類誤差。在平均0-1誤差方面,MORTD獲得了4.4%~7.9%的提升,這是因?yàn)镾VOREXC、SVORIMC、RMSVOR和CWSVOR是單任務(wù)序數(shù)回歸方法,只能使用單個(gè)任務(wù)的信息來建立分類器,不同任務(wù)之間的關(guān)聯(lián)性并不能融合到分類器的學(xué)習(xí)過程中。與這些單任務(wù)序數(shù)回歸方法不同,MORTD是多任務(wù)序數(shù)回歸方法,通過分類器參數(shù)耦合,實(shí)現(xiàn)了不同任務(wù)之間的分類信息共享。另外相比于多任務(wù)序數(shù)回歸方法MSRSVM和RMTOR,MORTD的平均0-1誤差和平均絕對(duì)誤差分別為0.522和0.664,低于多任務(wù)序數(shù)回歸方法MSRSVM(0.598和0.761)和RMTOR(0.573和0.731)。MORTD方法通過考慮不同任務(wù)的權(quán)重,并在訓(xùn)練過程中同步優(yōu)化這些任務(wù)的權(quán)重,進(jìn)一步提高了對(duì)疾病的分類準(zhǔn)確率。
4 結(jié)束語
本文提出的基于任務(wù)權(quán)重自動(dòng)優(yōu)化的多任務(wù)序數(shù)回歸算法,通過自動(dòng)優(yōu)化任務(wù)權(quán)重來提高多任務(wù)模型的分類準(zhǔn)確性。現(xiàn)有的多任務(wù)序數(shù)回歸方法假設(shè)不同任務(wù)對(duì)整體模型具有相等的貢獻(xiàn)。與現(xiàn)有方法不同,MORTD給每個(gè)任務(wù)分配一個(gè)未知權(quán)重,并在學(xué)習(xí)過程中自動(dòng)優(yōu)化求解這些任務(wù)權(quán)重,提高了多任務(wù)序數(shù)回歸的分類性能。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,對(duì)比于現(xiàn)有的多任務(wù)序數(shù)回歸方法,MORTD可以獲得更高的分類精度。在未來,希望將MORTD方法應(yīng)用在無監(jiān)督學(xué)習(xí),以此來解決更多的問題。
參考文獻(xiàn):
[1]Gutierrez P Perez-Ortiz M, Sanchez-Monedero J, et al. Ordinal regression methods: survey and experimental study[J].IEEE Trans on Knowledge amp; Data Engineering , 2016, 28 (1): 127-146.
[2]李晰, 肖燕珊, 劉波. 面向不確定數(shù)據(jù)的序數(shù)回歸算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2023, 44 (1): 174-181. (Li Xi, Xiao Yanshan, Liu Bo. Ordinal regression based on uncertain data[J].Computer Engineering and Design , 2023, 44 (1): 174-181.)
[3]Mao Yuren, Wang Zekai, Liu Weiwei, et al. Task variance regula-rized multi-task learning[J].IEEE Trans on Knowledge and Data Engineering,2022, 35 (8): 8615-8629.
[4]Wang Senzhang, Zhang Jiaqiang, Li Jiyue, et al. Traffic accident risk prediction via multi-view multi-task spatio-temporal networks[J].IEEE Trans on Knowledge and Data Engineering , 2023, 35 (12): 12323-12336.
[5]Zhang Yi, Zhang Yu, Wang Wei. Learning linear and nonlinear low-rank structure in multi-task learning[J].IEEE Trans on Know-ledge and Data Engineering , 2023, 35 (8): 8157-8170.
[6]王浩暢, 鄭冠彧, 趙鐵軍. 面向合同信息抽取的動(dòng)態(tài)多任務(wù)學(xué)習(xí)方法[J/OL]. 軟件學(xué)報(bào). (2023-08-28). https://kns.cnki.net/kcms/detail/11.2560.TP.20230825.1124.011.html. (Wang Hao-chang, Zheng Guanyu, Zhao Tiejun. A dynamic muti-task learning method for contract information extraction[J/OL].Journal of Software . (2023-08-28). https://kns.cnki.net/kcms/detail/11.2560.TP.20230825.1124.011.html.)
[7]帥祥, 魏樂, 舒紅平. 一種基于多任務(wù)學(xué)習(xí)的代碼補(bǔ)全方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40 (3): 863-867. (Shuai Xiang, Wei Le, Shu Hongping. Code completion method based on multi-task learning[J].Application Research of Computers , 2023, 40 (3): 863-867.)
[8]Wang Lu, Zhu Dongxiao. Tackling ordinal regression problem for he-terogeneous data: sparse and deep multi-task learning approaches[J].Data Mining and Knowledge Discovery , 202 35 : 1134-1161.
[9]Gao Yuyang, Zhao Liang. Incomplete label multi-task ordinal regression for spatial event scale forecasting[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence and the 13th Innovative Applications of Artificial Intelligence Conference and the 8th AAAI Sympo-sium on Educational Advances in Artificial. Palo Alto,CA:AAAI Press, 2018: 2999-3006.
[10]Baly R, Karadzhov G, Saleh et al. Multi-task ordinal regression for jointly predicting the trustworthiness and the leading political ideology of news media[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2109-2116.
[11]Balikas G, Moura S, Amini M R. Multitask ranking for fine-grained Twitter sentiment analysis[C]//Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press, 2017: 1005-1008.
[12]Walecki R, Rudovic O, Pavlovic V, et al. Copula ordinal regression for joint estimation of facial action unit intensity[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 4902-4910.
[13]Hamsici O C, Martinez A M. Multiple ordinal regression by maximizing the sum of margins[J].IEEE Trans on Neural Networks amp; Learning Systems , 2017, 27 (10): 2072-2083.
[14]Mei Benshan, Xu Yitian. Multi-task ν-twin support vector machines[J].Neural Computing and Applications , 2019, 32 (15): 11329-11342.
[15]Xiao Yanshan, Zhang Liangwang, Liu Bo, et al. Multi-task ordinal regression with labeled and unlabeled data[J].Information Sciences , 2023,649 : 119669.
[16]Liang Xianpeng, Zhu Lin, Huang Deshuang. Multi-task ranking SVM for image cosegmentation[J].Neurocomputing , 2017, 247 : 126-136.
[17]Ji You, Sun Shiliang, Lu Yue. Multitask multiclass privileged information support vector machines[C]//Proc of the 21st International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2013: 2323-2326.
[18]Hsieh C J, Chang Kaiwei, Lin C J. A dual coordinate descent method for large-scale linear SVM[C]//Proc of the 25th International Confe-rence on Machine Learning. New York: ACM Press, 2016: 408-415.
[19]Liang Lingyu, Lin Luojun, Jin Lianwen, et al. SCUT-FBP5500: a diverse benchmark dataset for multi-paradigm facial beauty prediction[C]//Proc of the 24th International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1598-1603.
[20]Zhang Zhifei, Song Yang, Qi Hairong. Age progression/regression by conditional adversarial autoencoder [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4352-4360.
[21]Chu Wei, Keerthi S S. Support vector ordinal regression[J].Neural Computation , 2007, 19 (3): 792-815.
[22]Zhu Fan, Chen Xingchi, Chen Shuo, et al. Relative margin induced support vector ordinal regression[J].Expert Systems with Applications , 2023,231 : 120766.
[23]Zhu F Chen Xingchi, Gao Xizhan, et al. Constraint-weighted support vector ordinal regression to resist constraint noises[J].Information Sciences , 2023,649 : 119644.
[24]Evgeniou T, Pontil M. Regularized multi-task learning[C]//Proc of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2004: 109-117.
[25]Wang Fei, Zhao Bin, Zhang Changshui. Linear time maximum margin clustering[J].IEEE Trans on Neural Networks , 2010,21 (2): 319-332.
收稿日期:2023-08-09;修回日期:2023-10-08基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62076074)
作者簡(jiǎn)介:曾夢(mèng)岳(1999—),男,浙江溫州人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)(moyopaul@foxmail.com);肖燕珊(1981—),女,廣東中山人,教授,博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí);劉波(1978—),男,河南鶴壁人,教授,博士,主要研究方向?yàn)橹С窒蛄繖C(jī).