吳瓊
摘要:近年來眾包學(xué)習(xí)在機器學(xué)習(xí)和計算機視覺方面?zhèn)涫荜P(guān)注,但是存在不可靠標(biāo)注者導(dǎo)致標(biāo)注標(biāo)簽包含大量噪聲。本文提出一種低秩矩陣填充算法(LRMC)來捕獲標(biāo)注者之間潛在相關(guān)性,并去除存在于識別標(biāo)注之間的特定噪聲。LRMC通過標(biāo)簽的低秩結(jié)構(gòu)來利用存在于標(biāo)簽中潛在的相關(guān)信息,其中還可以獲得標(biāo)注者與問題的潛在的特征向量。實驗結(jié)果表明,LRMC不但提高了眾包學(xué)習(xí)的標(biāo)注精度,并且與現(xiàn)有算法相比,在優(yōu)化時間上也存在相應(yīng)優(yōu)勢。
關(guān)鍵詞:低秩近似;矩陣填充;眾包學(xué)習(xí)
中圖分類號:TP311 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)08-0145-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
近年來,在機器學(xué)習(xí)和計算機視覺方面眾包學(xué)習(xí)收集標(biāo)簽的高效性備受關(guān)注。
眾包學(xué)習(xí)提供了一種新的工作方式,雇主發(fā)布任務(wù),自由工作者幫助雇主完成任務(wù),最大化地利用了自由工作者的智慧。然而,不同的專家或標(biāo)注者的出發(fā)點不同,導(dǎo)致收集到的標(biāo)簽包含大量噪聲,不利于進一步的結(jié)果分析。提高完成任務(wù)的質(zhì)量,是一項挑戰(zhàn)性的工作。如何對標(biāo)注者的精度進行有效評估,提高眾包學(xué)習(xí)結(jié)果質(zhì)量是眾包研究中面臨的重要問題。
眾包學(xué)習(xí)研究一般假設(shè)每個標(biāo)簽是潛在不可靠的,且噪聲在所有標(biāo)注者之間隨機出現(xiàn)。事實上,大多數(shù)噪聲標(biāo)簽僅出現(xiàn)在不可靠的標(biāo)注者當(dāng)中,而不是所有的標(biāo)注者。此外,傳統(tǒng)的眾包學(xué)習(xí)方法通常使用生成模型單獨處理每個標(biāo)注者產(chǎn)生的標(biāo)簽,卻忽略標(biāo)注者之間的相關(guān)性。
本文提出一種矩陣填充方法:低秩矩陣填充算法(Low Rank Matrix Completion,LRMC)該方法從一個新的角度對標(biāo)簽進行優(yōu)化。LRMC通過標(biāo)簽的低秩結(jié)構(gòu)來利用存在于標(biāo)簽中潛在的相關(guān)信息,其中還可以獲得標(biāo)注者與問題的潛在的特征向量。更重要的是,該方法將眾包學(xué)習(xí)任務(wù)中的標(biāo)簽噪聲定義為標(biāo)注噪聲,即不可靠的標(biāo)注者使得觀察到的標(biāo)簽存在特定偏差,可以通過[l2,1]范數(shù)進行刻畫。最后,實驗結(jié)果表明,LRMC不但提高了眾包學(xué)習(xí)的標(biāo)注精度,并且與現(xiàn)有算法相比,在優(yōu)化時間上也存在相應(yīng)優(yōu)勢。
2 眾包學(xué)習(xí)面臨的挑戰(zhàn)
眾包學(xué)習(xí)是一種高效和小成本的方式來收集諸多應(yīng)用領(lǐng)域中的標(biāo)簽數(shù)據(jù),比如計算機視覺和自然語言處理領(lǐng)域[1]。諸如Amazon Mechanical Turk[2]和Crowd Flower[3]等平臺提供了眾包服務(wù),發(fā)布者可以在其中發(fā)布相關(guān)任務(wù),并可從在線的標(biāo)注者當(dāng)中收集相應(yīng)任務(wù)標(biāo)簽。Amazon Mechanical Turk中的眾包學(xué)習(xí)任務(wù)包括標(biāo)記圖像,評估搜索結(jié)果以及標(biāo)記機器學(xué)習(xí)數(shù)據(jù)。眾包學(xué)習(xí)的優(yōu)點是可以用較低的成本下在短時間內(nèi)獲得大量的標(biāo)簽。盡管在效率以及成本方面具有一定優(yōu)勢,但觀察到的標(biāo)簽質(zhì)量可能較低,這是因為眾包學(xué)習(xí)標(biāo)注者通常并非是該領(lǐng)域的專家且有時不可靠。傳統(tǒng)上,研究人員采用冗余機制來保證標(biāo)注的質(zhì)量,也就是將各個問題分配給不同的標(biāo)注者,然后在對標(biāo)簽進行聚合。因此,眾包學(xué)習(xí)存在的第一個問題是:如何從這些不可靠的標(biāo)注者提供的噪聲標(biāo)簽中推斷真正的標(biāo)簽。第二個問題是:現(xiàn)有工作中一般對所有標(biāo)注者根據(jù)生成模型處理單獨建模,從而忽略了標(biāo)注者之間的相關(guān)性[7]。即使在實際中從統(tǒng)計模型中得到令人滿意的性能,標(biāo)注結(jié)果可能也不是局部或者全局最優(yōu)的。
近幾年,低秩近似方法[4-6]給標(biāo)注任務(wù)帶來處理問題的新視角,同時此類方法為提升標(biāo)注準(zhǔn)確率提供了可能。本文提出一種有效的低秩矩陣填充方法從帶噪聲的標(biāo)簽中推斷真正的標(biāo)簽。觀察到的標(biāo)簽矩陣包含標(biāo)注者對眾包學(xué)習(xí)問題給出的對應(yīng)標(biāo)簽,并且將觀察到的矩陣分解為低秩分量和特定的標(biāo)注噪聲,如圖1所示。觀察到的標(biāo)簽矩陣被分解為兩部分:無惡意噪聲標(biāo)簽和噪聲。注釋器之間的基礎(chǔ)相關(guān)性被指定為具有低秩結(jié)構(gòu)的精化標(biāo)簽。假設(shè)存在一部分惡意標(biāo)注者,他們往往提供一些隨意甚至錯誤的標(biāo)注結(jié)果,這些噪聲具有稀疏和噪聲值任意的特點,滿足[l2,1]的范數(shù)約束。當(dāng)標(biāo)注者的惡意噪聲被去除后,可以認(rèn)為標(biāo)簽是有大部分可靠標(biāo)注者提供的。標(biāo)簽矩陣的潛在低秩結(jié)構(gòu)說明由大部分可靠標(biāo)注者提供的標(biāo)簽之間存在著潛在相關(guān)信息。此外,低秩成分可以表示成無惡意噪聲的低秩標(biāo)簽,這極大簡化了后續(xù)的標(biāo)簽聚合過程。
本文的主要貢獻如下:
1) 利用低秩模型為眾包任務(wù)提供了一個新的視角,低秩成分可以挖掘不同標(biāo)注者之間的潛在關(guān)系并且抽取出對應(yīng)標(biāo)注者帶來的噪聲。定義標(biāo)注者噪聲為稀疏噪聲,即不可靠的標(biāo)注者會導(dǎo)致任意的噪聲偏差,可以被形式化為[l2,1]范數(shù)。在標(biāo)注者之間的關(guān)系可以被形式化為低秩結(jié)構(gòu),這個結(jié)構(gòu)可以充分描述不同標(biāo)簽之間的關(guān)系并簡化后續(xù)的處理過程。
2) 為眾包學(xué)習(xí)任務(wù)提出一種新的低秩流形方法,即低秩矩陣填充算法(LRMC),該算法可以對提出的低秩模型有效的求解,根據(jù)黎曼梯度算法獲得最終的標(biāo)簽。
3 低秩矩陣填充模型
為了形式化問題,假設(shè)眾包任務(wù)中有m個標(biāo)注者,n個問題,其中觀測到的標(biāo)記矩陣為[m× n]的觀測矩陣Z,其中[zij]表示由標(biāo)記者j給問題i做的標(biāo)記。第i行[Zi:∈R1×n]表示所有從標(biāo)記者i得到的n個標(biāo)記。
考慮到標(biāo)記可能會丟失,[zij=0]表示標(biāo)記者i對問題j沒有任務(wù)標(biāo)注,并且Z中的非零元素表示已知的標(biāo)記。令Ω為觀測矩陣Z的標(biāo)識,以及[PΩ(?) ]表示矩陣Z的映射,并滿足:
[PΩ(Z)ij=zij, (i,j)∈Ω 0 , otherwise] (3-1)
令X為低秩矩陣,表示從不同標(biāo)記者中標(biāo)記的數(shù)據(jù)中抽取的標(biāo)簽,E是和標(biāo)記者有關(guān)的稀疏噪聲。觀測的標(biāo)記Z可以表示為X和E之和,即,
[minX,EX*+λE2,1 s.t. PΩZ=PΩ(X+E)] (3-2)
其中[λ>0]是給定的正則參數(shù),[PΩ(?)]是線性算子,對觀測到的數(shù)據(jù)進行標(biāo)識,核范數(shù)為[?*],它是秩函數(shù)的松弛,用來刻畫低秩標(biāo)記矩陣X并且表示了不同標(biāo)記者對同問題的標(biāo)注的線性關(guān)系。[l2,1]范數(shù)定義為[?2,1]正則項,噪聲E表示為標(biāo)注者間的特殊噪聲。為了導(dǎo)出標(biāo)記之間的低秩信息,問題(3-2)需要對秩最小化問題進行求解,由于秩函數(shù)是非凸函數(shù)并且是NP問題,本章算法用核范數(shù)[?*]對問題進行松弛,它是對凸函數(shù)的近似。和標(biāo)注者相關(guān)的噪聲可以被認(rèn)為是行相關(guān)的,由[l2,1]范數(shù)進行刻畫,其中[Zi:∈R1×n]表示從第i個標(biāo)注者得到的第n個標(biāo)記。通過定義[l2,1]范數(shù),[?2,1]刻畫了行相關(guān)的稀疏噪聲,如圖1所示,也就是說某些行是包含噪聲的,而其他行沒有噪聲。此外,由于標(biāo)注的初衷不同,一些噪聲可能是任意大的,因此最小化[l2,1]范數(shù)也導(dǎo)致E的列為零,即該范數(shù)對每個問題的噪聲盡可能地進行約減。至此,通過分析觀測到的標(biāo)記矩陣中的低秩結(jié)構(gòu),已經(jīng)推斷出眾包模型(3-2)。
4 實驗
為了更好地理解LRMC在不同參數(shù)下的性能,首先在人工數(shù)據(jù)集上進行實驗,對比LRMC在不同問題規(guī)模下得到的不同結(jié)果。利用二元投票眾包對算法進行測試,二元投票法廣泛應(yīng)用于生活中的各種場景,例如,給兩個選項,投票者只能給出是或者否。
通過實驗生成三個眾包任務(wù),問題規(guī)模分別為100,500以及1000。5和20個標(biāo)注者對每個問題進行標(biāo)注,每個問題只有兩個選項:[{1,+1}],并且真是的標(biāo)簽依照概率0.5的方式從伯努利分布[{1,+1}]中進行采樣。模擬了兩種不同類型的標(biāo)注者:可靠的標(biāo)注者和不可靠的標(biāo)注者。標(biāo)注者的準(zhǔn)確率隨機地從0.8和1中選取。而不可靠的標(biāo)注者采用不同的策略,他們生成帶噪聲的標(biāo)簽[8]。模擬兩種不可靠的標(biāo)注者:(a)對每個問題隨機的標(biāo)注1或者[-1],隨機選擇每個選項的概率為0.5。(b)估計對每個標(biāo)注進行錯誤的逆向標(biāo)注。問題的標(biāo)注者變化幅度從5到35,對每個標(biāo)簽矩陣采用十折交叉驗證,并取平均。
觀察到標(biāo)簽的質(zhì)量對聚合的準(zhǔn)確率至關(guān)重要,但是在實際應(yīng)用中,觀察到的標(biāo)簽經(jīng)常缺失或者帶有噪聲。為了測試噪聲帶來的影響,通過改變?nèi)笔Ш驮肼暤某潭?,采用三個不同規(guī)模的矩陣進行測試,如圖2。在圖2(a)和2(c)中,不可靠的標(biāo)注者固定為30%,期望在100個標(biāo)注者當(dāng)中存在30個不可靠的標(biāo)注者,圖2(a)描述了在每個問題下不同數(shù)目的標(biāo)注者帶來的誤差對于三個不同規(guī)模的標(biāo)簽矩陣,誤差率隨著問題標(biāo)注者的增多而減小,這是因為每個問題由更多的標(biāo)注者進行標(biāo)注,所以標(biāo)注更可靠。和500個問題以及1000個問題比較時,即使標(biāo)注者減少時,LRMC算法可以得到針對200個問題規(guī)模較高的準(zhǔn)準(zhǔn)確率。這三個標(biāo)記矩陣誤差的間距逐漸縮小至0.02,在同等條件下圖2(a)展示了由ROLA算法得到了不同時間對比。很明顯,隨著標(biāo)簽矩陣規(guī)模的增長,時間也隨著增長,但是和每個問題標(biāo)注者的數(shù)目無關(guān),因此對所有三個矩陣而言本章算法比較穩(wěn)定。
固定不可靠標(biāo)注者數(shù)目變動噪聲程度,得到LRMC算法的性能如圖2(b)和2(d)所示。每個問題的標(biāo)注者數(shù)目設(shè)置為30。很明顯,由LRMC算法得到的準(zhǔn)確率隨著不可靠標(biāo)注者的增多而減少。LRMC采用[l2,1]范數(shù)來對標(biāo)注矩陣中的稀疏的噪聲項進行規(guī)范。當(dāng)不可靠標(biāo)注者的數(shù)目增多時,和標(biāo)注者相關(guān)的噪聲矩陣不再是稀疏矩陣,因此對LRMC算法造成一定的影響。圖2(d)展示了對1000個標(biāo)簽任務(wù)的LRMC算法運行時間,從中可看出執(zhí)行該任務(wù)的時間比500個標(biāo)簽任務(wù)快30%,以及比200個標(biāo)簽任務(wù)的快了60%。
5 總結(jié)
本文提出一種新的基于矩陣流形的優(yōu)化算法,即LRMC算法(Low Rank Matrix Completion),從一種全新的角度推理學(xué)習(xí)眾包標(biāo)注,快速得到精確的眾包標(biāo)注結(jié)果。將標(biāo)簽噪聲定義為標(biāo)注者特定的稀疏噪聲,可以用[l2,1]范數(shù)進行約束。具體來說,LRMC算法利用眾包收集的標(biāo)簽矩陣的所特有的潛在低秩結(jié)構(gòu),基于這一低秩學(xué)習(xí)模型進而去除標(biāo)注者特定的噪聲。當(dāng)標(biāo)注者的惡意噪聲被去除后,可以認(rèn)為剩余的標(biāo)簽是有大部分可靠標(biāo)注者提供的。標(biāo)簽矩陣的潛在低秩結(jié)構(gòu)說明由大部分可靠標(biāo)注者提供的標(biāo)簽之間存在著潛在相關(guān)信息。換句話說,這種無惡意噪聲的標(biāo)簽矩陣代表了大部分可靠標(biāo)注者提供標(biāo)注結(jié)果,因此可以認(rèn)為這些標(biāo)簽是趨向于一致性的,即大部分可靠的標(biāo)注者提供的標(biāo)簽更接近于真實的結(jié)果。因此,基于這種無惡意噪聲的標(biāo)簽矩陣的推理結(jié)果則會使得眾包學(xué)習(xí)更加精確有效。
參考文獻:
[1] Li Q, Wang Z, Li G, et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold[J]. Procedia Computer Science, 2017, 108: 285-294.
[2] Kees J, Berry C, Burton S, et al. An analysis of data quality: Professional panels, student subject pools, and Amazon's Mechanical Turk[J]. Journal of Advertising, 2017, 46(1): 141-155.
[3] Mubarak H, Darwish K. Demographic surveys of arab annotators on crowdflower[C]//Weaving Relations of Trust in Crowd Work: Transparency and Reputation across Platforms Workshop. 2016.
[4] Shen Y, Wen Z, Zhang Y. Augmented Lagrangian alternating direction method for matrix separation based on low-rank factorization[J]. Optimization Methods and Software, 2014, 29(2): 239-263.
[5] Zhang Y, Shi D, Gao J, et al. Low-rank-sparse subspace representation for robust regression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7445-7454.
[6] Hu E L, Kwok J T. Scalable nonparametric low-rank kernel learning using block coordinate descent[J]. IEEE transactions on neural networks and learning systems, 2015, 26(9): 1927-1938.
[7] Mnih A, Salakhutdinov R R. Probabilistic matrix factorization[C]//Advances in neural information processing systems. 2008: 1257-1264.
[8] Vuurens J, de Vries A P, Eickhoff C. How much spam can you take? an analysis of crowdsourcing results to increase accuracy[C]//Proc. ACM SIGIR Workshop on Crowdsourcing for Information Retrieval (CIR11). 2011: 21-26.
【通聯(lián)編輯:梁書】