趙江華 穆舒婷 王學(xué)志 林青慧 張 兮 周園春
1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2(中國(guó)科學(xué)院大學(xué) 北京 100049)3 (天津大學(xué)管理與經(jīng)濟(jì)學(xué)部 天津 300072) (zjh@cnic.cn)
科學(xué)數(shù)據(jù)眾包處理研究
趙江華1,2穆舒婷3王學(xué)志1林青慧1張 兮3周園春1
1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2(中國(guó)科學(xué)院大學(xué) 北京 100049)3(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部 天津 300072) (zjh@cnic.cn)
獲取科學(xué)數(shù)據(jù)的最終目的是根據(jù)具體需要從數(shù)據(jù)中提取有用的知識(shí),并將這些知識(shí)應(yīng)用到具體的領(lǐng)域中,幫助決策制定者制定決策.由于科學(xué)數(shù)據(jù)規(guī)模越來(lái)越大,而且呈現(xiàn)結(jié)構(gòu)復(fù)雜的特點(diǎn),如半結(jié)構(gòu)化或非結(jié)構(gòu)化,難以通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)化處理.眾包通過(guò)高效調(diào)用人力資源,成為進(jìn)行科學(xué)大數(shù)據(jù)眾包處理的解決方案之一.針對(duì)科學(xué)大數(shù)據(jù)眾包處理的特點(diǎn),圍繞人才篩選機(jī)制、任務(wù)處理模式和結(jié)果評(píng)估策略3方面對(duì)科學(xué)數(shù)據(jù)眾包體系進(jìn)行研究,并通過(guò)地理空間數(shù)據(jù)云平臺(tái)開展地學(xué)領(lǐng)域的基于眾包的遙感影像信息提取實(shí)驗(yàn).研究表明,科學(xué)數(shù)據(jù)不僅能夠通過(guò)眾包模式來(lái)進(jìn)行處理,而且通過(guò)合理的設(shè)計(jì)眾包流程能夠獲得高質(zhì)量的數(shù)據(jù)結(jié)果.
眾包;科學(xué)大數(shù)據(jù);數(shù)據(jù)處理;人才篩選;質(zhì)量評(píng)估
科學(xué)數(shù)據(jù)是以解決世界上現(xiàn)存的社會(huì)和環(huán)境問(wèn)題為驅(qū)動(dòng)的[1],必須由數(shù)據(jù)轉(zhuǎn)化為信息,進(jìn)而轉(zhuǎn)化為知識(shí)才能夠得到應(yīng)用,從而體現(xiàn)其價(jià)值[2].傳統(tǒng)的科學(xué)數(shù)據(jù)處理方式為科學(xué)工作流.科學(xué)工作流系統(tǒng)可自動(dòng)化科學(xué)數(shù)據(jù)處理任務(wù)的編排、執(zhí)行、監(jiān)控以及追蹤[3],清楚地說(shuō)明計(jì)算任務(wù)和數(shù)據(jù)質(zhì)檢的關(guān)系,便于科學(xué)家定義多階段的計(jì)算和數(shù)據(jù)處理通道,是管理科學(xué)數(shù)據(jù)處理過(guò)程的有用工具[4].
隨著數(shù)據(jù)獲取技術(shù)的提高,以及計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,海量科學(xué)數(shù)據(jù)資源的積累和傳播成為可能.天文學(xué)、大氣科學(xué)、基因組學(xué)、生命科學(xué)、地球與空間科學(xué)等學(xué)科正在產(chǎn)生越來(lái)越多的科學(xué)數(shù)據(jù).據(jù)估計(jì),到2020年,天文學(xué)產(chǎn)生的數(shù)據(jù)將達(dá)到60PB[5].科學(xué)研究的時(shí)空范圍越來(lái)越大,使得數(shù)據(jù)處理的工作量急劇增加,從而對(duì)科學(xué)大數(shù)據(jù)的高效處理和分析產(chǎn)生更大的需求.
科學(xué)大數(shù)據(jù)的處理和分析工作因其性質(zhì)可分為自動(dòng)化處理和非自動(dòng)化處理.自動(dòng)化的數(shù)據(jù)處理工作通常首先設(shè)定明確的目標(biāo)和工作步驟,然后建立科學(xué)工作流[6].對(duì)于求解規(guī)模大的問(wèn)題,工作流的各個(gè)步驟可在復(fù)雜的分布式計(jì)算機(jī)系統(tǒng)上并行處理,如超級(jí)計(jì)算機(jī)、分布式集群系統(tǒng)、網(wǎng)格或云平臺(tái)[7].然而,由于大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化的科學(xué)數(shù)據(jù)產(chǎn)生,使得科學(xué)大數(shù)據(jù)呈現(xiàn)結(jié)構(gòu)復(fù)雜性的特點(diǎn).這類數(shù)據(jù)往往難以通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)化處理,因此,傳統(tǒng)的基于集群或云平臺(tái)的科學(xué)工作流方法已經(jīng)不能完全滿足數(shù)據(jù)密集型的科學(xué)大數(shù)據(jù)處理.而且人工智能和機(jī)器學(xué)習(xí)等方法往往也需要人工的反饋來(lái)學(xué)習(xí)新的知識(shí)和做決策支持,受制于科學(xué)家有限的時(shí)間和精力,科學(xué)大數(shù)據(jù)處理面臨極大的挑戰(zhàn).
眾包作為一種分布式的群智計(jì)算模式,通過(guò)互聯(lián)網(wǎng)高效地調(diào)用分布全球的人力資源,對(duì)于處理人類比較擅長(zhǎng)而計(jì)算機(jī)難以自動(dòng)化處理的任務(wù)有很大優(yōu)勢(shì).因此,如何高效地利用人類和計(jì)算機(jī)組成的全球大腦網(wǎng)絡(luò)[8],來(lái)解決科學(xué)大數(shù)據(jù)快速精準(zhǔn)的處理成為本文主要探索研究的方向.
本文首先對(duì)科學(xué)大數(shù)據(jù)眾包處理方法、眾包管理機(jī)制和質(zhì)量控制研究現(xiàn)狀進(jìn)行總結(jié),分析了基于眾包的科學(xué)數(shù)據(jù)處理體系所面臨的關(guān)鍵問(wèn)題和挑戰(zhàn),并對(duì)其進(jìn)行研究;然后通過(guò)在地學(xué)領(lǐng)域開展基于眾包的科學(xué)數(shù)據(jù)處理實(shí)驗(yàn),來(lái)對(duì)本文提出的解決方案進(jìn)行驗(yàn)證;最后對(duì)本文進(jìn)行了總結(jié),并對(duì)未來(lái)的研究方向進(jìn)行了展望.
1.1 數(shù)據(jù)眾包處理方法
眾包是由英文合成詞Crowdsourcing一詞翻譯而來(lái),最早由Howe提出[9],即將過(guò)去由公司內(nèi)部員工執(zhí)行的工作,以自由自愿的形式交給大眾去完成的做法.作為一種分布式的問(wèn)題解決和生產(chǎn)模式,眾包模式在科學(xué)數(shù)據(jù)處理領(lǐng)域有著極大的優(yōu)勢(shì):1)眾包模式打破了專職科學(xué)家和業(yè)余科學(xué)家的界限,不僅使有一技之長(zhǎng)的任何個(gè)人都可以投入自己的精力、時(shí)間和技能參與到科學(xué)數(shù)據(jù)處理和知識(shí)創(chuàng)造中,并獲得回報(bào),還使得科學(xué)家有更多時(shí)間和精力投入到對(duì)專業(yè)水平要求更高的研究創(chuàng)新中[10];2)公眾的參與使得眾包成為知識(shí)傳播的絕佳方式,基于眾包的科學(xué)數(shù)據(jù)處理可以提高科學(xué)研究的影響力和公眾的科學(xué)素養(yǎng)[11];3)研究表明依靠達(dá)成一致共識(shí)的公眾來(lái)生產(chǎn)費(fèi)時(shí)且難以自動(dòng)化,但有科學(xué)價(jià)值的數(shù)據(jù)產(chǎn)品,不僅可降低時(shí)間和金錢成本,而且在提供有更多訓(xùn)練或評(píng)價(jià)反饋的情況下,眾包得到的數(shù)據(jù)結(jié)果比專家結(jié)果更高[12];4)基于眾包的科學(xué)數(shù)據(jù)處理使公眾成為勞動(dòng)力、技能、計(jì)算能力甚至是資金支持的重要來(lái)源[13],不僅改變了專職科學(xué)家的工作模式,還可降低成本,優(yōu)化科研資源配置.
根據(jù)數(shù)據(jù)處理內(nèi)容和公眾參與形式,科學(xué)數(shù)據(jù)眾包處理方法主要有協(xié)作集成式、競(jìng)賽選擇式和微任務(wù)市場(chǎng)3類.
協(xié)作集成式是由科學(xué)家或研究人員將科學(xué)數(shù)據(jù)處理任務(wù)分解為簡(jiǎn)單任務(wù),公眾無(wú)需具備任何專業(yè)知識(shí)即可參與.Zooniverse即是一個(gè)典型案例,科學(xué)家首先將科學(xué)數(shù)據(jù)處理工作設(shè)計(jì)成框選圖像內(nèi)容和添加標(biāo)記等可重復(fù)進(jìn)行的簡(jiǎn)單任務(wù),然后在Zooniverse平臺(tái)上發(fā)布,公眾通過(guò)平臺(tái)所提供的交互可視化平臺(tái),在接受一個(gè)簡(jiǎn)單培訓(xùn)后,即可進(jìn)行分類和標(biāo)注.例如發(fā)布在Zooniverse平臺(tái)上的Galaxy Zoo項(xiàng)目,將全球的85萬(wàn)志愿者組織起來(lái),對(duì)海量星系圖片進(jìn)行識(shí)別和分類,以尋找行星和查看天文物體.已有50多篇科研文章基于該項(xiàng)目產(chǎn)生的數(shù)據(jù)發(fā)表[14].此類眾包方式多采用投票方式進(jìn)行數(shù)據(jù)質(zhì)量的控制,即將一個(gè)任務(wù)分發(fā)給多人處理,選擇多數(shù)人相同的結(jié)果為正確結(jié)果.但由于此類眾包任務(wù)對(duì)參與數(shù)據(jù)處理的人數(shù)要求較高,且任務(wù)分解工作復(fù)雜,同時(shí)還需進(jìn)行后期的數(shù)據(jù)結(jié)果的分析和整理,因而時(shí)間成本較高.
競(jìng)賽選擇式是將定義好的科學(xué)數(shù)據(jù)處理任務(wù)進(jìn)行在線發(fā)布,公眾提交相應(yīng)的解決方案,任務(wù)發(fā)布方在對(duì)解決方案進(jìn)行分析和評(píng)價(jià)后,選擇最優(yōu)的方案,并給予方案提供者相應(yīng)的報(bào)酬.競(jìng)賽選擇式眾包平臺(tái)有Kaggle[15],Crowdforge[16]和Innocentive[17]等.競(jìng)賽類任務(wù)通常比較復(fù)雜,需要公眾具備相關(guān)技能并投入大量時(shí)間,因此對(duì)參與者的要求較高,任務(wù)報(bào)酬也較高,不適合難以自動(dòng)化的大規(guī)模科學(xué)數(shù)據(jù)處理工作.
微任務(wù)市場(chǎng)是首先將大任務(wù)劃分為多個(gè)小任務(wù),然后基于第三方平臺(tái),將小任務(wù)分配給不同的人處理[6].此類任務(wù)簡(jiǎn)單、獨(dú)立,通常需要較少時(shí)間和知識(shí)就可以完成,報(bào)酬通常也非常低,例如識(shí)別圖片或視頻中的物體.而且處理結(jié)果往往容易驗(yàn)證,因此可以利用最廣大的勞動(dòng)力資源,以低成本獲得很好的結(jié)果.Amazon的Mechanical Turk(MTurk)即是典型的微任務(wù)平臺(tái),該平臺(tái)發(fā)布的任務(wù)多種多樣,包括輸入、修改、驗(yàn)證給定信息、比較、分類、信息檢索、知識(shí)綜合、認(rèn)知實(shí)驗(yàn)、判斷和決策、用戶界面評(píng)價(jià)等.大量研究表明MTurk是一個(gè)非常有用的數(shù)據(jù)采集和評(píng)價(jià)平臺(tái),但由于目前科學(xué)數(shù)據(jù)處理工作復(fù)雜性越來(lái)越高,有些任務(wù)難以進(jìn)行分解,因此科學(xué)數(shù)據(jù)處理的眾包體系需要進(jìn)一步的完善.
1.2 眾包管理機(jī)制
眾包管理機(jī)制可以定義為通過(guò)有效地引導(dǎo)用戶參與和使用他們的知識(shí)與技能來(lái)實(shí)現(xiàn)特定業(yè)務(wù)的過(guò)程.Saxton等人認(rèn)為,與傳統(tǒng)企業(yè)管理不同的是,眾包平臺(tái)的管理重點(diǎn)不是增強(qiáng)員工的潛在技能和留住員工,而是發(fā)現(xiàn)和利用參與者的潛在技能并且吸引更多有才能的人加入[1].影響用戶持續(xù)參與眾包的原因有很多,很多學(xué)者在這方面進(jìn)行了有意義的研究.
Saxton等人重點(diǎn)研究了3種管理控制系統(tǒng):酬金方案、建立信任系統(tǒng)和投票評(píng)價(jià)機(jī)制[1].Brabham通過(guò)對(duì)Istockphoto和Threadless這2個(gè)眾包社區(qū)進(jìn)行研究發(fā)現(xiàn),影響用戶參與眾包社區(qū)的主要?jiǎng)訖C(jī)有金錢激勵(lì)、提高個(gè)人技能、獲得趣味和自我成就感,此外,對(duì)社區(qū)的認(rèn)同感和熱愛(ài)也是用戶持續(xù)參與眾包行為的重要原因[18].可以看出,影響用戶持續(xù)參與行為的因素主要有財(cái)務(wù)激勵(lì)和內(nèi)在激勵(lì)2種.
Lakhani等人的研究表明金錢和其他獎(jiǎng)勵(lì)是個(gè)人參與眾包交易的關(guān)鍵動(dòng)機(jī).除了金錢報(bào)酬外,獎(jiǎng)勵(lì)的形式有很多,包括積分、獎(jiǎng)品、虛擬貨幣等[19].DiPalantino等人認(rèn)為眾包是一種基于技能的全支付模式的拍賣,并且發(fā)現(xiàn)獎(jiǎng)勵(lì)可以提高用戶參與的頻率[20].Harris 發(fā)現(xiàn)在找到合適的人來(lái)完成任務(wù)的情況下,增加報(bào)酬可以提高任務(wù)最終的完成質(zhì)量[21].目前,像豬八戒這樣的眾包平臺(tái)就是通過(guò)獎(jiǎng)金吸引眾多人參與的.Kaggle,Innocentive等網(wǎng)站的高額獎(jiǎng)金也是吸引全世界的科學(xué)家參與的重要原因.
但是,很多眾包平臺(tái),比如youtube以及國(guó)內(nèi)的一些字幕組都是沒(méi)有任何報(bào)酬的,吸引他們參與的更多是一些內(nèi)在需求.Huberman等人發(fā)現(xiàn)youtube上沒(méi)有關(guān)注的用戶會(huì)傾向于停止上傳,而持續(xù)增加的關(guān)注度則會(huì)對(duì)用戶的分享上傳行為產(chǎn)生積極影響[22].Howe指出,大眾很多都是因?yàn)榕d趣和愛(ài)好參與眾包項(xiàng)目[23].夏恩君等人認(rèn)為,個(gè)體參與眾包活動(dòng)的動(dòng)因既包括內(nèi)部動(dòng)機(jī)也包括外部動(dòng)機(jī),完成任務(wù)帶來(lái)的成就感是大眾持續(xù)參與眾包的主要內(nèi)在動(dòng)機(jī)[24].Kaggle吸引人的另一個(gè)原因是它的競(jìng)爭(zhēng)排名機(jī)制已經(jīng)成為全球頂尖數(shù)據(jù)科學(xué)家證明自己實(shí)力的重要參考,參加競(jìng)賽增加的經(jīng)驗(yàn)以及帶來(lái)的名譽(yù)等收獲也是激勵(lì)各方人才積極參加的原因.
在公民科研項(xiàng)目中,參與動(dòng)機(jī)則主要為內(nèi)在激勵(lì).Raddick研究了志愿者參與這類公民科研的動(dòng)機(jī).研究發(fā)現(xiàn)大部分志愿者參與此類活動(dòng)的主要?jiǎng)訖C(jī)是參與到科學(xué)研究中、為科學(xué)研究做貢獻(xiàn).另外,社交互動(dòng)體驗(yàn)、成就感等也會(huì)影響志愿者參與的意愿[25].此外,Greenhill等人以Zooniverse為例,研究了游戲化行為對(duì)于用戶的激勵(lì)作用,研究發(fā)現(xiàn)游戲化可以激發(fā)用戶參與任務(wù)、貢獻(xiàn)自己的時(shí)間和精力的意愿,并且有助于提高用戶對(duì)于平臺(tái)的忠誠(chéng)度[26].
1.3 眾包質(zhì)量控制
質(zhì)量是任務(wù)結(jié)果滿足任務(wù)發(fā)布者需求的程度.Allahbakhsh等人認(rèn)為質(zhì)量取決于2方面,即發(fā)布者的任務(wù)設(shè)計(jì)和任務(wù)完成者的資質(zhì).任務(wù)完成者的資質(zhì)包括聲譽(yù)和能力;任務(wù)設(shè)計(jì)是任務(wù)發(fā)布者發(fā)布的信息,包括任務(wù)定義、用戶界面、任務(wù)復(fù)雜程度和獎(jiǎng)勵(lì)政策[27].同時(shí),作者還總結(jié)了在任務(wù)設(shè)計(jì)階段和運(yùn)行階段的質(zhì)量管理措施.
眾包面向的用戶是不確定的,眾包獨(dú)立匿名的特點(diǎn)使得對(duì)于眾包用戶的資格審查難度增加,這使得眾包的質(zhì)量具有較大的不確定性.科學(xué)大數(shù)據(jù)的眾包對(duì)于數(shù)據(jù)結(jié)果質(zhì)量的要求更高,因此質(zhì)量控制是設(shè)計(jì)科學(xué)大數(shù)據(jù)眾包平臺(tái)的重要內(nèi)容.對(duì)眾包質(zhì)量控制的研究集中在2方面:1)結(jié)果質(zhì)量控制;2)眾包任務(wù)設(shè)計(jì).
結(jié)果質(zhì)量評(píng)估主要是根據(jù)用戶提交的任務(wù)結(jié)果的歷史數(shù)據(jù)剔除不合格的參與者.一些眾包網(wǎng)站,如Amazon Mechanical Turk采取冗余信息標(biāo)識(shí)正確答案,即讓大量的人重復(fù)做同一任務(wù),然后用投票的方法來(lái)決定正確答案.但是,大量的冗余是昂貴的,極大地提高了眾包網(wǎng)站的成本.針對(duì)此,Dawid和Skene提出了基于期望最大化算法的解決方案.他們的算法首先通過(guò)用戶提交的結(jié)果來(lái)估計(jì)每個(gè)任務(wù)的正確答案,然后通過(guò)將用戶提交的答案與估計(jì)的正確答案對(duì)比來(lái)評(píng)估用戶質(zhì)量,最終使用用戶的總誤差之和來(lái)給每個(gè)用戶的質(zhì)量評(píng)分,從而剔除惡意操作者,提升眾包平臺(tái)的效率[28].Ipeirotis等人認(rèn)為用任務(wù)結(jié)果對(duì)用戶進(jìn)行評(píng)價(jià)受個(gè)人偏好的影響,存在偏差,因此在此基礎(chǔ)上提出了消除用戶個(gè)人偏好、恢復(fù)故有誤差率的方法,以獲得更可靠的質(zhì)量評(píng)估[29].Tong等人提出了一個(gè)利用眾包的方法對(duì)復(fù)雜版本數(shù)據(jù)進(jìn)行檢測(cè)和修復(fù)的模型,用戶只需通過(guò)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單識(shí)別.在模型中,作者加入了一個(gè)信任模型,根據(jù)參與者的歷史任務(wù)數(shù)據(jù)對(duì)參與者的信用評(píng)級(jí),以便篩選出信譽(yù)最好的參與者以提高眾包質(zhì)量[25].
眾包的任務(wù)設(shè)計(jì)對(duì)于最終的質(zhì)量也有一定影響.Sorokin等人發(fā)現(xiàn),酬金的高低會(huì)影響不同類型眾包參與者的參與意愿,進(jìn)而影響到任務(wù)質(zhì)量.酬金較低時(shí),對(duì)任務(wù)感興趣的人會(huì)明顯變少;而酬金較高時(shí),則會(huì)吸引很多惡意參與者,即想利用規(guī)則漏洞贏得酬金而不認(rèn)真完成任務(wù)的用戶[30].Kittur等人指出眾包任務(wù)應(yīng)當(dāng)保證通過(guò)欺騙的手法騙取酬金和認(rèn)真完成所花的時(shí)間基本相同,以此來(lái)減少惡意用戶行為[31].此外,一些眾包平臺(tái)還通過(guò)只接受發(fā)達(dá)國(guó)家的人承接任務(wù)來(lái)減少惡意用戶,Eickhoff等人在研究中已經(jīng)證實(shí)了這種做法的有效性,但是也指出,采取人員過(guò)濾的做法會(huì)使得任務(wù)的完成周期變長(zhǎng).他們進(jìn)一步指出,相比人員過(guò)濾的方法,通過(guò)任務(wù)來(lái)過(guò)濾用戶更加高效,他們發(fā)現(xiàn)惡意用戶通常較少參與需要較高創(chuàng)造性的任務(wù),因此通過(guò)增加任務(wù)的復(fù)雜程度可以有效較少惡意用戶,從而提高任務(wù)質(zhì)量[32].
科學(xué)數(shù)據(jù)眾包處理體系主要包括眾包人才篩選、眾包任務(wù)處理模式與方法以及眾包結(jié)果質(zhì)量評(píng)估3方面.相比于傳統(tǒng)的眾包任務(wù),科學(xué)數(shù)據(jù)處理專業(yè)性較強(qiáng),需由專業(yè)人士或?qū)I(yè)基礎(chǔ)較好的業(yè)余愛(ài)好者來(lái)完成,這對(duì)人才篩選和管理提出挑戰(zhàn);而且科學(xué)數(shù)據(jù)處理通常為數(shù)據(jù)密集型和計(jì)算密集型,往往需要可擴(kuò)展的計(jì)算和存儲(chǔ)資源,如何為用戶提供一個(gè)私有的計(jì)算機(jī)存儲(chǔ)、處理環(huán)境并匯聚相應(yīng)數(shù)據(jù)資源成為關(guān)鍵;同時(shí)科學(xué)數(shù)據(jù)處理任務(wù)對(duì)數(shù)據(jù)質(zhì)量要求較高,質(zhì)量控制方法復(fù)雜.因此本文主要針對(duì)科學(xué)數(shù)據(jù)眾包處理體系中的人才篩選機(jī)制、任務(wù)處理模式和結(jié)果評(píng)估策略3方面展開研究.
2.1 眾包人才篩選機(jī)制
2.1.1 眾包人才評(píng)價(jià)與管理
研究表明,任務(wù)領(lǐng)取人的能力對(duì)于任務(wù)完成的結(jié)果質(zhì)量影響很大[31,33],因此,在進(jìn)行任務(wù)分配時(shí),人才選取成為獲取高質(zhì)量數(shù)據(jù)結(jié)果的關(guān)鍵.本文采用人才分級(jí)管理機(jī)制,通過(guò)多種方式的審核,對(duì)參與科學(xué)數(shù)據(jù)處理的人才進(jìn)行評(píng)價(jià)和分級(jí),管理流程圖如圖1所示:
Fig. 1 Flow chart of talents assessment mechanism圖1 人才評(píng)價(jià)機(jī)制流程圖
將所有參與科學(xué)數(shù)據(jù)處理的人才分為3類:初級(jí)人才、1級(jí)人才和2級(jí)人才.其中初級(jí)人才需在科學(xué)數(shù)據(jù)處理眾包平臺(tái)提交相關(guān)材料,經(jīng)平臺(tái)審核后,給予其初級(jí)評(píng)分s0,并存儲(chǔ)到初級(jí)人才數(shù)據(jù)庫(kù).報(bào)名參與科學(xué)數(shù)據(jù)處理眾包任務(wù)的人需提交數(shù)據(jù)預(yù)處理結(jié)果和任務(wù)解決方案等補(bǔ)充材料,經(jīng)專家評(píng)價(jià)以及考核后,給予其專家評(píng)分s1,并存儲(chǔ)到1級(jí)人才庫(kù).對(duì)于專家評(píng)分高的人才將成為眾包任務(wù)領(lǐng)取人,參與科學(xué)數(shù)據(jù)處理.最終平臺(tái)根據(jù)眾包任務(wù)領(lǐng)取人提交的數(shù)據(jù)結(jié)果質(zhì)量,再次對(duì)任務(wù)領(lǐng)取人進(jìn)行結(jié)果評(píng)分s2,并存儲(chǔ)到2級(jí)人才庫(kù).具體評(píng)分方法如下:
一項(xiàng)眾包任務(wù)T對(duì)任務(wù)領(lǐng)取人的能力要求集合為{C1,C2,…,Cz}.對(duì)于不同層次的人才評(píng)分,所依據(jù)的能力要求不同.人才的初級(jí)評(píng)分根據(jù)其信息完整程度、數(shù)據(jù)處理經(jīng)驗(yàn)和數(shù)據(jù)處理工具熟練程度等方面來(lái)設(shè)定;1級(jí)人才的專家評(píng)分的依據(jù)是任務(wù)申請(qǐng)人時(shí)間上是否能夠保證完成任務(wù),以及申請(qǐng)人的數(shù)據(jù)預(yù)處理能力、數(shù)據(jù)處理能力、編程能力、挖掘算法熟悉程度、數(shù)據(jù)處理態(tài)度等;2級(jí)人才的結(jié)果評(píng)分則根據(jù)對(duì)其提交的數(shù)據(jù)處理結(jié)果的質(zhì)量評(píng)價(jià)來(lái)確定.眾包候選人對(duì)任務(wù)數(shù)據(jù)處理能力Px的滿足程度Sx可通過(guò)模糊性語(yǔ)言變量子集{不滿足,基本滿足,比較滿足,非常滿足}來(lái)表示,并分別以數(shù)值{0,0.6,0.8,1.0}來(lái)量化表示.
各個(gè)層次的人才評(píng)分描述為
(1)
2.1.2 眾包人才篩選與任務(wù)分配
針對(duì)眾包任務(wù)Ti,設(shè)定任務(wù)能力要求閾值,閾值需根據(jù)子任務(wù)的數(shù)據(jù)處理工作量、重要性等因素確定.搜索滿足能力要求的眾包任務(wù)候選人,并進(jìn)行任務(wù)分配,人才篩選與任務(wù)分配算法如算法1所示.
算法1. 人才篩選流程算法.
輸入:任務(wù)集T,初級(jí)人才庫(kù)P0,1級(jí)人才庫(kù)P1,2級(jí)人才庫(kù)P2;
輸出:任務(wù)分配結(jié)果.
計(jì)算任務(wù)數(shù)n;
初始化能力要求閾值λ1和λ2;
foreachtalentinP2do
ifs2>λ2thenm2++;
endif
endfor
ifm2>nthen
按分?jǐn)?shù)s2從高到低對(duì)人才進(jìn)行排序;
為s2值最大的n個(gè)人分配任務(wù);
else
為m2個(gè)人分配任務(wù);
foreachtalentinP1do
ifs1>λ1thenm1++;
endif
endfor
ifm1+m2>nthen
為s1值最大的n-m2個(gè)人分配任務(wù);
else
do
根據(jù)s0對(duì)初級(jí)人才進(jìn)行排序篩選并標(biāo)記專家評(píng)分;
將標(biāo)記有專家評(píng)分的人才加入到P1人才集合中;
whilem1+m2 分配剩下的n-m1-m2個(gè)任務(wù); endif endif Return任務(wù)分配結(jié)果. 首先將大的科學(xué)數(shù)據(jù)處理任務(wù)劃分為n個(gè)子任務(wù);然后根據(jù)數(shù)據(jù)質(zhì)量要求,篩選領(lǐng)取過(guò)科學(xué)數(shù)據(jù)處理眾包任務(wù)的2級(jí)人才,如果符合要求的人才數(shù)大于或等于n,則將任務(wù)分配給評(píng)分高的前n人,否則先對(duì)2級(jí)人才進(jìn)行任務(wù)分配,再?gòu)?級(jí)人才庫(kù)中篩選評(píng)分高于設(shè)定的能力要求閾值的人才,并將剩余任務(wù)進(jìn)行分配;當(dāng)篩選出的1級(jí)和2級(jí)人才數(shù)目仍小于n時(shí),則從初級(jí)人才庫(kù)中篩選,并標(biāo)記專家評(píng)分,直到任務(wù)分配完成. 2.2 眾包任務(wù)處理模式 針對(duì)科學(xué)數(shù)據(jù)處理的性質(zhì),眾包任務(wù)的執(zhí)行可分為線上和線下2種方式.線下方式由任務(wù)領(lǐng)取人下載數(shù)據(jù)后,利用個(gè)人的計(jì)算資源完成科學(xué)數(shù)據(jù)的處理,最后提交眾包結(jié)果;線上方式為任務(wù)領(lǐng)取人在線訪問(wèn)和組織數(shù)據(jù)資源,并利用在線的計(jì)算資源進(jìn)行數(shù)據(jù)的處理和存儲(chǔ).針對(duì)線上方式,平臺(tái)需為眾包領(lǐng)取人提供在線的數(shù)據(jù)組織和訪問(wèn),以及計(jì)算資源的管理與使用. 2.2.1 數(shù)據(jù)資源的組織與訪問(wèn) 眾包數(shù)據(jù)分為公共數(shù)據(jù)和私人數(shù)據(jù).平臺(tái)采用分布式文件系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),對(duì)于不能提供下載的科學(xué)數(shù)據(jù),可通過(guò)存儲(chǔ)在公共數(shù)據(jù)中,任務(wù)領(lǐng)取人可進(jìn)行讀取,在線處理,將數(shù)據(jù)處理結(jié)果直接存儲(chǔ)到私人數(shù)據(jù)存儲(chǔ)空間中.數(shù)據(jù)管理系統(tǒng)如圖2所示: Fig. 2 Data resources management system圖2 數(shù)據(jù)資源管理系統(tǒng) 系統(tǒng)采用用戶空間文件系統(tǒng)(FUSE技術(shù))實(shí)現(xiàn)符合POSIX的文件接口,用戶通過(guò)虛擬文件系統(tǒng)訪問(wèn)分布式文件系統(tǒng)中的數(shù)據(jù),公共數(shù)據(jù)的訪問(wèn)權(quán)限為只讀,私有數(shù)據(jù)則可進(jìn)行讀寫操作.同時(shí)任務(wù)領(lǐng)取人可通過(guò)客戶端接口或FTP進(jìn)行數(shù)據(jù)的組織.系統(tǒng)允許任務(wù)領(lǐng)取人上傳本地存儲(chǔ)的數(shù)據(jù).基于jqueryDjango實(shí)現(xiàn)的多文件上傳模塊,前端窗口支持拖拽上傳、可對(duì)等待上傳的文件進(jìn)行排序管理、實(shí)時(shí)顯示正在上傳文件的狀態(tài)并針對(duì)上傳失敗的情況給出錯(cuò)誤提示信息等.后端針對(duì)上傳文件的大小采用不同的存儲(chǔ)方案:小文件由內(nèi)存直接寫入硬盤;大文件則進(jìn)行分片存儲(chǔ),接受到的小片文件首先寫入臨時(shí)文件夾,當(dāng)所有文件全部接受成功后再寫入目標(biāo)文件夾. 2.2.2 計(jì)算資源的管理與使用 對(duì)于數(shù)據(jù)量較大的科學(xué)數(shù)據(jù)處理任務(wù),本文采用計(jì)算資源隔離容器為任務(wù)領(lǐng)取人提供數(shù)據(jù)快速獲取平臺(tái)和可配置的計(jì)算資源,具體架構(gòu)體系如圖3所示: Fig. 3 Architecture of data and computing resources service圖3 計(jì)算資源服務(wù)架構(gòu)圖 系統(tǒng)為每個(gè)任務(wù)領(lǐng)取人提供可擴(kuò)展的計(jì)算資源和云存儲(chǔ)環(huán)境.任務(wù)領(lǐng)取人可通過(guò)IPython Notebook編程進(jìn)行計(jì)算資源、數(shù)據(jù)處理工具和數(shù)據(jù)資源的調(diào)用.IPython Notebook是一個(gè)連接到IPython Kernel的基于Web的交互式計(jì)算環(huán)境,允許用戶在Python環(huán)境中靈活定制和實(shí)時(shí)執(zhí)行代碼,并可交互式地調(diào)用數(shù)據(jù)處理工具包和系統(tǒng)資源.采用IPython Notebook實(shí)現(xiàn),可支持基于網(wǎng)絡(luò)交互實(shí)現(xiàn)復(fù)雜的科學(xué)計(jì)算,如科學(xué)繪圖、并行計(jì)算、Linux系統(tǒng)shell調(diào)用等.IPython Kernel負(fù)責(zé)管理這些工具資源,并為IPython Notebook提供公共接口.IPython Kernel和數(shù)據(jù)處理工具被封裝在Docker的虛擬文件系統(tǒng)中,每個(gè)Docker實(shí)例執(zhí)行一個(gè)IPython Kernel,負(fù)責(zé)接收和處理來(lái)自IPython Notebook的請(qǐng)求,以及讀取云存儲(chǔ)中的數(shù)據(jù)資源. 2.3 眾包結(jié)果評(píng)估策略 質(zhì)量評(píng)價(jià)的目的是在一定范圍內(nèi)量化數(shù)據(jù)結(jié)果質(zhì)量或根據(jù)數(shù)據(jù)質(zhì)量對(duì)數(shù)據(jù)結(jié)果進(jìn)行分類,識(shí)別出合格的數(shù)據(jù)結(jié)果.本文采用迭代回歸的質(zhì)量控制方法,結(jié)合多源數(shù)據(jù)、專家知識(shí)以及定量評(píng)價(jià)算法等,實(shí)現(xiàn)高效、準(zhǔn)確的眾包結(jié)果質(zhì)量評(píng)價(jià).數(shù)據(jù)質(zhì)量控制算法如算法2. 算法2. 數(shù)據(jù)質(zhì)量控制流程. 輸入:任務(wù)處理結(jié)果集合R,當(dāng)前任務(wù)領(lǐng)取人集合K,P={P0,P1,P2}; 輸出:合格的數(shù)據(jù)集結(jié)果. for each result inRdo 根據(jù)質(zhì)量評(píng)價(jià)算法計(jì)算E(R); ifE(R)=1 then 集成數(shù)據(jù)結(jié)果; else ifE(R)=0 then 反饋修改意見(jiàn)給任務(wù)領(lǐng)取人k; else ifE(R)=-1 then Replace the talentk; end if 對(duì)任務(wù)領(lǐng)取人k進(jìn)行評(píng)分; end for Return合格的數(shù)據(jù)集成結(jié)果. 對(duì)于每個(gè)眾包任務(wù)的數(shù)據(jù)結(jié)果,根據(jù)數(shù)據(jù)質(zhì)量評(píng)價(jià)算法計(jì)算該任務(wù)的評(píng)價(jià)結(jié)果E(R),數(shù)據(jù)質(zhì)量評(píng)價(jià)算法如下: 1) 確定數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo) 參考Wang等人提出的全面描述數(shù)據(jù)質(zhì)量的指標(biāo)體系,包括可信性、準(zhǔn)確性、完整性、一致性、易理解性和客觀性等質(zhì)量指標(biāo)[34],根據(jù)科學(xué)數(shù)據(jù)處理任務(wù)的內(nèi)容和領(lǐng)域特點(diǎn),確定數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)集合{I1,I2,…,Iq}. 2) 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)的計(jì)算 收集并整理相關(guān)數(shù)據(jù)資源,利用專家知識(shí)和經(jīng)驗(yàn),結(jié)合多源數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)果進(jìn)行各個(gè)質(zhì)量指標(biāo)的計(jì)算,計(jì)算公式如下: Ii=f(E,M,A), (2) 其中,Ii為第i個(gè)指標(biāo)的評(píng)分,為取值介于0到100的實(shí)數(shù);E為專家知識(shí);M為多源數(shù)據(jù)資源;A為定量評(píng)價(jià)算法庫(kù),數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和定量評(píng)價(jià)算法庫(kù)采取“邊構(gòu)建,邊使用,邊修改”的方式來(lái)補(bǔ)充和完善. 3) 指標(biāo)權(quán)重的確定 將已完成的同類任務(wù)的評(píng)價(jià)數(shù)據(jù)作為訓(xùn)練樣本,利用機(jī)器學(xué)習(xí)方法,如邏輯回歸,進(jìn)行指標(biāo)權(quán)重參數(shù)的優(yōu)化. 4) 得到評(píng)價(jià)結(jié)果 計(jì)算數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果: (3) 其中,θi為第i個(gè)指標(biāo)的權(quán)重,E(R)取值范圍為{-1,0,1}.“-1”代表“放棄”,表示數(shù)據(jù)結(jié)果完全不合格;“0”代表“修改”,表示為數(shù)據(jù)基本合格,但還需進(jìn)一步修改和完善,對(duì)于“修改”類的數(shù)據(jù)結(jié)果,根據(jù)評(píng)價(jià)結(jié)果反饋修改意見(jiàn);“1”代表“合格”,表示數(shù)據(jù)質(zhì)量滿足處理要求的結(jié)果. 采用定性和定量指標(biāo)相結(jié)合的方法,不僅可避免評(píng)價(jià)結(jié)果的模糊性,還可充分利用專家知識(shí)提出修改意見(jiàn),提高數(shù)據(jù)處理結(jié)果的精度,同時(shí)保障了任務(wù)領(lǐng)取人的利益. 隨著遙感技術(shù)的發(fā)展,新一代遙感平臺(tái)的出現(xiàn),遙感影像在空間分辨率、時(shí)間分辨率、光譜分辨率和輻射分辨率上都有了很大程度的提高.遙感影像信息提取(remote sensing information extracting)是從遙感影像上獲取目標(biāo)地物信息的過(guò)程.由于遙感具有覆蓋面廣、及時(shí)快速的優(yōu)勢(shì)[35],通過(guò)遙感影像提取地物類型或土地利用類型信息已經(jīng)成為監(jiān)測(cè)城市擴(kuò)張、環(huán)境監(jiān)測(cè)和災(zāi)害評(píng)估的有力手段,對(duì)人類的可持續(xù)發(fā)展具有重要意義[36]. 隨著遙感數(shù)據(jù)集的不斷增長(zhǎng),各類研究對(duì)遙感圖像的時(shí)間、空間跨度要求越來(lái)越大.由于遙感影像成像條件不同,目前沒(méi)有一種完美的分類器或算法能夠?qū)崿F(xiàn)大量遙感影像的全自動(dòng)提取,因此,眾包模式成為解決這一問(wèn)題的解決方案.本文通過(guò)一系列的遙感影像信息提取任務(wù)對(duì)提出的眾包體系進(jìn)行了實(shí)踐.所提取的土地利用類型包括水體、建筑用地、耕地、林地、草地、未利用地等,覆蓋區(qū)域包括北京、石家莊、上海、天津、青海、武漢、承德、張家口、蘇州等省市. 3.1 數(shù) 據(jù) Landsat數(shù)據(jù)是覆蓋全球的中等空間分辨率的對(duì)地觀測(cè)數(shù)據(jù),從1972年7月發(fā)射第一顆Landsat系列衛(wèi)星開始,已進(jìn)行了40多年的連續(xù)對(duì)地觀測(cè),成為長(zhǎng)期陸表狀態(tài)及其變化監(jiān)測(cè)研究的最有效遙感數(shù)據(jù)之一.2008年由美國(guó)USGS免費(fèi)對(duì)全球開放使用后,Landsat系列數(shù)據(jù)在生態(tài)環(huán)境監(jiān)測(cè)、能源與資源管理、災(zāi)害監(jiān)測(cè)、城市規(guī)劃等領(lǐng)域得到廣泛應(yīng)用[37-40].Landsat數(shù)據(jù)可通過(guò)地理空間數(shù)據(jù)云平臺(tái)GSCloud(www.gscloud.cn)免費(fèi)下載. 3.2 任務(wù)處理方法 根據(jù)時(shí)空規(guī)則將整個(gè)數(shù)據(jù)處理任務(wù)劃分為多個(gè)子任務(wù),對(duì)于大規(guī)模遙感影像信息提取任務(wù),通常采用時(shí)間和空間相結(jié)合的方法進(jìn)行任務(wù)劃分,每個(gè)子任務(wù)由領(lǐng)取人通過(guò)人機(jī)協(xié)作方式使用面向?qū)ο蠓椒ㄌ崛〉匚镄畔?,最后進(jìn)行數(shù)據(jù)質(zhì)量的控制,并合并各子任務(wù)合格的數(shù)據(jù)處理結(jié)果.基于眾包的遙感影像信息提取的整體流程如圖4所示.任務(wù)領(lǐng)取人可通過(guò)GSCloud對(duì)Landsat影像進(jìn)行在線處理,如植被指數(shù)計(jì)算、條帶修復(fù)等. Fig. 4 Flow chart of crowdsourcing based remote sensing image information extraction圖4 基于眾包的遙感影像信息提取流程圖 3.2.1 影像信息提取方法 為保證信息提取結(jié)果的質(zhì)量一致性,我們對(duì)數(shù)據(jù)處理方法做了規(guī)定.遙感影像信息提取方法可分為面向像元的方法和面向?qū)ο蟮姆椒?面向?qū)ο蠓椒ǖ幕舅枷胧鞘紫葘⑦b感影像中空間相鄰的像元分割成一個(gè)個(gè)同質(zhì)性的對(duì)象,然后將這些對(duì)象作為最小的分類單元利用光譜、紋理、幾何和上下文信息對(duì)影像進(jìn)行分類,完成地物信息的提取[41].和面向像元的方法相比,面向?qū)ο蠓椒ㄍㄟ^(guò)圖像分割將目標(biāo)從影像中分離出來(lái),將原始圖像轉(zhuǎn)化為更抽象更緊湊的形式,便于特征提取和參數(shù)測(cè)量,因此使得更高層次的分析和理解成為可能[42]. 在使用面向?qū)ο蠓椒ㄟM(jìn)行影像信息提取時(shí),由于遙感影像的成像條件不同,空間變異性高,復(fù)雜多樣,且遙感影像的分析與理解需要從不同的尺度著手,所以不存在一種完美的分類器可自動(dòng)準(zhǔn)確地提取遙感影像的信息.實(shí)驗(yàn)任務(wù)規(guī)定采用半自動(dòng)的遙感影像信息提取方法,即利用人腦對(duì)遙感影像的綜合理解和分析,將人的知識(shí)與經(jīng)驗(yàn)融入到面向?qū)ο笮畔⑻崛≈衼?lái),具體方法如圖5所示. Fig. 5 Semi-automatic remote sensing imageinformation extraction framework圖5 半自動(dòng)化遙感影像信息提取技術(shù)路線圖 半自動(dòng)化遙感影像信息提取方法首先選擇并提取特征進(jìn)行影像分割,根據(jù)目視判讀優(yōu)化分割參數(shù);其次,根據(jù)影像分割結(jié)果,構(gòu)建特征向量;再次,選擇分類器對(duì)影像進(jìn)行分類;再次,對(duì)分類結(jié)果進(jìn)行后處理及質(zhì)量評(píng)價(jià),對(duì)于精度較差的結(jié)果,重新優(yōu)化影像分割參數(shù)或調(diào)整分類器參數(shù).通過(guò)將人機(jī)交互和自動(dòng)計(jì)算相結(jié)合,不僅降低地物信息識(shí)別和提取的錯(cuò)誤,還可提高信息提取效率. 3.2.2 質(zhì)量評(píng)價(jià)方法 針對(duì)任務(wù)領(lǐng)取人提交的影像解譯結(jié)果,采用定性和定量相結(jié)合的方式進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià).首先由GSCloud平臺(tái)專家利用同一區(qū)域多時(shí)期解譯結(jié)果以及OpenStreetMap數(shù)據(jù)進(jìn)行綜合評(píng)價(jià),評(píng)價(jià)指標(biāo)選擇準(zhǔn)確性、完整性和一致性.OpenStreetMap為由公眾編輯的全世界地圖,數(shù)據(jù)類型包括點(diǎn)、線、面數(shù)據(jù).其中,點(diǎn)數(shù)據(jù)為感興趣區(qū);線數(shù)據(jù)包括道路、水系、鐵路等;面數(shù)據(jù)包括土地利用數(shù)據(jù)、自然地物、居民區(qū)等,其數(shù)據(jù)精度與專業(yè)數(shù)據(jù)相當(dāng)[43].通過(guò)疊加遙感影像、多時(shí)期數(shù)據(jù)結(jié)果以及OpenStreetMap數(shù)據(jù)檢查數(shù)據(jù)的拓?fù)潢P(guān)系、位置和屬性信息,并統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問(wèn)題和誤差信息.定量評(píng)價(jià)步驟為: 1) 采用規(guī)則采樣與選擇性采樣相結(jié)合的方式對(duì)研究區(qū)進(jìn)行驗(yàn)證點(diǎn)的混合采樣,即在規(guī)則采樣的基礎(chǔ)上再根據(jù)定性評(píng)價(jià)的統(tǒng)計(jì)信息對(duì)研究區(qū)易出現(xiàn)提取信息誤差的區(qū)域增加采樣點(diǎn); 2) 人工標(biāo)記采樣點(diǎn)真實(shí)地物信息作為參考數(shù)據(jù),并基于混淆矩陣對(duì)分類結(jié)果進(jìn)行精度評(píng)價(jià).混淆矩陣是一個(gè)用于表示分為某一土地利用類型的像元個(gè)數(shù)與地面檢驗(yàn)為該類別數(shù)的比較陣列.矩陣中的列代表參考數(shù)據(jù),行代表數(shù)據(jù)分類結(jié)果的土地利用類型,如表1所示. 3) 根據(jù)混淆矩陣計(jì)算總體分類精度.總體精度(overall accuracy)為被正確分類的像元總和除以總像元數(shù),計(jì)算方法如下: (4) 其中,k為類別數(shù),Ni i為第i類土地利用信息提取正確的像元數(shù);N為影像的像元總數(shù).規(guī)定總體精度大于85%的結(jié)果為合格結(jié)果. Table 1 The Confusion Matrix 表1 混淆矩陣 3.3 結(jié) 果 從2015年5月至今,基于地理空間數(shù)據(jù)云平臺(tái)累計(jì)擬定并發(fā)布基于Landsat影像的遙感信息提取任務(wù)共36個(gè).GSCloud是一個(gè)基于云計(jì)算技術(shù)的海量地學(xué)數(shù)據(jù)資源查詢、下載、在線處理和可視化的服務(wù)平臺(tái).經(jīng)過(guò)對(duì)遙感數(shù)據(jù)的長(zhǎng)期整理、存儲(chǔ)與處理,GSCloud已積累了成規(guī)模的遙感數(shù)據(jù)資源,包括LANDSAT,MODIS,Sentinel,EO-1,DEM,NCAR,NOAA及LUCC數(shù)據(jù)集等,并集聚了全國(guó)14萬(wàn)專業(yè)用戶.用戶主要為科研院所的研究人員和學(xué)生,以及科技公司專業(yè)技術(shù)人員,均可利用相應(yīng)的技能和業(yè)余時(shí)間參與科學(xué)數(shù)據(jù)處理工作.通過(guò)該任務(wù)系列的發(fā)布,目前GSCloud初級(jí)人才庫(kù)共有專業(yè)人員1 106人,1級(jí)人才庫(kù)即任務(wù)申請(qǐng)人共697人,2級(jí)人才庫(kù)即最后參與數(shù)據(jù)處理共64人.其中典型的大規(guī)模遙感影像信息提取任務(wù)——青藏高原5期湖泊提取任務(wù)——報(bào)名人數(shù)為239人,經(jīng)過(guò)初級(jí)評(píng)分、專家評(píng)分以及人才篩選后,共23人參與數(shù)據(jù)處理,進(jìn)入2級(jí)人才庫(kù).至此地理空間數(shù)據(jù)云已初步形成科學(xué)數(shù)據(jù)采集、數(shù)據(jù)眾包處理與人才管理的生態(tài)系統(tǒng).部分眾包任務(wù)的數(shù)據(jù)處理結(jié)果已在GSCloud (http:www.gscloud.cnhelpcases)發(fā)布. 利用眾包模式將大量具有一定專業(yè)技能的公眾的時(shí)間和精力有效地聚集在一起來(lái)處理計(jì)算機(jī)難以自動(dòng)化處理的大量科學(xué)數(shù)據(jù),一直是一項(xiàng)復(fù)雜的挑戰(zhàn).本文針對(duì)基于眾包的科學(xué)數(shù)據(jù)處理所面臨的人才評(píng)價(jià)與任務(wù)分配、數(shù)據(jù)與計(jì)算資源服務(wù)以及數(shù)據(jù)質(zhì)量評(píng)價(jià)與控制3個(gè)關(guān)鍵問(wèn)題進(jìn)行研究,提出了人才分級(jí)管理機(jī)制、隔離容器提供數(shù)據(jù)和計(jì)算資源、以及迭代回歸的質(zhì)量控制方法.并借助地理空間數(shù)據(jù)云平臺(tái)在地學(xué)領(lǐng)域海量數(shù)據(jù)積累、在線計(jì)算服務(wù)、以及14萬(wàn)專業(yè)用戶的優(yōu)勢(shì),開展了一系列基于眾包的遙感影像信息提取實(shí)驗(yàn).結(jié)果表明,在有良好的流程機(jī)制和平臺(tái)支持下,公眾可以參與到科學(xué)大數(shù)據(jù)處理中來(lái),并產(chǎn)生合格的數(shù)據(jù)結(jié)果. 為了讓更多的公眾參與到科學(xué)數(shù)據(jù)處理中來(lái),如何進(jìn)行領(lǐng)域知識(shí)的封裝,向公眾提供簡(jiǎn)單可用的處理工具或任務(wù)完成方法,讓無(wú)專業(yè)知識(shí)的公眾可以參與其中將成為下一步要解決的問(wèn)題.同時(shí),建立一個(gè)公眾可以高效協(xié)作的平臺(tái)還可以加快科學(xué)數(shù)據(jù)的處理速度.可以預(yù)見(jiàn),眾包在科學(xué)數(shù)據(jù)處理領(lǐng)域的強(qiáng)大優(yōu)勢(shì)將逐漸顯現(xiàn)并最終帶來(lái)科研模式的改變. [1]Saxton G D, Oh O, Kishore R. Rules of crowdsourcing: Models, issues, and systems of control[J]. Information Systems Management, 2013, 30(1): 2-20 [2]Koulouzis S, Vasyunin D, Cushing R, et al. Cloud data federation for scientific applications[G] //LNCS 8374. Berlin: Springer, 2014: 13-22 [3]Liu Shaowei, Kong Lingmei, Ren Kaijun, et al. A two-step data placement and task scheduling strategy for optimizing scientific workflow performance on cloud computing platform[J]. Chinese Journal of Computers, 2011, 34(11): 2121-2130 (in chinese)(劉少偉, 孔令梅, 任開軍, 等. 云環(huán)境下優(yōu)化科學(xué)工作流執(zhí)行性能的兩階段數(shù)據(jù)放置與任務(wù)調(diào)度策略[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(11): 2121-2130) [4]Juve G, Rynge M, Deelman E, et al. Comparing futuregrid, Amazon EC2, and open science grid for scientific workflows[J]. Computing in Science and Engineering, 2013, 15(4): 20-29 [5]Berriman B, Deelman E, Juve G, et al. High-performance compute infrastructure in astronomy: 2020 is only months away[J]. Astronomical Data Analysis Software and Systems XXI, 2012, 461: 91-94 [6]Kulkarni A P, Can M, Hartmann B. Turkomatic: Automatic recursive task and workflow design for mechanical turk[C] //Proc of CHI’11 Extended Abstracts on Human Factors in Computing Systems. New York: ACM, 2011: 2053-2058 [7]Liu J, Pacitti E, Valduriez P, et al. A survey of data-intensive scientific workflow management[J]. Journal of Grid Computing, 2015, 13(4): 457-493 [8]Bernstein A, Klein M, Malone T W. Programming the global brain[J]. Communications of the ACM, 2012, 55(5): 41-43 [9]Howe J. The rise of crowdsourcing[J]. Wired Magazine, 2006, 14(6): 1-5 [10]Schenk E, Guittard C. Towards a characterization of crowdsourcing practices[J]. Journal of Innovation Economics & Management, 2011, 7(1): 93-107 [11]Wei Tongqi, Jiang Tao, Tao Siyu, et al. Science sourcing—A new model of scientific cooperration[J]. Scientific Management Research, 2015, 33(2): 16-19 (in chinese)(衛(wèi)垌圻, 姜濤, 陶斯宇, 等. 科研眾包——科研合作的新模式[J]. 科學(xué)管理研究, 2015, 33(2): 16-19) [12]See L, Comber A, Salk C, et al. Comparing the quality of crowdsourced data contributed by expert and non-experts[J]. PLoS ONE, 2013, 8(7): 1-11 [13]Source J P C. Citizen science: Can volunteers do real research?[J]. BioScience, 2008, 58(3): 192-197 [14]Smith A M, Lynn S, Lintott C J. An introduction to the zooniverse[C] //Proc of the 1st AAAI Conf on Human Computation and Crowdsourcing. Palo Alto, CA: AAAI, 2013 [15]Arganda-Carreras I, Turaga S C, Berger D R, et al. Crowdsourcing the creation of image segmentation algorithms for connectomics[J]. Frontiers in Neuroanatomy, 2015, 9: 1-13 [16]Kittur A, Smus B, Khamkar S, et al. Crowdforge: Crowdsourcing complex work[C] //Proc of the 24th Annual ACM Symp on User Interface Software and Technology. New York: ACM, 2011: 43-52 [17]Simperl E. How to use crowdsourcing effectively: Guidelines and examples[J]. LIBER Quarterly, 2015, 25(1): 18-39 [18]Brabham D C. Crowdsourcing as a model for problem solving an introduction and cases[J]. Convergence: The International Journal of Research into New Media Technologies, 2008, 14(1): 75-90 [19]Boudreau K, Lakhani K. Using the crowd as an innovation partner[J]. Harvard Business Review, 2013, 91(4): 60-69 [20]DiPalantino D, Vojnovic M. Crowdsourcing and all-pay auctions[C] //Proc of the 10th ACM Conf on Electronic Commerce. New York: ACM, 2009: 119-128 [21]Harris C. You’re hired! An examination of crowdsourcing incentive models in human resource tasks[C] //Proc of the Workshop on Crowdsourcing for Search and Data Mining (CSDM) at the 4th ACM Int Conf on Web Search and Data Mining (WSDM). New York: ACM, 2011: 15-18 [22]Huberman B A, Subrahmanyam A, Romero D M, et al. Crowdsourcing, attention and productivity[J]. Journal of Information Science, 2009, 35(6): 758-765 [23]Howe J. Crowdsourcing: Why the power of the crowd is driving the future of business[M]. Danvers, MA: Crown Business, 2009 [24]Xia Enjun, Zhao Xuanwei, Li Sen. Current situation and trend of overseas crowdsourcing research[J]. Technology & Economy, 2015, 34(1): 28-36 (in chinese)(夏恩君, 趙軒維, 李森. 國(guó)外眾包研究現(xiàn)狀和趨勢(shì)[J]. 技術(shù)經(jīng)濟(jì), 2015, 34(1): 28-36) [25]Reed J, Raddick M J, Lardner A, et al. An exploratory factor analysis of motivations for participating in Zooniverse, a collection of virtual citizen science projects[C] //Proc of the 46th Hawaii International Conf on System Sciences (HICSS). Piscataway, NJ: IEEE, 2013: 610-619 [26]Greenhill A, Holmes K, Lintott C, et al. Playing with science: Gamised aspects of gamification found on the online citizen science project-zooniverse[J]. Game-On, 2014, (11): 15-24 [27]Allahbakhsh M, Benatallah B, Ignjatovic A, et al. Quality control in crowdsourcing systems: Issues and directions[J]. IEEE Internet Computing, 2013, 17(2): 76-81 [28]Dawid A P, Skene A M. Maximum likelihood estimation of observer error-rates using the EM algorithm[J]. Applied Statistics, 1979, 28(1): 20-28 [29]Ipeirotis P G, Provost F, Wang J. Quality management on Amazon mechanical turk[C] //Proc of the ACM SIGKDD Workshop on Human Computation. New York: ACM, 2010: 64-67 [30]Sorokin A, Forsyth D. Utility data annotation with Amazon mechanical turk[J]. Urbana, 2008, 51(61): 820 [31]Kittur A, Nickerson J V, Bernstein M, et al. The future of crowd work[C] //Proc of the 2013 Conf on Computer Supported Cooperative Work. New York: ACM, 2013: 1301-1318 [32]Eickhoff C, de Vries A. How crowdsourcable is your task[C] //Proc of the Workshop on Crowdsourcing for Search and Data Mining (CSDM) at the 4th ACM Int Conf on Web Search and Data Mining (WSDM). New York: ACM, 2011: 11-14 [33]Ho C J, Vaughan J W. Online task assignment in crowdsourcing markets[C] // Proc of the 26th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2012: 45-51 [34]Wang R Y, Strong D M. Beyond accuracy: What data quality means to data consumers[J]. Source Journal of Management Information Systems, 1996, 12(4): 5-33 [35]Bello O M, Aina Y A. Satellite remote sensing as a tool in disaster management and sustainable development: Towards a synergistic approach[J]. Procedia-Social and Behavioral Sciences, 2014, 120: 365-373 [36]Xu Y, Liu Y. Monitoring the near-surface urban heat island in Beijing, China by satellite remote sensing[J]. Geographical Research, 2015, 53(1): 16-25 [37]Qin Y, Xiao X, Dong J, et al. Mapping paddy rice planting area in cold temperate climate region through analysis of time series Landsat 8 (OLI), Landsat 7 (ETM+) and MODIS imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105(2016): 220-233 [38]Otukei J R, Blaschke T. Land cover change assessment using decision trees, support vector machines and maximum likelihood classification algorithms[J]. International Journal of Applied Earth Observation and Geoinformation, 2010, 12(Suppl): 27-31 [39]Jung H S, Park S W. Multi-sensor fusion of landsat 8 thermal infrared (TIR) and panchromatic (PAN) images[J]. Sensors, 2014, 14(12): 24425-24440 [40]Fritz S, See L, Mccallum I, et al. Mapping global cropland and field size[J]. Global Change Biology, 2015, 21(5): 1980-1992 [41]Blaschke T. Object based image analysis for remote sensing[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(1): 2-16 [42]Vieira M A, Formaggio A R, Rennó C D, et al. Object based image analysis and data mining applied to a remotely sensed Landsat time-series to map sugarcane over large areas[J]. Remote Sensing of Environment, 2012, 123: 553-562 [43]Haklay M. How good is volunteered geographical information? A comparative study of OpenStreetMap and ordnance survey datasets[J]. Environment and Planning B: Planning and Design, 2010, 37(4): 682-703 Zhao Jianghua, born in 1989. PhD candidate from University of Chinese Academy of Sciences. Her main research interests include massive data processing, data mining and analysis, Web mining. Mu Shuting, born in 1993. MSc. Her main research interests include big data analysis for social and crowdsourcing. Wang Xuezhi, born in 1979. PhD, associate professor. His main research interests include massive temporal-spatial data processing and analysis. Lin Qinghui, born in 1979. PhD, associate professor. Her main research interests include massive data resource aggregation, analysis, and sharing. Zhang Xi, born in 1982. PhD, professor. His main research interests include big data analysis for social, business and science, crowdsourcing, and data policy and practice. Zhou Yuanchun, born in 1975. PhD, professor. Senior Member of CCF. His main research interests include data mining, and big data processing. Tong Y, Cao C C, Zhang C J, et al. Crowdcleaner: Data cleaning for multi-version data on the Web via crowdsourcing[C]Proc of the 30th IEEE Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2014: 1182-1185℃ Crowdsourcing-Based Scientific Data Processing Zhao Jianghua1,2, Mu Shuting3, Wang Xuezhi1, Lin Qinghui1, Zhang Xi3, and Zhou Yuanchun1 1(ComputerNetworkInformationCenter,ChineseAcademyofSciences,Beijing100190)2(UniversityofChineseAcademyofSciences,Beijing100049)3(CollegeofManagementandEconomics,TianjinUniversity,Tianjin300072) The ultimate goal of acquiring scientific data is to extract useful knowledge from the data according to specific needs and apply the knowledge to specific areas to help decision makers make decisions. As the volume of scientific data becomes larger, and the structure becomes more complex, such as semi or unstructured data, it is difficult to automatically process these data by computers. By incorporating human computing power in data processing, crowdsourcing has become one of the solutions for big scientific data processing. By analyzing the characteristics of crowdsourcing scientific data processing tasks to citizens, this paper studies three aspects, which are talent selection mechanism, task execution mode, and result assessment strategy. Then a series of crowdsourcing-based remote sensing imagery interpretation experiments are carried out. Results show that not only scientific data can be processed through crowdsourcing paradigm, but also by designing reasonable procedure, high-quality data can be obtained. crowdsourcing; scientific big data; data processing; talent selection; quality assessment 2016-11-15; 2016-12-30 國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB1000600,2016YFB0501900);國(guó)家自然科學(xué)基金項(xiàng)目(71571133);中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDA06010307) This work was supported by the National Key Research Program of China (2016YFB1000600, 2016YFB0501900), the National Natural Science Foundation of China( 71571133), and the Strategic Priority Research Program of the Chinese Academy of Sciences (XDA06010307). 周園春(zyc@cnic.cn) TP3913 眾包案例研究
4 結(jié) 論