穆 超
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院 南京 211100)
眾包之基于位置的查詢?
穆 超
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院 南京 211100)
在這個(gè)智能手機(jī)迅猛發(fā)展的網(wǎng)絡(luò)時(shí)代里,大家的生活都已離不開移動(dòng)網(wǎng)絡(luò),便捷的查詢以及網(wǎng)絡(luò)支付是它成功的關(guān)鍵。人們更喜歡找到附近的好吃的、好玩的、住所,這使得旅行更加方便。這就有了基于位置的查詢。然而傳統(tǒng)的搜索引擎在主觀問題的搜索方面并不是很好,這就促使我們探尋眾包微博上基于位置上的查詢的有效性,更具體地說,就是研究基于位置服務(wù)的有效性,去尋找一個(gè)合適的人回答基于位置的查詢。通過幾個(gè)基于查詢的例子,論文主要研究提出方法的可行性,并突出社交軟件搜索引擎的重要性。
智能手機(jī);便捷查詢;位置查詢;搜索引擎
隨著智能手機(jī)的發(fā)展,幾乎每部智能手機(jī)都自帶定位,這所帶來的機(jī)遇,使得移動(dòng)眾包應(yīng)用在現(xiàn)實(shí)世界中日益普及。很多人可以利用閑暇時(shí)間完成一些簡單任務(wù),比如用手機(jī)做一份翻譯,抄寫或者填寫調(diào)查問卷來獲得相應(yīng)的好處[1],還可以充實(shí)自己的生活。從前的搜索只能搜索到基于事實(shí)的問題,而現(xiàn)在隨著基于位置查詢的迅猛發(fā)展,人們可以查到更多主觀的問題,比如附近有沒有適合情侶吃飯的餐廳,這些都會(huì)有人去回答你,我們現(xiàn)在做的就是要將回答的時(shí)間縮短,以盡可能滿足你游玩的需要,這就需要我們創(chuàng)建一個(gè)平臺(tái),使大家可以迅速問答。我們創(chuàng)建一個(gè)將位置作為參數(shù)的平臺(tái),將任務(wù)分配給工人,通過研究發(fā)現(xiàn)移動(dòng)用戶的幾條規(guī)律:1)移動(dòng)的工人更喜歡主動(dòng)從平臺(tái)上接任務(wù)而不是等著平臺(tái)去推送任務(wù)給他。2)人們更喜歡拍照片等簡單的任務(wù)。3)用戶主要選擇靠近自己家的位置的任務(wù)
過去幾年出現(xiàn)了很多項(xiàng)目,他們的成功都是基于一個(gè)龐大人群的貢獻(xiàn)。百度百科就是一個(gè)典型的例子,它利用了互聯(lián)網(wǎng)上龐大人群的廣泛知識(shí)。高德地圖是另一個(gè)成功的例子,它也是根據(jù)生活在不同地理區(qū)域的人們貢獻(xiàn)、分享和處理他們的位置軌跡做的一個(gè)全面的在線地圖。這僅僅是其中的兩個(gè)成功例子,在這兩個(gè)例子中都是有著很多的人,每個(gè)人都作出自己的一份小小貢獻(xiàn),成就了一個(gè)全新的,適應(yīng)于互聯(lián)網(wǎng)的應(yīng)用類型。
2.1 基于位置查詢的應(yīng)用情景
1)情景一:李剛在回家的路上看到一款照相機(jī)的廣告,這個(gè)店離他家很遠(yuǎn),由于一天工作很累不想親自過去,與其相信買家秀的照片,更加相信其他顧客親自去店里看到的,他們的評價(jià)是更有意義的,更具參考價(jià)值,因此他從平臺(tái)上上傳一個(gè)這樣的任務(wù),即到店里拍一張他喜歡相機(jī)的照片。
2)情景二:王宇要去一個(gè)大學(xué)演講,結(jié)果扭傷了膝蓋,而很多學(xué)生都會(huì)出席這個(gè)演講,他為此將這次演講內(nèi)容錄音了,發(fā)到眾包平臺(tái)想要其他人去替她完成這次演講,將這次演講的時(shí)間,位置和它想要講的發(fā)到了平臺(tái)上,過了幾分鐘,收到李明的積極回饋,李明在完成的任務(wù)中具有很高的評價(jià)。后來王宇收到視頻和音頻文件以及李明的筆記副本。
3)情景三:王莎居住在徐州,她最近非常高興,因?yàn)樵谀暇┱业搅艘环莨ぷ鳎龑⒁ツ暇┚幼?,有熱心的房屋中介為她提供了一些?yōu)惠的房屋選擇,但這些房間在網(wǎng)上找不到任何房子周邊的照片,于是王莎在平臺(tái)上詢問房子周邊更多的信息,包括圖片。一個(gè)附近的人將房屋周邊的街道,商店和咖啡店拍了下來[4]。
2.2 基于位置查詢的國內(nèi)外研究
2.2.1 基于位置查詢的發(fā)展
由于智能手機(jī)技術(shù)的迅速發(fā)展,基于位置的查詢變得越來越流行。最近的研究中為可擴(kuò)展的基于位置的網(wǎng)絡(luò)服務(wù)引入了一個(gè)新的數(shù)據(jù)庫管理系統(tǒng)。這個(gè)目的就是為基于位置查詢提供一個(gè)快速和可擴(kuò)展的數(shù)據(jù)庫管理系統(tǒng)。
搜索從事于基于位置查詢的數(shù)據(jù)庫研究者和公司,包括空間索引的問題、最鄰近搜索還有基于位置查詢的幾何方法,這些工作本身就是算法。并假設(shè)這些查詢制定了明確的目標(biāo)名稱,所以這個(gè)重點(diǎn)就是用最小的花費(fèi)發(fā)送這些查詢的答案。
2.2.2 眾包與協(xié)作
以前我們的研究都是集中在協(xié)同應(yīng)用,例如描述一下當(dāng)前的天氣狀況,這是一個(gè)只要在那種環(huán)境的人都能回答的問題。相比來說,我們現(xiàn)在主要研究的是回答基于位置的查詢,通過問題的主題分類以及人們簽到的位置信息來找到最合適的人去回答問題。
最近的研究是關(guān)于眾包圖片搜索,計(jì)算機(jī)很難去很好地識(shí)別一張圖片尤其是在無限制的環(huán)境下。本文將改進(jìn)這一點(diǎn),將人類的智能和機(jī)器結(jié)合起來,用土耳其機(jī)器人中的人用過電腦處理查詢的圖片后得到的信息去驗(yàn)證答案。
在下面我們統(tǒng)計(jì)一下我們基于位置的查詢中的位置類型,在當(dāng)前的研究中,我們還只是在以下幾個(gè)位置類型中進(jìn)行研究,我們計(jì)劃在研究成熟后,擴(kuò)展到整個(gè)社會(huì)中去,為人們的便捷生活做出貢獻(xiàn)。
表1 位置類型
基于位置查詢的問答系統(tǒng)主要組件是:問題收集器、驗(yàn)證器、問題請求者、答案收集器、中轉(zhuǎn)站。系統(tǒng)的整體結(jié)構(gòu)如圖1。
圖1 系統(tǒng)結(jié)構(gòu)圖
3.1 問題收集器
我們利用微博自帶的搜索功能去收集問題,我們要找出問問題的博文,首先要找到一個(gè)問題標(biāo)記,毫無疑問,帶有問號“?”標(biāo)記的博文很有可能成為我們的目標(biāo)。因?yàn)槲覀冎饕芯炕谖恢玫牟樵儯晕覀冎饕占?中類型的博文。我們想到找?guī)最愱P(guān)鍵詞可以篩選到好的問題,例如某人、某些建議、哪里等等關(guān)鍵詞。接下來,我們根據(jù)下面的模板來收集博文(關(guān)鍵詞順序不重要),問題關(guān)鍵詞-正文-位置信息-?。下面是我們用上面模板收集到的例子:某人-吃晚餐去哪里好-南京水游城-?。
最后,我們通過被拉入黑名單的詞語過濾掉不合適和含有譏諷意味的博文,并且過濾掉那些含有連接http://和標(biāo)記@的博文,因?yàn)槲覀儼l(fā)現(xiàn)一般人在提出問題時(shí)不會(huì)插入鏈接,@在微博中代表著與朋友的聊天[9]。
表2 問題等級
3.2 驗(yàn)證器
盡管問題收集器可以過濾掉一些明顯的博文,但中國文字博大精深,完全過濾掉不合適的博文是不可能的,所以我們還要借助于驗(yàn)證器來去掉那些文字游戲以及含有譏諷的博文,因此我們在問題得到答案之前,讓問題核對者去驗(yàn)證問題。
沒有通過驗(yàn)證的問題放在一個(gè)隊(duì)列里,并將這些問題轉(zhuǎn)發(fā)給其他在線可利用的核對者。驗(yàn)證一個(gè)問題是一個(gè)簡單的任務(wù)。例如,一個(gè)人詢問在南京哪里可以找到便宜,好一點(diǎn)的賓館。作為一個(gè)有效的問題,問題中并沒有關(guān)于南京和賓館的詳細(xì)信息。開始我們只是使用我們實(shí)驗(yàn)室和大學(xué)的問題核對者,但隨著發(fā)展,漸漸供不應(yīng)求,無法滿足大眾的要求,我們需要擴(kuò)充核對者的范圍,從更廣泛的人群中找到我們需要的人才。我們還引入績效系統(tǒng),來激勵(lì)人們的積極性,完成相應(yīng)的核對就會(huì)獲得對應(yīng)的績效點(diǎn),那么他可以用績效點(diǎn)在平臺(tái)上發(fā)布查詢,并且這樣的問題優(yōu)先級更高。
問題核對者的工作就是標(biāo)注問題的種類以及質(zhì)量如何。對于分類的問題,表1是核對者標(biāo)記問題的位置類型,表2的問題的等級的標(biāo)注,如果一個(gè)問題被標(biāo)記等級1,它就是不合適的問題,不能夠被回答,其他兩個(gè)等級都是可以被回答的,等級三比等級二的問表達(dá)更清晰明了。
對于一個(gè)問題的驗(yàn)證,我們的系統(tǒng)會(huì)發(fā)送三個(gè)連續(xù)的消息給問題核對者,第一個(gè)是表二中,博文的種類,第二個(gè)是表2中,問題的等級,第三個(gè)就是問題核對者需要去驗(yàn)證的問題了。下面舉個(gè)驗(yàn)證問題的例子
@用戶名 A:藝術(shù)娛樂,C:大學(xué)教育,F(xiàn):食物N:夜生活P:戶外停車場,S:購物,T:旅行
@用戶名 1:不恰當(dāng)2:能被回答3:好問題
@用戶名(問題)
在發(fā)送上面的博文后,我們的系統(tǒng)就等待著問題核對者的回應(yīng)。為了簡便起見,我們設(shè)定一個(gè)嚴(yán)格的回答格式。問題核對者回答時(shí),首先要用問題種類的首字母并且標(biāo)注問題的等級,比如“N2”代表著問題的種類是夜生活,等級是2,能夠被回答的問題。如果問題核對者不能在給定時(shí)間內(nèi)完成驗(yàn)證,我們會(huì)發(fā)送問題給其他可用的核對者。如果核對者沒有完成前一個(gè)問題的核對,我們是不會(huì)給他發(fā)下一個(gè)任務(wù)的。這樣的話,如果有的核對者不想做了,這種機(jī)制為他們提供了一種簡單的方式。
在完成上述驗(yàn)證步驟后,這個(gè)問題就可以用來“問”了。
3.3 詢問者
這個(gè)詢問者發(fā)出的驗(yàn)證過的問題,想要找到最合適的人去回答這個(gè)問題。這里我們使用兩種方法找出最合適的人。第一種方法是我們篩選他們的簡歷,挑選出居住在問題包含的城市的人群。第二種方法是,我們挑選出微博賬號和玩轉(zhuǎn)四方賬號綁定在一起的用戶,因?yàn)橥孓D(zhuǎn)四方是一款基于位置查詢的軟件,并且它的用戶每天都頻繁的發(fā)表簽到地點(diǎn)[11]。
接下來詢問者會(huì)通過微博來向人們問問題,假設(shè)一個(gè)人沒有回答我們的問題,那么系統(tǒng)就不會(huì)進(jìn)一步對這個(gè)人進(jìn)行提問,這給人們提供了一個(gè)簡單地退出方式對我們的研究。
@用戶名請幫助我們的研究項(xiàng)目,通過回答以下問題,問題鏈接(網(wǎng)址鏈接)
@用戶名(問題)
由于微博也是有頻率限制的,每天過快的頻率會(huì)出現(xiàn)系統(tǒng)繁忙,稍后再試的調(diào)試,所以我們要在這種限制下找到適當(dāng)?shù)姆椒?。從我們的試?yàn)來看,超過百分之五十的人都是在問題提出二十分鐘之內(nèi)回答,所以我們主要集中在問題提出后收集答案。
3.4 答案收集器
答案收集器通過民意投票對一些收到答案的問題進(jìn)行篩選,它和問題收集器相似,也是將答案中含有黑名單的詞語相比對,含有的話就去掉這個(gè)答案。最后這個(gè)組件使用數(shù)據(jù)庫的日志數(shù)據(jù)來找到問題的最佳答案,并存儲(chǔ)驗(yàn)證步驟的答案。盡管驗(yàn)證答案的時(shí)候,我們會(huì)過濾掉一些不合適的答案,但還是會(huì)有一些不符合要求的答案,我們進(jìn)一步對答案的處理,和對問題的處理相似,我們將答案發(fā)送給核對者去驗(yàn)證,如果通過驗(yàn)證,我們將答案整理發(fā)送給任務(wù)的發(fā)布者。
表3 答案等級
3.5 中轉(zhuǎn)站
在這個(gè)步驟,我們將符合要求的答案和好的答案轉(zhuǎn)發(fā)給相應(yīng)的詢問者。
@詢問者我們的眾包系統(tǒng)找到了你對應(yīng)問題的答案,答案來源于用戶@回答者;
@詢問者(問題);
@詢問者(答案)。
在這部分,我們描述我們的實(shí)驗(yàn)結(jié)果,我們使用C語言作為程序語言,利用玩轉(zhuǎn)四方中的數(shù)據(jù),將我們的日志數(shù)據(jù)分成八個(gè)表,分別由問題,答案,用戶和核對者組成。我們的數(shù)據(jù)集包括365個(gè)有效的問題。我們將問題分成兩大類:事實(shí)問題和主觀問題,在我們的數(shù)據(jù)集中,主觀問題占70%,事實(shí)問題占30%,下表展示了每種類型的問題樣式。
我們最希望的結(jié)果就是,比起百度的回答率50%多我們的系統(tǒng)回答問題率要超過它,到達(dá)70~80%。然而百度回答80%為事實(shí)問題,僅有20%主觀問題。這表明我們的系統(tǒng)主要針對主觀問題,同樣不失事實(shí)問題回答。
表4 事實(shí)問題與主觀問題
圖2 基于問題等級的回答率
基于問題等級的回答率:上圖為基于問題等級的回答率,研究發(fā)現(xiàn):人們相對于一般問題更喜歡去回答好的問題。由于好的問題,描述清楚,定義明確,可以更好地理解詢問者的用意,更利于人們完成任務(wù)。盡管人們在一般問題和好問題的回答率上差距不是很大,但我們依然可以將問題設(shè)計(jì)的更好,來提高問題的回答率。
圖3 問題等級與答案等級之間的映射關(guān)系
問題等級與答案等級之間的映射關(guān)系:隨著問題等級的變化,得到的答案的等級也隨之變化。如圖所示,等級越高的問題(好問題)相應(yīng)得到的答案的等級也就越高。好問題得到的答案,40%都是好答案,還有10%是可以被轉(zhuǎn)發(fā)的答案,轉(zhuǎn)發(fā)的答案可以交給核對者,經(jīng)過核對后也可以發(fā)給詢問者。另一方面,等級二的問題得到的好答案為27%,可以被轉(zhuǎn)發(fā)的答案接近為23%。
圖4 玩轉(zhuǎn)四方用戶的回答率與自由用戶的回答率
玩轉(zhuǎn)四方用戶的回答率與自由用戶的回答率:通過比較玩轉(zhuǎn)四方用戶和自由用戶對各種問題類型的回答率比較,我們發(fā)現(xiàn),玩轉(zhuǎn)四方的用戶更多的是去回答大學(xué)教育、食物、夜生活等問題。而自由用戶更多的是去回答藝術(shù)娛樂、家庭工作、公園和戶外運(yùn)動(dòng)等問題。并且,在購物、旅游等非常廣泛的領(lǐng)域,想要為一個(gè)專門的問題找到一個(gè)精通的回答者,是很難的。
在本文中,我們對老的搜索引擎進(jìn)行了剖析,發(fā)現(xiàn)了它的不足。從而針對它的缺點(diǎn)進(jìn)行了改進(jìn),提出了新的系統(tǒng),完善了基于位置查詢的功能。從進(jìn)行的實(shí)驗(yàn)中,知道該系統(tǒng)能夠回答至少70%的問題。此外,對于娛樂、美食、夜生活等方面的問題,玩轉(zhuǎn)四方的用戶比自由用戶回答的更符合詢問者的要求。最后,社交軟件方面為我們提供了散播問題的平臺(tái),這有利于我們快速找到問題的答案。
[1]Howe,Jeff.The Rise of Crowdsourcing[J].06 Jenkins H Convergence Culture Where Old&New Media Collide,2006,14(14):1-5.
[2]Howe J.Crowdsourcing:Why the Power of the Crowd Is Driving the Future of Business[J].American Journal of Health-System Pharmacy,2009,67(18):1565-1566.
[3]Kittur A,Chi E H,Suh B.Crowdsourcing user studies with Mechanical Turk[C]//CHI 08:Sigchi Conference on Human Factors in Computing Systems.ACM,2008:453-456.
[4]Kamar E,Horvitz E.Collaboration and Shared Plans in the Open World:Studies of Ridesharing[C]//IJCAI 2009,Proceedings of the,International Joint Conference on Artificial Intelligence,Pasadena,California,Usa,July.2009:187-194.
[5] Chen J,Subramanian L,Brewer E.Sms-based web search for low-end mobile devices[C]//International Conference on Mobile Computing and Networking,MOBICOM 2010,Chicago,Illinois,Usa,September.2010:125-136.
[6]Chow C Y,Bao J,Mokbel M F.Towards location-based social networking services[C]//International Workshop on Location Based Social Networks,Lbsn 2010,November 2,2010,San Jose,Ca,Usa,Proceedings.2010:31-38.
[7]Davidov D,Tsur O,Rappoport A.Semi-supervised recognition of sarcastic sentences in twitter and amazon[J].Conll,2010:107-116.
[8] DemirbasM, BayirM A, AkcoraC G, etal.Crowd-sourced sensing and collaboration using twitter[C]//World of Wireless Mobile and Multimedia Networks.IEEE,2010:1-9.
[9]Lange T,Kowalkiewicz M,Springer T,et al.Overcoming challenges in delivering services to social networks in location centric scenarios.[C]//International Workshop on Location Based Social Networks,Lbsn 2009,November 3,2009,Seattle,Washington,Usa,Proceedings.2009:92-95.
[10]Roussopoulos N,Kelley S,Vincent F.Nearest Neighbor Queries[J].Acm Sigmod Record,1995,24(2):71-79.
[11]Ledlie J,Odero B,Minkov E,et al.Crowd translator:on building localized speech recognizers through micropayments[J].Acm Sigops Operating Systems Review,2010,43(4):84-89.
[12]Von Ahn L,Liu R,Blum M.Peekaboom:a game for locating objects in images[C]//Sigchi Conference on Human Factors in Computing Systems.ACM,2006:55-64.
Location Based Query of Crowdsourcing
MU Chao
(School of Computer and Information,HoHai University,Nanjing 211100)
In the rapid development of intelligent mobile phone network era,everyone can not live without the mobile network,convenient query and online payment is the key to its success.More and more people love to find nearby delicious,fun,hotel,which makes travel more convenient.This create the location-based queries.The traditional search engine in the subjective aspect of the problem is not very good,this has prompted us to explore the effectiveness of Crowdsourcing the location-based queries of microblog.More specifically,Tant is to study the effectiveness of location-based service,which can find a suitable answer the location-based queries.Through several query examples based on this paper,The main research method is feasible,and highlight the importance of social software search engine.
smart phone,convenient query,location query,search engines
TP311
10.3969/j.issn.1672-9722.2017.11.031
Class Number TP311
2017年5月15日,
2017年6月18日
穆超,男,碩士研究生,研究方向:眾包。