人人都喜歡調戲機器人。對于這個號稱可猜出我們心中所想的讀心機器人(http://renlifang.msra.cn/q20/index.aspx)更要好好調戲一番。為了難住它,我們首先想讓它猜的人物是“自己”,但它猜對了;接下來,猜地點“天通苑”,它又猜對了;最后,試試在文學頻道猜《穆斯林的葬禮》這本書,這一次它失敗了。
現(xiàn)在,讀心機器人共包含11個頻道,包括人物、影視、文學、地點、機構和禮物等。只要大家心中想到的人或物不太冷門,一般讀心機器人都能猜出來。
其實早在2011年年底,讀心機器人就在微軟亞洲研究院旗下的人立方搜索引擎上出現(xiàn)了。最近幾個月,研發(fā)團隊為讀心游戲加入了與人對戰(zhàn)的模式,并且引入休閑游戲常備的積分和“金幣”系統(tǒng)。這款頗有意思的讀心游戲推出不久,就在互聯(lián)網(wǎng)和手機游戲市場吸引了大量關注,大家紛紛對其進行測試和挑戰(zhàn)。很快,讀心機器人就贏得了“相當可觀的”用戶數(shù)。
提到“讀心”二字,難免給人算命或者魔術的感覺。盡管我們知道它的一些基本原理——通過問問題不斷縮小答案的范圍,但被人猜出心中所想還是令人“心有余悸”。我們以非常不嚴謹?shù)臄?shù)學模型計算,如果每個問題都可以將答案的范圍正好縮小一半,那么20個問題,就意味著可以在100萬(2的20次方)個對象中找到答案。但我們很好奇,微軟亞洲研究院開發(fā)這個看起來沒什么技術含量游戲的用意何在?
眾包計算的“陽謀”
有一種互聯(lián)網(wǎng)上常見的圖片驗證碼,它包含兩個同樣風格的英文單詞,但很少有人知道實際上只需要答對其中一個就能通過驗證。至于另一個單詞,則是用戶在貢獻自己的腦力,幫助系統(tǒng)識別那些OCR技術無法搞定的掃描文獻。它叫reCAPTCHA,是創(chuàng)立百年的紐約時報完成數(shù)字化的背后功臣。它的精妙之處在于,用戶每填寫一次驗證碼就參與了一次“眾包”計算。
現(xiàn)在大家應該猜到,微軟亞洲研究院為什么要做這個叫做讀心機器人的“休閑游戲”了。沒錯,我們在玩游戲的同時也在幫助微軟驗證挖掘而來的數(shù)據(jù)的可靠性,讓它們的算法更聰明。該項目的負責人聶再清告訴CHIP編輯,讀心機器人剛發(fā)布的時候完全靠機器計算,只有近30%的準確率,經(jīng)過3~4個月的時間,算法中加入用戶的有效反饋后準確率就提升到了60%左右。
以猜人物為例,微軟的人立方關系搜索引擎已經(jīng)從互聯(lián)網(wǎng)上自動挖掘出大量公眾人物的基本信息,包括性別、生日、出生地點和國籍等。但“人立方”不能100%確定這些信息是正確的(其中一個原因是重名問題的廣泛存在)。假設經(jīng)過20個問題,讀心機器人猜出了玩家心中所想的人物,那么當用戶點擊代表猜對了的按鈕之后,就相當于為這20條基本信息投了一次票。如果經(jīng)過大量用戶確認的信息與系統(tǒng)中原有的信息不符,它們就需要對算法進行調節(jié)了。在不知不覺中,將機器的自動挖掘算法與人的智慧結合起來,整個計算模型的準確率都得到了提升,這就是讀心機器人背后的“陽謀”。
業(yè)內人士把這種人人參與的大規(guī)模計算過程形象地稱為“眾包計算”。其實除了前文提到的reCAPTCHA,我們每天都在參與到很多眾包計算當中。最簡單的例子就是搜索引擎——我們每次點擊搜索結果中的鏈接都會被記錄在案,因為這意味著我們對那個網(wǎng)站投了一票。當很多人搜索同一個關鍵詞之后打開的網(wǎng)站不是第一個,甚至不在首頁時,搜索引擎就知道它的算法該調整了。
語義網(wǎng)的“冰山一角”
距離人立方關系搜索的推出已經(jīng)過去了很長時間。作為微軟亞洲研究院的一個研究項目,人立方是一個對象級別的搜索引擎。簡單來說,與現(xiàn)有的基于關鍵詞的主流搜索引擎不同,人立方對互聯(lián)網(wǎng)信息的挖掘更加深入,它關心的不是哪個網(wǎng)頁更符合要求,而是網(wǎng)頁中的哪些信息更能準確描述正在搜索的實體(entity)。
如何判斷從互聯(lián)網(wǎng)上挖掘來的大量信息的有效性?這需要發(fā)揮人的力量。讀心機器人游戲正是一個絕妙的做法,它讓用戶覺得好玩的同時,也在幫助機器優(yōu)化算法。而優(yōu)化算法的最終目的就是讓機器更了解我們要搜索的對象以及它與其他對象之間的關系。當搜索引擎擁有了規(guī)模足夠大且準確度足夠高的實體數(shù)據(jù)庫時,它就能直接給我們更多答案,而不僅僅是網(wǎng)頁鏈接了。而這,僅僅是語義網(wǎng)的冰山一角。