項目背景:為幫助高校講述最新業(yè)界技術(shù)等,依靠高校現(xiàn)有師資力量難以在短期內(nèi)開設(shè)的課程,微軟亞洲研究院的員工組成教學(xué)團隊,直接參與授課。微軟員工義務(wù)授課的課程,由雙方聯(lián)合制定教學(xué)計劃,微軟公司員工負責(zé)完成課件制作和講授,而學(xué)校相關(guān)教師作為教學(xué)協(xié)調(diào)人,全程跟蹤課程,參與課程設(shè)計和實驗指導(dǎo)。
緣起
中國人民大學(xué)的計算機專業(yè)由于身處強勢的人文社科環(huán)境中,一直走的是小規(guī)模、有特色的發(fā)展道路。教員較少,而且主要力量集中在數(shù)據(jù)管理方向上。但是,在這樣的格局下,如何拓展學(xué)生的知識面,使得他們在中國人民大學(xué)也能夠接受到一流的教育一直是我們面臨的問題。引進外援,就成為必然的選擇。早在上個世紀(jì)八十年代,楊芙清院士、王陽元院士等就給我院研究生上過課 。我在人大念書時的高級操作系統(tǒng)課程是由中國科學(xué)院的張尤臘、陸維明等大家上的,至今印象深刻。因此,邀請專家來學(xué)院開設(shè)課程在我們學(xué)院是有傳統(tǒng)的。
我們與微軟亞洲研究院馬維英副院長、文繼榮主任研究員帶隊的互聯(lián)網(wǎng)搜索與挖掘組有過多次接觸。2006年底在FDM2006研討會上,馬維英、文繼榮、聶再清三位研究員作了三場學(xué)術(shù)報告,他們的工作代表了未來搜索技術(shù)的發(fā)展方向,也實實在在地讓我們看到了數(shù)據(jù)庫技術(shù)在其中的作用。為了加強與微軟亞洲研究院的合作,我們報經(jīng)學(xué)校同意,聘請文繼榮博士為中國人民大學(xué)兼職教授。2007年9月27日,我們和微軟亞洲研究院聯(lián)合舉辦了一次“互聯(lián)網(wǎng)數(shù)據(jù)管理主題學(xué)術(shù)報告”的活動,由文繼榮、劉鐵巖、聶再清三位博士作主題演講,同學(xué)們反映熱烈。就是在這次會上,文繼榮介紹了他們在清華大學(xué)等高校給學(xué)生們開設(shè)搜索技術(shù)課程的情況,于是我們萌生了將這門課程完整介紹到人大的想法。當(dāng)我將這個想法和繼榮商量,他也正有此意,于是我們一拍即合。
策劃
盡管將搜索課程引進人大的意向已經(jīng)確定了,但是還有一些需要解決的事情。
首先是經(jīng)費,給授課人報酬是很正常的事情。我擔(dān)心按照人大官方的標(biāo)準(zhǔn)是否能承受得了有關(guān)費用,當(dāng)我有些不安地詢問繼榮有關(guān)費用的時候,他明確地告訴我,他們給大學(xué)上課并不收費。不僅不收取任何費用,去外地上課的飛機票還是他們自己掏的。聽到這樣的消息,我感到很吃驚。我想這也許就是微軟之所以強大的文化力量,也是他們盡管在市場上不斷受到挑戰(zhàn),但是始終得到人們尊敬的重要原因吧。
其次是課程設(shè)計。微軟的課程已經(jīng)在其他學(xué)校和各種場合實施過多次,自成體系。雖然整個課程是以講座的形式出現(xiàn),每個人有不同的授課內(nèi)容,但總的來說,還是比較系統(tǒng)和全面地涵蓋了IR(Information Retrieval)技術(shù)的各個重點和基本內(nèi)容。由于授課對象主要是碩士一年級的學(xué)生,對于信息檢索技術(shù)的一些基礎(chǔ)知識并不一定了解,作為一門課程,既要讓同學(xué)們了解最新的進展,更重要的是要讓同學(xué)們掌握基礎(chǔ)概念和理論體系。另外,講座之間內(nèi)容的交叉和重復(fù)也是要極力避免的。所以我希望能夠合作開設(shè),由我根據(jù)人大的具體情況進行內(nèi)容的選擇。對此,微軟表現(xiàn)出極大的誠意,也很認同。在高校關(guān)系部陳雯的協(xié)調(diào)下,作為課程設(shè)計所需要的材料,微軟方面都及時地提供給了我。最后確定了課程的教學(xué)方案,課程以我和文繼榮共同主持的方式確定下來,相關(guān)課程信息得以及時在學(xué)校研究生院的網(wǎng)站上發(fā)布(見表1)。
第三是教學(xué)目的??紤]到這是一門兩個學(xué)分的選修課,經(jīng)過與繼榮的多次討論確定這門課的教學(xué)目標(biāo)是:掌握信息檢索的基礎(chǔ)知識,通過對信息搜索技術(shù)的前瞻性課題的介紹,使學(xué)生能對信息搜索技術(shù)和應(yīng)用有一個初步的了解,激發(fā)學(xué)生進一步探索的興趣。正如我在開班儀式上所說的,希望通過這種合作開設(shè)課程的形式為信息學(xué)院的學(xué)生帶來國際領(lǐng)先的研究成果和研究理念,感受學(xué)者追求真理樂在其中的精神境界。
最后是教學(xué)過程。教學(xué)不僅僅是講課,除了課堂講解還有其他的教學(xué)環(huán)節(jié),還要求有固定的時間和場地。比如作業(yè)、練習(xí)、考試、課程報告等??紤]到這門課程的特殊性,最后確定要求同學(xué)們按照論文的方式完成課程報告,微軟的研究員們主動提出來承擔(dān)批改部分課程報告的任務(wù)。
這樣,作為一門課程的基本要求就具備了,等新年一過就可以鳴鑼開課了。
實施
2008年2月15日,元宵節(jié)的晚上,由馬維英博士主講第一講“互聯(lián)網(wǎng)信息搜索:歷史與未來”。馬博士比規(guī)定的上課時間晚到了半小時,原因是司機想當(dāng)然地以為馬博士是要去北大,等到了北大才發(fā)現(xiàn)錯了,于是再掉頭往回趕。也許是這個原因,馬博士覺得對不起同學(xué)們,當(dāng)天的演講他特別賣勁,慷慨激昂。窗外連綿不斷的鞭炮聲,就像是掌聲,在為馬博士熱情的演講鼓掌,也像是慶祝的禮炮,預(yù)祝我們與微軟的合作成功。這樣的結(jié)果也讓我從開始有些郁悶的心情中高興起來。
后面的三講由我來講解。主要是分兩類模型來介紹。一是基于文本內(nèi)容的模型,包括經(jīng)典的布爾模型,向量空間模型和概率模型等,也包括統(tǒng)計語言模型,語義網(wǎng)絡(luò)模型等。另一類稱為與內(nèi)容無關(guān)的模型,包括協(xié)同推薦模型、Page Ranking模型、Link Analysis模型等。
第五講,宋睿華博士介紹一種在信息檢索中被廣泛應(yīng)用的評價方法Cranfield范式,以及其他一些常用的評價方法,如MAP和NDCGweb等。她還介紹了檢索所面對的新挑戰(zhàn),通過SIGIR'07的一篇論文展示了如何在信息檢索評價領(lǐng)域開展研究。
第六講,李航博士介紹了互聯(lián)網(wǎng)信息檢索基礎(chǔ)和主要課題,包括相關(guān)性排序、重要性排序、網(wǎng)頁理解、查詢理解、抓取、索引、反垃圾、搜索結(jié)果展現(xiàn)以及搜索日志數(shù)據(jù)挖掘等。
第七講,張磊博士介紹互聯(lián)網(wǎng)圖像搜索。在回顧了圖像搜索的歷史后,介紹了傳統(tǒng)的基于內(nèi)容的圖像檢索的一些基本技術(shù),包括特征抽取,相關(guān)回饋以及圖像標(biāo)注,討論了Web圖像檢索的主要挑戰(zhàn),包括如何改善搜索結(jié)果相關(guān)度、質(zhì)量以及結(jié)果的組織形式,同時介紹了微軟亞洲研究院在該領(lǐng)域的幾項相關(guān)工作。
第八講,劉鐵巖博士主講鏈接分析技術(shù)和網(wǎng)頁排名欺詐,主要討論超鏈如何影響搜索引擎中的網(wǎng)頁排名。介紹了鏈接分析的一些最新的工作如Topical Page Rank,基于層次的鏈接分析,同時介紹了Web垃圾制造者是如何欺詐這些算法以提升他們網(wǎng)站的排名,典型的欺詐技術(shù)包括鏈接交換,鏈接場等。最后對檢測和清除鏈接垃圾的算法,如Trust Rank和Temporal Spam Detector進行了講解和評述。
第九講,劉鐵巖博士提出了將排序作為機器學(xué)習(xí)問題的新思路。在評價了信息檢索中的一些傳統(tǒng)模型(如布爾模型、Okapi模型以及語言模型等)后,介紹了應(yīng)用機器學(xué)習(xí)技術(shù)來訓(xùn)練模型以及將排序轉(zhuǎn)換為分類和回歸而提出的方法,如Ranking SVM,RankBoost和 RankNet。介紹了近年來基于對排序和信息檢索問題的深入理解而提出的一些新算法,如ListNet,AdaRank,SoftRank, SVM-MAP等,并討論了該領(lǐng)域的未來研究方向。
第十講,由史樹明博士介紹信息檢索領(lǐng)域近年出現(xiàn)的一些特殊的模型,包括邏輯模型、基于引力的模型等。
第十一講,聶再清博士介紹對象級別的互聯(lián)網(wǎng)搜索。他首先介紹了對象級別搜索引擎所要解決的問題,包括大規(guī)模的Web分類,對象級別信息抽取,對象識別與集成,以及對象關(guān)聯(lián)挖掘與排序。然后演示了三個已經(jīng)實現(xiàn)并實際運行的系統(tǒng)實例:Libra 學(xué)術(shù)搜索、Windows Live產(chǎn)品搜索, 以及Renlifang社會關(guān)系搜索,并概要介紹了這些系統(tǒng)中所用到的一些核心技術(shù)。
第十二講,文繼榮博士主講搜索引擎綜述:系統(tǒng)、算法和挑戰(zhàn)。概述了當(dāng)前的Web搜索引擎技術(shù),包括搜索引擎的架構(gòu),主要的組件和算法,對搜索引擎的一些錯誤認識進行了分析并討論了未來主要的研究挑戰(zhàn)。
第十三講,謝幸博士帶給我們的是關(guān)于移動搜索與基于位置的搜索。他介紹了移動搜索領(lǐng)域的研究近況,其中包括微軟亞洲研究院研發(fā)的一些用來改善移動搜索和瀏覽體驗的新技術(shù)。
第十四講,李航博士再次來到人大,介紹信息抽取技術(shù)。首先介紹了信息抽取的一些方法,包括隱馬爾科夫模型、最大熵模型,以及條件隨機場;然后給出了一個實例說明了如何在Web搜索中應(yīng)用信息抽取技術(shù)。
細心的讀者也許已經(jīng)發(fā)現(xiàn)了實施的內(nèi)容和計劃有一些出入。微軟研究院的研究員們畢竟是在工作之余在大學(xué)授課,難免受到一些工作臨時安排的影響,所以,不可避免會有些變動,好在我們在課程設(shè)計的時候就有所準(zhǔn)備,并不影響整體的教學(xué)效果。由于上課時間的關(guān)系,研究員們每次都是提前半小時到達教室,空著肚子來上課的。教師需要的正是對學(xué)生的這份感情。
反饋
同學(xué)們對這門課的評價如何呢,我們來聽聽同學(xué)們的聲音。
一位四年級的同學(xué)這樣寫道:“作為一個大四本科生,我全程旁聽了‘智能信息檢索’這門課程。這個課程好就好在不同知識層次的人都能從課程中學(xué)到知識,無論你是博士、碩士,還是本科生。這門課有對基礎(chǔ)問題的超強歸納與總結(jié),也有對熱點問題的全新解讀與展望,內(nèi)容深入淺出,論述詳實透徹。授課風(fēng)格或風(fēng)趣幽默,或樸實深刻,每一堂都令人流連忘返,不舍歸去?!悄苄畔z索’課程中還能聽到極其新奇的理論,類似萬有引力的信息檢索模型令在座的每一個人咋舌,原來信息檢索還可以這么玩……”
一位碩士生則在他的課程報告中總結(jié)到:“這個課程最大的收獲,是開拓了我的視野,讓我對很多搜索方面的課題看得更加清晰。這門課程也許會為我未來的職業(yè)發(fā)展帶來無窮的益處?!?/p>
一位同學(xué)這樣評價:“微軟的研究員們個個身懷絕技,上課風(fēng)格各異。令人印象最深刻的是他們樂觀向上的科研態(tài)度,真正讓人體會到了知識探索是一件多么令人愉快的事情。從第一次馬維英院長的精彩演講,到文繼榮博士、劉鐵巖博士的深邃嚴謹,還有宋睿華研究員的敬業(yè),李航博士的幽默等都給我們留下了難忘的回憶。”如果這門課能讓研究生們深信對知識的探索是一件令人愉快的事情,我想,這比知識傳遞本身要有價值的多。
結(jié)語
一個學(xué)期的課程結(jié)束了,但是我們與微軟的合作才剛剛開始。中國人民大學(xué)在剛剛結(jié)束的院長工作會議上,提出了“全面提升國際性”的行動計劃,在制度和政策上將會進一步創(chuàng)造有利于國際交流的環(huán)境,這是“天時”。微軟亞洲研究院位于知春路上,地理位置與人大校園是近鄰,這是“地利”。一個學(xué)期的課程合作使我們之間建立了相互信任,特別是文繼榮博士就是我院優(yōu)秀的畢業(yè)生,對母校深懷感情,這是“人和”。有這“天時、地利、人和”,我深信我們與微軟亞洲研究院的合作將會走向一個新的高度。
2008年7月,受微軟亞洲研究院的邀請,我有幸參加了MSR 2008 Faculty Summit,會議安排了豐富的學(xué)術(shù)活動,來自全球近百所大學(xué)的400多位教授參加了這一盛會,讓我進一步了解了微軟在計算機基礎(chǔ)研究以及教育方面的巨大貢獻和熱心投入。我想這不是作秀,而是與微軟研究院的使命緊密相連的。
致謝
感謝微軟亞洲研究院的研究員們:馬維英、文繼榮、劉鐵巖、李航、聶再清、宋睿華、張磊、謝幸、史樹明等。感謝高校關(guān)系合作部的陳雯小姐,從她身上你知道了什么是熱情、周到。每次上課她都要陪講師提前半小時到教室,深怕遲到耽誤了上課。教師需要的正是對學(xué)生的這份感情。感謝重點實驗室的易謙,他完成了全部課程的錄像工作。感謝我的博士生劉廣強,他負責(zé)將全部的課件放在網(wǎng)站http://iir.ruc.edu.cn/courses/iir.html. 感謝參與本課程學(xué)習(xí)同學(xué)的認真反饋。