近日,第43 屆國際計(jì)算機(jī)協(xié)會信息檢索大會(SIGIR2020)落下帷幕。原計(jì)劃在西安舉行的SIGIR2020 大會,因疫情影響改為線上舉行。
“根據(jù)今年詞頻統(tǒng)計(jì),推薦系統(tǒng)和機(jī)器學(xué)習(xí)占到前兩名?!盨IGIR2020 大會共同主席、吉林大學(xué)人工智能學(xué)院院長常毅在接受《中國科學(xué)報(bào)》采訪時,對信息檢索領(lǐng)域的研究方向進(jìn)行了分析。
然而,從今年的SIGIR 大會錄取論文內(nèi)容看,信息檢索與人工智能、自然語言處理、數(shù)據(jù)挖掘等技術(shù)融合創(chuàng)新,是大會的重要特點(diǎn)。而阿里巴巴、百度等公司團(tuán)隊(duì)多篇論文的入選,又彰顯了信息檢索領(lǐng)域技術(shù)創(chuàng)新與工業(yè)界結(jié)合的緊密性。
在常毅看來,“交叉融合,與工業(yè)界結(jié)合緊密”,也正是SIGIR 之所以成為信息檢索領(lǐng)域頂級會議的重要法寶。
“會議開幕式上近十年關(guān)鍵詞的動態(tài)演化,顯示推薦系統(tǒng)與機(jī)器學(xué)習(xí)是近期SIGIR 會議最熱門的方向。機(jī)器學(xué)習(xí)最新方法和模型在信息檢索領(lǐng)域的創(chuàng)新性應(yīng)用,也是學(xué)者們關(guān)注的焦點(diǎn)。”常毅介紹。
機(jī)器學(xué)習(xí),也正是中國科學(xué)院院士、西安交通大學(xué)教授徐宗本報(bào)告的關(guān)鍵詞?!皺C(jī)器學(xué)習(xí)(ML)是在一系列前提條件的基礎(chǔ)上的運(yùn)行和應(yīng)用,機(jī)器學(xué)習(xí)有助于人工智能的巨大成功,而人工智能也有助于機(jī)器學(xué)習(xí)進(jìn)一步發(fā)展和突破瓶頸。”
機(jī)器學(xué)習(xí),需要大量用于訓(xùn)練的數(shù)據(jù)集?!拔覀儚囊粋€不完整的數(shù)據(jù)集中逐步進(jìn)行機(jī)器學(xué)習(xí),并由易到難,為處理非常復(fù)雜的不完備數(shù)據(jù)集提供可行的方法?!毙熳诒颈硎荆愃朴梢椎诫y的進(jìn)階式訓(xùn)練,有利于突破機(jī)器學(xué)習(xí)的瓶頸,并取得進(jìn)展。
自2008 年至今,天津大學(xué)智能與計(jì)算學(xué)部副教授張鵬一直致力于開拓量子人工智能與自然語言理解這一交叉領(lǐng)域的研究工作,其入選今年SIGIR 會議的論文,是有關(guān)基于量子干涉的檢索神經(jīng)匹配模型研究。
“在人類認(rèn)知和人類相關(guān)性判斷過程中,研究表明存在量子干涉現(xiàn)象的大量證據(jù)。在此基礎(chǔ)上,我們將量子干涉的理論建模在神經(jīng)匹配模型中,將神經(jīng)匹配模型擴(kuò)展到量子概率詮釋?!睆堸i說,這一神經(jīng)匹配模型在信息檢索任務(wù)中應(yīng)用時,表現(xiàn)出不錯的檢索效果。
類似的交叉融合研究,在本屆SIGIR 大會論文中比比皆是。常毅表示,信息檢索與人工智能、自然語言處理、數(shù)據(jù)挖掘等技術(shù)融合創(chuàng)新,既促進(jìn)了信息檢索領(lǐng)域的長足發(fā)展,也帶動了相關(guān)技術(shù)的創(chuàng)新應(yīng)用。
常毅表示,隨著算法、算力的不斷提升,SIGIR 會議成果在現(xiàn)代學(xué)術(shù)界、工業(yè)界都顯示出重要的研究與應(yīng)用價值,推動信息檢索成為大學(xué)和企業(yè)都非常關(guān)注的專業(yè)領(lǐng)域,吸引了更多相關(guān)領(lǐng)域的頂級科學(xué)家和頂級信息技術(shù)公司科研人員加入。
“近十年來,學(xué)術(shù)團(tuán)體的研究方向與工業(yè)界的實(shí)際應(yīng)用,與機(jī)器學(xué)習(xí)的關(guān)系越來越緊密?!背R阏f,這樣的緊密結(jié)合,也有利于學(xué)術(shù)的不斷發(fā)展。
在今年的SIGIR 大會上,阿里巴巴研究團(tuán)隊(duì)表現(xiàn)突出,共有二十多項(xiàng)研究成果入選,是全球論文數(shù)量最多的科技公司。有專家表示,阿里巴巴在多個成果中,展現(xiàn)了人工智能在理解文本信息任務(wù)上的突破。
在其中一篇論文中,阿里巴巴研究團(tuán)隊(duì)提出了一種能夠理解文本言外之意的方法,通過推敲給定隱晦文本的全局語義、局部語義,以及可能存在的噪音,有效提高了模型識別隱晦文本是否包含色情、暴力等內(nèi)容的精確率。
據(jù)統(tǒng)計(jì),百度、華為、騰訊、平安科技等科技公司,在今年的SIGIR 會議上的論文投稿量都很可觀,這些論文都來自于信息檢索相關(guān)技術(shù)在實(shí)際場景中的應(yīng)用,而應(yīng)用又促進(jìn)技術(shù)創(chuàng)新的案例。例如,平安科技公司團(tuán)隊(duì)的論文,是平安科技人工智能前沿技術(shù)與壽險(xiǎn)線上營銷業(yè)務(wù)深度融合的一項(xiàng)創(chuàng)新成果。
信息檢索和自然語言處理技術(shù)是人工智能的基礎(chǔ)技術(shù),實(shí)現(xiàn)突破不僅需要全新的模型,還需要結(jié)合實(shí)際應(yīng)用提出更創(chuàng)新的訓(xùn)練和推理方法。而阿里巴巴、騰訊等經(jīng)濟(jì)體豐富的場景,也為自然語言處理等技術(shù)的研究提供了絕佳條件。
在今年的SIGIR 會議上,中國和美國學(xué)者論文在投稿率錄用率排名中,分別名列第一第二。
據(jù)介紹,SIGIR 2020 上華人學(xué)者的表現(xiàn)十分突出。入選的論文中共有317 位華人學(xué)者,其中有1 人發(fā)表9 篇論文,3 人發(fā)表8 篇,1 人發(fā)表7篇,2 人發(fā)表6 篇,7 人入選5 篇,7 人入選4 篇,15 人入選3 篇,44 位入選2 篇論文。
其中第一作者華人學(xué)生共有55 人。以一作身份發(fā)表2 篇論文的學(xué)生有7 人。
本屆會議最佳論文獎由康奈爾大學(xué)Thorsten Joachims 團(tuán)隊(duì)獲得。而清華大學(xué)本次獲得了多個獎項(xiàng),包括最佳論文榮譽(yù)提名獎,由清華大學(xué)張帆(一作)等獲得。
此外,兩個最佳短論文獎都被清華大學(xué)摘取,第一作者分別是常健新和于是。值得一提的是,于是目前是清華大三學(xué)生。
“這些成績,都顯示了中國學(xué)者在信息檢索相關(guān)領(lǐng)域的創(chuàng)新與貢獻(xiàn)。”常毅說,“今年SIGIR 會議的一大亮點(diǎn),是有更多非論文作者尤其是青年學(xué)生加入到信息檢索社群中來?!?/p>
常毅介紹,假如青年學(xué)者定義為青年學(xué)生、青年博士、青年教師,則今年SIGIR 會議上青年學(xué)者的參與比例超過了75%。
常毅表示,青年學(xué)者積極參加國際學(xué)術(shù)會議,多學(xué)習(xí)、多交流,將有助于他們打開視野、開拓思路,結(jié)識海內(nèi)外、業(yè)內(nèi)外、資深而優(yōu)秀的研究者、業(yè)內(nèi)同行和同學(xué)。
“青年學(xué)者應(yīng)積極通過交換計(jì)劃、訪問計(jì)劃,積極開展國際合作?!背R阏f。