“我其實還只是一名年輕的科研者,科研經(jīng)驗還算不上豐富?!边@是內(nèi)蒙古大學計算機學院研究員呼德在采訪中多次提及的一句話。在他眼中,雖然在信號處理領(lǐng)域求學耕耘多年,但他手中握著的仍只是一支鈍筆,只能約略地捕捉住一點關(guān)于聲音信號的美,粗淺地描摹出信號與信息處理專業(yè)的形與色、風格與氣息,努力地在行業(yè)痛難點上留下一些自己的痕跡,讓自己的學術(shù)文章落地實用,化作改變?nèi)粘I畹囊豢|馨香。
然而,事實真的如此嗎?主持、參與過多項國家級縱向課題及與華為、螞蟻金服等企業(yè)合作橫向課題的呼德,不僅以第一作者、通訊作者在《IEEE/ACM音頻、語音和語言處理匯刊》(IEEE/ACM Transactions on Audio,Speech and Language Processing,TASLP)、《IEEE 無線通信匯刊》(IEEE Transactions on Wireless Communications)等重要學術(shù)期刊上發(fā)表論文十余篇,擔任《數(shù)據(jù)采集與處理》期刊青年編委、中國計算機學會語音對話與聽覺專委會委員、人工智能學會青年工作委員會委員等職務(wù),更重要的是,他對于如今的聲音信號處理研究頗具見解:“麥克風網(wǎng)絡(luò)就像是聲音信號處理的‘魔杖’,讓機器不僅能夠‘聽到’,更能‘聽懂’。我們要做的不僅僅是對聲音的捕捉與過濾,更是一種在繁音中尋覓清籟的過程,讓每種聲音都能得到清晰的傳播?!?/p>
“未來的回響”
雖然今日的呼德與信號處理領(lǐng)域的科研工作密不可分,但其實二者結(jié)緣伊始完全是一場陰差陽錯。自嘲為“小鎮(zhèn)做題家”的他直到高考報志愿時都還只是抱著“學了這門學科就有機會得到國內(nèi)三大通信公司工作機會”的就業(yè)愿景才在2010年的本科志愿填報時選擇了通信工程專業(yè),但光陰匆匆,母校遼寧大學在其本科4年中帶給他的不僅是日益增長的專業(yè)知識,更是“放眼看世界”的開闊視野與“科技報國”的職業(yè)責任。而這些都在后期化作了“畢業(yè)即就業(yè)”與“接續(xù)深造”的天平上悄然加重的砝碼,致使他最終選擇到大連理工大學讀研。
當邁入研究生階段,在導(dǎo)師殷福亮教授與陳喆教授的諄諄教導(dǎo)下,呼德開始正式接觸聲音信號處理工作,“兩位老師的言傳身教使我受益匪淺,影響我到如今”。據(jù)呼德回憶,自己在剛步入科研領(lǐng)域時并不算一位細心嚴謹、思維活躍的“后來者”,因此為老師們帶去了不少的“麻煩”,“比如殷老師是一位極其認真負責的導(dǎo)師,我的每篇論文他都要逐句閱讀、逐字修改,非常細致,且他的大局觀非常令人欽佩;而陳老師的思維很活躍,天馬行空間會生出很多新鮮想法,對于知識的執(zhí)著和渴求也足以令我終身學習”。于是,遇到難題便去找二位教授“談天說地”的歲月成了呼德求學日子里最溫馨美好的記憶,而他也不負前輩所望,在科研的道路上極速成長,還未畢業(yè)時就已經(jīng)參與到與華為合作的相關(guān)項目之中。
或許多數(shù)人都經(jīng)歷過這樣的困擾:打電話的時候偶爾會在聽筒聽到自己的聲音。之所以會產(chǎn)生這類現(xiàn)象,根源在于“回聲消除”算法不夠完善,誤將回聲反傳回來。為解決這一難題,呼德在華為西安研究所一扎根就是大半年?!爱敃r我一個人代表我們課題組去為企業(yè)降本增效,解決這一問題。難度還是不小的,除了要把回聲消除干凈,還要將運算量壓得極低,這中間的平衡點非常難找?!弊罾_時,這些難點都變成了呼德的夢魘,“真的是在睡夢里還在琢磨怎么才能完成目標”。但所幸,結(jié)果是可觀的。當項目真正落地,在全世界范圍內(nèi)使用的效果還是讓呼德再一次體會到了科研者特有的成就感,那是“風雨后的彩虹”“烏云中的陽光”。
也正是這一次成功的項目經(jīng)歷,讓呼德進一步樹立了科研的自信,也讓他聽到了“未來的回響”,“我想,只要我堅持下去,就能把青春夢想扎根在祖國的大地上”。
2018年年初,站在人生的十字路口,呼德面臨著一次重大選擇——申博與否?“碩士期間參與的幾個項目落地,讓我獲得了前所未有的成就感”,但“象牙塔”外五光十色的世界又讓他心生迫切,想要利用所學去為社會做些什么,直到2018年4月,美國制裁中興的噩耗傳來。“未來7年內(nèi)禁止中興通訊向美國企業(yè)購買敏感產(chǎn)品”的禁令在當時嚴重危及著中興通訊的生存,也傷害了大量中興通訊合作伙伴的利益。輿論場上物議沸然,而國人的憤怒、不安與扼腕,呼德都懂。在感同身受之下,他燃起了在所在課題組讀博、繼續(xù)科研的斗志,“探索我們自己的算法,最大程度地替代進口,力圖使發(fā)展不被他人所左右”是他為自己立下的第一條職業(yè)座右銘,且延續(xù)至今。
“智慧的聽者”
畢業(yè)后的呼德幾乎沒有猶豫就選擇回到了家鄉(xiāng),“回報桑梓一直是我的愿望”,而正如他所言,科研者只有把心靈貼在熱愛的大地上,想他人之所想,才能聆聽到人類文明最深處的需求,真正解決困擾大眾生活的關(guān)鍵性問題。
而呼德所致力解決的首個問題,便是如何突破常規(guī)麥克風陣列信號處理的技術(shù)瓶頸。麥克風陣列信號處理利用聲音的時間、空間信息完成許多語音處理任務(wù),如聲源定位與跟蹤、聲源分離、聲源數(shù)目估計及語音增強等,近20年來,此技術(shù)發(fā)展很快,取得了重要進展,但也逐漸暴露出了一些不足:例如陣列拓撲結(jié)構(gòu)通常是固定且規(guī)則的,如均勻線陣、圓形陣列等,安裝后不能隨意移動;空間覆蓋率較低,當聲源距麥克風陣列較遠時,其采集到的聲音信號質(zhì)量較差,從而影響后續(xù)的語音處理性能;且容錯性差,當陣列中一個或數(shù)個麥克風失效時,整個陣列就會出現(xiàn)癱瘓等情況。針對這些不足,麥克風網(wǎng)絡(luò)信號處理技術(shù)應(yīng)運而生。
近年來,出現(xiàn)了以智能手機、平板電腦、智能音箱為代表的一批智能設(shè)備,并在日常工作與生活中不斷普及,這些設(shè)備通常配有各自的數(shù)據(jù)處理單元、無線通信接口、音頻輸入輸出接口,因此十分易于構(gòu)成分布式麥克風網(wǎng)絡(luò)。相比于傳統(tǒng)的單麥克風或麥克風陣列,分布式麥克風網(wǎng)絡(luò)具有靈活的拓撲結(jié)構(gòu)、大范圍的空間覆蓋率及分布式數(shù)據(jù)處理能力,在視頻會議系統(tǒng)、人機交互系統(tǒng)等領(lǐng)域具有廣泛應(yīng)用前景。但是通常,在此類網(wǎng)絡(luò)中,各節(jié)點大多是隨機放置,其位置通常未知;且由于制造工藝等因素,各節(jié)點的真實采樣率與標稱值會有所差異,影響其語音處理算法性能。因此,需要用幾何校準方法對節(jié)點位置進行估計,用時鐘校準方法來抑制采樣率失配問題。然而普遍的研究都聚焦于集中式計算方法,也就是說需要額外的中心處理單元和較大的通信帶寬,這難以滿足應(yīng)用中的校準需求。為此,呼德申報了國家自然科學基金青年項目,引進分布式信號處理理論,探索新的分布式校準方法,使麥克風網(wǎng)絡(luò)的各節(jié)點并行地、協(xié)作地完成幾何與時鐘校準任務(wù)。
立足于蒙古語智能信息處理國家地方聯(lián)合工程研究中心這一如日方升的平臺之上,多項國家級課題進展順利,已經(jīng)產(chǎn)出了多篇學術(shù)文章。“目前,我們正在進一步探索讓技術(shù)落地應(yīng)用,走進更多人生活的方式。我對于未來還是比較有信心的?!焙舻抡f。
如果有一天,站在未來的門檻上回望,呼德只希望自己的成果可以為社會生活帶來一些便捷,正如他常說的那樣:“讓每一個聲音、每一句話都能被準確無誤地捕捉與理解,無論是在繁忙的都市角落,還是在遙遠的自然風光中?!倍鴰е@份理想,他將繼續(xù)前行,徜徉在由聲音信號編織的夢想國度里,續(xù)寫科技的動人詩篇。