摘 要:隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,人與機(jī)器之間的交流也越來越廣泛,讓計(jì)算機(jī)聽懂語音,從海量的音頻信息中迅速、有效地檢索出所需要的音頻信息就變得越來越重要。文章通過檢索、統(tǒng)計(jì)、分析音頻數(shù)據(jù)檢索技術(shù)的國內(nèi)外專利申請(qǐng),從中獲得音頻數(shù)據(jù)檢索的申請(qǐng)量趨勢、申請(qǐng)人區(qū)域分布、重要申請(qǐng)人等信息,并從基于人工信息的音頻檢索和基于內(nèi)容的音頻檢索兩個(gè)技術(shù)分支簡單梳理了音頻數(shù)據(jù)檢索中關(guān)鍵技術(shù)的發(fā)展脈絡(luò),最后對(duì)音頻數(shù)據(jù)檢索的未來發(fā)展進(jìn)行了展望。
關(guān)鍵詞:音頻數(shù)據(jù)檢索;基于內(nèi)容;人工信息;專利
1 音頻數(shù)據(jù)檢索概述
音頻數(shù)據(jù)檢索最初使用的是基于人工產(chǎn)生的信息進(jìn)行檢索,例如使用人工標(biāo)注的標(biāo)題,藝術(shù)家信息等信息用于查詢[1]。但隨著音頻數(shù)據(jù)的快速增長以及為滿足人們對(duì)實(shí)時(shí)音頻數(shù)據(jù)流檢索的要求,需要大量的人工勞動(dòng)且其主觀性強(qiáng)的基于人工產(chǎn)生的信息進(jìn)行檢索的技術(shù)越來越難以滿足用戶需求,人們希望能夠?qū)崟r(shí)通過一小段未知來源的音頻快速地獲取其相關(guān)的完整信息,于是基于音頻內(nèi)容特征的音頻檢索技術(shù)應(yīng)運(yùn)而生?;趦?nèi)容的音頻檢索,是指利用音頻的頻譜、旋律等特征實(shí)現(xiàn)檢索[2],如通過“哼”某音樂的曲調(diào)在海量音頻庫中查找此音樂,現(xiàn)如今流行的“聽歌識(shí)曲”就是這一技術(shù)的體現(xiàn),其也代表了音頻數(shù)據(jù)檢索的重要發(fā)展趨勢。對(duì)音頻數(shù)據(jù)檢索領(lǐng)域相關(guān)專利進(jìn)行分析和總結(jié)將有助于了解本領(lǐng)域的研究現(xiàn)狀,引導(dǎo)科研人員的研究方向。文章對(duì)音頻數(shù)據(jù)檢索技術(shù)領(lǐng)域的專利年申請(qǐng)量趨勢、專利申請(qǐng)區(qū)域分布和重要申請(qǐng)人分布分別進(jìn)行統(tǒng)計(jì)分析,并簡單梳理了音頻數(shù)據(jù)檢索關(guān)鍵技術(shù)的發(fā)展脈絡(luò)。文章以截止到2016年6月3日SIPOABS數(shù)據(jù)庫已受理的公開專利數(shù)據(jù)為基礎(chǔ)。
2 專利的整體情況分析
2.1 申請(qǐng)量趨勢分析
圖1顯示SIPOABS數(shù)據(jù)庫中音頻數(shù)據(jù)檢索領(lǐng)域的專利申請(qǐng)年度分布圖??梢钥闯?,在2000年前處于技術(shù)萌芽期,此時(shí)專利申請(qǐng)量相對(duì)較少。而2000年開始,音頻數(shù)據(jù)檢索技術(shù)開始進(jìn)入快速發(fā)展期,該領(lǐng)域的技術(shù)專利申請(qǐng)量出現(xiàn)持續(xù)快速增長;并且在2006年全球申請(qǐng)量第一次達(dá)到高峰,而后可能受全球經(jīng)濟(jì)形勢的影響,專利申請(qǐng)量有所下滑,但是得力于語音識(shí)別技術(shù)的快速發(fā)展,到2012年該技術(shù)的申請(qǐng)量再次來到高峰,并且在2012至今每年申請(qǐng)量都保持在高水平。
2.2 申請(qǐng)人區(qū)域與重要申請(qǐng)人分析
圖2和圖3分別示出了國內(nèi)外該領(lǐng)域?qū)@暾?qǐng)人區(qū)域分布圖和重要專利申請(qǐng)人分布圖。由圖2可知,美國、中國、歐洲、日本、韓國是排名前五的國家。其中,美國申請(qǐng)量最大,占比54%。
從圖3可以看出,上述該領(lǐng)域的多個(gè)重要申請(qǐng)人均是源于這些國家。美國的微軟和IBM領(lǐng)先與其他申請(qǐng)人,飛利浦、谷歌、三星緊跟其后,中國的騰訊也有大量的申請(qǐng)。由此得出眾多國際知名企業(yè)在音頻數(shù)據(jù)檢索領(lǐng)域做出的大量研究,且做出了相應(yīng)的專利布局。
3 音頻數(shù)據(jù)檢索技術(shù)演進(jìn)路線分析
為了能夠更加全面地了解音頻數(shù)據(jù)檢索技術(shù),下面將該技術(shù)的基于音頻內(nèi)容特征的檢索和基于人工產(chǎn)生的信息檢索兩個(gè)技術(shù)分支進(jìn)行演進(jìn)路線分析,重點(diǎn)分析兩個(gè)分支在不同發(fā)展時(shí)期的關(guān)鍵專利。
3.1 基于人工產(chǎn)生的信息的音頻檢索
基于人工產(chǎn)生的信息的音頻檢索是指利用人工產(chǎn)生的信息如標(biāo)題,藝術(shù)家信息,標(biāo)簽,關(guān)鍵詞,時(shí)間,用戶評(píng)價(jià)等用于查詢[1]。1999年IBM申請(qǐng)的使用內(nèi)容和揚(yáng)聲器信息進(jìn)行音頻信息檢索的方法和裝置(申請(qǐng)?zhí)朥S19990288724),首次結(jié)合了人工標(biāo)注的信息進(jìn)行音頻檢索,實(shí)現(xiàn)了根據(jù)音頻內(nèi)容和演講人標(biāo)識(shí)執(zhí)行查詢的音頻檢索系統(tǒng)。微軟及索尼都在該技術(shù)上做出進(jìn)一步研究,分別申請(qǐng)了用于封裝媒體對(duì)象的代表性樣本的系統(tǒng)和方法(申請(qǐng)?zhí)朇N200480012356)和基于音頻搜索條件的搜索系統(tǒng)和搜索方法(申請(qǐng)?zhí)朇N200780031603)。隨后國內(nèi)公司也在這方面做出大量研究,其中包括關(guān)鍵專利有騰訊申請(qǐng)的音頻標(biāo)簽設(shè)置方法及裝置、存儲(chǔ)介質(zhì)(申請(qǐng)?zhí)朇N201410025446)在檢索效率上做出改進(jìn)。
3.2 基于內(nèi)容的特征的音頻檢索
基于音頻內(nèi)容的特征的音頻檢索是指如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實(shí)現(xiàn)與音頻內(nèi)容信息相關(guān)的檢索[2]。索尼公司申請(qǐng)的專利對(duì)于機(jī)器人裝置的動(dòng)作教學(xué)裝置和方法(申請(qǐng)?zhí)朖P2001091030A)為該技術(shù)奠定基礎(chǔ),該申請(qǐng)通過語音識(shí)別結(jié)合關(guān)鍵詞檢索方便與機(jī)器人對(duì)話。此后,國內(nèi)外對(duì)音頻指紋、旋律等特征的識(shí)別效率和檢索效率上不斷做出改進(jìn),不斷推動(dòng)著音頻檢索技術(shù)的發(fā)展。2011年后國內(nèi)該項(xiàng)技術(shù)迎來發(fā)展高峰,重大企業(yè)公司及重點(diǎn)院校都對(duì)該技術(shù)申請(qǐng)了關(guān)鍵專利。如騰訊在2011年申請(qǐng)的音頻指紋檢索方法及裝置(申請(qǐng)?zhí)朇N201110340094)和復(fù)旦大學(xué)在2013年申請(qǐng)的基于音頻指紋特征的音樂檢索系統(tǒng)(申請(qǐng)?zhí)朇N201310378000)都對(duì)音頻指紋的識(shí)別做出改進(jìn),提高了檢索效率。
4 結(jié)束語
音頻數(shù)據(jù)是最重要的多媒體數(shù)據(jù)之一,隨著網(wǎng)絡(luò)技術(shù)的普及,其重要性不言而喻,結(jié)合不同的音頻處理技術(shù),其在不同領(lǐng)域里的應(yīng)用也愈加廣泛。在智能對(duì)話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),也可廣泛的應(yīng)用于遠(yuǎn)程教學(xué)、衛(wèi)生醫(yī)療、數(shù)字圖書館、環(huán)境監(jiān)測等領(lǐng)域。
參考文獻(xiàn)
[1]李晨,等.音頻檢索技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(8):215-218.
[2]續(xù)鴻飛,等.音頻檢索綜述[J].晉圖學(xué)刊,2005(6):15-19.
作者簡介:鄧慧麗(1991,02-),女,漢族,研究生學(xué)歷,湖北省咸寧人,國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作湖北中心,專利審查員,研究方向:信息檢索,主要從事信息檢索方面的專利審查工作。