摘 要:隨著互聯(lián)網(wǎng)數(shù)據(jù)量的不斷增加,個(gè)性化搜索引擎也得到了快速發(fā)展。其中關(guān)鍵詞推薦技術(shù)用于找出與初始關(guān)鍵詞相關(guān)的其他關(guān)鍵詞,幫助用戶快速準(zhǔn)確地搜索目標(biāo),被廣泛用于搜索引擎系統(tǒng)中。文章基于專利文獻(xiàn)對(duì)關(guān)鍵詞推薦技術(shù)專利的年度申請(qǐng)量、申請(qǐng)區(qū)域分布和重要申請(qǐng)人分布分別進(jìn)行了統(tǒng)計(jì)分析。同時(shí),對(duì)關(guān)鍵詞推薦技術(shù)進(jìn)行了分類,并以若干典型的相關(guān)專利為主線,對(duì)關(guān)鍵詞推薦技術(shù)的發(fā)展歷程進(jìn)行了回顧。對(duì)其他相關(guān)人員了解該項(xiàng)技術(shù)的脈絡(luò)以及今后的專利審查具有一定的指導(dǎo)意義。
關(guān)鍵詞:搜索引擎;關(guān)鍵詞推薦;個(gè)性化;專利分析
引言
隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關(guān)鍵詞,檢索系統(tǒng)根據(jù)輸入的關(guān)鍵詞提供檢索結(jié)果。然而,由于用戶輸入的關(guān)鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達(dá)其搜索意圖。為了幫助用戶更好地構(gòu)造關(guān)鍵詞,通常搜索引擎會(huì)使用個(gè)性化關(guān)鍵詞推薦技術(shù)。其通過(guò)分析文檔結(jié)構(gòu)、用戶瀏覽行為及用戶對(duì)文檔的評(píng)價(jià)等信息,建立用戶的興趣模型,推薦出用戶實(shí)際所需的關(guān)鍵詞,提高搜索準(zhǔn)確性,改善用戶智能、便捷的搜索體驗(yàn)。
1 個(gè)性化關(guān)鍵詞推薦技術(shù)概述
早在上世紀(jì)90年代,學(xué)者就開(kāi)展了一些關(guān)鍵詞推薦相關(guān)研究,如今已成為搜索引擎的必備技術(shù)之一。個(gè)性化關(guān)鍵詞推薦根據(jù)所依賴的數(shù)據(jù)源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù),如圖1所示。
(1)基于文檔詞典的關(guān)鍵詞推薦技術(shù)是以當(dāng)前關(guān)鍵詞返回的文檔內(nèi)容為對(duì)象,對(duì)文檔進(jìn)行概括來(lái)提取關(guān)鍵詞,并將關(guān)鍵詞按類別進(jìn)行聚類,最后將關(guān)鍵詞反饋給用戶。該技術(shù)不考慮用戶的歷史記錄,根據(jù)文檔內(nèi)容之間的相似度來(lái)提取用戶興趣,并基于各種詞庫(kù)(如分類詞庫(kù)、同義詞庫(kù)、關(guān)聯(lián)詞庫(kù)、外語(yǔ)詞庫(kù)、糾錯(cuò)詞庫(kù)和分詞詞庫(kù)等)來(lái)推薦關(guān)鍵詞。
(2)基于用戶搜索日志的關(guān)鍵詞推薦技術(shù)是從用戶角度出發(fā),以用戶搜索日志中的歷史記錄作為對(duì)象,采用聚類技術(shù)計(jì)算關(guān)鍵詞之間的相似度,并返回相關(guān)度較高的關(guān)鍵詞。該技術(shù)通常會(huì)從搜索日志中分析用戶操作行為,提取用戶標(biāo)識(shí)和群體特征。
(3)對(duì)于個(gè)性化關(guān)鍵詞推薦中的其他相關(guān)技術(shù),其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術(shù)。例如,與用戶之間進(jìn)行語(yǔ)音交互、結(jié)合用戶當(dāng)前位置信息等手段來(lái)提供關(guān)鍵詞。
2 個(gè)性化關(guān)鍵詞推薦相關(guān)專利申請(qǐng)分析
本文在CNABS和DWPI數(shù)據(jù)庫(kù)中,通過(guò)“搜索”、“關(guān)鍵詞”、“推薦”及其中英文擴(kuò)展詞匯作為主要關(guān)鍵詞,并排除IPC分類號(hào)為G06Q的噪聲文獻(xiàn),檢索得到的2016年5月以前公布的300余篇專利文獻(xiàn)作為樣本,對(duì)全球的專利申請(qǐng)量的趨勢(shì)、申請(qǐng)區(qū)域分布以及重要申請(qǐng)人分布進(jìn)行分析,從中得到技術(shù)發(fā)展趨勢(shì),以及各階段專利申請(qǐng)人所屬的國(guó)家分布和主要申請(qǐng)人分布。其中,以每個(gè)同族中最早優(yōu)先權(quán)日期視為該申請(qǐng)的申請(qǐng)日,一系列同族申請(qǐng)視為一件申請(qǐng)。
2.1 國(guó)際專利申請(qǐng)量趨勢(shì)分析
圖2給出了個(gè)性化關(guān)鍵詞推薦技術(shù)的全球?qū)@暾?qǐng)趨勢(shì),大致可以分為四個(gè)時(shí)期,各時(shí)期劃分以申請(qǐng)量增長(zhǎng)率的變化為標(biāo)準(zhǔn)。
2.1.1 萌芽階段(2003年之前)
搜索引擎起源于1990年,經(jīng)歷近10年的發(fā)展后,開(kāi)始向個(gè)性化趨勢(shì)邁進(jìn)。1998-2003年是個(gè)性化搜索引擎中的關(guān)鍵詞推薦技術(shù)從無(wú)到有的萌芽階段,該階段申請(qǐng)量極少。具有代表性的申請(qǐng)人是國(guó)際商業(yè)機(jī)器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩(wěn)增長(zhǎng)階段(2004年-2007年)
從2004年開(kāi)始,關(guān)于個(gè)性化關(guān)鍵詞推薦技術(shù)的專利每年的申請(qǐng)量明顯比2003年之前的申請(qǐng)量多,申請(qǐng)量和申請(qǐng)人的發(fā)展總體趨勢(shì)趨于平穩(wěn)增長(zhǎng)。在此階段,申請(qǐng)量前三位的國(guó)別分布如圖3所示。美國(guó)申請(qǐng)的專利量占67%,其中,前四位的申請(qǐng)人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國(guó)和中國(guó)分別占25%和5%,這也從側(cè)面說(shuō)明這個(gè)時(shí)期內(nèi),中國(guó)和韓國(guó)在搜索引擎所涉及的IT技術(shù)領(lǐng)域發(fā)展迅猛。
2.1.3 快速增長(zhǎng)階段(2008年-2011年)
在2008年-2011年之間,除了2009年出現(xiàn)了下滑趨勢(shì)(經(jīng)濟(jì)環(huán)境背景的影響)以外,該技術(shù)的申請(qǐng)量和申請(qǐng)人數(shù)量呈現(xiàn)跨越式增長(zhǎng)。這是由于在此期間IT產(chǎn)業(yè)的迅猛發(fā)展,使得企業(yè)對(duì)于個(gè)性化關(guān)鍵詞推薦技術(shù)的關(guān)注度急劇提升,因此出現(xiàn)了申請(qǐng)量的快速增長(zhǎng)。在此階段,申請(qǐng)量占前四位的國(guó)別分布如圖4所示。可以看出,中國(guó)在這一時(shí)期內(nèi)的申請(qǐng)保持著較快的發(fā)展,并且申請(qǐng)量超過(guò)起步較早的韓國(guó)和日本,這與中國(guó)在2008年之后各種IT類型企業(yè)迅猛發(fā)展息息相關(guān)。而美國(guó)的申請(qǐng)量趨于穩(wěn)定,技術(shù)發(fā)展成熟度也較高,保持著絕對(duì)的領(lǐng)先地位。
2.1.4 成熟階段(2012年-至今)
個(gè)性化關(guān)鍵詞推薦技術(shù)的專利申請(qǐng)量從2012年至今呈現(xiàn)出穩(wěn)步增長(zhǎng)的趨勢(shì)。在此階段,申請(qǐng)量占前五位的國(guó)別分布如圖5所示。在這一階段,中國(guó)國(guó)內(nèi)的大型公司充分意識(shí)到了知識(shí)產(chǎn)權(quán)的重要性,申請(qǐng)量超過(guò)了美國(guó)成為第一。特別是國(guó)內(nèi)如百度、奇虎、騰訊等公司申請(qǐng)的專利在數(shù)量和質(zhì)量上都有明顯提升。
2.2 本領(lǐng)域重要申請(qǐng)人分析
本節(jié)對(duì)本領(lǐng)域重要申請(qǐng)人方面做進(jìn)一步分析,主要考慮申請(qǐng)人歷年的申請(qǐng)總量,按照申請(qǐng)總量進(jìn)行排名。前16名申請(qǐng)人分布如圖6所示。其中GOOG:谷歌(美國(guó));MICT:微軟(美國(guó));BAID:百度(中國(guó));YAHO:雅虎(美國(guó));IBMC:國(guó)際商業(yè)機(jī)器公司(美國(guó));QIHU:奇虎(中國(guó));ABAB:阿里巴巴(中國(guó));NHNN:NHN株式會(huì)社(韓國(guó));TNCT:騰訊(中國(guó));ETRI:韓國(guó)電子通信研究院(韓國(guó));EBAY:電子灣(美國(guó));FUIT:富士通株式會(huì)社(日本);INCR:INCRUIT公司(韓國(guó));KING:金山軟件(中國(guó));NITE:日本電信電話株式會(huì)社(日本);SOGO:搜狗(中國(guó))。
從圖6可以看出,在本領(lǐng)域,諸如谷歌、微軟、雅虎、IBM等的國(guó)際化大公司一直是較為活躍的申請(qǐng)人,這些申請(qǐng)人在申請(qǐng)數(shù)量以及質(zhì)量方面都占據(jù)領(lǐng)頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國(guó)內(nèi)知名大公司也占據(jù)著較重要的席位。
3 個(gè)性化關(guān)鍵詞推薦相關(guān)專利技術(shù)發(fā)展分析
個(gè)性化關(guān)鍵詞推薦技術(shù)可分為基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù)。圖7給出了從1998年到2015年,三類技術(shù)相關(guān)的專利申請(qǐng)量分布。從圖7可知,基于文檔詞典和基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)為主要技術(shù)。
本章將對(duì)基于文檔詞典和基于搜索日志這兩類技術(shù)的發(fā)展路線方面進(jìn)行分析,給出了每個(gè)年度具有代表性的專利技術(shù)。
以申請(qǐng)時(shí)間為主線,基于文檔詞典的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖8所示。
以申請(qǐng)時(shí)間為主線,基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖9所示。
4 結(jié)束語(yǔ)
本文結(jié)合國(guó)內(nèi)外專利申請(qǐng)的狀況,對(duì)個(gè)性化搜索引擎中關(guān)鍵詞推薦專利技術(shù)進(jìn)行了較為全面的分析和研究,并對(duì)其發(fā)展歷程進(jìn)行了回顧。從以上分析可知,我國(guó)關(guān)鍵詞推薦技術(shù)雖然起步較晚,但近十幾年發(fā)展很快,也涌現(xiàn)出一批具有競(jìng)爭(zhēng)力的大企業(yè)。另外,目前基于文檔詞典和搜索日志的關(guān)鍵詞推薦技術(shù)已經(jīng)發(fā)展成熟,且應(yīng)用廣泛。今后的關(guān)鍵詞推薦技術(shù)應(yīng)該會(huì)向混合推薦方向發(fā)展,充分發(fā)揮每種推薦方法的優(yōu)勢(shì),提高推薦的效率。
參考文獻(xiàn)
[1]張博,周瑞瑞,魚(yú)冰.協(xié)同過(guò)濾推薦算法專利綜述[J].河南科技,2015(10):3-5.
[2]王瑩,羅坤,姜磊,等.基于內(nèi)容的圖像檢索技術(shù)的專利技術(shù)綜述[J].電視技術(shù),2013,37(2):62-65.
[3]李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術(shù)綜述[J].中文信息學(xué)報(bào),2010,24(6):75-84.
[4]王芬,王辭,熊晶.基于協(xié)同過(guò)濾的個(gè)性化推薦專利技術(shù)研究[J].科技展望,2016,26(29):266-267.
作者簡(jiǎn)介:李歡(1989-),女,漢族,湖南婁底人,碩士研究生,國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作江蘇中心,研究實(shí)習(xí)員,研究方向:信息檢索、圖像處理方面專利審查工作。