在電影《復(fù)仇者聯(lián)盟2:奧創(chuàng)紀元》中,有一個精彩的情節(jié)是當綠巨人浩克被緋紅女巫迷惑心智后在城市中大肆破壞時,鋼鐵俠與他的專屬智能大腦賈維斯對話,通過“浩克”這個關(guān)鍵詞快速搜索實時新聞報道和視頻中的相關(guān)信息,得出綠巨人的位置;鋼鐵俠及時趕到并啟動了反浩克戰(zhàn)甲,阻止了綠巨人的破壞行為。在這個情節(jié)中,智能大腦賈維斯依據(jù)鋼鐵俠給出的“浩克”這一關(guān)鍵詞,從海量的新聞報道、網(wǎng)絡(luò)視頻數(shù)據(jù)中檢索出相匹配的信息,并返回給鋼鐵俠,這里應(yīng)用的就是信息檢索技術(shù),如圖1所示。
圖1 《復(fù)仇者聯(lián)盟2》電影中的片段
信息檢索技術(shù)這一名詞在人們的生活中無處不在??梢哉f,只要是應(yīng)用了搜索引擎的應(yīng)用,都會有信息檢索的影子。大家一定都用過百度、搜狗、谷歌、必應(yīng)這些搜索引擎吧?在搜索引擎中搜索“浩克”,可以從海量數(shù)據(jù)中檢索出浩克的基本信息、最新電影狀況、相關(guān)演員動態(tài)等;在電商平臺中搜索“浩克”,可以檢索出與浩克相關(guān)的書籍、玩具、游戲等;在社交平臺中搜索“浩克”,可以檢索出與“浩克”一詞相關(guān)的用戶昵稱、網(wǎng)友互動信息、短視頻;等等。
信息檢索技術(shù)極大地方便了人們的生活,能讓人們快速定位感興趣的信息,大大節(jié)省了人們的時間與精力。信息檢索的基本原理是什么呢?首先,用戶需要明確自己需要檢索的信息是什么,并將檢索信息輸入搜索引擎。例如,剛才提到《復(fù)仇者聯(lián)盟2:奧創(chuàng)紀元》中的情節(jié),鋼鐵俠需要檢索的信息是“浩克在哪里”,這條信息中對應(yīng)的知識可能就是“綠色”+“大塊頭”。搜索引擎首先會從全網(wǎng)信息中初步篩選出與浩克相關(guān)的信息(即包含“綠色”+“大塊頭”實體的信息);鋼鐵俠的需求是明確浩克的地理位置,搜索引擎需要進一步從包含浩克的場景信息中篩選出浩克最有可能出現(xiàn)的實時地理位置信息并返回給鋼鐵俠。嚴謹?shù)卣f,信息檢索技術(shù)的基本原理可被概括為:從用戶需求出發(fā),對信息集合與需求集合進行匹配和選擇,根據(jù)一定的線索與準則找出相關(guān)的信息。
信息檢索技術(shù)的兩種主流技術(shù)手段分別是關(guān)鍵詞檢索與語義檢索。我們來聊聊這兩種檢索技術(shù)的實現(xiàn)方式。信息檢索講解圖如圖2所示。
圖2 信息檢索講解圖
關(guān)鍵詞檢索是指用戶在搜索引擎的搜索框中鍵入自己要搜索信息的關(guān)鍵詞,并進行檢索的方式。在剛才的故事情節(jié)中,鋼鐵俠口述的檢索信息中包含兩個關(guān)鍵詞,即“浩克”與“位置”。通過“浩克”與“位置”這兩個關(guān)鍵詞,搜索引擎從海量數(shù)據(jù)中按照關(guān)鍵詞匹配規(guī)則篩選出搜索結(jié)果數(shù)據(jù),并通過排序整理得出最有可能的結(jié)果。這種檢索方式通過解析目標信息的字符,在語料庫中搜索與內(nèi)容相匹配的信息,具有查詢信息范圍大、正確率高、查全率高等優(yōu)點,但是這種方式對包含海量數(shù)據(jù)的語料庫的構(gòu)建要求也較高。
一般來說,檢索結(jié)果的排序方式有3種。第一種是按時間排序,最新更新的相關(guān)信息優(yōu)先展示;第二種是按閱讀量排序,瀏覽查閱次數(shù)最多的信息優(yōu)先展示;第三種是相關(guān)排序,與關(guān)鍵詞匹配度最高的信息優(yōu)先展示。通常將用戶需求以及用戶在一段時間內(nèi)的偏好作為衡量標準來對檢索結(jié)果進行排序。當用戶查詢需求不明確時,可運用推理機制推斷用戶潛在需求,選擇與用戶習慣最相近的信息進行檢索。
語義檢索則是在概念體系的基礎(chǔ)上,搜索引擎從知識庫中檢索出知識的過程。這是一種基于知識圖譜體系,能夠?qū)崿F(xiàn)知識間的關(guān)聯(lián),以及概念和概念語義檢索的智能化檢索方式。舉例來說,在基于語義檢索的搜索引擎中搜索“浩克”一詞,搜索引擎不會通過文本的硬性匹配篩選數(shù)據(jù),而是依據(jù)浩克這一實體對應(yīng)的知識,檢索與其相關(guān)的實體知識信息,如班納博士、浩克的身高和體重,以及黑寡婦等復(fù)仇者聯(lián)盟成員等。
此外,語義檢索可以將搜索的多個實體進行組合,并能夠從實體組合中挖掘出更深層次的語義知識。如搜索“浩克”+“黑寡婦”,搜索結(jié)果為浩克的情感狀態(tài);搜索“浩克”+“鋼鐵俠”,搜索結(jié)果大部分為浩克和托尼·史塔克開發(fā)的反浩克裝甲。相較于關(guān)鍵詞檢索中純文本匹配的方式,語義檢索更傾向于通過檢索文本對應(yīng)的知識,從知識庫中檢索出最有可能的結(jié)果。這種基于研究數(shù)據(jù)之間的關(guān)系的信息檢索技術(shù)提高了數(shù)據(jù)檢索能力,增強了自然語言的理解力,提升了查全率,但是也存在檢索速度慢、查詢復(fù)雜、耗費大量人工的缺點。
在本文中,我們了解了信息檢索技術(shù)。它的兩種主流技術(shù)手段分別是關(guān)鍵詞檢索與語義檢索。更加智能化的信息檢索系統(tǒng)模擬人類關(guān)于數(shù)據(jù)處理的思維過程和智能活動,實現(xiàn)知識檢索、表示和推理,還可以為用戶提供智能輔助決策。信息檢索技術(shù)已被廣泛應(yīng)用到電商平臺、新聞資訊、社交媒體、娛樂視頻等軟件中,可以幫助人們快速定位自己需要的信息,給人們的生活帶來了極大便利。