黃燕妮(湖北師范大學(xué) 文學(xué)院,湖北 黃石 435002)
隨著現(xiàn)代計(jì)算機(jī)技術(shù)的應(yīng)用和普及,普通互聯(lián)網(wǎng)用戶在查詢所需要信息的時(shí)候會(huì)使用各種各樣的搜索引擎,這種以數(shù)據(jù)庫為基礎(chǔ)的查詢,可以分為完整查詢和模糊查詢兩種。完整查詢建立在使用精確關(guān)鍵字對全文索引的基礎(chǔ)上,而模糊查詢是用戶可以使用詞語片段作為查詢項(xiàng)目來定位匹配的記錄,也就是一種利用部分參數(shù)查找到相關(guān)數(shù)據(jù)的方法,后臺的程序使用的是SELECT查詢中的LIKE語句。如查詢某個(gè)關(guān)鍵字“張三豐厲害”,可以針對“張三豐”或者“厲害”,或者它們的其它組合比如“厲害張三豐”來查找相關(guān)的數(shù)據(jù)。這種模糊查詢要對全文進(jìn)行索引,不僅耗費(fèi)時(shí)間長,而且查找出來的數(shù)據(jù)準(zhǔn)確率不高,比如“張三厲害”就不符合查詢者原本的要求。
這種模糊查詢和本文所論述的模糊語言查詢是有區(qū)別的,區(qū)別在于:前者的查詢是將關(guān)鍵字拆分,是一種特殊形式的完整查詢;而后者是針對模糊語言本身作出的查詢,是將模糊詞輸入計(jì)算機(jī),賦予計(jì)算機(jī)一種“模糊思維”。計(jì)算機(jī)在運(yùn)算與存儲方面有著人腦不能企及的功能,但是到目前為止卻始終未能代替人腦,其根本原因在于人腦與計(jì)算機(jī)運(yùn)行的機(jī)制具有本質(zhì)區(qū)別,人類語言的模糊性是人類大腦的特有機(jī)能,而計(jì)算機(jī)的運(yùn)行基理是對各種精確數(shù)據(jù)做一些數(shù)學(xué)運(yùn)算,最終得出非此即彼的運(yùn)算結(jié)果。這種矛盾集中體現(xiàn)在了人機(jī)交互接口上,人在輸入計(jì)算機(jī)時(shí)使用了模糊語言比如“厲害”,這是一個(gè)模糊詞,到底什么樣的情況算是“厲害”,什么樣的情況不算是“厲害”,這個(gè)界定就是模糊的,對此計(jì)算機(jī)不能作出判斷,但是又必須要完成已經(jīng)下達(dá)的指令,計(jì)算機(jī)的處理方式是使用全文搜索的模式,查詢到凡是包含“厲害”這個(gè)關(guān)鍵字的數(shù)據(jù)就全部顯示出來,其中卻包括了查詢者認(rèn)為不“厲害”的情況。如何將模糊語言學(xué)的理論運(yùn)用在數(shù)據(jù)庫查詢領(lǐng)域,讓計(jì)算機(jī)的查找結(jié)果更加符合查詢者的心理預(yù)期,同時(shí)從測試結(jié)果上發(fā)掘出對于模糊語言學(xué)研究有用處的數(shù)據(jù),就是我們本文的立論和試圖解決的問題。正如CMU(Carnegie Mellon University卡耐基梅隆大學(xué))在一個(gè)綜合研究計(jì)劃(Aura Project光環(huán)項(xiàng)目)中提出:“在一個(gè)計(jì)算機(jī)系統(tǒng)中,最寶貴的資源將不再是處理器速度、內(nèi)存資源、磁盤空間或是網(wǎng)絡(luò)帶寬,而是人的注意力?!盵1](GARLAN D,et al. 2002)
這種充分強(qiáng)調(diào)人性因素在智能型人機(jī)界面系統(tǒng)中的重要作用,和亞伯拉罕·馬斯洛(Abraham Harold Maslow,1908-1970)的人本主義中心(Anthropologismus)的主張不謀而合。他將動(dòng)機(jī)的出發(fā)點(diǎn)立足于需要上,需要是動(dòng)機(jī)產(chǎn)生的源泉和基礎(chǔ),需要的性質(zhì)、強(qiáng)度決定動(dòng)機(jī)的性質(zhì)和強(qiáng)度。在研究方法上,他主張弱化科學(xué)的研究方法,提出了“整體動(dòng)力論”(后來被稱為“自我實(shí)現(xiàn)論”)的研究方法。Xerox PARC(美國施樂公司)的首席執(zhí)行官馬克·威瑟(Mark Weiser)提出了普適計(jì)算(pervasive computing)的理論,他認(rèn)為:“只有當(dāng)機(jī)器進(jìn)入人們生活環(huán)境而不是強(qiáng)迫人們進(jìn)入機(jī)器世界時(shí),機(jī)器的使用才能像林中漫步一樣新鮮有趣。”[2](Mark Weiser,1991)科學(xué)技術(shù)不再以冷冰冰的面目呈現(xiàn)于人前,不是讓人去被動(dòng)地適應(yīng)、接受它,而是以人為中心,讓機(jī)器圍繞人的需求主動(dòng)地作出符合使用者個(gè)性的判斷并提供服務(wù),使人與計(jì)算環(huán)境自然地融為一體,從而實(shí)現(xiàn)真正意義上的以人為本的生活方式。
為了解決上述問題,我們運(yùn)用模糊語言學(xué)理論,其建立的基礎(chǔ)是美國數(shù)學(xué)家、系統(tǒng)理論家扎德(Lotfi A. Zadeh)的模糊集合理論。扎德從數(shù)學(xué)中的普通集合論中受到啟發(fā),提出了“模糊集合(fuzzy set)”這一概念[3](Information and Control,1965)。在普通集合論中,對于論域u中的一個(gè)子集A,某個(gè)元素u要么屬于A,要么不屬于A,兩者必有其一為真,沒有模棱兩可的情況。普通集合所表達(dá)的概念的內(nèi)涵和外延都是明確的。但現(xiàn)實(shí)生活中大量存在著“亦彼亦此”現(xiàn)象,即元素u在某種程度上屬于A,同時(shí)在某種程度上又不屬于A。這是普通集合論所不能解決的問題,扎德創(chuàng)立的模糊集合論為解釋這種“亦彼亦此”的模糊事物和模糊概念提供依據(jù),他通過量化中間過渡的方式對經(jīng)典集合予以推廣,目的是不脫離集合理論的框架來討論模糊現(xiàn)象。模糊集合的元素不是確定的屬于集合,而是某種程度的屬于集合。屬于集合A的程度可用模糊隸屬度值來表示。模糊集合理論從人類認(rèn)知的一個(gè)顯著性特點(diǎn)——模糊性出發(fā),認(rèn)為人腦所形成的概念多數(shù)沒有明確的外延,承認(rèn)概念之間存在中間過渡性,由此形成模糊推理、模糊判斷和模糊決策等智能系統(tǒng)。扎德認(rèn)為概念可以分為模糊概念和非模糊概念兩大類,模糊集合理論可以用來對自然語言中的模糊性問題進(jìn)行研究。[4]從模糊概念的分類角度來分析,如果把“非模糊”的名稱改為“精確”,把詞分為模糊詞(用來表示模糊概念)和精確詞(用來表示精確概念)兩大類,即“非模糊”是不是就等于“精確”,能不能簡單地套用邏輯學(xué)上的“非真即假”的判斷呢,兩者之間有沒有中間狀態(tài),即無法判斷是模糊的,還是精確的,或者說,有沒有介于模糊和精確之間的情況?我們認(rèn)為從嚴(yán)謹(jǐn)?shù)慕嵌葋碚f,為了突出語言的模糊性特征,將其分類成為模糊詞和非模糊詞更好。因?yàn)槟:侵覆淮_定性、不精確性、不清晰性,與它相對的是確定性、精確性、清晰性。但是不確定性、不精確性、不清晰性不一定是模糊,可能是非模糊(non-fuzziness)的,它可以表現(xiàn)為歧義(ambiguity)、含混(vagueness)、籠統(tǒng)(generality)。
現(xiàn)代的計(jì)算機(jī)查詢,不管是對單個(gè)數(shù)據(jù)庫的查詢,還是面對網(wǎng)絡(luò)的搜索引擎的查詢,文本輸入的條件都是通過關(guān)鍵詞來進(jìn)行查詢,這些關(guān)鍵詞中有許多都是模糊詞語[5](Princeetal,1980)。而計(jì)算機(jī)只能進(jìn)行關(guān)鍵詞的完全匹配或是部分匹配來進(jìn)行處理,得到一些近似的結(jié)果,這些結(jié)果中有很多都是不準(zhǔn)確的,但是人們在計(jì)算機(jī)上做各種查詢之前,總是會(huì)對要尋找的對象有個(gè)清晰或是模糊的認(rèn)識,這種認(rèn)識促使個(gè)人去選擇一些結(jié)果進(jìn)行瀏覽。這些被瀏覽的結(jié)果之間必然有某種“共性”。這種“共性”就是這種認(rèn)識,也就是對關(guān)鍵詞的解析。這樣在輸入的查詢關(guān)鍵詞和瀏覽對象的“共性”之間加入了人的認(rèn)知。如果我們通過某些工具來獲取這種認(rèn)知,那么將能夠統(tǒng)計(jì)和分析人們對關(guān)鍵詞的“解析”情況。同理,如果這些關(guān)鍵詞是模糊詞語,那么我們能夠得到人們對一些模糊詞語的范疇內(nèi)隸屬詞的理解和應(yīng)用,為我們今后對模糊語言的研究提供實(shí)際的對象和數(shù)據(jù)。
為此,我們設(shè)計(jì)了一種基于信息挖掘的模糊語言查詢工具,這里的信息就包含了上述輸入的查詢關(guān)鍵字以及用戶經(jīng)過判斷選取的數(shù)據(jù)。如果查詢關(guān)鍵字是模糊語言詞,則通過對選取數(shù)據(jù)提取共同具有的關(guān)鍵詞,選取這些關(guān)鍵詞中出現(xiàn)次數(shù)最多的幾個(gè)詞,作為該模糊詞的隸屬詞,將隸屬詞與其對應(yīng)的次數(shù)、數(shù)據(jù)保存下來。這些信息不僅可以作為模糊語言庫信息,而且可以作為下一次查詢判斷的依據(jù),來優(yōu)化模糊語言的查詢過程。
這種方法的優(yōu)點(diǎn)首先是在獲取模糊語言研究數(shù)據(jù)的同時(shí),不僅不影響人們能夠完成模糊語言查詢的功能,而且通過歷史搜索與瀏覽信息的挖掘還可以優(yōu)化整個(gè)工具的性能,使模糊語言的方法得到真正的實(shí)用。其次,收集的模糊語言的信息可以直接導(dǎo)入到模糊語言庫中,為采用模糊集的方法對各個(gè)模糊詞范疇的邊界進(jìn)行科學(xué)的分析提供了真實(shí)的數(shù)據(jù)。如果要作為小范圍內(nèi)的科學(xué)實(shí)驗(yàn)的工具,只需在工具中設(shè)定特定的關(guān)鍵詞和被查詢的數(shù)據(jù),然后讓被實(shí)驗(yàn)者來進(jìn)行針對性的查詢。
為了進(jìn)行模糊語言的定量研究,我們設(shè)計(jì)了一種基于信息挖掘的模糊語言查詢工具,本節(jié)將從系統(tǒng)結(jié)構(gòu)、模塊功能、關(guān)鍵索引以及工作流程幾個(gè)方面來詳細(xì)介紹。
1.系統(tǒng)結(jié)構(gòu)
如圖1所示,整個(gè)工具分為兩個(gè)大的模塊:面對用戶的客戶端(例如網(wǎng)絡(luò)瀏覽器)和提供計(jì)算和數(shù)據(jù)的服務(wù)器端。
圖1 系統(tǒng)模塊結(jié)構(gòu)圖
這種結(jié)構(gòu)具有一定的靈活性,一方面因?yàn)槲覀冎皇窃趥鹘y(tǒng)的查詢輸入與結(jié)果瀏覽端增加了一個(gè)模塊。這個(gè)模塊類似一種竊聽裝置,它只有記錄功能,不影響系統(tǒng)功能,因此這種方法適合各種查詢和瀏覽工具。其次,本設(shè)計(jì)并不限定服務(wù)器是在云端還是在本地的數(shù)據(jù)中心。只要是能夠得到查詢與瀏覽結(jié)果之間信息的應(yīng)用場景,都可以采用本設(shè)計(jì)的方法。
這種結(jié)構(gòu)具有一定的可擴(kuò)展性??蓴U(kuò)展性在計(jì)算機(jī)科學(xué)的應(yīng)用領(lǐng)域是指當(dāng)用戶規(guī)?;蚴菙?shù)據(jù)規(guī)模擴(kuò)大以后,這種方法是否還是適用的。如圖1所示,本設(shè)計(jì)的“瓶頸”在三處地方:歷史記錄過濾器、查詢關(guān)鍵字提取與模糊性分析器以及索引結(jié)構(gòu)。這些地方的瓶頸解決方法我們在后面會(huì)一一闡述。
這種結(jié)構(gòu)能夠便于模糊語言學(xué)家的操作。當(dāng)系統(tǒng)安裝成功后,查詢與瀏覽界面并不會(huì)發(fā)生變化。當(dāng)需要導(dǎo)出數(shù)據(jù)時(shí),只需要將模糊語言庫的文件導(dǎo)出,利用數(shù)據(jù)庫查看工具可以進(jìn)行查看或是輸入到普通的文本文件或是excel文件中。這樣便于后續(xù)模糊語言學(xué)家進(jìn)行簡單的處理和分析。
2.模塊功能說明
在客戶端,只需要在常用的瀏覽器上增加一個(gè)模塊“歷史記錄收集器”。歷史記錄收集器主要收集三個(gè)數(shù)據(jù)。第一個(gè)數(shù)據(jù)是用戶輸入的查詢條件,這些查詢條件可能是句子,也可能是用空格分隔的關(guān)鍵詞組。第二個(gè)收集的數(shù)據(jù)是服務(wù)器給用戶選擇的數(shù)據(jù)。這些數(shù)據(jù)有可能是一個(gè)網(wǎng)頁,也有可能是一段文本或數(shù)字型的數(shù)據(jù)。第三個(gè)收集的數(shù)據(jù)是查詢用戶真正的選擇或是瀏覽的數(shù)據(jù)。在本設(shè)計(jì)中實(shí)際上只需要對第一和第三個(gè)數(shù)據(jù)分析。為什么我們還收集第二個(gè)數(shù)據(jù)呢?我們主要基于兩個(gè)考慮。第一個(gè)考慮就是不給客戶端增加計(jì)算量,盡量減少對用戶機(jī)器的影響,將過濾計(jì)算放到服務(wù)器端。第二個(gè)考慮就是如果我們額外的收集第二個(gè)數(shù)據(jù),我們可以分析現(xiàn)有計(jì)算機(jī)對模糊語言的認(rèn)識與人對模糊語言的認(rèn)識之間的差異性,可能會(huì)導(dǎo)致產(chǎn)生新的研究領(lǐng)域和方法。
在服務(wù)器端包括七個(gè)模塊和一個(gè)數(shù)據(jù)庫,歷史記錄過濾模塊主要是過濾上述收集的第二種數(shù)據(jù)以及第三種數(shù)據(jù)中與查詢關(guān)鍵詞完全不相關(guān)的瀏覽記錄或數(shù)據(jù)。例如用戶點(diǎn)擊了“下一頁”按鈕出來的第二頁顯示結(jié)果的頁面,這個(gè)頁面是不需要進(jìn)一步進(jìn)行分析的數(shù)據(jù),需要過濾掉,因此在這個(gè)模塊中會(huì)定義一些特殊的規(guī)則來過濾這些不相關(guān)的數(shù)據(jù)。因?yàn)樗惺占臍v史記錄都需要經(jīng)過過濾器來過濾,過濾通常需要進(jìn)行對比,而這種對比在計(jì)算機(jī)中具有很大的計(jì)算量。這將成為系統(tǒng)的一個(gè)瓶頸,為此,我們的處理是在系統(tǒng)實(shí)現(xiàn)時(shí)采用多個(gè)過濾器來進(jìn)行分析,甚至于可以采用專門的計(jì)算機(jī)來進(jìn)行過濾操作。
模糊集隸屬度分析器主要完成三個(gè)功能:第一個(gè)功能是提取查詢條件中的關(guān)鍵詞。如果用戶輸入了一段話作為查詢條件,分析器首先應(yīng)該提取一些特殊的詞作為關(guān)鍵詞,如名詞、動(dòng)詞等。第二個(gè)功能是分析用戶真正瀏覽或使用數(shù)據(jù)的共同特性,采用的方法是統(tǒng)計(jì)這些數(shù)據(jù)之中相同的單詞或數(shù)據(jù)項(xiàng)的個(gè)數(shù)。例如,關(guān)鍵詞中包含“鳥”這個(gè)詞。我們統(tǒng)計(jì)張三這個(gè)用戶在這次查詢中瀏覽的3個(gè)網(wǎng)頁中,包含“知更鳥”的網(wǎng)頁有2個(gè),包含“雞”的網(wǎng)頁有1個(gè)。第三個(gè)功能是將這些分析出來的數(shù)據(jù)發(fā)送給索引結(jié)構(gòu)和模糊語言庫。
基于模糊語言隸屬度的關(guān)鍵字索引結(jié)構(gòu)是本文設(shè)計(jì)的重點(diǎn)。當(dāng)查詢條件中的關(guān)鍵字是模糊語言時(shí),主要通過對被查詢集合的數(shù)據(jù)進(jìn)行索引來加快查詢過程和提供查詢準(zhǔn)確度。對于每一個(gè)模糊單詞我們都建立了一個(gè)模糊集合來存儲對應(yīng)范疇內(nèi)的所有隸屬詞,每一個(gè)隸屬詞都具有對應(yīng)的瀏覽次數(shù)。如果是某一個(gè)用戶的統(tǒng)計(jì)次數(shù),這個(gè)數(shù)值反映了這個(gè)用戶對某一模糊詞與其某一項(xiàng)隸屬詞的隸屬度的見解。如果是所有用戶的統(tǒng)計(jì)次數(shù),這個(gè)數(shù)值就反映了所有使用過這個(gè)模糊詞的范疇的認(rèn)識。這一部分的內(nèi)容將在稍后作詳細(xì)論述。
查詢關(guān)鍵字提取與模糊性分析器主要是對查詢進(jìn)行一個(gè)分類。首先對用戶輸入的查詢條件提取關(guān)鍵字,然后根據(jù)關(guān)鍵字的模糊性將查詢分為模糊語言查詢和非模糊語言查詢兩種方式。如果所有的關(guān)鍵字都是特指,則將執(zhí)行非模糊語言查詢,否則將執(zhí)行另一個(gè)?!疤刂浮笔侵柑囟ǖ木唧w的事物名稱,如知更鳥、楊樹、廬山、黃海等。不能特指的詞有名詞以及形容詞等,例如狗、小、大、堆等。非模糊語言查詢處理器根據(jù)關(guān)鍵詞將在被查數(shù)據(jù)集中進(jìn)行匹配操作得到精確或是部分匹配的查詢結(jié)果,然后將結(jié)果發(fā)送到服務(wù)器端的查詢與瀏覽接口。模糊語言查詢處理器得到查詢關(guān)鍵字后利用索引結(jié)構(gòu)進(jìn)行查詢,然后將結(jié)果同樣發(fā)送到服務(wù)器端的查詢與瀏覽接口。
服務(wù)器端的查詢與瀏覽接口主要是在服務(wù)器中負(fù)責(zé)與客戶端的通訊。模糊語言庫主要是存儲各個(gè)模糊詞及其對應(yīng)的范疇,數(shù)據(jù)來源于模糊集隸屬度分析器,在系統(tǒng)中為查詢關(guān)鍵字的模糊性分析提供參考。
3.索引結(jié)構(gòu)
為了讓讀者明晰地了解基于模糊語言隸屬度的關(guān)鍵字索引結(jié)構(gòu)的內(nèi)部設(shè)計(jì),在本節(jié)中將詳細(xì)地利用實(shí)例與圖來闡述。假設(shè)我們在某一個(gè)網(wǎng)絡(luò)搜索引擎的基礎(chǔ)上添加了一些表格,可以實(shí)現(xiàn)模糊語言的查詢功能,如圖2所示。主要的索引結(jié)構(gòu)包含兩個(gè)信息塊:
第一個(gè)信息塊是模糊語言庫信息。這部分包含了兩個(gè)表:表1為模糊詞表,包括三列屬性:第一列“模糊詞”存儲了模糊單詞。第二列“行號”不僅表示該模糊詞在表2中連續(xù)占有多少行,而且反映了在這個(gè)模糊詞的范疇內(nèi)有多少種隸屬詞。第三列“行號”存儲了該模糊詞在表2中的起始行號。表2為范疇表,存儲了所有模糊詞范疇內(nèi)的所有隸屬詞。第一列“隸屬詞”存儲了隸屬詞的名稱;第二列“過濾器”采用了Bloomfilter[6](Rottenstreich,Ori,et al. 2012)過濾的算法得到一個(gè)字符串詞,通過這個(gè)字符串可以判斷某一個(gè)用戶是否采納過該隸屬詞的理解和應(yīng)用;第三列“行數(shù)”反映了在表3中連續(xù)幾行存儲了用戶對該隸屬詞的應(yīng)用信息;最后一列“行號”指明在表3中存儲了用戶瀏覽信息的起始行數(shù)。這兩個(gè)表存儲了在用戶利用該查詢工具時(shí)對模糊語言的認(rèn)識,可以用來作為模糊語言研究者的研究對象。
圖2 索引結(jié)構(gòu)示例圖
第二個(gè)信息塊存儲了用戶瀏覽的歷史記錄。為了便于模糊語言學(xué)研究者的研究,本設(shè)計(jì)將每個(gè)用戶的瀏覽記錄做了分開存儲。表3是用戶瀏覽表,存儲了用戶對一模糊詞的范疇內(nèi)的某一個(gè)隸屬詞的瀏覽情況。第一列為用戶的姓名;第二列為用戶瀏覽的次數(shù);第三列為用戶瀏覽了表4中哪些行記錄的數(shù)據(jù)。次數(shù)將大于等于行號,因?yàn)橛锌赡苡脩舳啻卧L問同一個(gè)表4記錄的數(shù)據(jù)。表4為數(shù)據(jù)表,記錄了用戶訪問過的數(shù)據(jù)。在本示例中,這些數(shù)據(jù)為一些網(wǎng)址,表明用戶訪問過這些網(wǎng)站。在這個(gè)信息塊中的表4將隨著用戶瀏覽次數(shù)的增加而增大。如果為了性能,可以將它們存儲到新型存儲器件SSD中。如果存儲在硬盤中,將會(huì)影響系統(tǒng)查詢性能。
4.工作流程
在本小節(jié)中結(jié)合圖1的結(jié)構(gòu)圖和圖2示例,簡要介紹基于歷史數(shù)據(jù)的挖掘,系統(tǒng)是如何查詢數(shù)據(jù),并提高查詢速度的。
假設(shè)用戶張三在客戶端的查詢與瀏覽界面輸入的查詢條件中含有“鳥”這個(gè)模糊詞,并且張三從來沒有瀏覽過除了“鳥”的范疇內(nèi)隸屬詞“雞”以外的信息。首先歷史記錄收集器會(huì)收集到這個(gè)查詢條件,然后將查詢條件發(fā)送給服務(wù)器端的查詢與瀏覽接口。該接口接收到查詢請求后,將查詢條件送到查詢關(guān)鍵字提取與模糊性分析器中。該分析器會(huì)提取查詢條件中的所有單詞,然后分析這些詞中哪些是關(guān)鍵字,發(fā)現(xiàn)“鳥”這個(gè)詞也是一個(gè)查詢關(guān)鍵字。最后通過模糊性分析發(fā)現(xiàn)“鳥”為模糊詞,判斷該查詢?yōu)槟:Z言查詢,將查詢條件發(fā)送給模糊語言查詢處理器。
模糊語言查詢處理器得到所有關(guān)鍵字后,將模糊關(guān)鍵字送入基于模糊語義隸屬度的關(guān)鍵字索引結(jié)構(gòu)中去做查詢,而將非模糊關(guān)鍵字在數(shù)據(jù)集中做普通查詢。索引結(jié)構(gòu)得到模糊詞“鳥”后,在表1中查詢可知,這個(gè)詞包含了4個(gè)隸屬詞,并得到表2的起始行號為“1001”。通過該行號我們可以在表2中得到4個(gè)隸屬詞的過濾器,因?yàn)橛脩魪埲龔膩頉]有瀏覽過除了“鳥”的范疇內(nèi)隸屬詞“雞”以外的信息,所有通過bloomfilter過濾器計(jì)算只有“雞”對應(yīng)的瀏覽記錄中有用戶張三。因此通過“BF2”得到該隸屬詞對應(yīng)的用戶瀏覽表的起始地址“32”和行數(shù)“3”。然后在表3中從起始地址“32”起3行內(nèi)找到張三對應(yīng)的行。然后得知張三瀏覽過2次含有隸屬詞“雞”的信息,并發(fā)現(xiàn)是表4中第1行和第3行存儲的網(wǎng)址。然后模糊語言查詢處理器將這兩個(gè)網(wǎng)址同其它非模糊詞查詢到的網(wǎng)站進(jìn)行合并得到用戶張三最有可能訪問的網(wǎng)頁地址,然后發(fā)送給服務(wù)器端的查詢與瀏覽接口,再由該接口將查詢結(jié)果返回給用戶張三。
張三的客戶端歷史記錄收集器也將記錄這個(gè)返回結(jié)果,然后將它傳給客戶端的查詢與瀏覽界面顯示出來供張三進(jìn)行選擇查看。如果張三選擇了點(diǎn)擊某些網(wǎng)頁后,完成了該詞查詢,那么查詢過程就此完成,而歷史記錄收集器將收集該信息,將收集到的所有信息傳遞到服務(wù)器端的歷史記錄過濾器,由過濾器過濾不太相關(guān)的網(wǎng)頁,然后將相關(guān)的網(wǎng)頁發(fā)送給模糊集隸屬度分析器來分析哪些頁面是與模糊詞“鳥”相關(guān)的,如果這些頁面中有了新的共性詞,將該詞作為“鳥”的新的隸屬詞加入到表2中,并修改索引結(jié)構(gòu)中需要調(diào)整的所有表格,當(dāng)調(diào)整完成后,本次查詢帶來的所有操作都結(jié)束了。
通過這個(gè)工具,研究人員不僅可以獲得一個(gè)日常使用的模糊語言的隸屬度,而且可以結(jié)合各個(gè)用戶的歷史記錄來分析以人本為中心的各個(gè)模糊語言的隸屬度。但是,這個(gè)系統(tǒng)還是一個(gè)比較粗糙的原型,在這個(gè)原型的基礎(chǔ)上,我們未來還將有一些新的思考和改進(jìn)。在此詳細(xì)闡述一下,以期得到大家共同的思索和指正。
首先,在查詢條件的各個(gè)關(guān)鍵字之間存在一定的潛在關(guān)系會(huì)影響查詢的結(jié)果,例如,我們輸入的查詢條件是“一堆稻谷的圖片”和“一堆木箱的圖片”。如果我們將“堆”的數(shù)目(number)與第二個(gè)關(guān)鍵詞(“稻谷”或”木箱”)進(jìn)行分離查詢,將會(huì)得到過多的中間結(jié)果,影響系統(tǒng)的性能。這也說明在各種語用場景中即使是同一個(gè)模糊詞語也會(huì)帶來不同的影響。因此,在未來工作中需要將輸入的查詢條件中的各個(gè)關(guān)鍵詞,不管是模糊詞語還是非模糊詞語都結(jié)合起來,通過挖掘它們之間的關(guān)系來優(yōu)化系統(tǒng)的設(shè)計(jì)。
其次,對于系統(tǒng)的性能來說,從計(jì)算機(jī)科學(xué)的現(xiàn)有研究來說,在語言研究方面的定量分析工具絕大部分采用了數(shù)據(jù)庫的存儲和索引方式,這對于系統(tǒng)的可擴(kuò)展性有很大的限制性。例如,當(dāng)工具涉及的數(shù)據(jù)庫越來越多,執(zhí)行一個(gè)常用的JOIN命令可能需要幾十分鐘,會(huì)嚴(yán)重限制工具的可用性,更何況是想要在提供用戶特定功能的同時(shí)還要收集可供自己研究的數(shù)據(jù),系統(tǒng)性能方面更需要利用計(jì)算機(jī)科學(xué)的最新方法。例如在上文中的表1。實(shí)際上我們可以采用LSH(Locality sensitive hashing)的索引方式[7](Pauleve,L. 2010)來索引和查詢,每次只用執(zhí)行一次KEY的計(jì)算操作就可以了,而不用在數(shù)據(jù)庫中去進(jìn)行字符串匹配操作。這樣,我們可能會(huì)在未來對系統(tǒng)的實(shí)現(xiàn)方面進(jìn)行優(yōu)化,以期得到更高的性能。
再次,在本設(shè)計(jì)中并沒有強(qiáng)制性地規(guī)定什么樣的詞是模糊詞,也沒有預(yù)先定義一個(gè)模糊詞的庫,而是采用粗淺的“是否是指定”的判斷,只有當(dāng)系統(tǒng)運(yùn)行一段時(shí)間,收集到一定量的模糊詞后才能優(yōu)化系統(tǒng)的查詢功能。因此,我們希望能夠通過更深入的模糊詞義的學(xué)習(xí),來找到或是構(gòu)造一個(gè)初步的模糊詞的庫,然后通過本系統(tǒng)來對這個(gè)庫進(jìn)行擴(kuò)展。最后將這個(gè)庫能夠公布出來,將得到的新的認(rèn)識和規(guī)則來豐富和精煉這個(gè)模糊詞集,方便我們所有相關(guān)研究人員的研究。
湖北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2020年3期