【摘 要】隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,并逐步向社會(huì)各個(gè)領(lǐng)域滲透,各行各業(yè)都開始使用網(wǎng)絡(luò)來獲取和發(fā)送信息。育兒領(lǐng)域也是如此,越來越多的育兒信息用戶選擇利用網(wǎng)絡(luò)來獲得育兒信息支持。面對(duì)豐富而繁雜的網(wǎng)絡(luò)育兒資源,育兒用戶驚喜和無奈并存,驚喜的是網(wǎng)絡(luò)育兒資源豐富而全面,無奈的是查找總是很麻煩。如何有效地整合這部分資源,為廣大育兒信息用戶提供方便?搜索引擎技術(shù)發(fā)展了十幾年,已經(jīng)漸趨成熟和完善,垂直搜索技術(shù)業(yè)已開始深入到各行各業(yè),并取得成功的應(yīng)用;育兒領(lǐng)域至今還沒有出現(xiàn)任何類型的專業(yè)搜索引擎,廣大的用戶群體都在期待著能有一個(gè)專業(yè)而實(shí)用的垂直搜索引擎幫助他們獲取所需要的信息。本文作者采用成熟的技術(shù)和一些開源代碼構(gòu)建了一個(gè)垂直育兒搜索引擎模型,希望拋磚能夠引玉,引起廣大同行的注意。
【關(guān)鍵詞】搜索引擎;垂直搜索引擎
1.垂直育兒搜索引擎開發(fā)工具組件
本搜索引擎系統(tǒng)主要由搜集子系統(tǒng)、檢索子系統(tǒng)和查詢子系統(tǒng)三大部分構(gòu)成,運(yùn)用.NET平臺(tái)和SQLServer2008大型數(shù)據(jù)庫、開源Lucene.Net軟件、開源盤古中文分詞等技術(shù)實(shí)現(xiàn),具備垂直搜索引擎的完整結(jié)構(gòu)和功能。其內(nèi)核部分包括:抓取程序、分詞程序、索引程序、檢索程序等。
本系統(tǒng)開發(fā)的硬件和軟件環(huán)境如下:
硬件環(huán)境:CPU類型P4,內(nèi)存1GB。
操作系統(tǒng):Windows SP2
Web服務(wù)器:IIS 6.0
數(shù)據(jù)庫系統(tǒng):SQL Server 2008
開發(fā)工具:visual studio 2008
本系統(tǒng)中有些模塊是參考了開源代碼以后,在此基礎(chǔ)上進(jìn)行改造的,具體包括:
本文的抓取程序Crawl參照My Downloader運(yùn)用.Net平臺(tái)C#語言開發(fā)
本文的分詞程序PanGu.Lucene.Analyzer運(yùn)用PanGu分詞組件和Lucene.Net分詞技術(shù)開發(fā)。
本文的索引、檢索程序采用Lucene.Net的框架,利用C#語言開發(fā)。
2.垂直育兒搜索引擎的資源抓取
2.1 育兒資源發(fā)現(xiàn)
這是為垂直育兒搜索引擎提供數(shù)據(jù)來源的保證,尋找符合育兒主題的資源網(wǎng)站和網(wǎng)頁地址,能有效提高垂直育兒搜索引擎的數(shù)據(jù)收錄情況。要完成育兒資源的定題搜索和下載,有兩種途徑:一是給定URL,人工控制下載;二是通過給定育兒類關(guān)鍵詞,對(duì)錨文本進(jìn)行判斷,判斷它是否是此類網(wǎng)站,然后進(jìn)行下載。本文用第一種途徑,歷經(jīng)2年的時(shí)間,手動(dòng)完成國內(nèi)育兒類網(wǎng)址的遍歷,基本上保證了所收集的育兒類網(wǎng)站都是專業(yè)和穩(wěn)定的。
本文的初始育兒資源發(fā)現(xiàn)策略有:
利用網(wǎng)址導(dǎo)航。
網(wǎng)址導(dǎo)航能較集中地提供部分育兒類網(wǎng)址,把每個(gè)網(wǎng)址導(dǎo)航里的育兒網(wǎng)址記錄下,綜合后去重,得到部分育兒URL列表。
利用通用搜索引擎。
用育兒、寶寶、0-3歲、0-6歲等作為關(guān)鍵詞在多個(gè)通用搜索引擎上搜索,集中抽取育兒URL,得到部分育兒URL列表。
利用web2.0育兒社區(qū)、育兒博客。
有些網(wǎng)友總結(jié)出來的“育兒網(wǎng)址大全”,也都很好,分析之后,得到部分育兒URL列表。
通過權(quán)威育兒網(wǎng)站的超鏈接。
權(quán)威的專業(yè)育兒網(wǎng)站頁面上的網(wǎng)址列表,都是比較穩(wěn)定的育兒類網(wǎng)站的URL。
2.2 育兒專題信息抓取
本抓取程序Crawl是參照My Downloader
在.Net平臺(tái)上運(yùn)用C#語言開發(fā)的[1]。My Downloader是由由巴西人Guiherme Labiqalini編寫的C#語言類下載程序,可支持多線程、可控制、可分段下載。My Downloader的主要特點(diǎn)入下:
它可以給定站點(diǎn)下載。即通過界面,你可以手動(dòng)輸入一個(gè)網(wǎng)站地址,讓它整站地下載這一網(wǎng)站內(nèi)的所有資源。
它可以批量導(dǎo)入站點(diǎn)地址下載。通過本地文本文件或者HTML格式的文件,可以批量導(dǎo)入一些網(wǎng)址,供它一個(gè)網(wǎng)站一個(gè)網(wǎng)站地下載。
它可指定媒體類型下載??赏暾螺d整個(gè)網(wǎng)頁的內(nèi)容也可只下載單獨(dú)媒體形式的內(nèi)容,比如只下載圖片,只下載mp3,只下載視頻,只下載文本等。
網(wǎng)絡(luò)育兒資源蜘蛛程序的抓取過程截如圖1所示。
下載的資源以文件的形式存放在指定的文件夾下如下圖2所示,這些文件是生成檢索返回記錄:摘要、網(wǎng)頁快照、超鏈網(wǎng)址的基礎(chǔ)資料。如果抓取器跟索引器鏈接起來以后,是一邊下載一邊索引的,我們便看不到這些文件了。
3.育兒網(wǎng)頁內(nèi)容的分析
我們主要抽取4部分信息:head、title、body、href。其中head中的內(nèi)容是決定title中關(guān)鍵詞權(quán)值的。title起著概括全篇的作用,有研究表明97.8%網(wǎng)頁,其title中的關(guān)鍵詞就是本網(wǎng)頁內(nèi)容的關(guān)鍵詞[2]。body里面是網(wǎng)頁的基本內(nèi)容,其中也有一些重要的關(guān)鍵詞可以利用。href是超鏈接,對(duì)它的分析為蜘蛛的下一步抓取提供URL。
解析的過程如下(如圖3):
1)讀入一個(gè)html文檔,以“<”和“>”為分隔符分割文檔內(nèi)容。
2)去掉文檔中標(biāo)點(diǎn)符號(hào)、空格等無用內(nèi)容和tags標(biāo)記。
3)提取文檔中head、title、body、href等內(nèi)容,形成純文本本文件。
解析完成以后,直接導(dǎo)入數(shù)據(jù)庫,便于調(diào)用分詞器分詞,也便于索引器提取數(shù)據(jù)進(jìn)行索引。建立數(shù)據(jù)庫和特征向量,根據(jù)特征向量把各項(xiàng)內(nèi)容導(dǎo)入數(shù)據(jù)庫,導(dǎo)入數(shù)據(jù)庫后的各項(xiàng)內(nèi)容存儲(chǔ)情況如圖4所示:
4.育兒分詞的實(shí)現(xiàn)
育兒網(wǎng)頁的索引和檢索使用Lucene的框架,為了進(jìn)一步提高結(jié)果質(zhì)量,需要使用中文分詞組件,比較幾個(gè)開源的c#中文分詞程序后,選定用盤古分詞程序[3],作為本文的分詞主程序。一是因?yàn)長ucene和盤古分詞程序能夠很好地對(duì)接起來,二是盤古分詞程序詞典的導(dǎo)入和導(dǎo)出很好控制,適于構(gòu)建專業(yè)育兒分詞詞典。
4.1 育兒詞表的構(gòu)建
專業(yè)詞表對(duì)垂直搜索引擎來說非常重要,有了它才能讓搜集和檢索更加精確。參照松田道雄的《育兒百科》[4]、王琪的《育兒百科》[5]、路云的《育兒百科》[6],以及一些育兒網(wǎng)頁的關(guān)鍵詞,結(jié)合育兒用戶群體的用詞習(xí)慣,完成了本育兒詞表的収詞與構(gòu)建。本育兒詞表収詞的范圍從以下幾個(gè)方面確定:孕前準(zhǔn)備,孕、產(chǎn)婦營養(yǎng)與照顧,嬰幼兒喂養(yǎng)與照顧,嬰幼兒教育與培養(yǎng),嬰幼兒疾病,嬰幼兒吃、穿、玩具、書籍等商品,孕、產(chǎn)婦使用的商品。
由于本育兒詞表在収詞與構(gòu)建的過程中沒有結(jié)合育兒專家一起完成,從収詞范圍到収詞規(guī)則等可能都待進(jìn)一步的規(guī)范。但是通過切詞試驗(yàn)和檢索試驗(yàn)證明,這種方法是可取的,在支持育兒信息用戶網(wǎng)絡(luò)育兒資源檢索方面能起到很好的作用。
4.2 育兒分詞詞典的添加
在盤古分詞詞典里,刪除原有的詞表,導(dǎo)入育兒詞表,然后設(shè)置專業(yè)育兒詞匯的詞頻。這樣育兒詞典就構(gòu)建成了,能保證了育兒資源分詞的準(zhǔn)確性和專業(yè)性,為檢索和查詢墊下良好的基礎(chǔ)。
用典型例子來檢查一下專業(yè)育兒詞典的準(zhǔn)確性:
用“寶寶”作為檢索詞,原有的盤古分詞詞典里相應(yīng)的匹配詞有:寶寶、乖寶寶、小寶寶、蠶寶寶,如圖5所示。
刪除盤古系統(tǒng)原有的詞表,導(dǎo)入的專業(yè)育兒詞表,假設(shè)育兒詞表里共有如下這些詞:寶寶、寶寶感冒、寶寶發(fā)燒、寶寶拉肚子、寶寶洗澡、寶寶的書、寶寶奶粉、寶寶輔食、寶寶衣服、寶寶玩具、寶寶嘔吐、寶寶上幼兒園、寶寶看的動(dòng)畫片等,則相應(yīng)的匹配如圖6所示。
實(shí)驗(yàn)結(jié)果明顯地顯示出:在育兒詞匯的數(shù)量上,專業(yè)育兒詞典要多于普通詞典;在育兒詞匯的精確程度上,專業(yè)育兒詞典要好于普通詞典。
實(shí)驗(yàn)結(jié)論:因?yàn)橥ㄓ迷~典按照通用詞匯標(biāo)準(zhǔn)收集詞匯,沒有按照育兒專業(yè)標(biāo)準(zhǔn)收集育兒詞匯,注重的是詞匯收集的全面性。而專業(yè)育兒詞典則會(huì)結(jié)合育兒專家,制定專業(yè)的、系統(tǒng)的育兒詞匯收集標(biāo)準(zhǔn),按照育兒專業(yè)標(biāo)準(zhǔn)收集詞匯。這樣就能把育兒詞匯收集的更加專業(yè)、精細(xì)、全面、規(guī)則,育兒詞表的質(zhì)量也就可以得到切實(shí)保證的。
4.3 育兒分詞器的匹配規(guī)則
如果用戶檢索的時(shí)候輸入:寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦?育兒分詞系統(tǒng)會(huì)準(zhǔn)確地識(shí)別出“寶寶拉肚子”。查詢系統(tǒng)都會(huì)準(zhǔn)確地為他找到與“寶寶拉肚子”、相關(guān)的內(nèi)容,不會(huì)把所有與“寶寶”有關(guān)的內(nèi)容全檢索出來。
本切詞系統(tǒng)采用的是基于詞庫匹配的正向最大匹配算法(通常簡稱為MM法)。其基本思想為:設(shè)D為詞典,MAX表示D中的最大詞長,str為待切分的字串。MM法是每次從str中取長度為MAX的子串與D中的詞進(jìn)行匹配。若成功,則該子串為詞,指針后移MAX個(gè)漢字后繼續(xù)匹配,否則子串逐次減一進(jìn)行匹配。主要切詞過程如圖7所示。
讀取詞庫,并讀取相應(yīng)的靜態(tài)索引,建立詞庫上的索引。
讀取待切分的字串str。
匹配過程。
從待切分字串中取出一個(gè)長度為MAX的子串,到詞典中去匹配,若匹配成功則取下一個(gè)長度為MAX的子串進(jìn)行匹配,否則將子串從后面截去一個(gè)字后繼續(xù)匹配,直到匹配成功或者子串中只有一個(gè)字為止。若匹配成功則從匹配成功的詞的位置開始再截取下一長度為MAX的子串進(jìn)行匹配,依次循環(huán)直到將字符串匹配完為止。
4.4 育兒分詞庫的組織結(jié)構(gòu)
整個(gè)分詞過程實(shí)際上就是在詞表上查找匹配過程,所以詞庫的組織結(jié)構(gòu)很重要。詞表存放在一個(gè)文本文件里,每一個(gè)詞條由兩項(xiàng)組成,一個(gè)是詞的ID、另一個(gè)就是詞本身。詞表都有一個(gè)靜態(tài)索引,分詞是利用三級(jí)索引對(duì)詞表進(jìn)行分組管理的,如圖8所示。首先對(duì)詞條按字?jǐn)?shù)分組,字?jǐn)?shù)相同的詞條放在同一組里,然后對(duì)詞條按首漢字的內(nèi)碼從小到大排序,這就形成一級(jí)索引。一級(jí)索引是加在各個(gè)分組上,它記錄了各分組的開始位置,再根據(jù)下一分組的起始位置確定當(dāng)前分組的終止位置。二級(jí)索引是加在一級(jí)索引內(nèi)部的,在同一組內(nèi)部由于有很多的詞條,二級(jí)索引是按詞的首漢字內(nèi)碼建立的,它加在以不同漢字開頭的詞條組中,這樣通過三級(jí)索引可以進(jìn)一步縮小查找范圍。另外在漢字中以有些字開頭的詞條過多,這樣進(jìn)行匹配的次數(shù)過多,不利于提高匹配速度。因而在二級(jí)索引的基礎(chǔ)之上添加一個(gè)三級(jí)索引,它是按照一定的密度間隔添加,本文設(shè)定了一個(gè)默認(rèn)值是每隔50個(gè)詞條添加一個(gè)三級(jí)索引,同樣三級(jí)索引也是根據(jù)漢字內(nèi)碼添加的(三級(jí)索引和二級(jí)索引的定義相同)。
匹配的時(shí)候,首先根據(jù)字串長度(字?jǐn)?shù))確定一級(jí)索引,也就是確定分組。這個(gè)過程采用Hash函數(shù),根據(jù)字串長度直接定位到相應(yīng)的一級(jí)索引組中去。確定了分組后再根據(jù)首漢字的內(nèi)碼確定二級(jí)索引,找到以后再確定三級(jí)索引,這樣將進(jìn)行匹配的過程縮小到一個(gè)很小的范圍,可以縮小進(jìn)行匹配的詞條集,提高分詞的效率。
4.5 切分效果的檢查
用典型例子檢查一下本文育兒分詞的準(zhǔn)確性:把這樣一段文字:寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦,輸入分詞系統(tǒng),切分的效果圖9所示。用通用詞典來切分這段文字,效果如圖10所示。
像“寶寶拉肚子”這樣的檢索詞在普通詞表里是“寶寶”和“拉肚子”兩個(gè)詞,在育兒詞表里它會(huì)自動(dòng)把“寶寶”這個(gè)高頻詞轉(zhuǎn)換成限定詞,緊接在“寶寶”后面的便是核心檢索詞,索引與檢索匹配的時(shí)候都會(huì)首先根據(jù)核心詞來。育兒詞表只收錄有關(guān)0-6歲嬰幼兒孕育、培養(yǎng)和撫育等方面的詞匯,又充分考慮了育兒信息用戶的用詞習(xí)慣,用它來切分檢索詞就不容易造成歧義和擴(kuò)檢現(xiàn)象的產(chǎn)生,能保證了檢索結(jié)果的準(zhǔn)確度。
5.垂直育兒搜索引擎的索引器建立
索引和檢索模塊采用的是Lucene的技術(shù)框架[7]。Lucene本身是一個(gè)全文檢索系統(tǒng),它有一個(gè)性能良好使用方便的索引器,可以直接使用。LuceneC++版的全文檢索引擎,完全移植于Lucene。Lucene有專門的API實(shí)現(xiàn)索引的建立和管理功能,能處理數(shù)據(jù)庫的記錄。索引后的數(shù)據(jù)以文件的形式存儲(chǔ),不依賴于數(shù)據(jù)庫或者特定的平臺(tái)。對(duì)于新加入的索引,可以通過索引合并,加入到整體索引中去,實(shí)現(xiàn)索引數(shù)據(jù)庫的更新。
5.1 生成索引的上下文環(huán)境
通過正則表達(dá)式解析后的網(wǎng)頁內(nèi)容存入數(shù)據(jù)庫,其實(shí)就是通常所說的中間格式。用Lucene的索引器提取數(shù)據(jù)庫里的各項(xiàng)內(nèi)容,根據(jù)規(guī)定的索引項(xiàng)生成索引文件,再存入索引數(shù)據(jù)庫。索引生成器工作的上下文環(huán)境如圖11所示
5.2 構(gòu)建Lucene育兒索引器的過程
配置索引器
IndexWriter是創(chuàng)建與更新索引數(shù)據(jù)的類,首先需對(duì)它初始化。設(shè)置索引存放的路徑、分析器、是否重新創(chuàng)建索引。然后調(diào)用addDocument方法和盤古育兒分詞組件,實(shí)現(xiàn)對(duì)每個(gè)文檔(即文檔數(shù)據(jù)庫里每條記錄)的分詞和正排索引??赏ㄟ^重復(fù)執(zhí)行addDocument方法,向正排索引添加文檔(Document)。然后調(diào)用IndexBuilder方法生成倒排索引文件和索引字典。調(diào)用Optimize方法對(duì)索引進(jìn)行優(yōu)化,最后需執(zhí)行close方法關(guān)閉索引。
倒排索引生成的內(nèi)部過程
1)打開文本數(shù)據(jù)庫。
2)抽取text項(xiàng)。text項(xiàng)就是網(wǎng)頁head、body等里的內(nèi)容,是一些純文本內(nèi)容。調(diào)用盤古育兒分詞組建,對(duì)這些文本進(jìn)行分詞。
3)給數(shù)據(jù)庫添加一列名為“keywords”的記錄,切分后的詞存入keyword相應(yīng)的行內(nèi)。
4)根據(jù)keywords項(xiàng),生成數(shù)據(jù)庫中每條記錄的正排索引。
5)抽取keywords項(xiàng),合并不同條記錄(不同文檔)重復(fù)的關(guān)鍵詞,生成倒排索引和索引字典。
索引的流程
程序首先確定索引的存放目錄和待索引的目錄,然后生成本地磁盤索引,準(zhǔn)備添加數(shù)據(jù)。讀取數(shù)據(jù)庫中的文件信息,分析文本文件并使用內(nèi)存索引進(jìn)行索引,內(nèi)存索引添加到本地磁盤索引中。對(duì)子目錄一個(gè)個(gè)遍歷,直到全部完成。索引完成,關(guān)閉索引器。索引流程如圖12所示:
6.垂直育兒搜索引擎的檢索器構(gòu)建
通過第四章第六部分分析的檢索基本原理表明,一個(gè)有效的檢索器需要具備:檢索詞的分析功能、索引文件的訪問和查詢功能、檢索結(jié)果的獲取和排序功能。這些功能在Lucene中,都是通過封裝的API和相應(yīng)的類來提供的。為了方便使用和二次開發(fā)的需要API的接口都很容易上手。通過集合核心類和一些操作,就能實(shí)現(xiàn)各種查詢和檢索功能。
構(gòu)建Lucene育兒檢索器的基本步驟為:
1)初始化IndexSearcher。IndexSear-
cher為檢索類,首先對(duì)其初始化,設(shè)置索引存放的路徑。
2)構(gòu)建Query對(duì)像。Query對(duì)像用來確定檢索表達(dá)式,構(gòu)造查詢請求。Query包含TermQuery(搜索的關(guān)鍵詞存儲(chǔ))、BooleanQuery(搜索的“與或”邏輯存儲(chǔ))、PhraseQuery(搜索的多關(guān)鍵詞保存)等子類。
3)調(diào)用IndexSearcher。IndexSear-
cher的Search方法根據(jù)Query提交的檢索表達(dá)式進(jìn)行查詢。
4)Hits類。檢索結(jié)果以數(shù)組集合的形式存放于Hits類對(duì)象中,length方法返回結(jié)果數(shù),doc(n)返回第n個(gè)文檔,循環(huán)使用即可遍歷所有查詢結(jié)果。
檢索的基本調(diào)用流程如圖16所示。
7.垂直育兒搜索引擎客戶端檢索界面的建立
檢索界面獲取用戶查詢式,通過Form輸入的查詢語句,調(diào)用切詞程序切分以后,封裝發(fā)送給檢索器。然后將從檢索器獲取的檢索結(jié)果:文檔標(biāo)題、路徑等記錄,分條、分頁在客戶端頁面顯示給用戶。本育兒搜索引擎客戶端檢索界面使用ASP.NET實(shí)現(xiàn),實(shí)現(xiàn)了檢索詞高亮顯示、檢索結(jié)果翻頁等功能。檢索器界面如圖17:
8.寶寶搜與百度的檢索比較
現(xiàn)在用“手足口病”來作為檢索詞分別在百度和寶寶搜里做檢索,如圖19和圖20所示:
從檢索返回的數(shù)量來看:在百度里檢索到8,160,000篇相關(guān)文獻(xiàn),在寶寶搜里檢索到1827篇相關(guān)文獻(xiàn)。由此可見百度的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于寶寶搜,這是由于百度抓取的數(shù)據(jù)規(guī)模大,寶寶搜在本文中作為垂直育兒搜索引擎的一個(gè)簡單模型,僅抓取了幾個(gè)育兒網(wǎng)站的部分?jǐn)?shù)據(jù)。
從檢索使用的時(shí)間來看:百度用時(shí)0.066秒,寶寶搜用時(shí)0.060秒。
從返回的結(jié)果來看:百度返回的大多都是關(guān)于“手足口病”新聞性的報(bào)道,關(guān)于“成人手足口病”的文獻(xiàn)也被返回過來。寶寶搜返回的多是關(guān)于“兒童手足口病”的癥狀、預(yù)防、治療、護(hù)理等相關(guān)知識(shí),可見寶寶搜的返回結(jié)果更加切近育兒用戶的檢索需求。
另外百度有相關(guān)檢索詞推薦,用戶輸入“手足口病”后,百度給出的相關(guān)檢索詞有:手足口病的癥狀、預(yù)防手足口病、手足口病治療、什么是手足口病、手足口病癥狀圖片等,寶寶搜模型由于人力資源的限制沒有處理相關(guān)檢索詞推薦。
從檢索結(jié)果總的比較來看,雖然寶寶搜的檢索結(jié)果從數(shù)量上無法跟百度相比,但是在質(zhì)量和檢索所用時(shí)間上都不比百度差。如果能夠得到充分的開發(fā)——強(qiáng)大的技術(shù)團(tuán)隊(duì)、完備的硬件設(shè)備等,寶寶搜將會(huì)能在互聯(lián)網(wǎng)上開辟出自己的市場。
9.小結(jié)
本文在充分研究搜索引擎技術(shù)的基礎(chǔ)上,結(jié)合并充分利用了一些開源代碼,完成了育兒資源的抓取、解析,專業(yè)育兒分詞的實(shí)現(xiàn)等,并最終一步一步地完成了垂直育兒搜索引擎系統(tǒng)“寶寶搜”的實(shí)現(xiàn)。經(jīng)過反復(fù)的測試和調(diào)試,保證了本系統(tǒng)檢索的穩(wěn)定性和準(zhǔn)確性。并為此申請了國際域名,http://www.baobaosou.com,鑒于財(cái)力有限無法上線實(shí)驗(yàn)。
參考文獻(xiàn):
[1]Guiherme Labiqalini.My Downloader:A Multi-thread C# Segmented Downloader Manager[2009-12-20].http://www.codeproject.com/KB/IP/MyDownloader.aspx.
[2]劉峰.通用中英文專業(yè)搜索引擎技術(shù)的研究與應(yīng)用[D].大連:大連理工,2004:55.
[3]Eaglet.盤古分詞-開源中文分詞組件[2009-08-16].http://pangusegment.codeplex.com/.
[4](日)松田道雄著,王少麗等譯.育兒百科[M].北京:華夏出版社,2002.
[5]王琪.育兒百科[M].北京:中國婦女出版社,2008.
[6]路云.育兒百科[M].北京:中國婦女出版社,2009.
[7]CLucene.clucene-0.9.10.tar.gz[2009-11-08].http://download.chinaunix.net/download.php?id=24427ResourceID=12326.
作者簡介:
王曉娜,女,重慶人,碩士,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:軟件開發(fā)。
陳靖,女,河南范縣人,碩士,館員,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:高校圖書館信息參考咨詢。
王天林,男,河南南陽人,碩士,講師,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:軟件開發(fā)。