黃皓凌,張凡
(深圳大學(xué)信息中心,廣東深圳518060)
隨著IPv4地址用盡,IPv6的推廣正在加快步伐。中國(guó)從教育網(wǎng)開(kāi)始建立IPv6網(wǎng)絡(luò),現(xiàn)在愈來(lái)愈多的網(wǎng)站支持IPv6。本文描述我們研制的專(zhuān)用IPv6搜索引擎[1]“6搜”。6搜只搜索支持IPv6協(xié)議的網(wǎng)站,即搜索只支持IPv6的網(wǎng)站也搜索既支持IPv6又支持IPv4的網(wǎng)站,如果一個(gè)網(wǎng)站僅支持IPv4則不在6搜搜索范圍之內(nèi),不管這個(gè)網(wǎng)站的內(nèi)容與IPv6主題有關(guān)與否。
其他IPv6搜索引擎包括CERNET網(wǎng)絡(luò)中心自主開(kāi)發(fā)的網(wǎng)絡(luò)指南針[2],上海交通大學(xué)的IPv6網(wǎng)站搜索引擎Search6[3],華南理工大學(xué)廣東省網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室和華中科技大學(xué)、北京大學(xué)、清華大學(xué)聯(lián)合研制的下一代互聯(lián)網(wǎng)分布式搜索引擎Se6[4]。
另一個(gè)與IPv6有關(guān)的搜索引擎是谷歌IPv6。但它不是一個(gè)“IPv6搜索引擎”,也不是“專(zhuān)用IPv6搜索引擎”。谷歌IPv6搜索的回復(fù)內(nèi)容和谷歌IPv4網(wǎng)站搜索回復(fù)的內(nèi)容是完全一樣的。谷歌IPv6沒(méi)有提供功能以區(qū)分網(wǎng)站支持IPv6還是IPv4,或兩者都支持。谷歌IPv6的搜索回復(fù)內(nèi)容既包含IPv4網(wǎng)站的網(wǎng)頁(yè)也包含IPv6網(wǎng)站的網(wǎng)頁(yè)。用戶無(wú)法區(qū)分,除非用戶只有IPv4或IPv6而導(dǎo)致點(diǎn)擊僅支持所缺協(xié)議的網(wǎng)站會(huì)無(wú)法連接。ipv6.google.com是www.google.com在IPv6上的鏡像,用戶可以通過(guò)IPv6訪問(wèn)谷歌原有的的搜索引擎。所以稱(chēng)ipv6.google.com為IPv6搜索引擎是不合適的。它是一個(gè)“支持IPv6的搜索引擎”。這里支持有兩個(gè)方面,一是支持用戶通過(guò)IPv6訪問(wèn),二是搜索內(nèi)容包括支持IPv6的網(wǎng)站。如果從第二方面講,www.google.com也是“支持IPv6的搜索引擎”,因?yàn)槠渌阉鲀?nèi)容中也包含支持IPv6的網(wǎng)站。但用戶不能通過(guò)IPv6訪問(wèn)www.google.com。所以通常不認(rèn)為它是“支持IPv6的搜索引擎”。
6搜現(xiàn)在收集有近2000萬(wàn)IPv6網(wǎng)頁(yè),而且網(wǎng)頁(yè)在不斷更新,包括中國(guó)和國(guó)外的網(wǎng)頁(yè)。查詢回復(fù)時(shí)間在一秒以內(nèi)。相比之下,網(wǎng)絡(luò)指南針使用的是wget程序采集網(wǎng)頁(yè),而非使用專(zhuān)用的網(wǎng)頁(yè)采集程序。Se6網(wǎng)頁(yè)數(shù)比較多但搜索回復(fù)時(shí)間比較長(zhǎng),并且不是專(zhuān)用的IPv6搜索引擎,也搜索IPv4網(wǎng)頁(yè)。Search6沒(méi)有中文分詞功能,沒(méi)有搜索網(wǎng)站功能,網(wǎng)頁(yè)數(shù)量少。
在研制6搜的過(guò)程中,在開(kāi)源搜索引擎Nutch[5]的基礎(chǔ)上進(jìn)行了修改、調(diào)整和創(chuàng)新。6搜網(wǎng)頁(yè)采集速度在每秒100頁(yè)以上,可以迅速判斷網(wǎng)站是否支持IPv6,跳過(guò)只支持IPv4的網(wǎng)站,專(zhuān)搜支持IPv6的網(wǎng)站。6搜顯示搜索結(jié)果時(shí)同時(shí)提供“搜索”和“搜索網(wǎng)站”功能,此為6搜的創(chuàng)新點(diǎn)之一。搜索是搜索網(wǎng)頁(yè),在所有含關(guān)鍵字的網(wǎng)頁(yè)被找到后進(jìn)行排序。因?yàn)镮Pv6網(wǎng)站的數(shù)目少于IPv4網(wǎng)站的數(shù)目,排序之后時(shí)常會(huì)發(fā)生搜索結(jié)果中一部分或者相當(dāng)多的網(wǎng)頁(yè)是來(lái)自相同的網(wǎng)站?!八阉鳌惫δ懿粚?duì)這樣的結(jié)果進(jìn)行修改。而6搜的“搜索網(wǎng)站”功能對(duì)搜索結(jié)果進(jìn)行合并,按照每個(gè)網(wǎng)站排名最高的網(wǎng)頁(yè)對(duì)網(wǎng)站進(jìn)行排名。
描述“搜索網(wǎng)站”結(jié)果的算法如下:
Algorithm 1搜索網(wǎng)站
Require:排序后的網(wǎng)頁(yè)URL字符串?dāng)?shù)組pages(索引范圍從1到n)
建立包含兩個(gè)字符串域site,top_page結(jié)構(gòu)的數(shù)組sites
j←1
for i=1 to n do
site_of_page←pages[i]所在的網(wǎng)站
if(site_of_page∈sites[1 to j-1].site)=false then
sites[j].site←site_of_page
sites[j].top_page←pages[i]
j←j+1
end if
end for
{按順序逐個(gè)輸出sites內(nèi)的網(wǎng)站和網(wǎng)頁(yè),在每個(gè)網(wǎng)頁(yè)的下方建立一個(gè)鏈接指向此
網(wǎng)站的更多網(wǎng)頁(yè)}
for j=1 to j-1 do
print site[j].top_page
print摘要
print超鏈接含有anchor文本:site[j].site+“網(wǎng)站內(nèi)更多搜索結(jié)果”
end for
實(shí)現(xiàn)這個(gè)算法的方法是把Nutch提供的搜索結(jié)果處理程序進(jìn)行修改。
以下以實(shí)例描述搜索網(wǎng)站和搜索的區(qū)別以及搜索網(wǎng)站功能的特點(diǎn)。在6搜按搜索鍵搜索“傳感器”關(guān)鍵字的結(jié)果是:
第1-10項(xiàng)(共有3,738項(xiàng)查詢結(jié)果):
2010無(wú)線傳感器網(wǎng)絡(luò)及物聯(lián)網(wǎng)技術(shù)國(guó)際研討會(huì)-教育信息化-中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET
...交流階段,緊密?chē)@無(wú)線傳感器網(wǎng)絡(luò)應(yīng)用關(guān)鍵技術(shù)和工業(yè)界...傳感器網(wǎng)絡(luò)產(chǎn)業(yè)技術(shù)開(kāi)發(fā)、無(wú)線傳感器...117億會(huì)議信息2010無(wú)線...
http://www.edu.cn/xs_hui_yi_5674/20101125/t20101125_544371.shtml cached explain anchors
物聯(lián)網(wǎng)傳感器芯片三年后30%國(guó)產(chǎn)化-教育信息化-中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET
...普通轎車(chē)約安裝一百多只傳感器,豪華轎車(chē)傳感器甚至多達(dá)二百余只。(文章...IPv6如何大顯身手?物聯(lián)網(wǎng)傳感器...
http://www.edu.cn/gjjs_7951/20100914/t20100914_521589.shtm l cached explain anchors
三大技術(shù)推進(jìn)物聯(lián)網(wǎng)的實(shí)現(xiàn):IPv6傳感器云-教育信息化-中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET
...技術(shù)推進(jìn)物聯(lián)網(wǎng)的實(shí)現(xiàn):IPv6傳感器云-教育信息化-中國(guó)教育...技術(shù)推進(jìn)物聯(lián)網(wǎng)的實(shí)現(xiàn):IPv6傳感器云http://www.edu.cn 2011-01-05作者...
http://www.edu.cn/pl_9660/20110105/t20110105_566637.shtm l cached explain anchors
注意到排名前三位的網(wǎng)頁(yè)均出自www.edu.cn。相比之下,在6搜按“搜索網(wǎng)站”鍵搜索“傳感器”關(guān)鍵字的結(jié)果是:
第1-10項(xiàng)(共有3,738項(xiàng)查詢結(jié)果):
2010無(wú)線傳感器網(wǎng)絡(luò)及物聯(lián)網(wǎng)技術(shù)國(guó)際研討會(huì)-教育信息化-中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET
...交流階段,緊密?chē)@無(wú)線傳感器網(wǎng)絡(luò)應(yīng)用關(guān)鍵技術(shù)和工業(yè)界...傳感器網(wǎng)絡(luò)產(chǎn)業(yè)技術(shù)開(kāi)發(fā)、無(wú)線傳感器...117億會(huì)議信息2010無(wú)線...
http://www.edu.cn/xs_hui_yi_5674/20101125/t20101125_544371.shtm l cached explain anchors
www.edu.cn網(wǎng)站內(nèi)更多搜索結(jié)果
清華大學(xué)-Tsinghua University
...基于頻率變化的數(shù)字量傳感器
http://www.tsinghua.edu.cn/publish/th/6176/index.htm l cached explain anchors
www.tsinghua.edu.cn網(wǎng)站內(nèi)更多搜索結(jié)果
開(kāi)放課題指南
...異構(gòu)性強(qiáng)、數(shù)量龐大的無(wú)線傳感器網(wǎng)絡(luò),研究無(wú)線傳感器網(wǎng)絡(luò)的管理架構(gòu)、管理信息...效率分析。課題2:無(wú)線...
http://www.int.bupt.cn/topic/2009-08-13-17-26-21.htm l cached explain anchors
www.int.bupt.cn網(wǎng)站內(nèi)更多搜索結(jié)果
搜索網(wǎng)站結(jié)果中,除了www.edu.cn網(wǎng)站排第一位的網(wǎng)頁(yè)被保留以外,其它所有出自www.edu.cn網(wǎng)站的網(wǎng)頁(yè)都不再顯示,取而代之的是www.edu.cn網(wǎng)站內(nèi)更多搜索結(jié)果的鏈接。其他網(wǎng)頁(yè)下面也有各自的…網(wǎng)站內(nèi)更多搜索結(jié)果的鏈接。
Google搜索的網(wǎng)站因含純IPv4網(wǎng)站,所以數(shù)量多,出現(xiàn)搜索結(jié)果中含有多個(gè)網(wǎng)頁(yè)出于同一個(gè)網(wǎng)站并且排名連續(xù)的情況比較少,但這個(gè)問(wèn)題有時(shí)會(huì)出現(xiàn),比如在Google搜索關(guān)鍵詞“Java”有以下結(jié)果:
1)Download Free Java Software
This page is your source to download or update your existing Java Runtime Environment,also known as the Java Virtual Machine(JVM,VM,and Java VM),...
www.java.com/getjava/-Cached
2)java.com:Java+You
Get the latest Java Software and explore how Java technology provides a...
www.java.com/-Cached-Similar
3)What is Java and why do I need it?
Java is a programming language and computing platform first released by Sun...
www.java.com/en/download/faq/whatis_java.xm l-Cached-Similar
Show more results from java.com
4)Java(programming language)-Wikipedia,the free encyclopedia
Java is a programming language originally developed by James Gosling at Sun Microsystems(which is now a subsidiary of Oracle Corporation)and released in...
en.wikipedia.org/wiki/Java_(programming_language)-Cached-Similar
注意到第3項(xiàng)有Show more results from java.com而第4項(xiàng)卻沒(méi)有Show more results from en.wikipedia.org。給人印象是java.com網(wǎng)站里有多個(gè)含有java關(guān)鍵字的網(wǎng)頁(yè)而維基百科沒(méi)有,實(shí)際上維基百科(en.wikipedia.org)里含有Java詞條也不止一個(gè),比如http://en.wikipedia.org/wiki/Java就是一個(gè)維基百科里Java的搜索結(jié)果,但是谷歌并沒(méi)有提供“顯示更多維基百科的Java搜索結(jié)果”鏈接使得用戶可以通過(guò)點(diǎn)擊這個(gè)鏈接而同時(shí)看到Java編程語(yǔ)言和Java(爪哇)島的條目。6搜的“搜索網(wǎng)頁(yè)”功能會(huì)在維基百科的結(jié)果下列出Show more results from en.wikipedia.org。原Nutch的搜索結(jié)果呈現(xiàn)方法是每個(gè)網(wǎng)站只列出排名最高的前兩個(gè)網(wǎng)頁(yè),而在每個(gè)網(wǎng)站第一個(gè)網(wǎng)頁(yè)的下方列出其網(wǎng)站(more from http://...)提示用戶點(diǎn)擊以列出網(wǎng)站中的其它搜索結(jié)果。網(wǎng)頁(yè)下方換頁(yè)的鍵是next page。在顯示了幾頁(yè)后,顯示頁(yè)面下方的鍵從next page換為show all hits,用戶點(diǎn)擊show all hits以后,Nutch轉(zhuǎn)入網(wǎng)頁(yè)列出模式,列出所有網(wǎng)頁(yè)而不列出網(wǎng)站。這樣就常會(huì)出現(xiàn)多個(gè)網(wǎng)頁(yè)出自同一個(gè)網(wǎng)站,而且這些網(wǎng)頁(yè)往往在排名上是連續(xù)的,在屏幕上連在一起。Nutch這種中途轉(zhuǎn)換顯示方式的方法雖然提供了兩種不同的結(jié)果顯示方法,但卻使不少用戶感到迷惑,因?yàn)檫@種結(jié)果顯示方式和其他搜索引擎的顯示方式不同。
6搜的創(chuàng)新解決方法是提供前面提到的“搜索網(wǎng)站”功能。在實(shí)現(xiàn)過(guò)程中,對(duì)Nutch源代碼進(jìn)行修改。在Nutch源碼中每個(gè)網(wǎng)站列出的網(wǎng)頁(yè)數(shù)是可以選擇的,6搜設(shè)置每個(gè)網(wǎng)站列出的網(wǎng)頁(yè)數(shù)為1而且提供在這個(gè)參數(shù)下的搜索結(jié)果為搜索網(wǎng)站的搜索結(jié)果(再加上網(wǎng)站鏈接)。所以6搜的搜索網(wǎng)站的搜索結(jié)果是網(wǎng)站和這些網(wǎng)站排名最前的網(wǎng)頁(yè)。網(wǎng)站的排名是由網(wǎng)站內(nèi)排名最前的網(wǎng)頁(yè)的排名決定的。6搜直接提供“搜索”和“搜索網(wǎng)站”的功能而不是象Nutch那樣在顯示了幾頁(yè)結(jié)果之后轉(zhuǎn)入另一種模式。用戶從開(kāi)始有了選擇搜索方式的選項(xiàng)。
谷歌使用的是一種既含有搜索又含有搜索網(wǎng)站的搜索結(jié)果呈現(xiàn)方式。谷歌根據(jù)算法列出有些網(wǎng)頁(yè)所在的網(wǎng)站,而對(duì)有些網(wǎng)頁(yè)則不列出其網(wǎng)站,即使在同一網(wǎng)站有其他網(wǎng)頁(yè)有相同的關(guān)鍵字。百度搜索結(jié)果似乎全部是網(wǎng)頁(yè)。以Java的搜索結(jié)果為例,在第1頁(yè)里百度并沒(méi)有列出www.java.com更多搜索的結(jié)果的鏈接,而僅在tieba.baidu.com的一個(gè)網(wǎng)頁(yè)下顯示“更多貼吧相關(guān)討論”。
6搜是基于開(kāi)源搜索引擎Nutch 1.1版。Nutch是基于Lucene搜索引擎。Nutch和Lucene都使用Java語(yǔ)言,可以支持分布式,幾億或更多網(wǎng)頁(yè)的搜索。Nutch網(wǎng)絡(luò)爬蟲(chóng)的原理是從種子網(wǎng)站出發(fā),一層一層采集由超鏈接連接起來(lái)的網(wǎng)頁(yè)。每遍歷一層把收取的網(wǎng)頁(yè)進(jìn)行分析,篩選出排名最高的網(wǎng)頁(yè)進(jìn)行下一次的采集??偟膩?lái)說(shuō),采集IPv6網(wǎng)頁(yè)的方法有兩種,一是從IPv6的網(wǎng)站種子出發(fā),跟隨IPv6的超鏈接進(jìn)行采集,這樣收集到的網(wǎng)頁(yè)從種子到網(wǎng)頁(yè)都是經(jīng)過(guò)IPv6網(wǎng)站的超鏈接。另一種方法是從種子出發(fā)收集IPv6和IPv4網(wǎng)頁(yè),并對(duì)每個(gè)網(wǎng)頁(yè)進(jìn)行標(biāo)記(IPv6和∕或IPv4),搜索時(shí)根據(jù)需要提供IPv6、IPv4的網(wǎng)頁(yè)。如果不使用超鏈接遍歷,采取IP地址的全范圍采集,在IPv6地址域上是難以進(jìn)行的,因?yàn)镮Pv6地址數(shù)量巨大,有3.4×1038個(gè)地址,不可能在較短時(shí)間內(nèi)遍歷地址。
6搜采取的是IPv6超鏈接遍歷法。以網(wǎng)上收集到的IPv6網(wǎng)站做種子作為采集的開(kāi)始。以下介紹為了進(jìn)行IPv6網(wǎng)頁(yè)采集對(duì)Nutch爬蟲(chóng)的修改。Nutch的爬蟲(chóng)有一個(gè)隊(duì)列填充器,多個(gè)隊(duì)列,(其中每個(gè)隊(duì)列對(duì)應(yīng)一個(gè)網(wǎng)站,即是同一個(gè)網(wǎng)站在本次將被收集的所有網(wǎng)頁(yè)都在一個(gè)隊(duì)列里),多個(gè)采集網(wǎng)頁(yè)的線程。在采集網(wǎng)頁(yè)線程中做如下判斷,如果進(jìn)行IPv6網(wǎng)頁(yè)采集(這個(gè)功能在程序運(yùn)行時(shí)用一個(gè)開(kāi)關(guān)-ipv6控制,如果沒(méi)有這個(gè)選項(xiàng),網(wǎng)頁(yè)爬蟲(chóng)不進(jìn)行IPv6過(guò)濾),對(duì)每個(gè)網(wǎng)站主機(jī)名做一次IP地址查詢。因?yàn)橐粋€(gè)網(wǎng)站可能有IPv4地址或IPv6地址,或既有IPv4地址又有IPv6地址,6搜把查詢結(jié)果的返回順序設(shè)為先返回IPv6地址,后返回IPv4地址。如果返回的地址是IPv4在先,就說(shuō)明這個(gè)網(wǎng)站沒(méi)有IPv6地址,是一個(gè)純IPv4網(wǎng)站,6搜采集網(wǎng)頁(yè)線程即跳過(guò)這個(gè)網(wǎng)站不進(jìn)行采集。如果先返回的地址是IPv6,說(shuō)明這是一個(gè)支持IPv6的網(wǎng)站,6搜不管下一個(gè)地址是不是IPv4地址,采集網(wǎng)頁(yè)線程會(huì)開(kāi)始采集這個(gè)網(wǎng)頁(yè)。
提高網(wǎng)頁(yè)采集速度可以在同樣的時(shí)間內(nèi)采集更多的網(wǎng)頁(yè),還可以加快網(wǎng)頁(yè)更新的速度。采集網(wǎng)頁(yè)線程進(jìn)行多線程地址查詢的時(shí)候需要進(jìn)行高速、并行的地址解析。Java的地址解析函數(shù)InetAddress.getHostAddress自帶緩存[6],如果有查詢到已經(jīng)查詢過(guò)的網(wǎng)站,InetAddress會(huì)在緩存中查找地址,速度很快。緩存項(xiàng)的保留時(shí)間需要被改得長(zhǎng)一些,比如兩個(gè)星期。但是這個(gè)緩存在JVM運(yùn)行之后就會(huì)消失,下次運(yùn)行爬蟲(chóng)的時(shí)候又要進(jìn)行緩存的建立過(guò)程,而這個(gè)建立過(guò)程是比較緩慢的,通常要等一段時(shí)間以后大部分的域名才被加入緩存。進(jìn)一步的方法是同時(shí)使用建立在服務(wù)器上的專(zhuān)用緩存DNS服務(wù)器。6搜使用BIND,在Recursive DNS Cache模式上實(shí)現(xiàn)。緩存項(xiàng)保存時(shí)間設(shè)為三個(gè)星期。這樣,緩存項(xiàng)就長(zhǎng)期保存在專(zhuān)用DNS服務(wù)器里面。
6搜爬蟲(chóng)有時(shí)會(huì)遇到截短的zip文件,它們會(huì)導(dǎo)致zip解析/解壓器進(jìn)入無(wú)限循環(huán)而降低網(wǎng)頁(yè)采集速度并加重服務(wù)器的負(fù)載。解決這個(gè)問(wèn)題需要下載apache-commons-compres-1.1.jar替換原先在plugins/parse-tika目錄里的1.0版本。
能處理中文的搜索引擎需要有中文分詞功能,中文分詞就是把一個(gè)中文的句子分成詞,如果沒(méi)有特制的中文分詞功能,最簡(jiǎn)單的方法就是每個(gè)字被分作一個(gè)詞。如果這樣搜索“互聯(lián)網(wǎng)”會(huì)把含有“互”、“聯(lián)”、“網(wǎng)”單字的網(wǎng)頁(yè)也搜索出來(lái)。Nutch自帶的中文分詞即是把每個(gè)字分做一個(gè)詞。6搜整合了極易中文分詞JEAnalysis[7]以實(shí)現(xiàn)中文分詞功能。
6搜自從2010年11月上線以來(lái)到2011年6月,采集了54195個(gè)IPv6網(wǎng)站的網(wǎng)頁(yè)。其中IPv6網(wǎng)站最多的頂級(jí)域名如表1和圖1所示。
圖1 世界IPv6網(wǎng)站分布Fig.1 World IPv6 web site distribution
根據(jù)IPv6論壇發(fā)布,截止2011年6月8日,全球共有1 206個(gè)網(wǎng)站獲得IPv6 Enabled WWW Logo,其中中國(guó)大陸有276個(gè)網(wǎng)站獲得Logo,占全球總量的25%左右,居世界首位[8]。相比之下,6搜記錄的是網(wǎng)絡(luò)爬蟲(chóng)采集過(guò)網(wǎng)頁(yè)的網(wǎng)站,其中一些是使用虛擬主機(jī)(Virtual Hosting)共享IP地址的網(wǎng)站,包括博客網(wǎng)站等,與IPv6論壇手工登記的網(wǎng)站不完全相同。
6搜與其它與IPv6有關(guān)的搜索引擎在表2中比較。6搜自2011年11月上線兩個(gè)月后在多個(gè)主流搜索引擎(百度,谷歌,搜狗,搜搜)“IPv6搜索”關(guān)鍵字搜索下均排名領(lǐng)先。
6搜是已知目前國(guó)內(nèi)領(lǐng)先的專(zhuān)用IPv6搜索引擎。6搜協(xié)助推廣IPv6網(wǎng)絡(luò),為用戶提供IPv6內(nèi)容詳細(xì)搜索。并且,對(duì)已采集IPv6網(wǎng)站的統(tǒng)計(jì)也展示了IPv6的快速發(fā)展?fàn)顩r。由于IPv6上的一項(xiàng)重要應(yīng)用是物聯(lián)網(wǎng),IPv6物聯(lián)網(wǎng)搜索是今后研究的一個(gè)課題。另外隨著IPv6的普及,IPv6網(wǎng)站內(nèi)容越來(lái)越多,6搜的采集規(guī)模也將逐步擴(kuò)大。
表1 世界IPv6網(wǎng)站分布Tab.1 World IPv6 web site distribution
表2 與IPv6有關(guān)的搜索引擎比較Tab.2 IPv6 related search engine comparison
[1] 黃皓凌,張凡.6搜[EB/OL].(2011-07-05).http://6sou.szu.edu.cn.
[2]葉紹志,劉輝,李粵,等.從搜索引擎看IPv6網(wǎng)絡(luò)增長(zhǎng)[J].中興通訊技術(shù),2002,8(3):1-3.YE Shao-zhi,LIU Hui,LI Yue,et al.Viewing the growth of IPv6 networks through search engine[J].ZTE Technology Journal,2002,8(3):1-3.
[3] 上海交通大學(xué)網(wǎng)絡(luò)信息中心.Search6[EB/OL].(2011-07-05).http://search6.sjtu.edu.cn
[4] 華南理工大學(xué)廣東省網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室.下一代互聯(lián)網(wǎng)分布式搜索引擎[EB/OL].華南理工大學(xué),(2011-07-05).http://www.se6.edu.cn
[5] Apache Nutch.Nutch[EB/OL].(2011-07-05).http://nutch.apache.org
[6] Heydon A,Najork M.Mercator:A scalable,extensible Web crawler[J].World Wide Web,1999,2(4):219-229.
[7] 極易軟件.極易中文分詞[EB/OL].(2010-11-01).http://jesoft.cn:9080.
[8] IPv6論壇.全球支持IPv6網(wǎng)站破千中國(guó)大陸位居第一[EB/OL].(2011-07-05).http://www.ipv6day.cn/ipv6day.aspArticleID=563
[9] 李明.百度將于今年三季度正式提供IPv6訪問(wèn)服務(wù).[EB/OL].(2011-07-5)http://www.cnbeta.com/articles/139543.htm.