(蘇州健雄職業(yè)技術(shù)學(xué)院,蘇州 215411)
在基于爬蟲(chóng)技術(shù)的數(shù)字資源檢測(cè)軟件的設(shè)計(jì)和開(kāi)發(fā)中,這類(lèi)軟件能夠?qū)崿F(xiàn)免安裝、免要求和高速度資源檢索目的,所以在這一軟件的具體應(yīng)用中,可以更好完成對(duì)整個(gè)系統(tǒng)的完善和優(yōu)化工作。在后續(xù)的運(yùn)行和發(fā)展中,可使用這一軟件實(shí)現(xiàn)對(duì)當(dāng)前技術(shù)形式和檢測(cè)系統(tǒng)的替代,提高對(duì)資源的檢測(cè)質(zhì)量。
在人工檢測(cè)法的應(yīng)用中,采用的方法為讓工作人員通過(guò)登錄的方式,找到網(wǎng)站和服務(wù)器中的失效資源,并確定是否需要將這些資源去除。從方法的應(yīng)員工方法上來(lái)看,可以發(fā)現(xiàn)工作人員需要投入大量的工作,從整體上來(lái)看,在具體的工作中,由于工作人員難以在短時(shí)間之內(nèi)完成對(duì)所有數(shù)字資源的研究和審查,在具體的工作中,會(huì)出現(xiàn)一些失效資源被遺漏現(xiàn)象,降低了這一網(wǎng)站的服務(wù)質(zhì)量[1]。另外在人工檢測(cè)方法中,要求參與該項(xiàng)工作的人員要能夠及時(shí)發(fā)現(xiàn)被檢測(cè)資源中的問(wèn)題,并將資源存在的問(wèn)題提交,從這一方法的作用形式上來(lái)看,對(duì)工作人員的個(gè)人素質(zhì)提出的要求較高,要求其能夠準(zhǔn)確識(shí)別各項(xiàng)數(shù)據(jù),對(duì)于大部分工作人員來(lái)說(shuō),其工作情況難以滿(mǎn)足這一要求。
在當(dāng)前的數(shù)字資源檢測(cè)中,行業(yè)內(nèi)已經(jīng)開(kāi)發(fā)出了多種資源的檢測(cè)軟件,取得了較好的效果,然而也可以發(fā)現(xiàn)當(dāng)前的商用軟件存在一定問(wèn)題,其一為軟件的售價(jià)較高,對(duì)于一些機(jī)構(gòu)來(lái)說(shuō)難以負(fù)擔(dān),導(dǎo)致這類(lèi)軟件在當(dāng)前的實(shí)際應(yīng)用效果較差,其二為軟件對(duì)網(wǎng)絡(luò)資源的占用量較高,導(dǎo)致對(duì)資源的處理和識(shí)別速度降低,導(dǎo)致整個(gè)系統(tǒng)的運(yùn)行成果下滑。在當(dāng)前的一些機(jī)構(gòu)中,為降低成本,采用的方法為采用自研軟件完成對(duì)數(shù)字資源的檢測(cè)工作,但是從實(shí)踐結(jié)果來(lái)看,這類(lèi)自研軟件的開(kāi)發(fā)成本較高,并且對(duì)資源的檢驗(yàn)人員工作素質(zhì)提出了較高要求,從整體上來(lái)看,數(shù)字資源的檢測(cè)效率較低。
在整體框架的建設(shè)中,網(wǎng)絡(luò)層包括資源層、執(zhí)行層、信息的表現(xiàn)層和功能的實(shí)現(xiàn)層,這4個(gè)不同的層級(jí)發(fā)揮作用不同,其中資源層的作用為實(shí)現(xiàn)對(duì)所有數(shù)字資源的檢測(cè)和研究,為了能夠讓這一系統(tǒng)更好運(yùn)行,通過(guò)免安裝的方式發(fā)揮應(yīng)有作用,采用的方法為檢測(cè)系統(tǒng)的URL地址,然而在系統(tǒng)的整體運(yùn)行中,必然會(huì)生成大量的監(jiān)測(cè)信息,在該系統(tǒng)的具體應(yīng)用中,采取的方法為采用日志文件的方法替代傳統(tǒng)的信息存儲(chǔ)構(gòu)件,這一方法的優(yōu)勢(shì)在于,可以實(shí)現(xiàn)對(duì)相關(guān)軟件的免安裝。執(zhí)行層的作用為完成對(duì)數(shù)字資源的檢測(cè)工作,在具體的工作中,該子系統(tǒng)詢(xún)問(wèn)URL的地址,并逐個(gè)訪(fǎng)問(wèn)系統(tǒng)中的信息,確定各類(lèi)資源的網(wǎng)絡(luò)連接是否可用,當(dāng)發(fā)現(xiàn)某連接失效時(shí),則需要完成信息反饋工作。功能實(shí)現(xiàn)層的作用為,解析軟件運(yùn)行中爬取的各類(lèi)網(wǎng)頁(yè)信息,同時(shí)從中獲取有價(jià)值或者相關(guān)人員需求的信息,從整體上來(lái)看,在這一系統(tǒng)的運(yùn)行和完善工作中,要從這一角度出發(fā),提供相應(yīng)的反饋信息,包括信息的獲取時(shí)間、檢測(cè)結(jié)果的代碼等,從而讓工作人員能夠更好分析各類(lèi)資源的實(shí)際效果。信息表現(xiàn)層的功能為,在功能實(shí)現(xiàn)層之后,將獲取的信息通過(guò)人機(jī)交互界面等設(shè)備展示,讓工作人員找到失效的資源。
在這一系統(tǒng)的功能實(shí)現(xiàn)中,要按照具體的工作流程完成對(duì)數(shù)字資源的檢測(cè)工作,整個(gè)工作流程為URL地址讀取-訪(fǎng)問(wèn)請(qǐng)求發(fā)送-響應(yīng)信息接收-網(wǎng)頁(yè)解析-日志文件處理-數(shù)據(jù)對(duì)比。其中最關(guān)鍵的步驟為訪(fǎng)問(wèn)請(qǐng)求發(fā)送、響應(yīng)信息接收和網(wǎng)頁(yè)解析三個(gè)過(guò)程,對(duì)于請(qǐng)求的發(fā)送過(guò)程,需要應(yīng)用的工具為蜘蛛引擎,在這一工具的使用中,可以在短時(shí)間內(nèi)完成對(duì)大量訪(fǎng)問(wèn)請(qǐng)求數(shù)據(jù)的發(fā)送,在此基礎(chǔ)上才可獲取相應(yīng)的反饋信息,在后續(xù)的研究和分析中,通過(guò)對(duì)這類(lèi)數(shù)據(jù)的研究,實(shí)現(xiàn)對(duì)資源的整合與分析。對(duì)于響應(yīng)信息接收,根據(jù)向系統(tǒng)中輸入的控制信息,分析該項(xiàng)工作當(dāng)前存在的問(wèn)題,可以以200ms為周期,分析各類(lèi)網(wǎng)頁(yè)信息的響應(yīng)速度,其中時(shí)間在200ms之內(nèi)時(shí),反饋值為“快”,高于200ms,反饋值為“慢”,無(wú)反饋時(shí),系統(tǒng)自動(dòng)發(fā)送3次訪(fǎng)問(wèn)請(qǐng)求,若依然無(wú)響應(yīng)信息,反饋值為“失效”。對(duì)于網(wǎng)頁(yè)解析,要通過(guò)上述的分析過(guò)程,找到這一網(wǎng)頁(yè)的實(shí)際運(yùn)行質(zhì)量,當(dāng)發(fā)現(xiàn)系統(tǒng)中存在運(yùn)行問(wèn)題時(shí),則需要采用合理方法對(duì)這類(lèi)網(wǎng)頁(yè)和資源進(jìn)行處理。
在關(guān)鍵技術(shù)的應(yīng)用中,其一為蜘蛛引擎,其作用為從數(shù)據(jù)流中提取URL網(wǎng)頁(yè),并接受相應(yīng)的反饋信息,當(dāng)可以獲取反饋值時(shí),輸出的代碼為“200”,無(wú)法獲取反饋值時(shí),輸出的代碼為“404”,由于復(fù)雜頁(yè)面中含有多種編碼形式,要實(shí)現(xiàn)對(duì)這類(lèi)復(fù)雜信息的提取,在網(wǎng)頁(yè)的代碼中抓取相關(guān)信息[2]。其二為對(duì)日志文件的處理方法,這一子系統(tǒng)的運(yùn)行中,會(huì)生成4個(gè)日志文件,發(fā)揮的作用為記錄上次信息、記錄本次信息、檢測(cè)信息的對(duì)比,在此基礎(chǔ)上生成最終的檢測(cè)結(jié)果展示日志,工作人員通過(guò)對(duì)這一日志中信息的研究和分析,可以及時(shí)找到和優(yōu)化當(dāng)前系統(tǒng)中的失效網(wǎng)頁(yè)和資源,在后續(xù)的工作中,將這類(lèi)資源清除。
綜上所述,在數(shù)字資源的檢測(cè)工作中,傳統(tǒng)方法為人工檢測(cè)和自研軟件檢測(cè),從取得的檢測(cè)效果來(lái)看,當(dāng)前的技術(shù)條件下取得的質(zhì)量較為一般。在基于爬蟲(chóng)技術(shù)的數(shù)字資源檢測(cè)軟件的開(kāi)發(fā)中,要建成整個(gè)網(wǎng)絡(luò)體系的框架,在此基礎(chǔ)上加入蜘蛛引擎等工具,實(shí)現(xiàn)對(duì)所有信息的有效識(shí)別和分析,通過(guò)生成的日志完成信息展示。