林帆 南京熊貓漢達(dá)科技有限公司 秦曉 華泰證券股份有限公司
進(jìn)入新世紀(jì)后,互聯(lián)網(wǎng)開(kāi)始迅速普及和快速發(fā)展,與傳統(tǒng)的信息傳播方式及娛樂(lè)形式相比,互聯(lián)網(wǎng)無(wú)疑為人們提供了一個(gè)更加便利快捷的平臺(tái)。近年來(lái),借助網(wǎng)絡(luò)技術(shù)來(lái)進(jìn)行重要資訊的搜索,已經(jīng)成為了人們?nèi)粘I钪斜貍涞募寄?,如何在進(jìn)行搜索時(shí)進(jìn)一步提升其智能化水平,最大程度的方便用戶的生活,是網(wǎng)絡(luò)設(shè)計(jì)人員十分關(guān)注的重點(diǎn)。用戶在瀏覽不同地址內(nèi)的網(wǎng)絡(luò)內(nèi)容時(shí)接收到海量信息,如何進(jìn)行系統(tǒng)級(jí)信息整合,是一個(gè)亟待研究和解決的技術(shù)問(wèn)題。想要通過(guò)智能化的手段對(duì)相關(guān)的數(shù)據(jù)信息進(jìn)行搜索,僅僅通過(guò)人力是難以完成的,因此,借助網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來(lái)對(duì)移動(dòng)端跨應(yīng)用資訊進(jìn)行整合和展示,使得資訊更加便于管理和瀏覽,便具有其特殊的價(jià)值。
網(wǎng)絡(luò)爬蟲技術(shù),也稱網(wǎng)頁(yè)信息采集器,是在進(jìn)行互聯(lián)網(wǎng)登錄時(shí)對(duì)網(wǎng)頁(yè)的計(jì)算機(jī)程序和自動(dòng)化腳本進(jìn)行下載的技術(shù),它作為搜索引擎的重要組成部分,能夠從一個(gè)獨(dú)立的URL 開(kāi)始對(duì)網(wǎng)頁(yè)信息數(shù)據(jù)進(jìn)行存儲(chǔ),然后通過(guò)關(guān)鍵詞進(jìn)行信息的篩選,最終選出最恰當(dāng)?shù)臄?shù)據(jù)。通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)和html 特征提取技術(shù)的聯(lián)合應(yīng)用,能夠?qū)崿F(xiàn)對(duì)用戶所需數(shù)據(jù)的智能化提出、整合以及在移動(dòng)端的展示。
首先,需要建立一個(gè)智能化數(shù)據(jù)提取及呈列系統(tǒng),該系統(tǒng)主要由URL 發(fā)現(xiàn)、html 解析和提取、互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)統(tǒng)計(jì)四個(gè)部分組成。
目前展示網(wǎng)頁(yè)主要有兩種方式,1. 使用Android WebView 加載HTML5,2.使用HTTP 獲取到文章的內(nèi)容,在前端通過(guò)TextView的方式來(lái)展示。因此想獲取到文章的信息,就要針對(duì)這兩種方式分別考慮:
針對(duì)WebView 加載HTML5 的方式,在Android 系統(tǒng)層面,可以直接通過(guò)Android Webview API 讀取到當(dāng)前應(yīng)用WebView 中加載的URL。這樣就可以很方便的獲取到網(wǎng)頁(yè)的URL; 針對(duì)使用TextView 展示的文章,設(shè)計(jì)者可以通過(guò)Android FrameWork 讀取到TextView 中展示的信息,并通過(guò)規(guī)則匹配,獲取到文章的標(biāo)題和部分文章內(nèi)容,然后使用爬蟲的方式來(lái)通過(guò)標(biāo)題、部分內(nèi)容獲取到網(wǎng)頁(yè)的URL。
html 網(wǎng)頁(yè)解析模塊,則是指對(duì)網(wǎng)頁(yè)信息進(jìn)行解析,當(dāng)解析出來(lái)的網(wǎng)頁(yè)不屬于html 網(wǎng)頁(yè)的范疇后,之后的步驟將會(huì)被省略,從而實(shí)現(xiàn)數(shù)據(jù)的高效解析。在完成網(wǎng)頁(yè)的解析之后,需要針對(duì)用戶的需求進(jìn)行數(shù)據(jù)提取,而數(shù)據(jù)的提取設(shè)置需要人工智能技術(shù)的應(yīng)用,避免傳統(tǒng)的命令式搜索導(dǎo)致搜索結(jié)果實(shí)用性不強(qiáng)等情況的出現(xiàn)。通過(guò)HttpClient 請(qǐng)求網(wǎng)頁(yè)URL,利用JSoup 來(lái)解析頁(yè)面源碼,就可以獲取到頁(yè)面HTML 源碼,接著對(duì)下載到的HTML 源碼進(jìn)行提取正文并轉(zhuǎn)碼,從而實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的收藏功能,并支持離線搜索。
互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)和統(tǒng)計(jì)模塊,是指將網(wǎng)頁(yè)的信息資料進(jìn)行存儲(chǔ)并用于統(tǒng)計(jì)的部分,這部分在應(yīng)用的過(guò)程中通過(guò)將一些常用的漢語(yǔ)詞進(jìn)行組合,形成對(duì)應(yīng)的構(gòu)成詞,在進(jìn)行智能化搜索時(shí),借助構(gòu)成詞來(lái)進(jìn)行信息的高效檢索,并建立能夠適用于移動(dòng)端的跨APP 信息整合展示平臺(tái)。
借助網(wǎng)絡(luò)爬蟲技術(shù)以及html 特征提取技術(shù),能夠首先建立一個(gè)獨(dú)立的搜索引擎,即建立一個(gè)有效的信息處理引擎,這個(gè)引擎能夠?qū)⑤斎氲年P(guān)鍵詞作為搜索指征,從而對(duì)整個(gè)網(wǎng)絡(luò)頁(yè)面進(jìn)行搜索,一般來(lái)說(shuō),搜索引擎是包括三個(gè)部分的,即上下層的搜索引擎以及與移動(dòng)端進(jìn)行信息連接和傳遞的結(jié)構(gòu)?,F(xiàn)階段,下層引擎最常見(jiàn)的是文本處理和轉(zhuǎn)碼引擎,而上層則采用了智能化搜索引擎如dart framework 等。通過(guò)這種引擎的應(yīng)用,有效改善了傳統(tǒng)非智能化搜索引擎“命令搜索法”造成搜索整理內(nèi)容較為生硬的情況,并且避免了搜索頁(yè)面快速跳躍,部分網(wǎng)頁(yè)內(nèi)容無(wú)法覆蓋的問(wèn)題。
其次,通過(guò)在上層搜索引擎中引入dart framework,能夠?yàn)榛趆tml 特征提取的資訊整合技術(shù)提供更多的選擇手段,使得搜索形式更加豐富多樣。具體來(lái)說(shuō),通過(guò)應(yīng)用dart framework,使得原有的單一命令式搜索轉(zhuǎn)變?yōu)楫?dāng)前的AOT 搜索模式以及JIT 搜索模式兩種模式。在非移動(dòng)終端進(jìn)行使用時(shí),需要應(yīng)用AOT 模式來(lái)對(duì)輸入的關(guān)鍵詞以及特征信息進(jìn)行提取和計(jì)算,將其快速的轉(zhuǎn)換為計(jì)算機(jī)代碼,從而在短時(shí)間內(nèi)獲取到極大量的相關(guān)數(shù)據(jù)信息,這對(duì)于展示平臺(tái)的建設(shè)是大有裨益的。正是因?yàn)锳OT 搜索模式的上述特性,它常常被用作計(jì)算機(jī)的搜索上,可顯著提升搜索效率,方便工作人員建立工作庫(kù)。而JIT 搜索模式,則能夠?qū)⒁恍┲攸c(diǎn)、搜索率更高的信息首先呈遞給移動(dòng)端的用戶,讓他們通過(guò)瀏覽最重要的信息獲取到相應(yīng)的結(jié)果,并且在這個(gè)結(jié)果上進(jìn)行引申,查詢到更多相關(guān)的結(jié)果。
另外,在進(jìn)行移動(dòng)端跨應(yīng)用資訊的搜索和整合時(shí),需要建立相應(yīng)的搜索頁(yè)面和數(shù)據(jù)呈現(xiàn)頁(yè)面,而這一頁(yè)面是通過(guò)參照widget tree 來(lái)實(shí)現(xiàn)的,盡管這種樹狀圖看起來(lái)較為繁瑣,不容易獲取到關(guān)鍵信息,但是當(dāng)捋順?biāo)脑碇螅軌蚩焖?,?jiǎn)便的獲取到網(wǎng)頁(yè)上符合特征提取技術(shù)輸入關(guān)鍵詞的信息,因此,通過(guò)這種技術(shù)的應(yīng)用能夠有效簡(jiǎn)化流程,并提升搜索效率。
綜合全文,本文對(duì)網(wǎng)絡(luò)爬蟲對(duì)html 網(wǎng)頁(yè)進(jìn)行解析的全部過(guò)程以及html 特征提取技術(shù)在眾多信息中的提取及技術(shù)實(shí)現(xiàn)做了介紹,通過(guò)以上技術(shù)的應(yīng)用,能夠從諸多繁雜的信息里進(jìn)行深入的數(shù)據(jù)挖掘,從而實(shí)現(xiàn)移動(dòng)端跨應(yīng)用資訊的提取和整合。通過(guò)這種辦法,能夠在大量的互聯(lián)網(wǎng)信息中,根據(jù)所需要數(shù)據(jù)信息的特征對(duì)各種網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行提取,并且將這些提取到的數(shù)據(jù)通過(guò)移動(dòng)端智能設(shè)備進(jìn)行展示。用戶在對(duì)這些信息進(jìn)行瀏覽時(shí),很容易借助特征提取的方法將自己希望得到的信息加以瀏覽,從而為用戶提供足夠的便利性。
但是通過(guò)本次研究我們可以發(fā)現(xiàn),現(xiàn)階段我國(guó)在互聯(lián)網(wǎng)進(jìn)行網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來(lái)進(jìn)行移動(dòng)端跨應(yīng)用資訊的整合時(shí),在特征提取準(zhǔn)確性、信息提取量、資訊整合排版以及搜索便利性等方面與西方發(fā)達(dá)國(guó)家仍然存在著較大的差距,針對(duì)這種情況,有必要進(jìn)行進(jìn)一步的研究和探索,努力加速建立更加完善、可靠的移動(dòng)端跨應(yīng)用資訊整合展示水平。