蔡 焰
(韶關學院 圖書館,廣東韶關512005)
Web 3.0與信息智能獲取研究綜述
蔡焰
(韶關學院 圖書館,廣東韶關512005)
摘要:大數據時代下,如何對數據進行更好的應用,已經成為當前研究熱點.Web 3.0技術可以實現(xiàn)信息的深度挖掘,并將散布于網絡中的信息點及用戶需求點予以有效整合及對接.采用文獻研究法,對相關文獻進行梳理,進一步的分析Web 3.0的內涵以及其與Web 2.0、Web 1.0的主要區(qū)別,并就Web 3.0以及當前環(huán)境下信息智能獲取關鍵技術進行分析和探討,發(fā)現(xiàn)Web 3.0下信息智能獲取技術已經能夠實現(xiàn)協(xié)同過濾等難度較大的模型,但是還存在著一些問題,尚待進一步的深入研究.
關鍵詞:Web 3.0;信息智能獲??;智能抓??;關聯(lián)規(guī)則挖掘
隨著時代的發(fā)展,信息技術取得長足發(fā)展,Web 3.0概念及相關應用成為當前一大研究熱點課題.Web 3.0實現(xiàn)了對信息的深度挖掘,并將散布于網絡中的相關信息點及用戶需求點予以高效整合與對接,極大的提高了用戶檢索的精確性及智能化程度.
1.1 Web 3.0的定義
Web3.0的概念最初是由微軟公司比爾蓋茨于2005年舉辦的互聯(lián)網戰(zhàn)略會議中提出的,然而有關Web 3.0的準確定義尚未達成一致意見.吳勝等人指出,Web 3.0實際上就是語義網,從技術層面分析,Web 3.0就是在語義網基礎之上所演變而成的[1].英國科學家Tim B L主張,語義網可以描述為這樣一種網,此種網中涉及一整個或其中某一部分文檔,主要對事物相互之間所存在的聯(lián)系進行描述,其中還涉及語義信息,以便為自動處理提供便利[2].伯里昂·索尼斯(Brian Solis)指出,Web 3.0在很多方面都具有自身顯著特色,并且演化方向也存在多樣化特征,例如,Web 3.0能夠將網絡轉化為數據庫,以便于網絡沿著人工智能技術、語義網以及地理空間等方面發(fā)展[3].
1.2 Web 3.0與Web 1.0及Web 2.0的區(qū)別
當前有關Web 3.0與Web 1.0及Web 2.0的區(qū)別主要有3個方面.
(1)Web 1.0具有靜態(tài)性特征,其閱讀是單向的,用戶并非主動參與;Web 2.0作為實時網絡,其最突出特征就是分享性,用戶可以在一定范圍內進行互動性參與;Web 3.0最大的特點就是網絡化及個性化,人工智能服務品質上乘,用戶能夠進行實時參與.
(2)在技術層面,熊回香通過對比研究得出結論:Web 1.0是建立在靜態(tài)及動態(tài)HTML網頁技術基礎之上的;Web 2.0主要依托于Blog、TAG、SNS、RSS、Wiki、六度分隔、XML以及AJAX等技術;Web 3.0實現(xiàn)有賴于一系列綜合性技術,其中最為關鍵的當屬語義網[4].在Web的網絡管理技術中,主要由Web瀏覽器和網絡管理服務器,以及網絡管理對象所構成.網絡管理服務器用來對Web瀏覽器所發(fā)出的請求進行接收和響應,并利用Web交互的形式來完成各服務間的交互,同時還要提供全面的管理服務,例如:網絡的配置和系統(tǒng)的性能,以及安全和計費等.以先進的管理方式作為管理依據、管理通信協(xié)議作為平臺,對網絡管理數據進行收集和存儲,實現(xiàn)Agent接口的訪問.
(3)在應用層面,如新浪、網易以及搜狐等傳統(tǒng)門戶網站所采用的都是Web 1.0;Web 2.0主要應用實例如博客中國以及億友交友等;Web 3.0的典型應用代表則是臉書、雅蛙以及闊地等網絡.很多系統(tǒng)采用各種基于Web的安全技術,具有很好的安全性,容錯性和高可靠性.分布式環(huán)境下的系統(tǒng)之間相互獨立,具有較好的容錯性;HTTP服務器和Manager可以在不同的設備上運行,或者多臺HTTP服務器同時為一個管理應用系統(tǒng)提供服務,具有較高的可靠性.
信息的智能獲取實際上是根據用戶在實際的網絡生活之中產生的各種痕跡,判定用戶的實際需求,并且基于一定的信息關聯(lián)以及協(xié)調過濾,實現(xiàn)對用戶信息的智能獲取.當前越來越多的工具已經可以實現(xiàn)對用戶信息的智能獲取,尤其是在用戶網絡購物的體驗之中比較常見.實際上,信息的智能獲取就包括了3個方面的內容,即信息的智能抓取、文檔關聯(lián)規(guī)則挖掘以及協(xié)調過濾.
2.1智能抓取
所謂智能抓取,主要指的是以各個用戶的具體需求為依據,以相關網站為范圍,以諸如HTML頁、字處理文檔、E-mail以及電子表格等非結構化數據、半結構化數據、結構化數據、音頻以及視頻等多媒體數據為對象實施抓取操作,同時在本地數據庫中對抓取結果予以保存.廉佐政等人在進行全面分析及對比研究的基礎之上,總結出智能抓取最大的優(yōu)勢在于能夠確保用戶花費最短的時間獲取最多的信息量[5];除此之外,夏洪文等人主張,智能抓取技術還能夠顯著減輕網站編輯工作人員的作業(yè)負擔,自動進行采集、添加信息等相關操作,最重要的是,還可以實時進行信息的更新,確保用戶隨時掌握最新信息動態(tài)[6].
鄭慧會等人以Web 3.0為依托,構建學習平臺.建立在語義知識檢索基礎之上的自主式學習首先需要用戶完成登錄操作,以登錄用戶的個人資料、喜愛偏好、所輸入的搜索關鍵詞歷史以及信息瀏覽歷史記錄等相關信息為依據實施記錄及追蹤,與此同時自動針對信息記錄實施分析及總結,以便為之后用戶開展信息檢索操作時能夠準確把握每個用戶具體的喜愛偏好,從而為其提供更具針對性的信息.在構建以用戶興趣為依托的模型時,概念層次模型是一個不錯的選擇,首先對文檔相似性程度進行計算,從而計算出整體相似性程度[7];除此之外,利用(Ej,Wj)分表的形式對語義網中的各個節(jié)點所具備的特征詞及權重進行表達,與此同時,通過計算文檔相似度來執(zhí)行檢索文檔相似度操作.
以相似度為基礎進行模型構建方案依此經過以下幾個步驟:第一步,用戶完成登錄操作,按照相關要求錄入個人信息;第二步,系統(tǒng)將會以用戶的喜愛偏好為依據自動在相應的數據庫中進行檢索并完成匹配,在此會出現(xiàn)兩種情況:一種是在實現(xiàn)正確匹配的基礎之上會相應的開展讀者模型匹配操作,與此同時,向用戶展示最終的檢索結果;讀者在接收到系統(tǒng)發(fā)送的檢索結果之后,需要對其進行評價,用戶的評價結果需要準確詳細的記錄在個性模型當中,并注意及時進行更新維護.另外一種就是出現(xiàn)不匹配的情況時,個性庫將會以用戶之前的行為記錄為依據重新匹配,如果歷史記錄匹配正確,及時將檢索結果進行輸出與記錄,如果依然無法完成匹配,則將其視為用戶新查詢,并重新進行模型構建.
2.2文檔關聯(lián)規(guī)則挖掘
內容過濾方式是文檔關聯(lián)規(guī)則挖掘的重要技術基礎和依托,賈自艷對文檔關聯(lián)規(guī)則挖掘的內容進行梳理,認為通常所談及的文檔關聯(lián)規(guī)則挖掘主要涉及文本預處理、特征提取以及關聯(lián)規(guī)則挖掘等3項主要內容[8].
(1)文本預處理.黃少林認為,文檔關聯(lián)規(guī)則挖掘的第一個步驟就是針對所采集到的信息實施文本預處理,文本預處理過程一般涉及兩項操作,一個是針對英文文檔的,另一個則是針對中文文檔的,其中前者主要是指提取英文文檔詞干,后者主要是指針對中文文檔進行詞條切分處理[9].
(2)特征提取.完成文本預處理之后進入特征提取環(huán)節(jié).楊一鳴等人主張,特別提取主要是指選取文檔表示中詞條及其對應權值的操作.從一定意義上講,特征提取的過程也就是挖掘文檔共性及規(guī)則的過程[10].詞、詞組以及短語是文檔的主要構成要素,對于內容存在一定差異的不同文檔而言,每個詞條出現(xiàn)次數的多少都存在一定的規(guī)律,從這一角度分析,實施目標特征提取可以以詞條出現(xiàn)頻率特征為主要依據.
(3)關聯(lián)規(guī)則挖掘.關聯(lián)規(guī)則挖掘是文檔關聯(lián)規(guī)則挖掘的最后一個環(huán)節(jié).關聯(lián)規(guī)則相互間的相似性程度的發(fā)掘主要是在對事務之間的支持度及信任度進行計算的過程中實現(xiàn)的.關聯(lián)規(guī)則挖掘的主要目的就是確定所涉及到的強關聯(lián)規(guī)則,并確保支持度大于或等于已經確定的支持度最低閥值,與此同時,還應對信任度予以嚴格控制,確保其大于或等于已經確定的信任度閥值最低值.
2.3協(xié)調過濾
所謂協(xié)調過濾,主要是以具有相同或近似興趣及經驗的群體的喜愛及偏好為主要依據來對用戶興趣進行初步判斷,并以判斷結果為依據向用戶提供能夠激發(fā)其興趣的信息,用戶利用合作機制針對所受到的信息做出回應,同時進行記錄,從而實現(xiàn)對信息初步過濾,幫助他人對信息進行篩選.
劉鵬遠等人針對協(xié)同過濾展開深入研究,提出傳統(tǒng)以內容為依托的推薦算法存在諸如無法進行圖片推薦等不足,而建立在協(xié)同過濾基礎之上的推薦算法對此進行了改進和完善,能夠進行包括圖片在內的各種多媒體信息推薦,也就是說,其信息推薦不受內容形式的限制[11].楊恒伏等人對協(xié)同過濾技術類別進行總結,以技術基礎及依托為主要依據,可以將協(xié)同過濾技術劃分為依托于用戶的協(xié)同過濾、依托于項目的協(xié)同過濾以及依托于模型的協(xié)同過濾等3大主要類型[12].
基于Web 3.0技術的基本特點,可以預見的是Web 3.0技術對于學校圖書館的信息獲取具有非常重要的影響.具體而言,主要體現(xiàn)在幾個方面.
首先,Web 3.0的智能數據獲取,可以使得讀書館對于其服務的讀者感興趣的書籍或者信息的有效掌握,從而根據這些信息來對圖書館的書籍采購以及電子數據庫的準備提供一定的參考和依據.
其次,Web 3.0下的智能信息獲取,可以使得圖書館基于一定的關聯(lián)規(guī)則的挖掘,了解其服務的讀者群體的內在需求,通過表象發(fā)現(xiàn)一些本質性的問題.這對于圖書館提升自身的服務質量,更好的滿足讀者的實際需求能夠提供一定的參考.
再次,基于Web 3.0的智能信息的獲取,可以實現(xiàn)對同一個讀者的協(xié)調過濾,即當使用同一個ID進行登錄的讀者再次進行數據檢索時,優(yōu)先顯示與其之前的選擇相吻合的內容,從而有效的提升讀者的檢索效率.
Web 3.0實現(xiàn)了對信息的深度挖掘,并將散布于網絡中的信息點及用戶需求點予以有效整合及對接,對其研究主要集中在技術發(fā)展方面,而本文的綜述范疇主要是Web 3.0以及當前環(huán)境下信息智能獲取關鍵技術,目前該技術已經能夠實現(xiàn)協(xié)同過濾等難度較大的模型,但是還存在著一些問題,尚待進一步研究的深入.
根據當前Web 3.0的發(fā)展現(xiàn)狀以及世界網絡技術的發(fā)展情況來看,該技術有著非常良好的發(fā)展?jié)摿?尤其是隨著移動智能終端的普及以及云技術的快速發(fā)展,未來的互聯(lián)網應用必然是基于大數據的,而在這個背景之下Web 3.0能夠對大數據進行挖掘,實現(xiàn)對用戶的個性化需求的認知和了解,有助于挖掘商業(yè)機會,同時也有助于提高互聯(lián)網的應用效率,必然會產生極大的價值.同時,在技術的發(fā)展方面,Web 3.0有望與一些大型的搜索引擎展開深入的合作,對于用戶的搜索信息進行全方位的檢索,同時當前已經有一個非常顯著的趨勢,即Web 3.0技術在電子商務領域的實際應用,而隨著移動互聯(lián)網時代的到來,相信Web 3.0技術還有望在移動終端方面得到廣泛的應用.
參考文獻:
[1]吳勝,高俊芳,蒲筱哥.Web 3.0數據整合的挑戰(zhàn)與對策[J].情報探索,2013,13(6):56-57.
[2]羅泰嘩.Web 3.0初探[J].情報探索,2009,23(2):134-135.
[3]Brian S.Web 3.0 is about Intelligence[EB/OL].[2008-01-10].http://bub.blicio.us/?p=432.
[4]熊回香.面向Web 3.0的大眾分類研究[J].華中師范大學學報,2011,6(3):67-68.
[5]廉佐政,鄧文新,呂洪柱.基于語義的Web挖掘信息智能獲取研究[J].齊齊哈爾大學學報,2008,20(11):45-46.
[6]夏洪文,景蘭.基于Web 3.0的個性化信息服務及其系統(tǒng)設計[J].現(xiàn)代教育技術,2012,13(11):145-146.
[7]鄭慧會,李興保,劉建美.Web 3.0——網上學習新平臺[J].現(xiàn)代教育技術,2009,13(4):145-146.
[8]賈自艷.Web信息智能獲取若干關鍵問題研究[D].北京:中國科學院研究生院(計算技術研究所),2004.
[9]黃少林.基于用戶分析的個性化搜索引擎研究[D].北京:首都師范大學,2009.
[10]Yiming Y,Seán S,Rayid G.A Study of Approaches to Hypertext Categorization[J].Journal of Intelligent Information Systems,2002,12(2):5-7.
[11]劉鵬遠,趙鐵軍.利用語義詞典Web挖掘語言模型的無指導譯文消歧[J].軟件學報,2009,22(5):56-57.
[12]楊恒伏,李勇帆.Web 3.0環(huán)境自主學習平臺建設模式研究[J].現(xiàn)代情報,2011,21(1):176-178.
(責任編輯:歐愷)
中圖分類號:TP393.0
文獻標識碼:A
文章編號:1007-5348(2015)02-0015-04
[收稿日期]2014-09-19
[基金項目]廣東圖書館學科研課題(GDTK1136);廣東圖書館學科研課題(GDTK1211).
[作者簡介]蔡焰(1976-),女,江西南康人,韶關學院圖書館副研究館員;研究方向:數據庫技術及網絡信息技術.
Web 3.0 and Information Intelligent Access Research
CAI Yan
(Library,Shaoguan University,Shaoguan 512005,Guangdong,China)
Abstract:In the era of big-data,how to apply the data better has become quite a heated discussion.Web 3.0 technologies could realize the depth mining of information,and integrate and dock information which users need from the internet.This article will use the literature research,the related literatures to analyze the differences among the Web 2.0,Web 1.0,and Web 3.0 and discussed the key technology to access to the intelligence under the current environment.And it found that intelligence access under the Web 3.0 technology has been able to achieve a sophisticated model such as collaborative filtering,but some problems still remain for further in-depth study.
Key words:Web 3.0;information intelligence;intelligent fetching;association rules mining