蔡光程 武昌工學院
目前,互聯網經過多年的研究和發(fā)展,已經在許多領域得到廣泛普及和使用,比如人們開發(fā)了攜程旅游網、京東商城、天貓商城、百度新聞、騰訊視頻等,這些應用平臺均采用先進的Web信息處理技術,實現文檔、圖片、視頻、音頻等內容的搜索和處理,具有重要的作用。因此,Web信息處理在互聯網發(fā)展中具有重要的作用和地位,本文將結合筆者多年的研究和實踐,詳細地描述谷歌、百度、搜狗等大型網絡企業(yè)采用的Web信息處理技術,比如數據挖掘、深度學習等,為Web信息處理提供強大的支撐和輔助。
Web網絡信息處理技術經過多年的發(fā)展,已經在文檔檢索、視頻追蹤、圖像處理中得到廣泛應用,大大的提高了網絡信息處理效率,具有重要的作用和意義。
(1)文檔檢索
目前,Web網絡信息處理占據最大部分的是文檔檢索,人們使用網絡搜索有用的文檔,這些文檔包括新聞文檔、專著書籍、報刊雜志、娛樂文案等,這些多以文檔的模式展現給用戶,因此文檔檢索是信息處理的一個重要應用領域。目前,文檔檢索采用的技術多為分類技術,比如貝葉斯網絡、支持向量機等。文檔檢索之后,用戶可以根據自己的喜好設置展現或排列方式,比如選擇相關性、時間、主題等,以便能夠更好地從檢索結果中發(fā)掘更加有用的知識,去偽存真精益求精。
(2)視頻追蹤
視頻追蹤是Web網絡信息處理的一個應用之一。目前,許多政企單位均開始利用視頻追蹤識別目標對象,然后實時的跟蹤這個對象,比如公安機關在查看交通事故車輛時,如果人工查看數以百G的視頻資料,這就會浪費大量的時間。因此利用視頻追蹤方法可以自動化的監(jiān)控目標對象的行動軌跡,在這個過程中就需要處理一些Web視頻圖像,以便能夠更加精準的定位。視頻追蹤不僅應用到公安交通,目前還應用到了電影拍攝動作捕捉等方面,提高了Web視頻數據處理準確度。
(3)圖像處理
目前,網絡上傳輸的很多數據都是以圖像格式,因此Web信息處理時還需要實現圖像處理,圖像處理包括壓縮編碼、變換、增強、分割、識別等,經過Web信息處理可以去除圖像中的噪聲數據,比如可以促使圖像中的目標物體輪廓更加清晰。圖像分割可以將人們期望的內容從圖像中提取出來,也是進行圖像深度處理的基礎。圖像描述是圖像識別和理解的前提條件,可以實現圖像的體積描述、表面描述或廣義圓柱體描述。圖像分類也即是圖像識別,利用機器學習方法實現圖像分割和特征提取,應用范圍更加廣泛。
Web網絡信息處理采用的技術很多,比如支持向量機、貝葉斯網絡、K-means算法等,這些處理技術均屬于數據挖掘,其可以從海量的網絡數據中發(fā)現潛在的有價值知識信息,這些技術也是當前Web網絡人工智能化、可視化處理的基礎,得到了很多的計算機學者的研究。比如北京大學的中文信息處理實驗室,已經在Web文檔數據處理中引入了語義識別方法,可以從海量的、有噪聲的、不完全的、隨機的或模糊的文檔數據中定位期望的知識,比如在百度搜索引擎中輸入“黨的十九大”,此時就可以彈出十九大相關的新聞報道,同時配以完整的視頻圖像資源,讓用戶進行瀏覽。數據挖掘在Web信息處理應用中,對于數據也具有一定的要求,首先數據源必須是大量的、真實的、包含噪聲的;數據挖掘出來的結果,也即是發(fā)現的知識對人們必須是用價值的和用戶感興趣的;發(fā)現的知識數據必須是可以接收的、可以理解的或可以運用的;發(fā)現的知識也是放之四海而皆準的,能夠讓人們通俗易懂,支持發(fā)現特點的模式或知識。比如在電子商務網站,如果某消費者購買了一箱劍南春白酒,并且經常瀏覽白酒商品信息,因此就可以將汾酒、衡水老白干、五糧液等白酒推薦給消費者,并且重點推薦這些白酒的優(yōu)惠信息,進一步提高商品銷售量。因此,從上述推薦過程可以發(fā)現,利用Web網絡信息處理技術可以將很多的用戶不期望獲得信息濾除,同時將用戶期望的信息推薦給他。
數據挖掘已經成為Web信息處理的關鍵技術,未來的發(fā)展趨勢很多,比如將會引入更加先進的機器學習、模式識別、可視化技術、人工智能技術、統(tǒng)計學理論、數據倉庫技術等,可以高度的、智能化的、自動化的分析企業(yè)數據知識,作出一個歸納性的推理知識,從中挖出潛在的信息模式,幫助決策者調整市場策略,盡可能的降低數據的分析知識,幫助人們作出準確的決策。比如,未來Web信息處理的數據不僅包括視頻、圖像和文檔,同時還要包括一些三維的模型、時序數據或基因數據,這種數據在時間和空間上都具有較強的相關性,因此可以引入關聯規(guī)則算法,利用關聯規(guī)則分析數據特征之間的相關性和冗余性,可以提高分類器的計算效率,也可以提高分類器的泛化能力,建立一種貪婪搜索特征數據選擇算法,基于歸一化的模糊度量權重最大特征評價準則,有效識別特征子集,可以提高分類算法準確度。也可以利用深度學習可以更加快速的處理數據資源,構建一個時間序列特征矩陣,計算矩陣特征時可以充分考慮不相同特征之間的多變量關系,利用特征排序方法,構建了一個自適應的特征子集選擇方法,提高分類的準確度和高效率。
Web網絡信息處理可以大幅度提高互聯網的可用性,幫助人們從海量的、雜亂無章的數據中發(fā)掘潛在的有價值的數據,比如搜索學習資料、瀏覽旅游景點、查看時事政治新聞等,幫助人們進行各類型決策支撐,具有重要的作用和意義。Web網絡信息處理已經從人工、半自動發(fā)展到了當前的全智能化,引入了支持向量機、卷積神經網絡、貝葉斯理論等機器學習技術,可以精準的定位人們想要的知識內容,提高互聯網普適性。