王瀟陽
作為搜索引擎的代名詞,“百度一下”已經(jīng)在人民日常生活中發(fā)揮著無可取代的作用,而深度學習技術的誕生與發(fā)展則為“百度一下”的未來發(fā)展提供了巨大的技術支撐,文章從此出發(fā),首先對“百度一下”及其發(fā)展前景做了簡要的描述,然后探討了深度學習技術的內涵與價值,并分析了其應用現(xiàn)狀,繼而以深度學習技術的應用前景為分析內容,指出了其在文本領域、圖像領域、音頻領域、視頻領域的應用前景。
網(wǎng)絡信息時代的到來極大地改變了人類社會生產(chǎn)生活的方式,特別是在信息搜集領域,搜索引擎取代了傳統(tǒng)的文獻查閱,成為人們信息獲取的主要方式。百度作為我國市場份額最大的搜索引擎網(wǎng)站,“百度一下”也成為網(wǎng)絡搜索的代名詞。深度學習技術屬于人工智能的范疇,是機器學習領域的重要分支,是相對于傳統(tǒng)的淺度學習,即僅包含單層非線性變換的淺層學習結構而言的新型學習結構,具有廣闊的發(fā)展前景與強大的應用價值,是實現(xiàn)人工智能的有效路徑,深度學習將簡單的特征進行組合,成為高層次的特征,從而實現(xiàn)對特定數(shù)據(jù)或者實際對象抽象表達的目標。百度于2012年引入深度學習技術,以此來實現(xiàn)深度神經(jīng)網(wǎng)絡,并取得了不錯的應用成果,從未來的發(fā)展前景而言,深度學習技術與“百度一下”的融合將更加緊密。
1 “百度一下”及其發(fā)展前景
“百度一下”是百度網(wǎng)站2007年推出的廣告語,全稱為“百度一下,你就知道”,指代在百度網(wǎng)站中對某個詞語進行搜索。隨著信息技術的迅猛發(fā)展,“百度一下”逐漸成為網(wǎng)絡搜索的代名詞,從廣義的角度來說,凡事借助搜索引擎進行搜索,均可以視作“百度一下”,而從狹義的角度而言,則專指代以百度為搜索引擎的網(wǎng)絡搜索。由于百度在中國搜索引擎市場份額巨大,占比在80%以上,“百度一下”的廣義含義與狹義含義具有很大的重合性。“百度一下”很大程度上改變了人們信息的獲取方式,使網(wǎng)絡成為現(xiàn)代人信息的主要來源,在具備海量數(shù)據(jù)以及便捷性、個性化服務優(yōu)勢的同時,“百度一下”也存在不少問題,比如信息泛濫導致的可靠性下降,又如依附效應導致的思維碎片化等。深度學習技術的誕生與發(fā)展為“百度一下”的未來發(fā)展提供了重要的支撐,2012年百度公司引入了深度學習技術,并在多個領域取得了重要的突破,就以圖片搜索為例,傳統(tǒng)的搜索方式為隱文搜索,用戶借助圖片的主要文字信息,比如“故宮”搜索出故宮的圖片,而深度學習技術使得以圖搜圖成為常見的搜索方式,用戶只需拍攝圖片,并上傳百度搜索,就可以迅速找出類似的圖片,深度學習技術極大地提升“百度一下”的效率與價值,對“百度一下”的發(fā)展有著重要意義。
2 深度學習技術
2.1 深度學習技術的內涵、優(yōu)勢
深度學習最早由Hinton教授于2006年提出,屬于人工智能領域的新技術。此后又有很多科學家和學者深入研究,很多研究表明,根據(jù)學習深度的不同,機器學習可以分為淺度學習與深度學習兩大類型,淺度學習是最為傳統(tǒng)我們所普遍認知的學習模式,僅僅包含單層非線性變換的淺層學習結構,在信息技術不斷發(fā)展,數(shù)據(jù)呈指數(shù)級增長的今天其現(xiàn)狀和性能已經(jīng)越來越難以滿足社會發(fā)展的需求。深度學習的概念由此提出,所謂深度學習,指的是計算機以人腦的多層抽象機制為基礎,借助神經(jīng)網(wǎng)絡來模擬人腦的學習過程。具體而言,便是構建具有很多隱藏的機器學習模型以及海量訓練數(shù)據(jù)的機器學習方法?,F(xiàn)代意義上的深度學習涉及到多門學科,典型的代數(shù)學、統(tǒng)計學、微積分、概率論等,主要借助設計和研發(fā)一些有助于計算機自動學習的算法來實現(xiàn)機器深度學習的目標。與傳統(tǒng)的淺度學習相比,深度學習有著非常突出的優(yōu)勢,可以很好地化解淺度學習中存在的維數(shù)災難現(xiàn)象。不僅有效解決了局部最優(yōu)的問題,且其內部訓練,或者說自主學習的過程不依賴樣本標簽信息,應用領域非常廣闊,特別是在非線性自然信號的處理中更是如此,常見的有語音識別、圖像識別、自然語言處理等。正是深度學習技術不可多得的優(yōu)勢,使得其成為百度等搜索引擎發(fā)展完善的重要技術支撐。
2.2 深度學習技術的應用現(xiàn)狀
深度學習技術作為人工智能的分支,有著非常廣泛的應用領域,但從當前的應用現(xiàn)狀而言,受各種因素的影響,情形并不容樂觀,或者說,深度學習技術的應用價值并沒有得到有效的發(fā)揮,首先,訓練模式優(yōu)化問題。監(jiān)督學習是深度學習模型訓練的主要方式,此種學習方式離不開大量人工標準的訓練樣本,存在費時費力的問題,與人工智能的初衷違背,且訓練樣本的規(guī)模會影響到模型的應用精度;其次,理論創(chuàng)新問題?,F(xiàn)階段,大部分深度學習模型所以來的理論,都是卷積神經(jīng)網(wǎng)絡等最為基本的神經(jīng)網(wǎng)絡結構的疊加或混合,在復雜數(shù)據(jù)結構、數(shù)據(jù)關系的處理中不具備優(yōu)勢;最后,規(guī)模應用問題。相比于科研工作中的火熱性,深度學習技術在實際的應用研究中仍然處于起步階段,并沒有規(guī)?;貞糜谌粘I钪?,即便是技術較為成熟的領域,比如語音識別、圖像識別等,也離普遍應用有一段距離。
3 深度學習技術的應用前景
3.1 文本領域的應用
文本領域是深度學習技術應用較為廣泛的領域之一,并且,隨著深度學習技術的不斷發(fā)展,近年來,有關文本領域的研究也大都集中于深度學習的應用上。作為國內市場份額最大的搜索引擎,百度文本數(shù)量巨大,且每天以海量的速度遞增,大規(guī)模文本分析是深度學習技術應用最為重要的內容。相關研究表明,在MATLAB平臺上,基于淺層結構RSM的DBN模型可以有效地利用20-newgroups文檔集進行訓練與測試,研究結果清楚地表示,基于淺層結構RSM的DBN模型在大規(guī)模文本分析中具有可行性,為后續(xù)相關應用的開展奠定了技術基礎與應用路徑。文本分類是搜索引擎中的難點所在,特別是在文本海量遞增的宏觀環(huán)境下,如何有效地開展文本分類,提升文本分類的精確度與準確度,關系到搜索引擎未來的發(fā)展態(tài)勢,對此,深度學習技術同樣有著很好的應用價值。以知乎實驗數(shù)據(jù)為依托的測試結果顯示,基于深度學習技術的模型在文本分類的準確度上有顯著的進步,特別是對于長文本而言,分類準確度高達98.06%,而對于分類難度更高的短文本,準確度也超過了90%。
3.2 圖像領域的應用
對“百度一下”而言,圖像領域的應用是深度學習技術應用的重要領域,一來,百度圖片作為百度搜索引擎的重要功能,在滿足社會圖片搜索中發(fā)揮著重要的作用,二來,百度搜索正從單一的文字搜索向多元的文字、語音、圖像搜索發(fā)展與延伸,拍照搜圖已經(jīng)成為現(xiàn)代搜索的重要方式。在圖像識別的應用中,卷積神經(jīng)網(wǎng)絡是應用得比較早的深度學習技術,在人臉識別以及其他特征較為明顯的圖像識別,比如車牌識別、花草樹木識別中有著特殊的優(yōu)勢,并誕生了不少行之有效的模型,比如谷歌公司的GoogleNet模型就是基于卷積神經(jīng)網(wǎng)絡的典型模型。深度學習技術在圖像領域的應用有著很強的拓展性,尤其是在遙感圖像的獲取、識別中有著重要意義,這為“百度一下”服務道路交通以及地形探測均有著很好的作用。有研究者構建了深度卷積神經(jīng)網(wǎng)絡模型(DCNN),用來進行遙感水體的識別,實驗借助無人機來獲取遙感圖像,然后以支持向量機法以及面向對象法作為對比的方法,對比結果顯示,與其他模型相比,深度卷積神經(jīng)網(wǎng)絡模型的識別效果更佳,是圖像領域應用的有效模型。
3.3 音頻領域的應用
語音識別是“百度一下”中的重要內容,在語音搜索成為常態(tài)的今天,如何有效地提升語音識別的質量成為深度學習技術應用的關鍵。信息技術的迅猛發(fā)展在提高社會生活便捷度的同時,也帶來了海量的數(shù)據(jù),海量數(shù)據(jù)的有效利用成為“百度一下”當前的重點所在。在大數(shù)據(jù)時代,傳統(tǒng)的語音識別機制已經(jīng)越來越難以滿足人們的搜索需求,因為傳統(tǒng)語音識別一方面在孤立語音的識別中存在著很大的缺陷,難以準確地將孤立語音識別出來,比如一個字、一個詞,或者一種聲響,另一方面,傳統(tǒng)語音識別存在較高的錯誤率,影響識別的效果。深度學習技術的應用為語音識別的發(fā)展與完善提供了新的思路。舉例而言,針對傳統(tǒng)的混合高斯-隱馬爾科夫(GMM-HMM)模型中存在的問題,相關研究者進行了改革,用深度神經(jīng)網(wǎng)絡(DNN)替換了傳統(tǒng)的GMM,構建了新的DNN-HMM模型,與混合高斯-隱馬爾科夫模型相比,結合了深度學習技術的模型在詞匯識別的準確率上有了極大地提升。不僅如此,深度自動編碼器(DAE)在孤立語音識別中的應用表明,深度學習技術可以有效提升語音識別的適應性,使其滿足孤立語音的識別需要。
3.4 視頻領域的應用
多元化發(fā)展與綜合化運用是“百度一下”未來發(fā)展的主要趨勢,視頻領域的應用則是深度學習技術推動“百度一下”發(fā)展的重要領域。從當前深度學習技術的應用現(xiàn)狀而言,目標跟蹤以及交通監(jiān)管是視頻應用中的重點。此處,深度自動編碼器已然有強大的應用機制。基于稀疏約束的DAE模型,能夠以非監(jiān)督訓練監(jiān)督式微調的方法來對模型進行訓練,進而在目標追蹤中予以應用,比如正在行走的人物或汽車等。仿生眼監(jiān)控系統(tǒng)的研發(fā)與應用對深度學習技術在視頻領域中的應用起到了很好的推動作用。有研究人員在GooleNet模型的基礎上進行了改進與重構的工作,構建一個三分類的卷積神經(jīng)網(wǎng)絡模型,使深度學習技術得以成功地應用于仿生眼監(jiān)控系統(tǒng)中,能夠有效地對道路交通狀況進行識別。視頻應用作為目標追蹤的主要方式,在實際的使用中存在一些難點,比如在長距離、多目標的追蹤中很容易出現(xiàn)混亂乃至丟失追蹤目標的現(xiàn)象,而基于深度學習技術的卷積神經(jīng)網(wǎng)絡輔助跟蹤法可以有效地彌補此一不足,提升復雜環(huán)境下目標追蹤的準確度。
4 結語
機器的深度學習是學科交叉融合的產(chǎn)物,主要以人工智能為研究對象,是探討機器模擬人腦學習的技術,它的核心目標是使機器具有類似于人類那種自我學習、自我發(fā)展的能力,從而使自身的性能更加完善,更好地被人類應用于社會實踐中,產(chǎn)生更大的影響和效益。百度一下的普及和深入人心是一場突破和開始,百度一下也越來越完善,語音輸入、圖片輸入、智能區(qū)分等,在這些基礎之上可以明顯的遇見,深度學習技術的提倡和發(fā)展對“百度一下”的未來發(fā)展將產(chǎn)生越來越重要影響,深度學習的理念和延伸將成為“百度一下”未來發(fā)展的核心推動力。
(作者單位:臺州路橋中學)