陳尚義
百度公司 北京 100085
百度大數(shù)據(jù)應(yīng)用與實踐
陳尚義
百度公司 北京 100085
產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向其他行業(yè)領(lǐng)域滲透,成為行業(yè)創(chuàng)新和轉(zhuǎn)型的重要驅(qū)動力。根據(jù)百度多年來在大數(shù)據(jù)領(lǐng)域的創(chuàng)新與實踐,闡述了大數(shù)據(jù)驅(qū)動搜索引擎的發(fā)展,介紹了百度大數(shù)據(jù)引擎和行業(yè)應(yīng)用實踐。重點分析了大數(shù)據(jù)發(fā)展的關(guān)鍵因素,并提出了大數(shù)據(jù)和人工智能是未來信息技術(shù)發(fā)展的重要方向。
大數(shù)據(jù);人工智能;搜索引擎
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,信息采集成本不斷降低,加速物理世界向網(wǎng)絡(luò)空間的量化。數(shù)字世界與現(xiàn)實世界的融合過程中產(chǎn)生并積累了大量的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司(IDC)發(fā)布的研究報告,全球所有信息數(shù)據(jù)中90%產(chǎn)生于近幾年,數(shù)據(jù)總量正在以指數(shù)形式增長,從2003年的5 EB1Exabyte(EB),1 EB=1 024 PB =220TB=260byte,到2013年4.4 ZB2Zettabyte(ZB),1 ZB=1 024 EB,并將于2020年達(dá)到44 ZB,如圖1所示。
數(shù)據(jù)爆炸將我們推向大數(shù)據(jù)時代,大數(shù)據(jù)是新一輪信息技術(shù)革命與人類經(jīng)濟(jì)社會活動的交匯融合的必然產(chǎn)物,數(shù)據(jù)的關(guān)聯(lián)和挖掘?qū)?chuàng)造新的價值,提升效率。數(shù)據(jù)將和自然資源、人力資源一樣成為國家最重要的戰(zhàn)略資源,將成為產(chǎn)業(yè)升級的重要推動力。
大數(shù)據(jù)因其蘊含的社會價值和商業(yè)價值,已經(jīng)成為一項重要的生產(chǎn)要素,大數(shù)據(jù)的應(yīng)用將改變傳統(tǒng)行業(yè)的商業(yè)模式,拉動產(chǎn)業(yè)升級。數(shù)據(jù)已經(jīng)成為傳統(tǒng)行業(yè)的核心資產(chǎn)。產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向制造業(yè)、金融及商業(yè)、醫(yī)療衛(wèi)生、國計民生等各個領(lǐng)域滲透。各行業(yè)也已經(jīng)意識到數(shù)據(jù)價值挖掘的重要意義,加速探索并布局大數(shù)據(jù)應(yīng)用。越來越多機(jī)構(gòu)、企業(yè)都迫切希望從不同渠道獲取的多種類型、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有價值的趨勢洞察,快速、準(zhǔn)確地制定決策,驅(qū)動商業(yè)和行業(yè)創(chuàng)新。
2.1 搜索引擎是個天然的大數(shù)據(jù)服務(wù)
大數(shù)據(jù)是信息技術(shù)及其應(yīng)用發(fā)展到一定階段的“自然現(xiàn)象”,源于信息技術(shù)的不斷廉價化以及互聯(lián)網(wǎng)及其所帶來的無處不在的信息技術(shù)延伸應(yīng)用??梢哉f大數(shù)據(jù)應(yīng)用和技術(shù)是在互聯(lián)網(wǎng)的快速發(fā)展中產(chǎn)生的,互聯(lián)網(wǎng)企業(yè)尤其是搜索引擎公司是大數(shù)據(jù)實踐的先行者和領(lǐng)跑者。搜索引擎連接了人和信息、人和服務(wù),本身就是一個完美的大數(shù)據(jù)應(yīng)用實例,其目的就是為了更好地理解用戶的搜索需求,將信息與用戶匹配起來。
圖1 全球數(shù)據(jù)總量3來源于IDC報告
百度是當(dāng)今中國人獲取信息的最主要入口,每天響應(yīng)來自138個國家和地區(qū)的數(shù)十億次搜索請求,覆蓋95%以上的中國網(wǎng)民,平均每個中國網(wǎng)民每天使用10次百度。為了獲得更好的用戶體驗和搜索的精準(zhǔn)對接,百度不斷在技術(shù)上挑戰(zhàn)自我,在搜索的實踐中積累了整套大數(shù)據(jù)的處理和實踐技術(shù),占據(jù)了世界領(lǐng)先的地位。同時,百度也積極在大數(shù)據(jù)的商業(yè)實踐上不斷探索,并取得了顯著的成績。
2.2 海量的數(shù)據(jù)資源是大數(shù)據(jù)實踐的基礎(chǔ)
百度擁有海量的數(shù)據(jù)基礎(chǔ),擁有EB級別的超大數(shù)據(jù)存儲和管理規(guī)模,并達(dá)到100 PB/天的數(shù)據(jù)計算能力,可達(dá)到毫秒級響應(yīng)速度。百度已收錄全世界超過一萬億張網(wǎng)頁,相當(dāng)于5 000個國家圖書館的信息量總和4http://tech. qq.com/ a/20140529/ 023965.htm。同時承擔(dān)著每天百億次的訪問請求,可離線完成1 000億網(wǎng)頁的處理與分析,時效性網(wǎng)頁從更新到索引只需要幾十秒,實現(xiàn)大數(shù)據(jù)量級下的低延遲和秒級響應(yīng)。
百度的數(shù)據(jù)具有實時性和全面性的特點,囊括了全網(wǎng)搜索數(shù)據(jù)、全網(wǎng)評論信息、百度內(nèi)部數(shù)據(jù)以及第三方合作數(shù)據(jù)等跨行業(yè)、跨地域基礎(chǔ)數(shù)據(jù),海量的數(shù)據(jù)基礎(chǔ)是百度引領(lǐng)大數(shù)據(jù)實踐的基礎(chǔ)。
2.3 高效的云計算基礎(chǔ)設(shè)施提供強(qiáng)大的計算能力
面臨龐大數(shù)據(jù)量帶來的計算能力和網(wǎng)絡(luò)帶寬的新挑戰(zhàn),百度自主研發(fā)超大規(guī)模分布式存儲和計算系統(tǒng),目前能夠支持14款用戶過億的產(chǎn)品5http://www.china. com.cn/news/tech/ 2014-07/16/content_ 32972136.htm。其中分布式存儲系統(tǒng)可以存儲長文本、語音、視頻等異構(gòu)數(shù)據(jù),實現(xiàn)單集群文件數(shù)達(dá)100億;大規(guī)模分布式計算系統(tǒng)通過自研技術(shù)提升50%以上MapReduce的性能,實時流計算系統(tǒng)吞吐量達(dá)10 GB/s;百度創(chuàng)新性地實現(xiàn)了基于大數(shù)據(jù)的智能自動化運維框架,滿足超大規(guī)模集群運維的需求,實時分析3萬以上監(jiān)控指標(biāo);2 min內(nèi)完成分析和故障定位,保證系統(tǒng)可用性為99.99%。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,建立了大規(guī)模GPU并行化平臺,單GPU計算能力可比百片CPU,極大程度地降低了能耗和計算成本。
百度自主研發(fā)萬兆交換機(jī),逐步從吉比特網(wǎng)絡(luò)向萬兆網(wǎng)絡(luò)大規(guī)模切換,正在研制的4萬兆交換機(jī)也已經(jīng)開始小規(guī)模試點和驗證,百度的萬兆集群是國內(nèi)互聯(lián)網(wǎng)行業(yè)首個萬兆交換機(jī)的規(guī)模應(yīng)用。
基于完全自主知識產(chǎn)權(quán)的高性能服務(wù)器、整機(jī)柜和網(wǎng)絡(luò)設(shè)備等,百度自主設(shè)計并建設(shè)了數(shù)個亞洲一流的數(shù)據(jù)中心,自主研發(fā)了整機(jī)柜服務(wù)器并已投入使用數(shù)十萬臺。通過基礎(chǔ)設(shè)施、IT設(shè)備及軟件協(xié)同,定制低功耗服務(wù)器等多項綠色節(jié)能技術(shù),百度自建數(shù)據(jù)中心全年約一半時間實現(xiàn)完全免費冷卻(free cooling)。2013年,該數(shù)據(jù)中心最佳PUE(power usage effectiveness,電力使用效率)為1.16,成為國內(nèi)最節(jié)能、最環(huán)保的數(shù)據(jù)中心。
2.4 人工智能技術(shù)全面提升大數(shù)據(jù)處理能力
百度高度重視人工智能技術(shù)的發(fā)展,經(jīng)過多年的堅持努力,在語音識別、圖像識別、自然語言理解、機(jī)器學(xué)習(xí)、智能交互、數(shù)據(jù)挖掘、個性化推薦的研究和應(yīng)用領(lǐng)域打下扎實的技術(shù)積累,攻克多項技術(shù)難題,人工智能技術(shù)已經(jīng)達(dá)到國際領(lǐng)先水平。
百度目前已擁有全球最大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),并實現(xiàn)全球最大規(guī)模的GPU并行計算平臺。百度的深度學(xué)習(xí)技術(shù)被應(yīng)用在語音、圖像、文本識別、自然語言處理和CTR預(yù)估等商業(yè)產(chǎn)品領(lǐng)域,取得顯著的成效。同時,百度也積極將人工智能技術(shù)應(yīng)用于大數(shù)據(jù)領(lǐng)域,通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)提升數(shù)據(jù)智能,尋求現(xiàn)有問題的解決方案,并實現(xiàn)更好的預(yù)測。
以百度為例,用戶在搜索的過程中留下信息,其中有大量的文本、圖片和影音等數(shù)據(jù),形成了海量的數(shù)據(jù)資源,百度對這些復(fù)雜的異構(gòu)數(shù)據(jù)進(jìn)行處理分析,發(fā)掘價值,實現(xiàn)更多大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)技術(shù)推動著搜索引擎不斷向前演進(jìn)。
3.1 智能交互
隨著用戶需求更趨于復(fù)雜化和個性化,從最初的獲取信息,到現(xiàn)階段希望能夠通過搜索引擎直接獲取答案、連接服務(wù),這就需要實現(xiàn)海量數(shù)據(jù)的挖掘和智能處理,實現(xiàn)人和服務(wù)的精準(zhǔn)匹配。另外用戶也更趨向于自然的交互方式,據(jù)統(tǒng)計,現(xiàn)階段在百度的搜索請求中10%是以語音的形式表達(dá)的,而未來5年使用語音和圖像來表達(dá)需求的比例將超過50%?;谌绱苏鎸崗?qiáng)大的需求,為了不斷提升用戶體驗,百度在圖像識別和語音識別這兩項前沿技術(shù)領(lǐng)域?qū)崿F(xiàn)突破,并取得了一系列領(lǐng)先成果。
百度在2010年開始進(jìn)行智能語音及相關(guān)技術(shù)研發(fā),推出了第一代基于云端識別的互聯(lián)網(wǎng)應(yīng)用“掌上百度”。2012年11月,百度上線了中國第一款基于DNN的漢語語音搜索系統(tǒng),成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。目前已經(jīng)積累了數(shù)萬小時的聲學(xué)訓(xùn)練語料和海量文本語料[1],線上語言模型體積超過100 GB,支持小時級別的海量語言模型更新。語音識別DNN深達(dá)9層,基于聽覺感知的深度學(xué)習(xí)聲學(xué)建模技術(shù)可以實現(xiàn)更高的精準(zhǔn)度和識別率。在安靜情況下,百度的普通話識別率已達(dá)到95%以上,處于國際領(lǐng)先水平。百度語音技術(shù)對內(nèi)應(yīng)用于手機(jī)百度、百度輸入法、百度地圖、百度導(dǎo)航等一系列產(chǎn)品,同時對外推出開放平臺,提供多個垂直領(lǐng)域的識別和解析服務(wù),合作伙伴超過30個,覆蓋汽車、醫(yī)療、手機(jī)、電商、家電和車載等十幾個領(lǐng)域和方向。
在圖像識別領(lǐng)域,百度在2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于OCR識別和人臉識別,并推出相應(yīng)的PC端和移動端搜索產(chǎn)品[2]。2013年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。目前百度的人臉識別準(zhǔn)確率超過98%,處于國際領(lǐng)先水平,圖像識別技術(shù)已經(jīng)用于手機(jī)百度、百度識圖等多個應(yīng)用中。從百度的經(jīng)驗來看,深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率。目前利用CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))技術(shù),百度成功地實現(xiàn)將圖像內(nèi)容生成自然語言的描述性句子或段落,從而在高層語義層面建立了圖像和自然語言之間的橋梁,也就是“機(jī)器讀圖”,這可以說是人工智能領(lǐng)域的一次技術(shù)飛躍。
3.2 知識圖譜
當(dāng)用戶使用搜索引擎時,需要的不止是索引到相關(guān)的網(wǎng)頁,更希望找到答案、加深了解以及發(fā)現(xiàn)更多的內(nèi)容。為了使搜索引擎更智能,信息的組織方式正在由網(wǎng)頁之間的超鏈聯(lián)系向海量實體之間的知識聯(lián)系演變,知識圖譜就是基于海量的互聯(lián)網(wǎng)數(shù)據(jù),實現(xiàn)這種演變的最為重要的技術(shù)之一。
知識圖譜包含了萬物以及它們之間的聯(lián)系,用實體以及實體關(guān)系刻畫這個世界。如圖2所示,百度知識圖譜依托于強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù),對互聯(lián)網(wǎng)海量數(shù)據(jù)進(jìn)行挖掘,并應(yīng)用高效精準(zhǔn)的算法對數(shù)據(jù)進(jìn)行分類梳理,將復(fù)雜的知識體系通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,構(gòu)建宏大的知識網(wǎng)絡(luò),以圖文并茂的方式展現(xiàn)知識的方方面面,讓人們更便捷地獲取信息、找到所求,這恰恰與百度的使命一脈相承。
為了使互聯(lián)網(wǎng)中海量的數(shù)據(jù)及內(nèi)容為機(jī)器所理解,進(jìn)而形成知識供用戶獲取并使用,百度知識圖譜以實體為基點,創(chuàng)建了基于語義的鏈接關(guān)系,從海量的數(shù)據(jù)中提取出精華信息,完成了知識的匯集、整理、再加工,構(gòu)建了與國際標(biāo)準(zhǔn)接軌的數(shù)據(jù)“智囊”,目前已建成涵蓋近20領(lǐng)域、幾十類別、上億實體量的龐大知識數(shù)據(jù)庫。通過強(qiáng)大的平臺與靈活的機(jī)制,應(yīng)用到20多個產(chǎn)品線之中,為用戶帶來多角度、全方位的搜索體驗提升。
圖2 百度知識圖譜示例
3.3 深度問答
深度問答是一種基于海量互聯(lián)網(wǎng)數(shù)據(jù)和深度語義理解的智能系統(tǒng),基于對用戶自然語言的理解,實現(xiàn)對海量數(shù)據(jù)的深層分析和語義理解,并通過搜索和語義匹配技術(shù),提煉出答案信息,對信息進(jìn)行聚合、提煉,給出最全面、準(zhǔn)確的結(jié)果。其實現(xiàn)的難點主要在于正確理解用戶復(fù)雜和多變的需求,并掌握海量結(jié)構(gòu)化的知識庫數(shù)據(jù),這就需要強(qiáng)大的人工智能技術(shù)和海量復(fù)雜的大數(shù)據(jù)處理能力。深度問答其關(guān)鍵技術(shù)包括問題分析和理解技術(shù)、實體知識體系建模技術(shù)、文本分析和關(guān)系抽取技術(shù)以及語義分析和排序技術(shù)等。
● 問題分析和理解技術(shù):針對不同類型的問題,提取答案的技術(shù)也會不同。根據(jù)可采用的技術(shù),問題可以大致分為實體類問題和非實體類問題兩大類。實體類問題是指答案是實體的問題, 對于實體類問題,問題的答案可以是唯一實體或者實體的列表,需要通過問題分析技術(shù)分析出實體類別;對于非實體類的問題,需要通過問題分析技術(shù),把這些類型的問題跟實體類問題區(qū)分開來,因為這些問題的答案不再是實體,答案的形態(tài)也更加復(fù)雜。
● 實體知識體系建模技術(shù):實體類問答離不開實體知識體系的支撐,實體的類別、實體間的同位、上下位關(guān)系都十分重要。因此,一個完備的實體知識體系建設(shè)(ontology)對于問題回答十分必要。實體的同位、上下位關(guān)系可以通過整合多種來源的知識獲取,包括一些結(jié)構(gòu)化的數(shù)據(jù)如百度百科,也可以從普通文本中挖掘。
● 文本分析和關(guān)系抽取技術(shù):對文本的深層分析是深度問答用到的一項基礎(chǔ)技術(shù)。如圖3所示,文本的分析分為多個層次,包括分詞、實體識別、句法分析乃至語義角色標(biāo)注,在這些分析的基礎(chǔ)上可以進(jìn)行知識獲取。而通過對海量數(shù)據(jù)進(jìn)行深層分析,可以有效過濾文本分析引入的噪音,使得知識更加精準(zhǔn)。文本分析和關(guān)系抽取技術(shù)不僅可以用于從普通文本抽取知識,也可以用于語義匹配。
圖3 文本分析和知識抽取技術(shù)示例
4.1 百度大數(shù)據(jù)引擎
百度堅信技術(shù)改變互聯(lián)網(wǎng),互聯(lián)網(wǎng)可以改造傳統(tǒng)行業(yè)。為了助力傳統(tǒng)行業(yè)快速進(jìn)入這個大數(shù)據(jù)的時代,充分發(fā)掘和利用大數(shù)據(jù)的價值,百度對外發(fā)布大數(shù)據(jù)引擎,向外界提供大數(shù)據(jù)存儲、分析及挖掘的技術(shù)能力,這也是全球首個開放大數(shù)據(jù)引擎。
圖4 百度大數(shù)據(jù)引擎
如圖4所示,百度大數(shù)據(jù)引擎主要包含三大組件:開放云、數(shù)據(jù)工廠和百度大腦。開放云可以將企業(yè)原本價值密度低、結(jié)構(gòu)多樣的小數(shù)據(jù)匯聚成可虛擬化、可檢索的大數(shù)據(jù),解決數(shù)據(jù)存儲和計算瓶頸;數(shù)據(jù)工廠對這些數(shù)據(jù)加工、處理、檢索,把數(shù)據(jù)關(guān)聯(lián)起來,從中挖掘出一定的價值;百度大腦是建立在百度深度學(xué)習(xí)和大規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)上,最終實現(xiàn)更具前瞻性的智能數(shù)據(jù)分析及預(yù)測功能,以實現(xiàn)數(shù)據(jù)智能,支持科學(xué)決策與創(chuàng)造。百度積極開放輸出百度大腦的能力,一方面助力國家在人工智能、大數(shù)據(jù)等技術(shù)上的整體提升;另一方面也幫助行業(yè)轉(zhuǎn)型升級,提升企業(yè)的核心競爭力。
這三大組件作為3級開放平臺支撐百度核心業(yè)務(wù)及其拓展業(yè)務(wù),也將作為獨立或整體的開放平臺,給各行各業(yè)提供支持和服務(wù),支持百度的核心商業(yè)應(yīng)用及社會企業(yè)的新興商業(yè)模式。
4.2 百度行業(yè)應(yīng)用大數(shù)據(jù)實踐
4.2.1 公眾生活領(lǐng)域——大數(shù)據(jù)預(yù)測
百度基于海量的數(shù)據(jù)處理能力,利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等手段建立模型,可以實現(xiàn)公眾生活的預(yù)測業(yè)務(wù)。目前,在百度預(yù)測產(chǎn)品中已經(jīng)推出了景點舒適度預(yù)測和城市旅游預(yù)測、高考預(yù)測、世界杯預(yù)測等服務(wù)。
以世界杯預(yù)測為例,在2014年巴西世界杯的四分之一決賽前,百度、谷歌、微軟和高盛分別對4強(qiáng)結(jié)果進(jìn)行了預(yù)測,結(jié)果顯示:百度、微軟結(jié)果預(yù)測完全正確,而谷歌則預(yù)測正確3支晉級球隊;在小組賽階段的預(yù)測,谷歌缺席,微軟、高盛的準(zhǔn)確率也低于百度6http://www. ithome.com/ html/it/93409. htm??傮w來看,無論是小組賽還是淘汰賽,百度的世界杯結(jié)果預(yù)測中均領(lǐng)先于其他公司。最終,百度又成功預(yù)測了德國隊奪冠,如圖5所示。
預(yù)測準(zhǔn)確度來自百度對大數(shù)據(jù)的強(qiáng)大分析能力和超大規(guī)模機(jī)器學(xué)習(xí)模型。在對體育數(shù)據(jù)的研究過程中,百度的科學(xué)家發(fā)現(xiàn)類似保羅章魚的賽事預(yù)測完全有可能借助大數(shù)據(jù)的分析能力完成。因此,百度收集了2010-2013年全世界范圍內(nèi)所有國家隊及俱樂部的賽事數(shù)據(jù),構(gòu)建了賽事預(yù)測模型,并通過對多源異構(gòu)數(shù)據(jù)的綜合分析,綜合考慮球隊實力、近期狀態(tài)、主場效應(yīng)、博彩數(shù)據(jù)和大賽能力等5個維度的數(shù)據(jù)。最終實現(xiàn)了對2014年巴西世界杯的成功預(yù)測。
4.2.2 公共衛(wèi)生領(lǐng)域——疾病預(yù)測
通過百度搜索數(shù)據(jù)與醫(yī)療數(shù)據(jù)、醫(yī)保數(shù)據(jù)等關(guān)聯(lián),并結(jié)合圖像識別和語音識別技術(shù)、可穿戴設(shè)備數(shù)據(jù)采集等,通過大數(shù)據(jù)分析與挖掘能力可以實現(xiàn)人群疾病分布關(guān)聯(lián)分析等。通過對大量臨床電子病歷、臨床經(jīng)驗和科研成果等醫(yī)學(xué)信息數(shù)據(jù)進(jìn)行學(xué)習(xí)和理解,繪制人類疾病圖譜(人群分布),并建立疾病分析模型和治療路徑模型。這也將極大推動疾病研究、醫(yī)藥研發(fā)、藥品監(jiān)管、居民醫(yī)療服務(wù)和全民健康教育等事業(yè)發(fā)展。
百度與中國疾病預(yù)防控制中心(CDC)合作開發(fā)的疾病預(yù)測產(chǎn)品,基于對網(wǎng)民每日更新的互聯(lián)網(wǎng)搜索的分析、建模,實時反饋流感、手足口、性病、艾滋病等傳染病,糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發(fā)數(shù)據(jù),并預(yù)測疾病流行趨勢,是國家疾病控制機(jī)構(gòu)傳統(tǒng)監(jiān)測體系的有力補充。結(jié)合大數(shù)據(jù)輿情分析、公共衛(wèi)生危機(jī)事件預(yù)警產(chǎn)品,有效地融合非結(jié)構(gòu)化大數(shù)據(jù),建立了基于互聯(lián)網(wǎng)的新興公共衛(wèi)生數(shù)據(jù)資源共享機(jī)制與服務(wù)價值鏈。
圖5 百度世界杯預(yù)測
4.2.3 企業(yè)IT應(yīng)用——硬盤故障預(yù)測
百度全球有幾十個的數(shù)據(jù)中心或者內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)節(jié)點,擁有數(shù)十萬臺服務(wù)器和數(shù)萬臺交換機(jī),200多萬塊硬盤。這些硬盤的年報錯率為4%~7%,月均硬盤故障超過1萬起,占全部硬件故障的80%以上。百度通過大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù),對9億條實例進(jìn)行采集處理,選取15萬個訓(xùn)練樣本,監(jiān)控240個特征的實時變化,構(gòu)建預(yù)測模型,并通過機(jī)器學(xué)習(xí)的算法可以提前一天預(yù)測出硬盤故障并遷移數(shù)據(jù),該系統(tǒng)可以節(jié)約帶寬70%、節(jié)約計算資源85%、節(jié)省服務(wù)器運行消耗10%,每年節(jié)省1萬多塊硬盤。如圖6所示,基于大數(shù)據(jù)實現(xiàn)硬盤故障預(yù)測的方法也可以用于實現(xiàn)行業(yè)硬件系統(tǒng)的運維和管理中。
圖6 基于大數(shù)據(jù)的硬盤故障預(yù)測
4.2.4 企業(yè)IT應(yīng)用——智能化運維
近年來百度在服務(wù)器規(guī)模、數(shù)據(jù)規(guī)模、單集群規(guī)模等方面出現(xiàn)爆發(fā)式增長。百度服務(wù)器的規(guī)模近5年來增長了15倍以上,達(dá)到數(shù)十萬臺。數(shù)據(jù)規(guī)模已達(dá)到EB級別。在云計算和大數(shù)據(jù)時代,集群規(guī)模和數(shù)據(jù)量爆發(fā)式增長,如何管理好云計算平臺、如何提供高質(zhì)量的服務(wù),是云計算的核心問題之一。
為了應(yīng)對云計算和大數(shù)據(jù)應(yīng)用帶來的新的需求和挑戰(zhàn),百度同樣利用大數(shù)據(jù)技術(shù),把在線服務(wù)運維轉(zhuǎn)向智能化管理模式,并走在了行業(yè)的前列。百度已經(jīng)建立起了六大數(shù)據(jù)倉庫之一的運維數(shù)據(jù)倉庫,囊括了服務(wù)器、網(wǎng)絡(luò)、系統(tǒng)、程序、變更等各個方面的實時及歷史狀態(tài)數(shù)據(jù),每天更新數(shù)據(jù)量接近100 TB。
基于對運維大數(shù)據(jù)的挖掘、對歷史數(shù)據(jù)的學(xué)習(xí)和異常模式識別,實現(xiàn)對流量數(shù)據(jù)的預(yù)測。通過對包括訪問速度、系統(tǒng)容量、帶寬、成本等在內(nèi)的10多個因子的實時自動分析,實現(xiàn)了在眾多數(shù)據(jù)中心間的流量自動調(diào)度,決策時間也由人工判斷的10幾分鐘大幅縮短到1 min。這個系統(tǒng)的實際效果在故障中得到很好的檢驗,例如系統(tǒng)在沒有人工介入的情況下智能地把流量調(diào)度到另外的數(shù)據(jù)中心,拒絕流量僅有幾千個,避免類似故障可能造成數(shù)千萬的流量損失。
4.2.5 社會治理領(lǐng)域——上海外灘踩踏事故大數(shù)據(jù)分析
用戶去目的地之前,一般都會提前利用百度地圖搜索地點和規(guī)劃路線。同時,百度的搜索詞也會有一定的提前量預(yù)測某一事件。因此,對百度數(shù)據(jù)的分析可以應(yīng)用于社會治理領(lǐng)域,實現(xiàn)基于大規(guī)模人群的事件預(yù)警和分析。
圖7 外灘地區(qū)人群熱力圖
2015年初的上海外灘踩踏事件發(fā)生后,百度秉承“以數(shù)據(jù)說話”的理念,通過對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,對當(dāng)時的情況進(jìn)行了數(shù)據(jù)化描述。圖7標(biāo)明了南京東路地鐵站附近區(qū)域、外灘源附近區(qū)域、事發(fā)地陳毅廣場附近區(qū)域和外灘區(qū)域位置在2014年12月31日事發(fā)當(dāng)時的人群熱力圖。顏色越深表示人群越密集,顏色越淺表示越稀疏。
對當(dāng)晚外灘區(qū)域的人流進(jìn)行量化分析,得到了如圖8所示的人群流動方向分布情況。圖8中每一扇形分區(qū)代表不同的人流方向,扇區(qū)半徑表示該方向人流量大小。圖8(a)和圖8(b)表示2014年中秋和國慶當(dāng)晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖8(c)顯示了跨年當(dāng)晚外灘區(qū)域的人流方向,除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。
為了挖掘用戶行為的時空特性,百度對大量歷史群體聚集場合的數(shù)據(jù)進(jìn)行進(jìn)一步分析,包括鳥巢足球賽等。分析發(fā)現(xiàn),相關(guān)地點的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現(xiàn)。圖9為外灘的搜索量和人群數(shù)量之間的互相關(guān)性相對于時延的變化曲線,其中橫軸的值為時延量,負(fù)值表示提前量。例如,橫坐標(biāo)-10對應(yīng)的縱坐標(biāo)值就是提前10 h的搜索量與人群數(shù)量的相關(guān)性。從圖9中可以發(fā)現(xiàn),兩個量的互相關(guān)性曲線在-1.5 h時達(dá)到了峰值,這意味著,根據(jù)地圖上相關(guān)地點搜索的請求量,至少可能提前幾十分鐘預(yù)測出人流量峰值的到來。
圖8 人群流動方向分布情況
圖9 搜索量和人群數(shù)量相關(guān)性曲線
隨著我國各行業(yè)信息化的快速發(fā)展,數(shù)據(jù)量激增,我國已經(jīng)成為數(shù)據(jù)大國。未來如何將這些數(shù)據(jù)得以有效、科學(xué)地利用,挖掘數(shù)據(jù)價值,將我國建設(shè)為大數(shù)據(jù)技術(shù)強(qiáng)國,是信息化發(fā)展的重要戰(zhàn)略問題。進(jìn)入大數(shù)據(jù)時代,數(shù)據(jù)類型已不是單一的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)占有非常大的比重,但是如果現(xiàn)有技術(shù)手段無法將大量的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一和整合,就無法發(fā)掘數(shù)據(jù)中的重要價值。而對于這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析和挖掘并實現(xiàn)其價值,人工智能是重要的技術(shù)發(fā)展方向。大數(shù)據(jù)和計算技術(shù)的發(fā)展帶來了人工智能的新浪潮,人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力,也就是說系統(tǒng)的性能會隨著經(jīng)驗數(shù)據(jù)的積累而不斷提升。所以,大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。
如圖10所示,在人工智能領(lǐng)域,存在著一個正循環(huán):通過人工智能技術(shù)不斷優(yōu)化產(chǎn)品,讓優(yōu)秀產(chǎn)品吸引更多用戶,更多用戶產(chǎn)生更多數(shù)據(jù),而更多的數(shù)據(jù)可以使人工智能的性能得到提升,從而讓產(chǎn)品更優(yōu)秀。
在過去的20年里,中國企業(yè)很多時候都只能扮演技術(shù)跟隨者的角色,但是現(xiàn)階段我國互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)處理和人工智能等領(lǐng)域不斷取得突破,推動了這個正循環(huán)運轉(zhuǎn)加速,引領(lǐng)我國信息技術(shù)的發(fā)展,并在世界范圍內(nèi)樹立技術(shù)強(qiáng)國的形象,推動我國的大數(shù)據(jù)產(chǎn)業(yè)成熟和發(fā)展。
圖10 基于大數(shù)據(jù)的人工智能正循環(huán)
[1] 涂蘭敬. 百度的技術(shù)突破與應(yīng)用. 中國計算機(jī)報, 2015-01-05 Tu L J. Technology breakthrough and application of the Baidu. Chinese Computer Newspaper, 2015-01-05
[2] 都大龍, 余軼男, 羅恒等. 基于深度學(xué)習(xí)的圖像識別進(jìn)展:百度的若干實踐. 中國計算機(jī)學(xué)會通訊, 2015,11(4)Du D L, Yu Y N, Luo H, et al. Progress of image recognition based on deep learning:some of the Baidu practice. Communications of the CCF, 2015,11(4)
Chen S Y. Big data applications and practices of Baidu. Big Data Research, 2015009
Big Data Applications and Practices of Baidu
Chen Shangyi
Baidu.com.Inc., Beijing 100085, China
Big data and the related applications which derived from the internet originally, are now expanding to other industries, and becoming the key driving force of their innovation and transition. The evolvement of the search engine driven by big data technologies was described, based on Baidu’s innovations and practices in the big data area over the years. Baidu big data engine and its explorations in other industries were introduced. Finally, a vision was discussed that big data and artificial intelligence will be prospected in the future information communication technology.
big data, artificial intelligence, search engine
2015-05-04;
2015-05-06
陳尚義. 百度大數(shù)據(jù)應(yīng)用與實踐. 大數(shù)據(jù), 2015009
陳尚義,百度技術(shù)委員會理事長,國家科技重大專項(03專項)總體組專家,中國電子學(xué)會常務(wù)理事,中國電子學(xué)會、中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會委員,北京航空航天大學(xué)、合肥工業(yè)大學(xué)兼職教授,北京航空航天大學(xué)計算機(jī)校友會會長。先后就職于國家發(fā)展改革委員會辦公廳、國家開發(fā)銀行科技局從事信息化工作,新加坡國立大學(xué)、美國硅谷高科技公司從事信息技術(shù)產(chǎn)品的研發(fā)工作,2011年初加入百度。獲省部級科技進(jìn)步獎一等獎1次,二等獎3次、三等獎4次,2009年度“北京市創(chuàng)新人物”。