對于當(dāng)前人工智能和大數(shù)據(jù)發(fā)展的這個階段,我們認為有兩個挑戰(zhàn):技術(shù)創(chuàng)新和場景創(chuàng)新,當(dāng)然大家提到的大數(shù)據(jù)應(yīng)用的創(chuàng)新是一個關(guān)鍵的階段。
在人工智能領(lǐng)域,分成兩個方面,一方面是感知智能,有視覺識別和語音識別兩個方向。另外,人工智能中比較挑戰(zhàn)的領(lǐng)域是認知智能,因為認知智能背后的自然語言的語義識別技術(shù)比較難。當(dāng)然,如果技術(shù)創(chuàng)新沒有一個很好的基礎(chǔ),會導(dǎo)致場景創(chuàng)新沒有那么大的力量。因此,我們知道大數(shù)據(jù)分析的很多應(yīng)用并沒有得到長足的進步,這是與技術(shù)創(chuàng)新有一定關(guān)系的。而當(dāng)技術(shù)創(chuàng)新有了很好的進步時,大數(shù)據(jù)需要在垂直行業(yè)尋找更好的創(chuàng)新場景,垂直行業(yè)的場景創(chuàng)新依然很重要,在場景領(lǐng)域很難做出平臺級的產(chǎn)品。
現(xiàn)在,機器學(xué)習(xí)以深度學(xué)習(xí)為代表已經(jīng)成為一個算法基礎(chǔ)。人工智能本身包括深度學(xué)習(xí),它的歷史有五六十年。為什么現(xiàn)在我們認為它有很大的應(yīng)用價值,或者是有了很大的進步?
我認為有兩個原因:第一是大數(shù)據(jù)的發(fā)展,為整個人工智能提供了支持,人工智能在整個機器學(xué)習(xí)的過程中需要有樣本、需要有可學(xué)習(xí)的數(shù)據(jù),大數(shù)據(jù)使得這些可學(xué)習(xí)的樣本更加豐富。第二是算力的發(fā)展,沒有當(dāng)前如此大的算力,同樣的深度學(xué)習(xí)需要的周期,可能是我們無法承受的。
整個深度學(xué)習(xí),在數(shù)據(jù)豐富以及算力這兩個維度的支持下,使得感知智能發(fā)展取得了很大的成就。如果作為創(chuàng)業(yè)的選擇,能在這些領(lǐng)域找到一定的場景挖掘,我認為是一件很有價值且很值得做的事。
為什么這樣說?我認為有幾個先天的優(yōu)勢:機器學(xué)習(xí)算法各位都可以學(xué)、可以掌握,是一個普惠的資源。而GPU帶來的算力的提升,只要你有資本投入,這些事情都可以輕松地完成。另外,大數(shù)據(jù)的發(fā)展使得我們獲取樣本數(shù)據(jù)的困難在降低,加之政府逐步開放數(shù)據(jù),因此數(shù)據(jù)的獲取并不難。
綜上幾點所述,此時來做“眾創(chuàng)”是一個很好的機會,從現(xiàn)實情況看,做場景創(chuàng)新的創(chuàng)業(yè)公司越來越多。
從認知角度考慮,我們認為認知智能在深度學(xué)習(xí)方面是達不到預(yù)期效果的。尤其是在行業(yè)領(lǐng)域深度學(xué)習(xí)還將面臨三個挑戰(zhàn):缺乏足夠豐富的樣本數(shù)據(jù),算法訓(xùn)練、調(diào)優(yōu)、測試困難;來自中文歧義性的挑戰(zhàn),相同的含義不一樣的表達,或者相同的表達不一樣的含義;應(yīng)答結(jié)果專業(yè)性的要求,應(yīng)答準確性不可讓步。
在神州泰岳,在智能認知領(lǐng)域有我們自己的技術(shù):基于概念計算的智慧語義認知技術(shù),這是一個自由的流派。
從具體的幾個方面來看,我們要做概念識別,比如手里拿一個杯子,大家看到杯子時的概念是一樣的,但語言不一樣。有人叫杯子,有人叫茶具,有人叫杯具,如果說“杯具”,有可能是不好的意思。所以,我們通過符號化的表示,來表達真實的意思。此外我們可以實現(xiàn)多語種支持,而不需要分別處理。
應(yīng)用創(chuàng)新和技術(shù)創(chuàng)新的支持不能簡單粗暴,我們推出了非結(jié)構(gòu)化大數(shù)據(jù)的文本分析挖掘平臺,這個平臺通過建模幫助大家實現(xiàn)很好的創(chuàng)新。并且,這個平臺也是目前業(yè)界首款完全面向行業(yè)建模的平臺。
基于這個平臺,你在進行大數(shù)據(jù)創(chuàng)新的時候,不需要語料、不需要通過CPU,我們每秒處理15萬漢字,大大降低了大數(shù)據(jù)的創(chuàng)新成本?;谶@個理念,神州泰岳提出了“語義云”這一概念。我們會向各個行業(yè)輸出,方便大家應(yīng)用。
舉例來看,我們做了一個智腦系統(tǒng),就是報案分析,機器可以根據(jù)報案的信息進行分析,比如案件發(fā)生的時間、判斷并識別案件中的關(guān)鍵信息等。目前,北京市公安系統(tǒng)已經(jīng)在真正應(yīng)用。
接下來,我們看一下這套系統(tǒng)的“療效”,針對入室盜竊案情分析,北京市去年入室搶盜案件有22710起,串并規(guī)則19個,續(xù)串案總量2400起。依據(jù)分析線索,經(jīng)過人工研判,實現(xiàn)串并案35個,每個串并案涉及10起左右案件,總計研判涉及未破案件362起,結(jié)果屬實;使用引導(dǎo)式串并,發(fā)現(xiàn)3個串并案,共涉及27個案件,經(jīng)研判屬實;自動續(xù)串3起,經(jīng)人工分析之后,確實屬于續(xù)串案件。針對電信詐騙案情分析,分析案件總量7375起,實現(xiàn)串并總量765串。
總結(jié)下,神州泰岳人工智能認知+的三大戰(zhàn)略理念是:
技術(shù)創(chuàng)新戰(zhàn)略,以“平臺化”策略驅(qū)動核心技術(shù)研發(fā),圍繞語義認知主題,開放語義認知平臺“泰岳語義云”,吸引更多行業(yè)合作伙伴,共同打造語義認知生態(tài)鏈。
工具創(chuàng)新戰(zhàn)略,以“智能化”策略驅(qū)動人工智能應(yīng)用產(chǎn)品研發(fā),圍繞行業(yè)應(yīng)用,以文字為載體,需要深度語義認知技術(shù)的應(yīng)用場景,推出系列的智能化應(yīng)用產(chǎn)品。
場景創(chuàng)新策略,以“云計算”策略驅(qū)動非結(jié)構(gòu)化大數(shù)據(jù)應(yīng)用產(chǎn)品研發(fā),繼續(xù)整合行業(yè)知識,在原有基礎(chǔ)云服務(wù)基礎(chǔ)上,挖掘行業(yè)應(yīng)用內(nèi)涵,推出系列大數(shù)據(jù)云服務(wù)產(chǎn)品。比如“智媒”騰訊智慧傳播管理平臺、證券研報分析云等。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)