對(duì)于當(dāng)前人工智能和大數(shù)據(jù)發(fā)展的這個(gè)階段,我們認(rèn)為有兩個(gè)挑戰(zhàn):技術(shù)創(chuàng)新和場(chǎng)景創(chuàng)新,當(dāng)然大家提到的大數(shù)據(jù)應(yīng)用的創(chuàng)新是一個(gè)關(guān)鍵的階段。
在人工智能領(lǐng)域,分成兩個(gè)方面,一方面是感知智能,有視覺(jué)識(shí)別和語(yǔ)音識(shí)別兩個(gè)方向。另外,人工智能中比較挑戰(zhàn)的領(lǐng)域是認(rèn)知智能,因?yàn)檎J(rèn)知智能背后的自然語(yǔ)言的語(yǔ)義識(shí)別技術(shù)比較難。當(dāng)然,如果技術(shù)創(chuàng)新沒(méi)有一個(gè)很好的基礎(chǔ),會(huì)導(dǎo)致場(chǎng)景創(chuàng)新沒(méi)有那么大的力量。因此,我們知道大數(shù)據(jù)分析的很多應(yīng)用并沒(méi)有得到長(zhǎng)足的進(jìn)步,這是與技術(shù)創(chuàng)新有一定關(guān)系的。而當(dāng)技術(shù)創(chuàng)新有了很好的進(jìn)步時(shí),大數(shù)據(jù)需要在垂直行業(yè)尋找更好的創(chuàng)新場(chǎng)景,垂直行業(yè)的場(chǎng)景創(chuàng)新依然很重要,在場(chǎng)景領(lǐng)域很難做出平臺(tái)級(jí)的產(chǎn)品。
現(xiàn)在,機(jī)器學(xué)習(xí)以深度學(xué)習(xí)為代表已經(jīng)成為一個(gè)算法基礎(chǔ)。人工智能本身包括深度學(xué)習(xí),它的歷史有五六十年。為什么現(xiàn)在我們認(rèn)為它有很大的應(yīng)用價(jià)值,或者是有了很大的進(jìn)步?
我認(rèn)為有兩個(gè)原因:第一是大數(shù)據(jù)的發(fā)展,為整個(gè)人工智能提供了支持,人工智能在整個(gè)機(jī)器學(xué)習(xí)的過(guò)程中需要有樣本、需要有可學(xué)習(xí)的數(shù)據(jù),大數(shù)據(jù)使得這些可學(xué)習(xí)的樣本更加豐富。第二是算力的發(fā)展,沒(méi)有當(dāng)前如此大的算力,同樣的深度學(xué)習(xí)需要的周期,可能是我們無(wú)法承受的。
整個(gè)深度學(xué)習(xí),在數(shù)據(jù)豐富以及算力這兩個(gè)維度的支持下,使得感知智能發(fā)展取得了很大的成就。如果作為創(chuàng)業(yè)的選擇,能在這些領(lǐng)域找到一定的場(chǎng)景挖掘,我認(rèn)為是一件很有價(jià)值且很值得做的事。
為什么這樣說(shuō)?我認(rèn)為有幾個(gè)先天的優(yōu)勢(shì):機(jī)器學(xué)習(xí)算法各位都可以學(xué)、可以掌握,是一個(gè)普惠的資源。而GPU帶來(lái)的算力的提升,只要你有資本投入,這些事情都可以輕松地完成。另外,大數(shù)據(jù)的發(fā)展使得我們獲取樣本數(shù)據(jù)的困難在降低,加之政府逐步開(kāi)放數(shù)據(jù),因此數(shù)據(jù)的獲取并不難。
綜上幾點(diǎn)所述,此時(shí)來(lái)做“眾創(chuàng)”是一個(gè)很好的機(jī)會(huì),從現(xiàn)實(shí)情況看,做場(chǎng)景創(chuàng)新的創(chuàng)業(yè)公司越來(lái)越多。
從認(rèn)知角度考慮,我們認(rèn)為認(rèn)知智能在深度學(xué)習(xí)方面是達(dá)不到預(yù)期效果的。尤其是在行業(yè)領(lǐng)域深度學(xué)習(xí)還將面臨三個(gè)挑戰(zhàn):缺乏足夠豐富的樣本數(shù)據(jù),算法訓(xùn)練、調(diào)優(yōu)、測(cè)試?yán)щy;來(lái)自中文歧義性的挑戰(zhàn),相同的含義不一樣的表達(dá),或者相同的表達(dá)不一樣的含義;應(yīng)答結(jié)果專業(yè)性的要求,應(yīng)答準(zhǔn)確性不可讓步。
在神州泰岳,在智能認(rèn)知領(lǐng)域有我們自己的技術(shù):基于概念計(jì)算的智慧語(yǔ)義認(rèn)知技術(shù),這是一個(gè)自由的流派。
從具體的幾個(gè)方面來(lái)看,我們要做概念識(shí)別,比如手里拿一個(gè)杯子,大家看到杯子時(shí)的概念是一樣的,但語(yǔ)言不一樣。有人叫杯子,有人叫茶具,有人叫杯具,如果說(shuō)“杯具”,有可能是不好的意思。所以,我們通過(guò)符號(hào)化的表示,來(lái)表達(dá)真實(shí)的意思。此外我們可以實(shí)現(xiàn)多語(yǔ)種支持,而不需要分別處理。
應(yīng)用創(chuàng)新和技術(shù)創(chuàng)新的支持不能簡(jiǎn)單粗暴,我們推出了非結(jié)構(gòu)化大數(shù)據(jù)的文本分析挖掘平臺(tái),這個(gè)平臺(tái)通過(guò)建模幫助大家實(shí)現(xiàn)很好的創(chuàng)新。并且,這個(gè)平臺(tái)也是目前業(yè)界首款完全面向行業(yè)建模的平臺(tái)。
基于這個(gè)平臺(tái),你在進(jìn)行大數(shù)據(jù)創(chuàng)新的時(shí)候,不需要語(yǔ)料、不需要通過(guò)CPU,我們每秒處理15萬(wàn)漢字,大大降低了大數(shù)據(jù)的創(chuàng)新成本?;谶@個(gè)理念,神州泰岳提出了“語(yǔ)義云”這一概念。我們會(huì)向各個(gè)行業(yè)輸出,方便大家應(yīng)用。
舉例來(lái)看,我們做了一個(gè)智腦系統(tǒng),就是報(bào)案分析,機(jī)器可以根據(jù)報(bào)案的信息進(jìn)行分析,比如案件發(fā)生的時(shí)間、判斷并識(shí)別案件中的關(guān)鍵信息等。目前,北京市公安系統(tǒng)已經(jīng)在真正應(yīng)用。
接下來(lái),我們看一下這套系統(tǒng)的“療效”,針對(duì)入室盜竊案情分析,北京市去年入室搶盜案件有22710起,串并規(guī)則19個(gè),續(xù)串案總量2400起。依據(jù)分析線索,經(jīng)過(guò)人工研判,實(shí)現(xiàn)串并案35個(gè),每個(gè)串并案涉及10起左右案件,總計(jì)研判涉及未破案件362起,結(jié)果屬實(shí);使用引導(dǎo)式串并,發(fā)現(xiàn)3個(gè)串并案,共涉及27個(gè)案件,經(jīng)研判屬實(shí);自動(dòng)續(xù)串3起,經(jīng)人工分析之后,確實(shí)屬于續(xù)串案件。針對(duì)電信詐騙案情分析,分析案件總量7375起,實(shí)現(xiàn)串并總量765串。
總結(jié)下,神州泰岳人工智能認(rèn)知+的三大戰(zhàn)略理念是:
技術(shù)創(chuàng)新戰(zhàn)略,以“平臺(tái)化”策略驅(qū)動(dòng)核心技術(shù)研發(fā),圍繞語(yǔ)義認(rèn)知主題,開(kāi)放語(yǔ)義認(rèn)知平臺(tái)“泰岳語(yǔ)義云”,吸引更多行業(yè)合作伙伴,共同打造語(yǔ)義認(rèn)知生態(tài)鏈。
工具創(chuàng)新戰(zhàn)略,以“智能化”策略驅(qū)動(dòng)人工智能應(yīng)用產(chǎn)品研發(fā),圍繞行業(yè)應(yīng)用,以文字為載體,需要深度語(yǔ)義認(rèn)知技術(shù)的應(yīng)用場(chǎng)景,推出系列的智能化應(yīng)用產(chǎn)品。
場(chǎng)景創(chuàng)新策略,以“云計(jì)算”策略驅(qū)動(dòng)非結(jié)構(gòu)化大數(shù)據(jù)應(yīng)用產(chǎn)品研發(fā),繼續(xù)整合行業(yè)知識(shí),在原有基礎(chǔ)云服務(wù)基礎(chǔ)上,挖掘行業(yè)應(yīng)用內(nèi)涵,推出系列大數(shù)據(jù)云服務(wù)產(chǎn)品。比如“智媒”騰訊智慧傳播管理平臺(tái)、證券研報(bào)分析云等。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)