祁國晟
我們公司成立于2005年,那時我就讀于清華大學,在學校宿舍成立這個公司。11年來我們主要業(yè)務是數(shù)據(jù)處理、數(shù)據(jù)分析,為企業(yè)服務。2007年開始公司所有產(chǎn)品和解決方案都以saas和云計算方法向社會和機構(gòu)提供服務。我們服務約600家企業(yè),其中大多為世界五百強企業(yè),包括司法、行政、政府部門、國家機關(guān)和電視臺都是我們服務對象。
公司2016年9月23日在納斯達克上市。過去中國很多知名企業(yè)在美國上市,都是消費互聯(lián)網(wǎng)企業(yè),主要面向消費者,或互聯(lián)網(wǎng)用戶。而我們是第一家大數(shù)據(jù)企業(yè),我們非常榮幸能夠成為一種新興力量。
目前公司申請發(fā)明專利共1728件,其中583件與大數(shù)據(jù)相關(guān),148件與人工智能相關(guān)。過去兩年我們公司是中關(guān)村發(fā)明專利前十強,其他九家都是五千人以上的大型互聯(lián)網(wǎng),或科技巨頭企業(yè)。而我們是唯一一家公司規(guī)模在千人左右的企業(yè),所以我們公司在大數(shù)據(jù)時代下發(fā)展人工產(chǎn)業(yè)AI和產(chǎn)業(yè)人工智能很有信心。
我們公司名為國雙,名字是來源于2003年我在大二時所開發(fā)的程序。我試想未來計算機是被設計用來做加法運算,因數(shù)據(jù)量大,需要多臺計算機一起做加法。所以2003年時我自己開發(fā)了一個程序,可以把四則運算變成加法,由計算機去選擇連接多臺計算機一起運算。把這樣的觀點和數(shù)據(jù)運用在為企業(yè)服務之中。
在大學期間,我人工智能這門功課成績不錯。2003年一個作業(yè)使我印象深刻,實現(xiàn)A星搜索。在它的運用領(lǐng)域里,是效率最高的一種算法。但是它有一個缺陷,當你在解決復雜問題時,會占用大量內(nèi)存。在十年前,內(nèi)存是一個很大的限制,很多程序員寧愿放棄這個算法。我們需要找到一個可以節(jié)省內(nèi)存的方法,并放在產(chǎn)業(yè)應用中。
如果把A星算法當作一個游戲沒問題,因為數(shù)據(jù)量很大,放在產(chǎn)業(yè)應用中非常復雜。當時還是學生的我想過,可不可以用我們做的分布式求和算法,在內(nèi)存有限的條件下,與多臺計算機連接,內(nèi)存是否會變的更大一些,便可以有更大空間使用類似的完美算法,但當時沒有時間實踐。
在看2011年第三版人工智能教材中,看這兩個版本教材之間有什么區(qū)別。唯一不同是從2003年開始至2011年數(shù)據(jù)的巨大變化。從2011年后我們使用巨量數(shù)據(jù),運用多臺計算機協(xié)同工作來解決問題。
在大數(shù)據(jù)時代下產(chǎn)業(yè)AI,用大數(shù)據(jù)方法,把AI放在多臺計算機去運作產(chǎn)業(yè)。過去十多年來我們公司是從事廣告效果監(jiān)測最早的行業(yè),在過去廣告點擊作弊非常嚴重,普遍使用鼠標點擊的方法。
我們用熱力圖方法,抓到每個鼠標點擊大多點在一處。在報警信息中,查看是否有某種渠道發(fā)來多少無效的作弊流量。今天監(jiān)測已不再需要人工等條件來發(fā)現(xiàn)問題。依靠人工智能方法發(fā)現(xiàn)問題。
我們每天有37.4億行為數(shù)據(jù),實時反應互聯(lián)網(wǎng)用戶行為。根據(jù)數(shù)據(jù)我們反點擊欺詐能力很強,任何一個廣告公司,媒體,如果知道用戶在使用國雙產(chǎn)品,是不會想要給用戶放任何的有問題的流量。
第二我們公司今年已進入司法行業(yè)。一年前中國最高法院公開所有判決文書,一份判決文書約為5K,而庭審過程中所記錄下來文件可能約50兆?,F(xiàn)在已經(jīng)公開了判決文書有1600萬份。舉一個例子,在訴訟中大多官司相似,這造成法官、法院,要承擔很大的工作量。而案件的共性不該花費法官大量時間。而智能庭前調(diào)節(jié)輔助系統(tǒng),可通過人工智能和海量的司法后臺數(shù)據(jù)連接,告知這種情況屬于那種法律法規(guī)。而且還會顯示統(tǒng)計結(jié)果,比如這種情況,在其他地區(qū)有多少起類似案件,勝訴數(shù)和平均訴請金錢和賠償金額等數(shù)據(jù)等,今年我們開始在幫助一些法院去運作,并有很好的社會效應。
第三則是信息安全。最近關(guān)于信息安全事故頻發(fā)。而傳統(tǒng)信息安全靠防火墻和硬件抵擋攻擊。但傳統(tǒng)防御并非萬能,例如黑客可通過一部手機,從手機防火墻共性一臺服務器并把信息偷走。如果用大數(shù)據(jù)方法,所有服務器的智能設備數(shù)據(jù)都會被云記錄。有一個“大腦”去分析這些行為,自動發(fā)現(xiàn)異常數(shù)據(jù)背后可能存在的危險,解決硬件所不能解決的問題。
做一個總結(jié),什么是產(chǎn)業(yè)AI的方法論?首先計算機通過數(shù)據(jù)發(fā)現(xiàn)異常數(shù)據(jù)。而結(jié)果會反饋到計算機并形成了人工智能,這個人工智可不斷迭代。我們公司做各種商業(yè)、業(yè)務、營銷、銷售、審判流程、在線服務等自動化,而自動化運作會產(chǎn)生數(shù)據(jù),如果把這些海量數(shù)據(jù)用人工智能方法“訓練”起來,絕對不止是業(yè)務流程情況和關(guān)鍵節(jié)點的思考決策。
我們公司真實數(shù)據(jù)量從2005年至2016年9月成線性逐漸增長。每年TB存儲費用,下降速度較快,而所有數(shù)據(jù)處理的成本變化差異相似。另外我國在這件事情上有一個彎道超車機會。第一,因為我國企業(yè)軟件發(fā)展嚴重滯后。第二,消費互聯(lián)網(wǎng)和智能手機終端發(fā)展比美國更先進。我國沒有遺留信息系統(tǒng)問題,而美國20年一直使用遺留數(shù)據(jù)。很難解決數(shù)據(jù)提取和數(shù)據(jù)一致問題,在AI系統(tǒng)中的無效數(shù)據(jù)無法產(chǎn)生真正AI,而我國還有很多機會。