安欣賞
第四次工業(yè)革命正在來臨,而人工智能已經(jīng)從科幻逐步走入現(xiàn)實。隨著核心算法的突破、計算能力的迅速提高、海量互聯(lián)網(wǎng)數(shù)據(jù)的支撐,人工智能在21世紀的第二個十年里迎來質(zhì)的飛躍,成為全球矚目的科技焦點。對于中國而言,人工智能的發(fā)展是一個歷史性的戰(zhàn)略機遇,對緩解未來人口老齡化壓力、應對可持續(xù)發(fā)展挑戰(zhàn)、促進經(jīng)濟結構轉型升級至關重要。
人工智能發(fā)展歷程與現(xiàn)狀
人工智能已經(jīng)成為國際競爭的新焦點,世界上主要發(fā)達國家均把發(fā)展人工智能作為提升國家競爭力、維護國家安全的重大戰(zhàn)略,加緊出臺規(guī)劃和政策,力圖在新一輪國際科技競爭中掌握主導權。我國在2017年7月發(fā)布《新一代人工智能發(fā)展規(guī)劃》,明確我國新一代人工智能發(fā)展的戰(zhàn)略目標:2020年達到國際先進,2025年實現(xiàn)部分領先,2030年完成總體領先。
回顧全球人工智能的發(fā)展歷史,歷經(jīng)三個階段,跨度62年(1956年至今):
1956-1976,基于符號邏輯的推理證明階段;
1977-2006,基于人工規(guī)則的專家系統(tǒng)階段;
2007-至今,大數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡階段。
從2007年開始,人工智能進入大數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡階段,這階段人工智能發(fā)展的三大要素:數(shù)據(jù) +算法+ 算力。
中國工程院院士、新一代人工智能技術創(chuàng)新戰(zhàn)略聯(lián)盟理事長高文院士總結了我國人工智能發(fā)展的幾大優(yōu)勢:一是強有力的戰(zhàn)略引領和政策支持,二是海量的數(shù)據(jù)資源,三是豐富的應用場景,四是具有潛力的青年人才快速成長聚集。
我國發(fā)展人工智能既有很好的基礎和優(yōu)勢,也面臨巨大挑戰(zhàn),需要探索一條適合國情的發(fā)展道路??梢越Y合當前人工智能應用驅(qū)動的顯著特征,依托我國在大數(shù)據(jù)、應用場景、政策環(huán)境等方面的巨大優(yōu)勢,推動我國人工智能的深度應用。
人工智能數(shù)據(jù)發(fā)展現(xiàn)狀與存在問題
在我國人工智能的發(fā)展應用過程中,三大要素中的數(shù)據(jù)要素居于首位,這歸結于我國互聯(lián)網(wǎng)基礎設施建設、移動互聯(lián)網(wǎng)快速發(fā)展、網(wǎng)絡應用爆發(fā)增長、物聯(lián)網(wǎng)技術成熟。
與此同時,在當前,數(shù)據(jù)還存在以下問題:
第一,數(shù)據(jù)成本支出高,花費周期長。數(shù)據(jù)從采取、標注到最終能夠訓練使用,需要經(jīng)過較長周期,費時費力。大的人工智能公司,一年僅在數(shù)據(jù)標注上的支出就有數(shù)千萬。
第二,數(shù)據(jù)獲取難,共享難。除了人臉數(shù)據(jù)之外,與視覺相關的其他數(shù)據(jù)非常分散,不易批量獲取。而各類專業(yè)數(shù)據(jù)都掌握在互聯(lián)網(wǎng)頭部公司,或者政府手中,受商業(yè)利益和用戶隱私等影響,這些數(shù)據(jù)一般企業(yè)或者科研團隊都很難使用到。
第三,標準化和自動化有待提升。數(shù)據(jù)集質(zhì)量和數(shù)據(jù)標注質(zhì)量對訓練的準確度影響很大。數(shù)據(jù)集里普遍存在著噪音、干擾,在數(shù)據(jù)訓練前要進行數(shù)據(jù)清洗,往往需要專業(yè)人員去除影響訓練的雜質(zhì),另一方面,數(shù)據(jù)標注的質(zhì)量也對訓練有很大的影響,需要訓練熟練的標注工人對大量數(shù)據(jù)進行標注,而市面上的標注公司大多質(zhì)量參差不齊,標注標準不一樣,對訓練的準確度產(chǎn)生很大的干擾。自動化的平臺或者工具可以有效提升數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)標注效率。
第四,隱私及保密性。數(shù)據(jù)在使用、傳遞過程中,往往存在泄密,隱私暴露的可能。需要專業(yè)的數(shù)據(jù)公司通過嚴格的制度控制,減少數(shù)據(jù)泄密和隱私暴露的風險。
國內(nèi)外公共數(shù)據(jù)平臺的基本情況
當前,在國內(nèi)外比較知名的公共數(shù)據(jù)平臺中,有以下幾種類型和典型代表:
一、政府及組織公共數(shù)據(jù)平臺
https://www.data.gov是美國的一個綜合性公開數(shù)據(jù)網(wǎng)站,發(fā)展至今提供超過25萬個數(shù)據(jù)集,涵蓋氣候、教育、能源、金融等多個領域的數(shù)據(jù),類似的還有加拿大、印度等國家的政府公共數(shù)據(jù)網(wǎng)站,世界銀行的開放數(shù)據(jù)等。
二、大型公司公共數(shù)據(jù)平臺
亞馬遜公共數(shù)據(jù)平臺目前已包含114個大型數(shù)據(jù)集,這些數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集、Google Booksn-gram、NASA NEX數(shù)據(jù)集、百萬歌曲數(shù)據(jù)集等。Google BigQuery公開數(shù)據(jù)集是存儲在BigQuery中且可供公眾使用的任何數(shù)據(jù)集,其本質(zhì)是一種數(shù)據(jù)托管服務,第三方通過google云與公眾分享數(shù)據(jù)集。YouTube數(shù)據(jù)集https://research.google.com/youtube8m/,google研究小組發(fā)布的基于YouTube視頻的數(shù)據(jù)集,由大量視頻以及標簽組成,最近還增添了分割標注。
三、數(shù)據(jù)競賽型公共數(shù)據(jù)平臺
Kaggle數(shù)據(jù)競賽網(wǎng)站https://www.kaggle.com/datasets,是一個數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺,企業(yè)和研究者可在其上發(fā)布數(shù)據(jù),AI研究人員、統(tǒng)計學者和數(shù)據(jù)挖掘?qū)<铱稍谄渖线M行競賽以產(chǎn)生最好的模型。目前該網(wǎng)站已有較多數(shù)據(jù)集和開發(fā)者論壇提供的很多數(shù)據(jù)分析方法。
阿里天池https://tianchi.aliyun.com/home/,性質(zhì)和kaggle相近,提供了很多國內(nèi)企業(yè)應用場景相關的數(shù)據(jù)集,具有較大實用價值,但是由于很多是第三方企業(yè)組織提供的數(shù)據(jù)集和算法競賽目標,某些數(shù)據(jù)集質(zhì)量無法得到保證。
以政府數(shù)據(jù)為基礎
行業(yè)應合力建設公共數(shù)據(jù)平臺
政府部門在履行行政職能、管理社會公共事務的過程中采集和儲存了大量數(shù)據(jù),在保障國家秘密、商業(yè)秘密和個人隱私的前提下,如果將政府數(shù)據(jù)最大限度地開放出來,讓社會進行充分融合和利用,合力構筑數(shù)據(jù)基礎設施,營造全社會尊重數(shù)據(jù)、保護數(shù)據(jù)、善用數(shù)據(jù)的氛圍,有利于釋放數(shù)據(jù)能量,激發(fā)技術創(chuàng)新活力。
除了政府公共數(shù)據(jù)作為基礎的數(shù)據(jù)來源之外,還有其他途徑進行數(shù)據(jù)的補充。
一是產(chǎn)業(yè)數(shù)據(jù)協(xié)同。依靠各種協(xié)會聯(lián)盟的行業(yè)影響力,與產(chǎn)業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產(chǎn)業(yè)鏈上游的數(shù)據(jù)/平臺型公司建立合作,以此獲取所需數(shù)據(jù)資源;
二是自籌數(shù)據(jù)。通過投入大量人力進行數(shù)據(jù)采集,或者投入大量資金,向普通用戶提供特定領域免費應用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識別公司均推出了免費的照片應用程序,以便為圖像識別核心業(yè)務積累更多圖像數(shù)據(jù);
三是開源開放平臺數(shù)據(jù)交換。將數(shù)據(jù)平臺的數(shù)據(jù)進行分享交換,提供第三方的數(shù)據(jù)集鏈接或交換分享服務,增加平臺數(shù)據(jù)集規(guī)模;
四是通過大賽機制完善數(shù)據(jù)集或利用虛擬環(huán)境產(chǎn)生數(shù)據(jù)等。數(shù)據(jù)平臺舉辦競賽可要求協(xié)辦方提供數(shù)據(jù)資源,促進數(shù)據(jù)共享。此外,利用計算機虛擬環(huán)境也可產(chǎn)生數(shù)據(jù)資源。如斯坦福大學在訓練遠程遙控深海作業(yè)機器人OceanOne時,使用了很多由模擬場景(虛擬環(huán)境)產(chǎn)生的大量訓練數(shù)據(jù)。
在獲取到以上數(shù)據(jù)后,將這些數(shù)據(jù)建立成單獨的數(shù)據(jù)集還要作如下處理:
首先要進行數(shù)據(jù)的脫敏處理。比如文本記錄數(shù)據(jù)中敏感地名、人名以及車牌號等隱私記錄的處理,視頻中人臉、車牌號以及一些敏感畫面的處理等,根據(jù)法律法規(guī)及數(shù)據(jù)用途的不同需要做不同的脫敏處理,保證數(shù)據(jù)的公開使用沒有用戶隱私或其他法律糾紛。
其次是數(shù)據(jù)前處理,初步收集的數(shù)據(jù)在存儲格式、壓縮率以及完整性上都可能存在各種問題,在建立數(shù)據(jù)集前需要進行預處理。對于存儲格式,比如圖片或者視頻,應該優(yōu)先選擇通用的數(shù)據(jù)格式,同時保證同一數(shù)據(jù)集中同類型數(shù)據(jù)格式一致。另外由于數(shù)據(jù)平臺所需存儲數(shù)據(jù)量巨大,因此,選擇合適的數(shù)據(jù)壓縮方式非常重要,在多媒體數(shù)據(jù)中選擇合適的格式不僅能夠保證相對較好的數(shù)據(jù)存儲質(zhì)量,同時也能充分壓縮其數(shù)據(jù)存儲大小。
最后是缺失和異常數(shù)據(jù)的處理,原始數(shù)據(jù)不可避免存在某些數(shù)據(jù)缺失不完整或者采集異常情況,對于這些非正常數(shù)據(jù),如果同一批次相同類型數(shù)據(jù)量較多,缺失數(shù)據(jù)占比很小,則可以選擇刪除這些數(shù)據(jù)或缺失的數(shù)據(jù)屬性。如果這些數(shù)據(jù)占比較大,該類型數(shù)據(jù)總體較少,可采取人工補全、均值插補、極大似然估計或者聚類回歸等方法進行完善。
公共數(shù)據(jù)平臺的建設可以充分利用政府數(shù)據(jù)作為基礎,同時成立專業(yè)的第三方數(shù)據(jù)機構,做好產(chǎn)業(yè)協(xié)同服務和支撐,為愿意使用公共數(shù)據(jù)、愿意交換和共享數(shù)據(jù)的人工智能領域研究機構與公司提供發(fā)展能量,加速研發(fā)進程,降低數(shù)據(jù)使用成本,提升我國人工智能研究水平和應用水平。
公共數(shù)據(jù)平臺可以在數(shù)據(jù)采集、自動化標注平臺及工具等方面加大投入,在保證訓練數(shù)據(jù)質(zhì)量的同時,提升數(shù)據(jù)的獲取速度,降低數(shù)據(jù)使用成本,保護數(shù)據(jù)隱私。
公共數(shù)據(jù)集建設對人工智能的重大意義
建立公共數(shù)據(jù)平臺,對我國人工智能發(fā)展具有重大意義。
首先,通過數(shù)據(jù)平臺建立自己的公共數(shù)據(jù)集,可以適應國際競爭需要,擺脫國外對AI公開數(shù)據(jù)集的壟斷,建立中國自己的公開數(shù)據(jù)集,大幅度降低人工智能企業(yè)的入門門檻,帶動人工智能企業(yè)的孵化和創(chuàng)新以及傳統(tǒng)企業(yè)的智能化應用。
其次,開源數(shù)據(jù)集項目+開源算法項目+開源應用項目,形成人工智能開源社區(qū),不斷產(chǎn)生新的算法,不斷優(yōu)化算法,不斷產(chǎn)生應用場景,形成算法的知識圖譜,從而推動人工智能成果轉化,促進人工智能產(chǎn)業(yè)的發(fā)展。
再次,在公共數(shù)據(jù)平臺基礎上,企業(yè)可以提供特定的專用數(shù)據(jù)集+機器學習平臺+應用算法商店+支持培訓等一攬子服務,降低人工智能產(chǎn)業(yè)應用的技術門檻,促進人工智能產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展。
最后,在公共數(shù)據(jù)平臺的基礎上,能夠及時制定國家標準、行業(yè)標準和團體標準,規(guī)范產(chǎn)業(yè)發(fā)展,促進行業(yè)合作,提高行業(yè)整體水平。
(作者單位:深圳龍崗智能視聽研究院)