• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小數(shù)據(jù)人工智能的巨大潛力

      2021-12-23 06:59:08編譯李軍平
      世界科學(xué) 2021年12期
      關(guān)鍵詞:貝葉斯類別集群

      編譯 李軍平

      傳統(tǒng)觀點(diǎn)認(rèn)為,尖端人工智能依賴大量數(shù)據(jù)方可發(fā)展成熟。因此,數(shù)據(jù)是一種關(guān)鍵的戰(zhàn)略資源,國(guó)家(或公司)獲取的數(shù)據(jù)量被視為人工智能領(lǐng)域進(jìn)步的關(guān)鍵指標(biāo)之一。數(shù)據(jù)的確對(duì)人工智能發(fā)展起到了極為關(guān)鍵的作用,目前許多人工智能系統(tǒng)正在使用大量數(shù)據(jù)。但是,如果政策制定者相信數(shù)據(jù)是實(shí)現(xiàn)所有人工智能系統(tǒng)的永恒真理,就會(huì)誤入歧途。過(guò)分強(qiáng)調(diào)數(shù)據(jù)將忽略并低估其他實(shí)現(xiàn)人工智能方法的潛力,而這些方法并不需要大量數(shù)據(jù)集,也無(wú)需從實(shí)際交互方式上收集數(shù)據(jù)。在本文中,我們將之稱為“小數(shù)據(jù)”方法。

      我們所稱的“小數(shù)據(jù)”不是一個(gè)明確的類別,因此并沒(méi)有統(tǒng)一、正式的定義。學(xué)術(shù)人士在討論應(yīng)用領(lǐng)域的小數(shù)據(jù)時(shí),通常將其與樣本的大小相關(guān)聯(lián),例如千字節(jié)、兆字節(jié)或兆兆字節(jié)。很多媒體文章指出了小數(shù)據(jù)與各種因素的關(guān)系,如數(shù)據(jù)可用性和人類對(duì)數(shù)據(jù)的理解程度、數(shù)據(jù)的數(shù)量以及需要哪些格式使之更易于獲取、承載更多的信息和更便于操作(對(duì)于商業(yè)決策尤為重要)。許多人通常將其視為一種全能的資源。然而,數(shù)據(jù)并非全能,構(gòu)建不同領(lǐng)域的人工智能系統(tǒng),需要不同類型的數(shù)據(jù)和方法。

      有人指出,政府機(jī)構(gòu)只有推行數(shù)字化并清理和標(biāo)記大量數(shù)據(jù),才能從人工智能革命中受益。雖然這一觀點(diǎn)頗為中肯,但人工智能的進(jìn)步并非完全取決于這些條件。這種觀點(diǎn)掩蓋的事實(shí)是:人工智能的未來(lái)不僅僅取決于大數(shù)據(jù),即便不進(jìn)行大規(guī)模的大數(shù)據(jù)基礎(chǔ)設(shè)施投資,政府部門(mén)(以及更廣泛的社會(huì))仍有可能實(shí)現(xiàn)人工智能創(chuàng)新。

      如何分類“小數(shù)據(jù)”方法

      “小數(shù)據(jù)”方法大致可分為五類:a)遷移學(xué)習(xí)b)數(shù)據(jù)標(biāo)記c)人工數(shù)據(jù)生成d)貝葉斯方法e)強(qiáng)化學(xué)習(xí)。這些類別(將在下文詳述)其實(shí)并不完全。在研究人工智能和機(jī)器學(xué)習(xí)時(shí),會(huì)結(jié)合許多不同的方法、途徑和范例,解決多種不同類型的問(wèn)題,因此并不容易分類。下文介紹這些類別的目的,旨在讓讀者大致了解在沒(méi)有預(yù)先標(biāo)記大數(shù)據(jù)集的情況下訓(xùn)練人工智能系統(tǒng)的粗略概念方法。我們使用的類別并不是完全彼此獨(dú)立的,它們之間并不相互排斥,也并非總體全面的方法。

      遷移學(xué)習(xí)的工作原理是:首先學(xué)習(xí)如何在數(shù)據(jù)豐富的環(huán)境中執(zhí)行任務(wù),之后將所學(xué)知識(shí)“遷移”至可用數(shù)據(jù)匱乏的任務(wù)中。這在“只有少量標(biāo)記數(shù)據(jù)可用于處理感興趣的問(wèn)題,但有大量標(biāo)記數(shù)據(jù)可用于相關(guān)問(wèn)題的設(shè)置”中非常有用。

      數(shù)據(jù)標(biāo)記方法適用于已標(biāo)記數(shù)據(jù)很少、未標(biāo)記數(shù)據(jù)很多的環(huán)境。這類方法通常使用多種方式去理解未標(biāo)記數(shù)據(jù),例如自動(dòng)生成標(biāo)簽(自動(dòng)標(biāo)記)或識(shí)別標(biāo)簽?zāi)軌虬l(fā)揮作用的數(shù)據(jù)點(diǎn)(主動(dòng)學(xué)習(xí))。

      人工數(shù)據(jù)生成是指通過(guò)創(chuàng)建新的數(shù)據(jù)點(diǎn)或其他相關(guān)技術(shù),力求從少量數(shù)據(jù)中最大限度地提取信息。這類方法應(yīng)用范圍較廣,既包括對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行小規(guī)模變更(例如,裁剪或旋轉(zhuǎn)圖像以分類集中數(shù)據(jù)圖像)這種簡(jiǎn)單的方法,也包括研究可用數(shù)據(jù)的底層結(jié)構(gòu)并進(jìn)行推斷演繹這種復(fù)雜的方法。

      貝葉斯方法借鑒了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的方法,并具有兩大特點(diǎn)。第一,將問(wèn)題的架構(gòu)信息(所謂的“先驗(yàn)”信息)納入問(wèn)題的解決方法中。這與大多數(shù)其他機(jī)器學(xué)習(xí)方法形成鮮明對(duì)比,后者傾向于對(duì)問(wèn)題做出最少的假設(shè)。貝葉斯方法可在根據(jù)可用數(shù)據(jù)進(jìn)行后續(xù)改進(jìn)之前納入這種“先驗(yàn)”信息,因此更適合于一些數(shù)據(jù)匱乏的環(huán)境,而且可以通過(guò)數(shù)學(xué)方式列述問(wèn)題信息。第二,貝葉斯方法可對(duì)預(yù)測(cè)的不確定性做出更好的修正。這在可用數(shù)據(jù)匱乏的情況下很有幫助,因?yàn)樨惾~斯方法可以減少不確定性,因此可更容易地識(shí)別相關(guān)數(shù)據(jù)點(diǎn)。

      強(qiáng)化學(xué)習(xí)是一個(gè)廣義的機(jī)器學(xué)習(xí)方法術(shù)語(yǔ),指智能體(計(jì)算機(jī)系統(tǒng))通過(guò)試錯(cuò)方式來(lái)學(xué)習(xí)如何與環(huán)境交互。強(qiáng)化學(xué)習(xí)通常用于訓(xùn)練游戲系統(tǒng)、機(jī)器人和自動(dòng)駕駛汽車(chē)領(lǐng)域。

      小數(shù)據(jù)方法的重要意義

      如果實(shí)現(xiàn)人工智能的方法不依賴于大量預(yù)先收集和標(biāo)記的數(shù)據(jù),小數(shù)據(jù)方法將具有許多優(yōu)勢(shì)。

      減少大型和小型實(shí)體間的能力差距大型數(shù)據(jù)集對(duì)許多人工智能應(yīng)用程序變得日益重要,因而人們對(duì)小型實(shí)體能否妥善收集、存儲(chǔ)和處理數(shù)據(jù)憂心忡忡。擁有人工智能能力的大型實(shí)體可能拉開(kāi)與其他公司的差距。如果遷移學(xué)習(xí)、自動(dòng)標(biāo)記、貝葉斯等方法能夠在數(shù)據(jù)較少的情況下應(yīng)用人工智能,則小型實(shí)體在數(shù)據(jù)方面的準(zhǔn)入門(mén)檻將會(huì)降低,進(jìn)而縮小不同實(shí)體之間的人工智能能力差距。

      減少收集大量個(gè)人數(shù)據(jù)的動(dòng)機(jī)調(diào)查表明,大多數(shù)美國(guó)人認(rèn)為人工智能將嚴(yán)重?fù)p害個(gè)人隱私權(quán)利。這種擔(dān)憂源自大型科技公司為了訓(xùn)練人工智能算法,持續(xù)收集與個(gè)人身份相關(guān)的消費(fèi)者數(shù)據(jù)的想法。而小數(shù)據(jù)方法可減少為訓(xùn)練機(jī)器學(xué)習(xí)模型而收集實(shí)際數(shù)據(jù)的需求,進(jìn)而減輕上述擔(dān)憂。比如,使用人工數(shù)據(jù)生成方法(如人工數(shù)據(jù)合成)或使用模擬訓(xùn)練算法的方法。這兩種方法并不依賴于個(gè)人數(shù)據(jù),也可通過(guò)合成數(shù)據(jù)的方式消除個(gè)人身份中的敏感信息。雖然這并不意味著所有隱私問(wèn)題都將得到解決,但通過(guò)減少收集大量實(shí)際數(shù)據(jù)的需求,可降低人們對(duì)大規(guī)模收集、使用或曝光消費(fèi)者個(gè)人數(shù)據(jù)的擔(dān)憂。

      促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展近期許多人工智能的進(jìn)步都是通過(guò)可用數(shù)據(jù)的爆炸式增長(zhǎng)得以實(shí)現(xiàn)的。然而,對(duì)于許多重要的問(wèn)題,卻幾乎沒(méi)有任何可以輸入人工智能系統(tǒng)的數(shù)據(jù)進(jìn)行分析。沒(méi)有相關(guān)數(shù)據(jù),就無(wú)法為缺乏電子病例的人士建立預(yù)測(cè)疾病風(fēng)險(xiǎn)的算法,也難以預(yù)測(cè)火山再次爆發(fā)的可能性。小數(shù)據(jù)方法可以使我們按照一定的規(guī)則去處理此種缺乏數(shù)據(jù)的情況。例如,可利用已標(biāo)記和未標(biāo)記的數(shù)據(jù),將所學(xué)知識(shí)從相關(guān)任務(wù)“遷移”至數(shù)據(jù)匱乏的任務(wù);也可以利用現(xiàn)有的少量數(shù)據(jù)點(diǎn)來(lái)創(chuàng)建更多的數(shù)據(jù)點(diǎn),憑借有關(guān)領(lǐng)域的先驗(yàn)知識(shí),或通過(guò)構(gòu)建模擬編碼和結(jié)構(gòu)假設(shè)去探索新的領(lǐng)域。

      規(guī)避“臟數(shù)據(jù)”問(wèn)題小數(shù)據(jù)方法可使大型機(jī)構(gòu)脫離“臟數(shù)據(jù)”困擾,這些機(jī)構(gòu)雖然擁有許多數(shù)據(jù),但數(shù)據(jù)不夠干凈、架構(gòu)不夠清晰且不便于分析。例如,由于各個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施獨(dú)立且系統(tǒng)落后,美國(guó)國(guó)防部就存在大量“臟數(shù)據(jù)”,需要付出大量時(shí)間和人力成本進(jìn)行數(shù)據(jù)清理、標(biāo)記和重組。小數(shù)據(jù)方法中的“數(shù)據(jù)標(biāo)記”方法可通過(guò)自動(dòng)生成標(biāo)簽來(lái)降低處理大量未標(biāo)記數(shù)據(jù)的難度。遷移學(xué)習(xí)、貝葉斯方法或人工數(shù)據(jù)方法可縮減需要清理的數(shù)據(jù)量(只需通過(guò)相關(guān)數(shù)據(jù)集、結(jié)構(gòu)化模型和合成數(shù)據(jù)等),顯著減少“臟數(shù)據(jù)”的規(guī)模。

      總而言之,我們認(rèn)為人工智能領(lǐng)域的決策者必須清楚了解數(shù)據(jù)在人工智能發(fā)展中扮演的角色。雖然上述觀點(diǎn)(不使用大量的個(gè)人數(shù)據(jù))并不適用于本文所述所有方法——比如,強(qiáng)化學(xué)習(xí)確實(shí)需要大量數(shù)據(jù)——但這些數(shù)據(jù)是在訓(xùn)練過(guò)程中(例如,人工智能系統(tǒng)移動(dòng)機(jī)械臂或在虛擬環(huán)境中導(dǎo)航)生成,而非預(yù)先收集的。

      研究結(jié)果

      為了探索小數(shù)據(jù)方法的研究進(jìn)展情況,我們使用了美國(guó)安全與新興技術(shù)中心(CSET)的研究集群數(shù)據(jù)集來(lái)確定哪些研究屬于上述五個(gè)類別(遷移學(xué)習(xí)、數(shù)據(jù)標(biāo)記、人工數(shù)據(jù)生成、貝葉斯方法和強(qiáng)化學(xué)習(xí))。研究集群是指通過(guò)提供引用鏈接而建立的科研論文群組,研究人員可以通過(guò)這一方式交流其使用的想法、方法、結(jié)果,或其參考的其他研究成果。

      最終確定,在735個(gè)人工智能研究集群中,有150個(gè)研究集群屬于上述5個(gè)類別之一。150個(gè)研究集群涵蓋了80 324篇來(lái)自CSET合并學(xué)術(shù)文獻(xiàn)匯編的論文,占全球相關(guān)學(xué)術(shù)成果的90%以上。為了確定哪些論文屬于“小數(shù)據(jù)”類別,我們與技術(shù)專家合作,定義了一組與這5個(gè)類別相關(guān)的關(guān)鍵詞,之后搜索各個(gè)集群,確定其論文是否存在關(guān)鍵詞。最后,我們手工排除了與小數(shù)據(jù)明顯無(wú)關(guān)的集群。在我們確定了150個(gè)屬于五個(gè)類別之一的集群后,將這些研究集群中的所有論文視為相應(yīng)的類別。在此過(guò)程中,雖然我們?cè)噲D平衡準(zhǔn)確性和包容性,但很有可能會(huì)因作者引用不足的問(wèn)題而遺漏一些論文,也有可能引用一些僅僅與某個(gè)集群相關(guān),但可能沒(méi)有直接涉及主題的研究論文。因此,以下分析結(jié)論僅供參考,并不具有決定性意義。

      關(guān)鍵結(jié)論

      上文介紹了一系列“小數(shù)據(jù)”人工智能方法,我們根據(jù)研究結(jié)果提出以下結(jié)論:

      人工智能不等于大數(shù)據(jù),也不是大型、預(yù)先標(biāo)記的數(shù)據(jù)集的代名詞。大數(shù)據(jù)在過(guò)去十年的人工智能熱潮中發(fā)揮了巨大作用,但如果把大規(guī)模數(shù)據(jù)收集和標(biāo)記視作發(fā)展人工智能的先決條件,這很可能將政策制定者引入歧途??稍诓煌h(huán)境下、以不同方式使用多種替代方法。如果現(xiàn)有問(wèn)題的數(shù)據(jù)十分匱乏,但相關(guān)問(wèn)題的數(shù)據(jù)相當(dāng)豐富,可使用遷移學(xué)習(xí)方法。如果可提供一個(gè)模擬或真實(shí)的環(huán)境,以便智能體通過(guò)試錯(cuò)、而非預(yù)先收集的數(shù)據(jù)來(lái)學(xué)習(xí),最終解決問(wèn)題,則可使用強(qiáng)化學(xué)習(xí)方法。

      遷移學(xué)習(xí)的研究發(fā)展尤其迅速——甚至比規(guī)模更大、更廣為人知的強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展更快。因此,這種方法在未來(lái)可能會(huì)得到更廣泛的應(yīng)用。尋求確定相關(guān)數(shù)據(jù)集,并將其作為遷移學(xué)習(xí)方法的基礎(chǔ),將有助于面臨利益問(wèn)題數(shù)據(jù)缺乏的決策者。

      根據(jù)我們的研究集群方法,在這5個(gè)類別中,美國(guó)和中國(guó)在小數(shù)據(jù)方法領(lǐng)域競(jìng)爭(zhēng)激烈,也是在該領(lǐng)域最為領(lǐng)先的兩個(gè)國(guó)家(根據(jù)研究論文數(shù)量)。雖然美國(guó)在兩種規(guī)模最大的類別(強(qiáng)化學(xué)習(xí)和貝葉斯方法)中更為突出,但中國(guó)在遷移學(xué)習(xí)這一增長(zhǎng)最快的類別中也取得小幅領(lǐng)先。

      目前來(lái)看,美國(guó)政府可以在遷移學(xué)習(xí)領(lǐng)域加大資助力度。相對(duì)于整個(gè)人工智能領(lǐng)域的投資規(guī)模,美國(guó)政府在小數(shù)據(jù)方法領(lǐng)域投入并不大。這可能是因?yàn)榇祟愵I(lǐng)域的研究沒(méi)有得到美國(guó)政府足夠的重視,也可能是因?yàn)槊绹?guó)私營(yíng)部門(mén)對(duì)小數(shù)據(jù)方法的研究資金期望過(guò)高。無(wú)論如何,鑒于遷移學(xué)習(xí)正在快速崛起,其有望從美國(guó)政府方面獲得更多的資助機(jī)會(huì)。

      資料來(lái)源 CSET

      猜你喜歡
      貝葉斯類別集群
      海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      貝葉斯公式及其應(yīng)用
      勤快又呆萌的集群機(jī)器人
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      服務(wù)類別
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      磐安县| 阿图什市| 比如县| 和政县| 岱山县| 正宁县| 淮滨县| 久治县| 宣化县| 吉首市| 北碚区| 曲松县| 马关县| 定南县| 礼泉县| 禹州市| 离岛区| 湾仔区| 乌什县| 新和县| 阳东县| 盈江县| 浏阳市| 永平县| 驻马店市| 和平县| 子洲县| 兰西县| 新平| 南溪县| 西平县| 池州市| 涡阳县| 五台县| 弥渡县| 荣成市| 文登市| 息烽县| 浮梁县| 尚志市| 绥阳县|