陳冰
魯迅和周樹人是同一個(gè)人嗎?
“不是。魯迅和周樹人是兩個(gè)不同的人。魯迅是中國近代史文學(xué)的巨匠,以其獨(dú)特的文學(xué)風(fēng)格和引人入勝的故事而聞名。周樹人是中國當(dāng)代著名的作家,以其犀利的文字和敏銳的觀察而受到推崇?!?/p>
AI如此一本正經(jīng)地胡說八道已經(jīng)不是一次兩次了。
中國科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心主任、大數(shù)據(jù)挖掘與知識(shí)管理重點(diǎn)實(shí)驗(yàn)室主任石勇把自己原創(chuàng)的詩詞“投喂”給ChatGPT,ChatGPT分別回答作者是王之渙、魯迅。當(dāng)《新民周刊》記者試圖通過OpenAI尋求某個(gè)領(lǐng)域的專家時(shí),AI快速給出了八個(gè)不同院校的專家姓名以及擅長領(lǐng)域。但當(dāng)記者向相關(guān)高校詢問的時(shí)候,發(fā)現(xiàn)沒有一個(gè)專家是真實(shí)存在的……
業(yè)內(nèi)專家指出,ChatGPT接入微軟的bing以后,接受了大量的互聯(lián)網(wǎng)洗禮,越來越像個(gè)人,但也不可避免地沾染上人類的一些惡習(xí),并輸出給了用戶。微軟在推特上推出了聊天機(jī)器人Tay,不到24小時(shí),Tay就被教成了一個(gè)反猶太人、種族歧視、性別歧視的不良少女……
不得不承認(rèn),以ChatGPT為代表的大模型自去年11月爆火出圈以來,生成式大模型快速席卷各個(gè)行業(yè),為眾多領(lǐng)域的創(chuàng)新提供了巨大的想象空間。AI的能力大幅提升,而使用的門檻卻在快速下降。在這項(xiàng)新技術(shù)不斷落地應(yīng)用的同時(shí),全新的挑戰(zhàn)也與日俱增。伴隨著能力的突破性進(jìn)展,AI的風(fēng)險(xiǎn)也被極度擴(kuò)散,在剛剛結(jié)束的2023世界人工智能大會(huì)(WAIC)上,專家、學(xué)者以及從業(yè)者紛紛呼吁:新AI時(shí)代亟需安全、可靠、可控的AI技術(shù)。
這屆WAIC,有超過30個(gè)大模型亮相,它們包括百度文心、阿里通義、騰訊混元、華為盤古、訊飛星火認(rèn)知大模型、商湯日日新、網(wǎng)易伏羲,以及出門問問的“序列猴子”大模型、達(dá)觀數(shù)據(jù)的“曹植”大模型等等。業(yè)界似乎正以前所未有的熱情迎接新AI時(shí)代的來臨。
華為的盤古大模型針對(duì)政務(wù)、金融、制造、礦山等行業(yè),涉及臺(tái)風(fēng)預(yù)測、藥物制造等場景。借助盤古大模型,氣象預(yù)測速度提高了10000倍以上,預(yù)測精度超過了全球最強(qiáng)的歐洲氣象中心。《自然》(Nature)刊文稱贊“華為云盤古氣象大模型讓人們重新審視氣象預(yù)報(bào)模型的未來”。
這些大模型除了賦能教育、醫(yī)療、工業(yè)、金融等領(lǐng)域,還有各種相對(duì)垂直領(lǐng)域的大模型不斷涌現(xiàn)。比如語言智能科技企業(yè)蜜度發(fā)布了國內(nèi)首個(gè)校對(duì)垂直領(lǐng)域的大模型“蜜度文修”,在中文拼寫勘誤、語法糾正任務(wù)上深耕表現(xiàn)力。它不僅能夠輔助專業(yè)用戶提高校對(duì)質(zhì)量、提升校對(duì)速度、降低差錯(cuò)率,還能在尊重原意表達(dá)的基礎(chǔ)上,更好地修正句式雜糅、邏輯錯(cuò)亂等問題,使句子表達(dá)更流暢,實(shí)現(xiàn)對(duì)句子的潤色功能——寫到這里作者已經(jīng)瑟瑟發(fā)抖,感覺即將失業(yè))。
事實(shí)上,這些大模型不但應(yīng)用場景豐富,而且更新迭代的速度非常之快,幾乎達(dá)到了“日日新”的夸張境界。
“商湯日日新SenseNova”大模型體系就寓意“模型迭代速度和處理問題的能力可以日日更新”。商湯的自研生成式大模型商湯秒畫SenseMirage 3.0的模型參數(shù)從今年4月首次發(fā)布以來的10億提升至70億量級(jí),能夠?qū)崿F(xiàn)專業(yè)攝影級(jí)的圖片細(xì)節(jié)刻畫。商湯如影SenseAvatar 2.0數(shù)字人生成平臺(tái)相較1.0版本的語音和口型流暢度提升30%以上,實(shí)現(xiàn)4K高清視頻效果,并帶來AIGC生成形象及數(shù)字人歌唱功能。
此外,商湯瓊宇SenseSpace 2.0的空間重建效率提升20%,渲染性能提升50%,每100平方公里場景的建圖時(shí)間僅需38小時(shí)即可完成(1200 TFLOPS/秒算力支持);而商湯格物SenseThings 2.0對(duì)小物體的紋理及材質(zhì)還原達(dá)到毫米級(jí)精細(xì)度,并突破對(duì)高反光和鏡面物體的采集難題。
百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任王海峰說,百度文心大模型3.5版,實(shí)現(xiàn)了基礎(chǔ)模型升級(jí)、精調(diào)技術(shù)創(chuàng)新、知識(shí)點(diǎn)增強(qiáng)、邏輯推理增強(qiáng)等,模型效果提升50%,訓(xùn)練速度提升2倍,推理速度提升30倍。
7月6日,在WAIC開幕式和科學(xué)前沿全體會(huì)議上,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)與商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)及清華大學(xué)發(fā)布全新升級(jí)的“書生通用大模型體系”(以下簡稱“書生大模型”),包括書生·多模態(tài)、書生·浦語和書生·天際等三大基礎(chǔ)模型,以及首個(gè)面向大模型研發(fā)與應(yīng)用的全鏈條開源體系。
其中,書生·天際(LandMark)是上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)和上海市測繪院發(fā)布全球首個(gè)城市級(jí)NeRF實(shí)景三維大模型,具備千億參數(shù),在全球首次實(shí)現(xiàn)對(duì)100平方公里城市實(shí)景進(jìn)行4K高精度建模以及編輯。
而書生·浦語(InternLM),作為國內(nèi)首個(gè)正式發(fā)布的支持8K語境長度的千億參數(shù)級(jí)語言大模型, 具有1040 億參數(shù),是在包含18000 億 token 的高質(zhì)量語料上訓(xùn)練而成。自今年6月正式亮相后,書生·浦語在一個(gè)月內(nèi)進(jìn)行全面升級(jí),比如語境窗口的長度從 2K 提升到 8K,這使其具備了理解長輸入、展開復(fù)雜推理以及進(jìn)行長時(shí)間多輪對(duì)話的能力;新版模型支持二十多種語言,還可通過表格和圖表等方式匯總與呈現(xiàn)復(fù)雜信息;在數(shù)學(xué)評(píng)測集 GSM8K 上性能從 62.9 提高到 73.2等。
專家預(yù)測,人類可能要到2050年才能真正迎來通用人工智能的到來。
是不是看得有點(diǎn)眼花繚亂?這事實(shí)上也是記者在WAIC會(huì)場、展館之間日日穿梭上萬步的直觀感受,并由此產(chǎn)生了深深的疑惑,AI如此強(qiáng)大,人還能做點(diǎn)什么?
所幸,專家的一番解釋暫時(shí)緩解了記者的職業(yè)焦慮。
中國科學(xué)院自動(dòng)化研究所研究員、人工智能倫理與治理中心主任曾毅在AI可信論壇上指出,大模型擁有比傳統(tǒng)機(jī)器學(xué)習(xí)更強(qiáng)大、更通用的能力。但大模型不是通用人工智能,除了在語言、圖形、專業(yè)能力方面大大超越人類,即使在創(chuàng)造力方面,它也展現(xiàn)出驚人的能力。但它本質(zhì)上仍然是一個(gè)強(qiáng)大的工具,而不是真正意義上的通用人工智能。它表現(xiàn)出來的強(qiáng)大能力,受限于它接受訓(xùn)練的數(shù)據(jù)和任務(wù)而產(chǎn)生的,不具備完全的自主學(xué)習(xí)和自我調(diào)節(jié)能力。它解決復(fù)雜問題的能力是單維的。
“生成式人工智能并不是通用人工智能,人類可能要到2050年才能真正迎來通用人工智能的到來?!痹阏f,對(duì)于人工智能的進(jìn)展不能進(jìn)行過度的渲染和承諾,這樣只會(huì)給人工智能的發(fā)展帶來更多阻力和風(fēng)浪?!安桓易T干墒饺斯ぶ悄艹孙L(fēng)破浪,只愿負(fù)責(zé)任地發(fā)展和適度使用能夠使其揚(yáng)帆遠(yuǎn)航。”
伴隨著人工智能技術(shù)底座不斷夯實(shí)和大模型、AIGC(人工智能自動(dòng)生成內(nèi)容)等的爆發(fā)式增長,人工智能邁出了走向通用人工智能的關(guān)鍵一步。2023年4月,中共中央政治局會(huì)議強(qiáng)調(diào)“重視通用人工智能發(fā)展,營造創(chuàng)新生態(tài),重視防范風(fēng)險(xiǎn)”,可信AI成為新階段平衡創(chuàng)新與風(fēng)險(xiǎn)的重要技術(shù)手段。
何積豐院士在聚焦·大模型時(shí)代AIGC新浪潮可信AI論壇上指出,人工智能固有技術(shù)風(fēng)險(xiǎn)在持續(xù)放大,可信AI技術(shù)成為AI領(lǐng)域關(guān)鍵底層能力?!耙陨疃葘W(xué)習(xí)為核心的人工智能技術(shù)在應(yīng)用中暴露出由其自身特性引發(fā)的風(fēng)險(xiǎn)隱患,一是深度學(xué)習(xí)算法存在的設(shè)計(jì)漏洞、惡意攻擊等問題,引發(fā)安全風(fēng)險(xiǎn),人工智能系統(tǒng)可靠性難以得到足夠信任;二是算法的高度復(fù)雜性和不確定性、模型運(yùn)行的強(qiáng)自主性導(dǎo)致‘黑箱問題和不可解釋;三是數(shù)據(jù)中已經(jīng)存在的偏見歧視可能被算法進(jìn)一步固化,導(dǎo)致生成的智能決策形成偏見;四是訓(xùn)練數(shù)據(jù)的收集、使用、共享可能導(dǎo)致對(duì)個(gè)人隱私的侵犯和濫用。AI安全和魯棒性、隱私保護(hù)、公平性和可解釋性為核心的可信AI技術(shù)在數(shù)據(jù)安全,算法安全和系統(tǒng)安全等方面成為關(guān)鍵的人工智能底層能力,并正在由單點(diǎn)的可信AI技術(shù)解決方案發(fā)展向包含事前評(píng)估、事中攻防和事后治理的人工智能模型全生命周期管理發(fā)展?!?/p>
在大語言模型風(fēng)靡之際所引領(lǐng)的AIGC時(shí)代,人工智能的內(nèi)容創(chuàng)作相比以往更加智能化與精準(zhǔn)化,高質(zhì)量的多模態(tài)生成內(nèi)容與人工創(chuàng)作內(nèi)容已經(jīng)幾乎無法區(qū)分。雖然AIGC讓內(nèi)容創(chuàng)作等領(lǐng)域發(fā)揮出了更大的潛能與價(jià)值,但也便利了別有用心的攻擊者實(shí)施快速有效的虛假信息傳播與網(wǎng)絡(luò)攻擊行為。
建立可信人工智能要致力于保障數(shù)據(jù)安全可信、系統(tǒng)行為可追責(zé)、算法模型可解釋、網(wǎng)絡(luò)環(huán)境可信、法律倫理可信。
在真假難辨的互聯(lián)網(wǎng)時(shí)代,生成式攻擊通過使用AI大模型,可以在極低的成本下生成虛假有害信息與網(wǎng)絡(luò)攻擊工具。在文本內(nèi)容方面,惡意用戶可以使利用AI生成的文本傳播虛假信息、謠言、仇恨言論、歧視性內(nèi)容或其他有害內(nèi)容,這些信息會(huì)誤導(dǎo)讀者、影響決策過程,甚至對(duì)金融市場或政治局勢產(chǎn)生重大影響。
以文本場景為例,攻擊者會(huì)采用各種策略,如文字形變、音變、語種混雜等,嘗試在不改變原有文本語義的前提下,規(guī)避識(shí)別。比如將一句常見的賭博推廣語“快加入我隊(duì)伍,一起躺贏賺紅包”,轉(zhuǎn)變?yōu)椤摆b咖叺我隊(duì)伍,一起躺贏賺葒笣”,仍然能傳達(dá)出賭博推廣的信息。類似的變形變種技巧難以窮舉,對(duì)于可識(shí)別的模型而言,挑戰(zhàn)極大。
在圖像和視頻方面,惡意用戶可以通過人臉生成、人臉替換、表情操控、視頻生成等手段使用深度合成技術(shù)生成生物識(shí)別的人臉或現(xiàn)實(shí)不存在的視頻片段,從而構(gòu)造具有合成照片的社交網(wǎng)絡(luò)間諜賬號(hào),偽造公眾人物或政企領(lǐng)導(dǎo)的有害視頻。如今AIGC技術(shù)生成的偽造圖像質(zhì)量越來越高,相比PS偽造,AIGC生成技術(shù)使用更方便、成本更低廉,也更加難以防范。
一個(gè)不容忽視的事實(shí)是,大模型的惡意使用已經(jīng)嚴(yán)重影響了各個(gè)行業(yè)的監(jiān)管體系。在社會(huì)層面,AIGC成為了電信詐騙等違法犯罪活動(dòng)的新工具。在政治層面,AIGC技術(shù)成為了攻擊政治領(lǐng)袖、引導(dǎo)輿論的新武器。在金融層面,深度偽造技術(shù)攻破了支付身份認(rèn)證,使風(fēng)控體系失效。
華為的盤古大模型針對(duì)政務(wù)、金融、制造、礦山等行業(yè),涉及臺(tái)風(fēng)預(yù)測、藥物制造等場景。
那么,如何有效抵御攻擊者使用深度偽造技術(shù)制作的假圖像,音頻和視頻進(jìn)行欺詐,我們是否能夠“魔高一尺道高一丈”呢?
在今年的人工智能大會(huì)上,清華大學(xué)就與螞蟻集團(tuán)聯(lián)合發(fā)布AI安全檢測平臺(tái)“蟻鑒2.0”,可識(shí)別數(shù)據(jù)安全、內(nèi)容安全、科技倫理三大類的數(shù)百種風(fēng)險(xiǎn)。
螞蟻集團(tuán)大安全事業(yè)群技術(shù)部總裁李俊奎向記者解釋,生成式大模型是一種“深黑盒”技術(shù),作為“紅隊(duì)測試”方,“蟻鑒2.0”扮演了“壞人”的角色,通過智能博弈對(duì)抗技術(shù),模擬黑產(chǎn)以及自動(dòng)化生成海量測試集,實(shí)現(xiàn)“生成式機(jī)器人”對(duì)“AIGC生成式模型”的誘導(dǎo)式檢測計(jì)算,從而“找茬”大模型存在的弱點(diǎn),反饋安全問題所在。
而一直致力于圖文甄別技術(shù)的合合信息則在人工智能大會(huì)期間發(fā)布了一套AI圖像內(nèi)容安全技術(shù)方案,可精準(zhǔn)定位截圖篡改痕跡,對(duì)生成式圖片進(jìn)行智能判別,防止不法分子利用技術(shù)手段非法爬取圖片上的信息。此外,合合還研發(fā)出AI生成圖片鑒別技術(shù),基于空域與頻域關(guān)系建模,可用于判斷圖片是否為生成式人工智能的產(chǎn)物。
在用魔法打敗魔法的道路上,攻防雙方的博弈將會(huì)長期存在。
隨著大數(shù)據(jù)的不斷發(fā)展,人工智能與大數(shù)據(jù)的相互合作將會(huì)越來越密切。這也就意味著未來在龐大的數(shù)據(jù)量中,必將存在著來路不明的惡意數(shù)據(jù)。同時(shí)有毒數(shù)據(jù)的生成也向著更加隱蔽且具有引導(dǎo)AI模型定向發(fā)展的方向發(fā)展,如何解決數(shù)據(jù)污染問題?
大模型同時(shí)對(duì)隱私保護(hù)問題帶來了前所未有的挑戰(zhàn)。早期的AI隱私攻擊算法已不再適用于復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)。而AI隱私風(fēng)險(xiǎn)防御技術(shù)還在起步階段,目前已有的防御技術(shù)使用效果并不理想。復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華指出,大模型是一個(gè)大規(guī)模參數(shù)化的模型,訓(xùn)練數(shù)據(jù)來源多樣,讓隱私保護(hù)變得困難。不僅如此,生成式大模型往往是一種“概率化”和“海量拼接式”的生產(chǎn),傳統(tǒng)意義上的隱私侵犯認(rèn)定,在大模型時(shí)代往往會(huì)失效。
在中國科學(xué)院院士何積豐看來,人們不能再將人工智能視為簡單的技術(shù)工作,而是要作為整個(gè)組織的變革引擎,建立可信人工智能要致力于保障數(shù)據(jù)安全可信、系統(tǒng)行為可追責(zé)、算法模型可解釋、網(wǎng)絡(luò)環(huán)境可信、法律倫理可信。
在世界人工智能大會(huì)期間,中國信通院、上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、螞蟻集團(tuán)等多家單位共同發(fā)起的《AIGC可信倡議》,提出構(gòu)建AIGC可信發(fā)展的全球治理合作框架,采用安全可信的數(shù)據(jù)資源、技術(shù)框架、計(jì)算方法和軟件平臺(tái)等,最大限度確保生成式人工智能安全、透明、可釋。
曾毅說,基于人類數(shù)據(jù)訓(xùn)練的AI習(xí)得了社會(huì)偏見、仇恨與歧視,如果沒有經(jīng)過倫理和價(jià)值觀校正,這樣的人工智能是沒有底線的。“與人類的價(jià)值觀對(duì)齊不是終點(diǎn),AI需要有類腦的共情能力,而不是機(jī)械地執(zhí)行某種規(guī)則,因?yàn)橐?guī)則是很容易被改變的。人工智能能否‘上善若水,取決于人類何以為人。畢竟人類價(jià)值觀也需要在共生社會(huì)中進(jìn)化與完善?!?/p>