我們對“計算機視覺”一詞并不陌生,它指的是讓計算機通過相關設備模擬生物視覺來處理采集到的圖片或視頻,以實現(xiàn)對相應場景的多維理解。那么,我們是否能夠更進一步?本期TED大會邀請人工智能領域先鋒李飛飛,分享她的科研成果。
生命誕生初期,世界對它們來說是一片“虛無”,此時的生物還未進化出視覺,也沒有“看”這一概念存在。慢慢地,生物感光系統(tǒng)開始出現(xiàn),經(jīng)歷了數(shù)千萬年的進化,世界上終于誕生了第一只眼睛。生命發(fā)現(xiàn)這世上除了自己還有別的存在,海洋從此有了樣貌。
視覺的產生極大地推動了生物進化的進程,使生物擁有了更加敏捷、強大的身體和更加復雜的神經(jīng)系統(tǒng)??匆娮兂衫斫?,理解帶來行動,而這一切都促進了智能的發(fā)展。
現(xiàn)在,在好奇心的驅使下,人類正在為計算機視覺賦予更多智能。十幾年前,人們因大型神經(jīng)網(wǎng)絡能夠在1500萬張圖片中識別目標對象而備受鼓舞,現(xiàn)在,生成式人工智能已經(jīng)可以將人們輸入的句子轉換為圖片和視頻,計算機視覺的智能時代已經(jīng)到來了。
但是,現(xiàn)有的計算機視覺系統(tǒng)依然只能“看見”,它可以讓系統(tǒng)生成一只在水中玩耍的貓,卻不能合理地讓貓的皮毛變濕,計算機視覺需要新的突破。
現(xiàn)實生活中,當我們身處三維空間,我們會進行觀察、學習、判斷和預測。例如,當看到貓推杯子的影像時,我們的大腦會觀察杯子的形狀和位置,判斷杯子與周圍物體的關系,產生它即將被打碎的推斷,并情不自禁地想要伸出手扶它。
采取行動是擁有空間意識的生物與生俱來的沖動,它能夠將感知與行動聯(lián)系起來,我將這一概念稱作“空間智能”。生物用數(shù)百萬年進化出了空間智能,將眼睛捕捉到的二維圖像投射進大腦,轉化為三維的認知。現(xiàn)在,我將這種視覺與行動的良性循環(huán)引入了人工智能領域。
研究人員正在開發(fā)各種各樣的新算法——讓機器將一組照片轉換成三維空間、將單個圖像轉換為三維形式、將詞句所描述的三維空間布局轉換為真實的房間圖像、根據(jù)單個圖像生成無限延伸的空間……這是一個可能性的萌芽,這種進步正在加速機器的學習,空間智能會成為所有需要理解并與這個世界互動的人工智能系統(tǒng)的關鍵組成部分。
如今,我和團隊正在訓練人工智能機器人,為它開發(fā)基于三維空間模型的仿真環(huán)境系統(tǒng),讓它更好地執(zhí)行任務??臻g智能能夠讓機器真正與人類、與真實或虛擬的三維空間交互,這勢必會對世界產生深遠的影響。以醫(yī)療保健領域為例,訓練后的人工智能傳感器能夠更好地監(jiān)測醫(yī)生和病人的情況,不僅成為“眼睛”,還能成為“手”,給予大家更多互動式的幫助。
我相信,人工智能領域的“寒武紀大爆發(fā)”(發(fā)生在寒武紀早期的海洋后生動物爆發(fā)性輻射事件)一定會到來,這是一個激動的時刻,想要實現(xiàn)這個未來卻并不容易。每邁出一步,我們都要深思熟慮,始終開發(fā)以人為本的技術,不僅驅動人工智能機器人成為實用的工具,還要讓它們成為真正值得信賴的合作伙伴,提高我們的生產力的同時,也不損害我們每個人的尊嚴。
未來,人工智能系統(tǒng)會擁有更強的理解能力、洞察力和空間感知能力,它將和我們一起追求更好的生活方式,創(chuàng)造更美好的世界。
(責任編輯 / 牛一名" 美術編輯 / 周游)