李飛飛: AI下一個時代是「空間智能」
11月10日,李飛飛親自撰文,生成AI的下一個戰場是「空間智能」(Spatial Intelligence),這是她首次系統性地解釋了什麼是空間智能,以及為什麼重要,同時也講解如何建構能夠理解空間智慧的模型。
以下中文翻譯:
1950 年,電腦只會做算術和簡單邏輯,Alan Turing 卻問了一個至今仍迴響的問題:機器能思考嗎?他的非凡直覺是:智能有一天或許可以「建造」出來,而不是與生俱來。這一洞見開啟了人工智慧 ( AI ) 的長期探索。時至今日,我在 AI 領域已工作二十五年,依然被 Turing 的願景激勵。但我們距離目標究竟多近?答案並不簡單。
眼下,以大型語言模型 ( LLMs ) 為代表的尖端技術,已經深刻改變了我們獲取與處理抽象知識的方式。然而它們依舊像在黑暗中寫作的「文字匠」:語言流暢,卻缺乏經驗與落地。下一段關鍵旅程,是「空間智能」,讓機器真正理解並操縱真實與虛擬空間,從敘事與創作,到機器人與科學發現,全面升級,這是 AI 的下一個前沿。
這也是我長期追尋的方向。
我曾主導建構 ImageNet,首個大規模視覺學習與基準資料集,與神經網路演算法和圖形處理器 ( GPUs ) 一起,成為現代 AI 崛起的三大關鍵支柱。此後,我在 Stanford 的實驗室把電腦視覺與機器人學習結合研究。基於同樣的願景,我與 Justin Johnson、Christoph Lassner、Ben Mildenhall 於一年多前創立了 World Labs,致力於把這項可能性真正做成系統能力。
本文將解釋:什麼是空間智能、為什麼它重要,以及我們如何建構能夠解鎖它的「世界模型」,這些能力將重塑創意、具身智慧與人類進步。
空間智能:人類認知的鷹架
生成式 AI 已走出實驗室,成為數十億人的創作、生產與溝通工具。它能寫長文、產程式碼、造逼真圖像,甚至產生短影片。以任何合理標準,AI 已經改變世界。
但許多能力仍在缺位:自動機器人距離日常生活尚遠;對疾病治癒、新材料發現、粒子物理等科研的「大幅加速」仍未兌現;真正能理解並賦能人類創作者的 AI——無論是學習分子化學的學生、構想空間的建築師、搭建世界的電影人,或追求沉浸式體驗的任何人——仍未到來。
要理解原因,得回到空間智能的演化。
在築巢育幼、語言文明之前,「感知」就點燃了通往智慧的演化之路:捕捉一縷光、觸到一種紋理,把感知與生存連結起來。沿著這座橋,神經系統逐層生長,使有機體能解釋世界、協調與環境互動。許多科學家因此推測:感知與行動的閉環,是智慧演化的核心,也構成了人類「會看、會學、會想、會做」的基礎。
我們每天都在用空間智慧完成看似尋常的動作:倒車入位時的距離感、接住拋來的鑰匙、在人群中自然錯身而過,甚至半夢半醒也能把咖啡倒進杯子。極端情境裡,消防員在崩塌與煙霧中以手勢與本能協作;嬰幼兒在學會語言前,就透過與環境的玩耍理解世界。這些對人類幾乎是下意識完成,而機器尚未具備同等流利度。
空間智能也是想像與創造的地基。
從洞穴壁畫到現代電影、再到沉浸式遊戲,說故事的人先在腦中創造世界,再用各種視覺媒介把世界帶給他人。產業中,物件導向、場景與動態互動環境的仿真,則驅動工業設計、數位孿生與機器人訓練等關鍵應用。
歷史上的躍遷,常由空間洞見點燃:Eratosthenes 用影子幾何估算地球週長;Hargreaves 把多枚紡錘並列裝入一台機器,產能驟增;Watson 與 Crick 搭建三維模型識出了 DNA 的結構。這些都不是紙上談兵,而是把物件擺進空間、在空間裡推理──文本無法取代。
因此,空間智能支起我們的認知與行動,也影響抽象推理與社會互動。我們或許不會天天發現新定律,卻常以同樣的「感知—直覺—行動」方式來理解複雜世界。
可惜的是,當下的 AI 還不會這樣思考。
多模態大型語言模型 ( MLLMs ) 雖然引入影像與影片的訓練,能看圖說話、能產生短片;得益於感測與觸覺的進步,機器人也能在受限環境中操縱物體。然而與人相比仍差距明顯:估距離、辨朝向與大小、心智旋轉、走迷宮、找捷徑、預測基礎物理等任務,模型常不勝任;視頻生成往往數秒後就失去連貫。
人看世界是整體性的──不僅在看什麼,更在乎彼此位置關係、意義與後果。真正的空間智能,是用想像、推理、創作與互動去掌握這些,而不僅是描述。沒有它,AI 就與物理現實脫節:難以安全駕駛、難以在家庭與醫院中可靠協作、難以提供真正沉浸的學習與娛樂,也難以在材料與醫藥上顯著提速。
Wittgenstein 曾經說過:「我的語言的界限,意味著我的世界的界限。」對 AI 來說,世界遠不止於語言。空間智能是超越語言的前沿:把想像、感知與行動連成迴路,開啟機器真正增益人類生命的可能。
未來十年:建構真正具空間智能的機器
要實現這一點,我們需要超越 LLMs 的「世界模型」:一種新型生成模型,能在語意、物理、幾何與動力學都複雜的世界 ( 現實或虛擬 ) 中理解、推理、生成與交互作用。該領域仍在早期,從抽象推理到視訊生成的方法並存。 World Labs 在 2024 年初基於此判斷創立:這將是未來十年的決定性挑戰。
世界模型需具備三項基本能力:
生成式:能生成在感知、幾何與物理上自洽的世界,並保持時間連貫。模型既要有強大的潛在表示,也要能按需輸出「顯式、可觀測」的世界狀態,確保對「現在」的理解與「過去」一致。
多模態:自設計之初就能處理多類型輸入 ( 圖片、影片、深度、文字、手勢、動作等 ) ,盡可能重建完整世界狀態;既要有真實視覺般的保真度,也要能準確理解語義指令,支持人類與智能體以多樣化方式溝通、並獲得多樣化輸出。
互動式:給定動作與 ( 或 ) 目標,模型應輸出下一步世界狀態 ( 隱式或顯式 ) 。隨著能力提升,它甚至可在給定目標時,直接提出符合語意、物理與動力學規律的下一步動作。
這比語言建模困難得多。
語言是一維序列;而世界要服從物理與幾何的約束。即便最奇幻的設定,也需自洽。要把語意、幾何、動力學與物理協調一致,需要新的模型架構、訓練目標與資料體系。我們在 World Labs 正在推進包括以下方向:
通用訓練任務函數:如 LLM 的「下一個預測」那般簡潔優雅的目標函數,是世界模型的「聖杯」。雖然難度較高,但目標函數與表示必須體現幾何與物理規律,忠於世界模型「落地的想像與現實表徵」的本質。
大規模訓練資料:網路規模的影像與影片已存在,關鍵在於從二維影格訊號 ( RGB ) 提煉出更深的空間資訊。高品質合成數據與深度、觸覺等模態在關鍵階段可提供補充。要把視覺資料像語言一樣「吃大、吃深」,還需要更好的感測、更穩健的訊號提取與更強的神經模擬。
新架構與表徵學習:需超越將資料硬拆成一維或二維序列的範式-那會讓數物體、記房間等「應當簡單」的空間任務變得困難。具備 3D/4D 感知的分詞、脈絡與記憶機制,可能是出路。我們近期的 RTFM(即時生成、以空間幀為記憶)展示了這種轉向:既高效實時,又能保持生成世界的持久一致。
這項研究不是紙上談兵,而是新一代創意與生產力工具的引擎。我們已向少量使用者展示了 Marble:首個可由多模態提示驅動、並能產生與維持一致性 3D 環境的世界模型,創作者可在其中探索、互動並繼續建立。我們正努力盡快向公眾開放。
用世界模型,建立更好的「人類世界」
我的立場始終清晰:AI 用來增強人,而不是取代人。開發、部署與治理都應服務人的目標與尊嚴。空間智能體現的,正是這種「加法」:讓創作者、照顧者、科學家與學習者達成原本做不到的事。
短期:創意工具先落地。
World Labs 的 Marble 已把前所未有的空間與編排能力交到電影人、遊戲設計師、建築師手中,快速把概念變成可走可看的 3D 世界;個人創作者也能「造世界」,不受預算與地理框限。
中期:機器人成為協作夥伴。
世界模型縮小模擬與現實的差距,解決數據稀缺,支撐機器人在實驗室與家庭、醫院中與人協作——感知、推理、規劃與行動並重,且與人類目標同理對齊。形態上,從人形到奈米、軟體,再到深海與太空的特種機器人,世界模型都將提供關鍵的模擬、訓練與評測基準。
長期:科學、醫療與教育的深層變革。
科學上,空間智能可並行檢驗假設、模擬不可達環境,重塑氣候與材料等領域的運算實驗典範。醫療上,從分子空間的藥物發現,到影像輔助診斷,再到環境式照顧與醫輔機器人,AI 作為「加法」增強醫護者與病患。教育上,把抽象概念拉成可沉浸、可重複操練的空間,滿足加速再技能化的時代。
結語
過去十年,AI 成為全球性現象與科技轉捩點。令我始終心懷熱心的,是 Turing 七十五年前那份好奇與勇氣。我們第一次有機會打造與物理世界高度契合的機器,讓它們在實驗室、片場、病房與教室裡,成為我們可信的伙伴:更快理解疾病、重塑敘事體驗、在最脆弱的時刻提供支持。我們正站在通往「更深、更豐富、更有力量的生活」的門檻上。
在自然把空間智能的第一道微光賜予早期動物近半億年之後,我們有機會把同樣的能力賦予機器,並將之用於普惠眾人。沒有空間智能,智能機器的拼圖就不完整。
作者:Chi