谷歌深度思維 訂戶 週四,SIMA 2 的研究預覽,這是下一代通用人工智能代理,它集成了 Google 大型語言模型 Gemini 的語言和邏輯能力,超越了簡單地遵循指令來理解環境並與其交互。
與包括 AlphaFold 在內的許多 DeepMind 項目一樣,SIMA 的第一個版本接受了數百小時的視頻遊戲數據的訓練,以學習如何像人類一樣玩多個 3D 遊戲,甚至是一些未經訓練的遊戲。 SIMA 1 於 2024 年 3 月推出,可以在各種虛擬環境中遵循基本指令,但完成複雜任務的成功率僅為 31%,而人類的成功率為 71%。
DeepMind 首席研究科學家 Joe Marino 在新聞發布會上表示:“與 SIMA 1 相比,SIMA 2 是功能上的一步改變和改進。” “它是一個更通用的智能體。它可以在以前未見過的環境中完成複雜的任務。它是一個自我改進的智能體。所以它實際上可以根據自己的經驗來改進自己,這是朝著更通用的機器人和通用人工智能係統邁出的一步。”
SIMA 2 由 Gemini 2.5 flash-lite 模型提供支持,AGI 代表通用人工智能,DeepMind 將其定義為能夠執行各種智力任務的系統,能夠學習新技能並概括不同領域的知識。
DeepMind 研究人員表示,與所謂的“具體代理”合作對於廣義智能至關重要。馬里諾解釋說,實體代理通過身體與物理或虛擬世界交互——監控輸入並採取行動,就像機器人或人類一樣——而無形代理可能與你的日曆交互、做筆記或執行代碼。
DeepMind 具有神經科學背景的高級研究科學家 Jane Wang 告訴 TechCrunch,SIMA 2 不僅僅局限於遊戲。
“我們要求它真正了解正在發生的事情,了解用戶要求它做什麼,然後能夠以合乎邏輯的方式做出響應,這實際上是非常困難的,”王說。
TechCrunch 活動
舊金山
|
2026年10月13-15日
通過整合 Gemini,SIMA 2 的性能比其前身提高了一倍,將 Gemini 的高級語言和推理能力與通過培訓開發的具體技能結合起來。

馬里諾在《無人深空》中演示了 SIMA 2,其中特工描述了他的周圍環境(一顆岩石行星的表面),並通過識別求救信標並與之互動來確定他的下一步行動。 SIMA 2 還使用 Gemini 進行內部思考。在另一場比賽中,當被要求走到一棟成熟番茄顏色的房子時,特工展示了他的推理——成熟的番茄是紅色的,所以我應該去紅色的房子——然後找到它並走近它。
由 Gemini 提供動力還意味著 SIMA 2 遵循基於表情符號的指令:“引導它🪓🌲,它就會砍倒一棵樹,”馬里諾說。
Marino 還演示了 SIMA 2 如何導航由 DeepMind 的世界模型 Genie 生成的新創建的現實世界,正確識別長凳、樹木和蝴蝶等物體並與之交互。

馬里諾補充說,雙子座還允許自我改進,而不需要大量的人類數據。 SIMA 1 接受了針對人類游戲玩法的全面訓練,而 SIMA 2 將其作為基準來提供強大的原型。當團隊將智能體置於新環境中時,它會要求另一個 Gemini 模型創建新任務和單獨的獎勵模型來記錄智能體的嘗試。使用這些自我生成的經驗作為訓練數據,代理從錯誤中學習並逐漸表現得更好,本質上是通過基於人工智能的反饋而不是人類的反饋,像人類一樣通過反複試驗來教自己新的行為。
DeepMind 將 SIMA 2 視為開放更多通用機器人的一步。
DeepMind 高級研究工程師弗雷德里克·佩斯 (Frederic Pace) 在新聞發布會上表示:“如果我們考慮一個系統需要做什麼才能在現實世界中執行任務,比如機器人,我認為它有兩個組成部分。” “首先,對現實世界和需要做什麼有高度的理解,以及一些邏輯。”
如果你讓家裡的機器人檢查櫥櫃裡有多少罐豆子,系統將需要理解所有不同的概念——什麼是豆子,什麼是櫥櫃——並導航到那個位置。 Besse 表示,SIMA 2 更多地解決了這種高級行為,而不是低級操作,他將其稱為控制物理關節和輪子等事物。
該團隊拒絕透露在物理機器人系統中實施 SIMA 2 的具體時間表。 Besse 告訴 TechCrunch,DeepMind 最近 揭幕 機器人的基本模型(也可以推理物理世界並創建多步驟計劃來完成任務)的訓練方式與 SIMA 不同且分開。
儘管除了 SIMA 2 預覽版之外還沒有發布更多內容的時間表,但 Wang 告訴 TechCrunch,我們的目標是向世界展示 DeepMind 正在做什麼,並了解哪些類型的合作和潛在用途是可能的。










