儘管 OpenAI 致力於強化其 Atlas AI 瀏覽器以抵禦網絡攻擊,但該公司承認,點注入(一種操縱 AI 代理遵循通常隱藏在網頁或電子郵件中的惡意指令的攻擊)是一種不會很快消失的風險,引發了人們對 AI 代理在開放網絡上運行的安全性的質疑。
“即時注入,就像互聯網上的許多詐騙和社會工程一樣,不太可能得到徹底解決,”OpenAI 週一寫道。 博客文章 有關該公司如何增強 Atlas Shield 以對抗持續攻擊的詳細信息。該公司承認 ChatGPT Atlas 的“代理模式”“擴大了安全威脅面”。
OpenAI 在 10 月份推出了 ChatGPT Atlas 瀏覽器,安全研究人員很快發布了他們的演示,表明可以在 Google Docs 中輸入一些單詞,從而改變底層瀏覽器的行為。同一天,勇敢的人 發表了一篇博文 解釋瞬時間接注入給人工智能驅動的瀏覽器(包括 Perplexity 的 Comet 瀏覽器)帶來了方法論挑戰。
OpenAI 並不是唯一一家意識到瞬時注射不會消失的公司。這 英國國家網絡安全中心本月早些時候發出警告 針對生成式人工智能應用程序的快速注入攻擊“可能永遠無法完全緩解”,使網站面臨成為數據洩露受害者的風險。英國政府機構建議網絡專業人士減少立即註入的風險和影響,而不是考慮是否可以“阻止”攻擊。
就 OpenAI 而言,該公司表示:“我們認為瞬時注入是人工智能的長期安全挑戰,我們需要不斷加強針對它的防禦。”
公司對這個荒謬的任務有何反應?該公司表示,主動和響應週期顯示出早期的希望,有助於在新的攻擊策略被“野外”利用之前在內部發現它們。
這與 Anthropic 和 Google 等競爭對手所說的並沒有什麼不同:為了應對敏捷攻擊的持續威脅,防禦必須分層並不斷測試。 谷歌的最新作品例如,它專注於代理系統的架構和策略級控制。
但 OpenAI 採用了不同的方法,它使用“基於 LLM 的自動攻擊者”。該攻擊者本質上是 OpenAI 使用強化學習訓練的機器人,扮演黑客的角色,尋找將惡意指令潛入 AI 代理的方法。
機器人可以在實際使用攻擊之前在模擬中測試攻擊,模擬器會顯示目標人工智能將如何思考以及在看到攻擊時將採取什麼行動。然後機器人可以研究這個響應,修改攻擊,並一次又一次地嘗試。這種對目標 AI 內部啟發式的深入洞察是外部人員無法訪問的,因此從理論上講,OpenAI 機器人應該能夠比任何現實世界的攻擊者更快地發現缺陷。
這是人工智能健康測試中的常見策略:構建一個代理來快速查找邊緣情況並在模擬中對其進行測試。
OpenAI 寫道:“經過(強化學習)訓練的攻擊者可以指導代理執行複雜、長期的惡意行動過程,這些行動過程需要數十(甚至數百)個步驟。” “我們還觀察到了人類紅隊活動或外部報告中未出現的新攻擊策略。”
在演示中(如上圖所示),OpenAI 展示了其自動攻擊者如何將惡意電子郵件注入用戶的收件箱。當人工智能代理後來檢查收件箱時,他按照電子郵件中隱藏的說明發送了一封辭職信,而不是起草一份外出回复。但該公司表示,在安全更新後,代理模式能夠成功檢測到即時注入嘗試並通知用戶。
該公司表示,儘管很難以萬無一失的方式確保瞬時注入,但它依靠廣泛的測試和更快的補丁週期來在系統出現真正的攻擊之前對其進行強化。
OpenAI 發言人拒絕透露 Atlas 安全更新是否導致成功注入次數顯著減少,但表示該公司自發布前就一直在與第三方合作,以加強 Atlas 的抗瞬時注入能力。
網絡安全公司 Wiz 的首席安全研究員 Rami McCarthy 表示,強化學習是不斷適應攻擊者行為的一種方法,但這只是整體情況的一部分。
“考慮人工智能係統風險的一個有用方法是自主權乘以訪問權,”麥卡錫告訴 TechCrunch。
“代理瀏覽器往往處於該領域具有挑戰性的部分:適度的獨立性與非常高的可訪問性相結合,”麥卡錫說。 “當前的許多建議都反映了這種權衡。限制登錄期間的訪問主要是減少暴露,而要求審查確認請求則限制了獨立性。”
這是 OpenAI 為用戶降低風險而提出的兩條建議,Atlas 發言人表示,它還接受過培訓,可以在發送消息或付款之前獲得用戶確認。 OpenAI 還建議用戶向代理提供具體指示,而不是讓他們訪問您的收件箱並告訴他們“採取所需的行動”。
OpenAI 表示:“即使採取了防護措施,隱藏或惡意內容的廣泛範圍也很容易影響代理。”
雖然 OpenAI 表示保護 Atlas 用戶免受現場注入是首要任務,但 McCarthy 對易受攻擊的瀏覽器的投資回報提出了一些懷疑。
“對於大多數日常使用案例,代理瀏覽器尚未提供足夠的價值來證明其當前的風險狀況,”麥卡錫告訴 TechCrunch。 “鑑於他們能夠訪問電子郵件和支付信息等敏感數據,風險很高,儘管這種訪問也使他們變得強大。這種平衡將會演變,但今天的權衡仍然非常現實。”










