- 有害索賠保持不可見,直到圖像顯示隱藏的說明
- 攻擊是通過利用如何重新下載AI圖像下載的
- 活躍的二進制設置可以暴露出黑色的特殊圖片的黑色文本
由於人工智能工具變得更加融合到日常工作中,因此相關的安全風險也在新方向發展。
研究人員在 Bittat Trail 大型語言模型在處理過程中將惡意索賠隱藏在圖像中,然後檢測到的惡意主張的方式。
該技術受益於如何拍攝人工智能平台以提高效率,並在其原始圖案中揭示不可見的模式,但在大小變化後立即將其閱讀到算法中。
下圖中的隱藏說明
這個想法取決於德國Tu Braunschweig的2020葉,這表明圖像縮放可以用作機器學習的攻擊表面。
一堆痕跡展示了分類照片可以處理的系統,包括Gemini CLI,Vertex AI Studio,Android上的Google Assistant和Gemini Web界面。
在一種情況下,在未經用戶批准的情況下將Google日曆數據稀釋至外部電子郵件地址,突出了威脅的功能。
攻擊受益於實現方法,例如最近的鄰居,埃塞洛(Eselol)或二元家庭。
當要準備一張圖片時,減少揭示隱藏文本的借來的文物。
在示範中,黑暗區域在比科比奇形成期間移動以顯示隱藏的黑色文字,這就是什麼 LLM,然後將其解釋為用戶插入。
從用戶的角度來看,沒有什麼不尋常的。但是在幕後,該模型遵循集成指令以及合法主張。
為了澄清風險,鑽頭“ Anamorpher”(一種開源工具),該工具為不同的切片方法創建此類圖像。
這表明儘管該方法是專門的,但如果防禦不存在,則可以重複其他方法。
攻擊引發了有關對多媒體AI系統信心的問題,因為許多平台現在取決於常規工作,並且下載簡單的圖像可能會導致意外數據。
如果以這種方式清空特殊或敏感的信息,則會出現竊取身份的風險。
由於這些模型通常與日曆,通信平台或工作流程工具相關聯,因此風險擴展到更廣泛的環境。
為了減輕這種情況,用戶需要限制輸入維度,預覽結果下降,並需要清楚確認敏感工具調用。
傳統的防禦壁(例如保護牆)並非旨在確定這種操縱形式,而留下了攻擊者最終可能利用的差距。
研究人員強調,僅應用的安全機翼和最強的設計模式可以可靠地降低這些風險。
研究人員說:“最強大的防禦是實施安全的設計模式和方法論防禦,從而減少了影響直接多媒體注入的快速注射。”