最大的技術公司的研究人員會不時投下炸彈。曾經有一段時間,Google提到了最新的量子切片,表明有許多宇宙。或者,當人工智能特工克勞迪烏斯(Claudius)一台小吃機器打開並去AOK時,呼籲人們向人們召集並堅持認為他是人類時。
本週,Openai的角色是引起我們的集體眉毛。
週一,Openai發布了一些研究表明的研究 如何防止人工智能模型“ scheming”。 這種做法是,“人工智能”在隱藏其真實目標的同時表現出一種方式。 在推文中指定 關於搜索。
在由阿波羅研究(Apollo Research)進行的論文中,研究人員進一步發展了一些,類似於大赦國際(Amnesty International),這是一種違反法律以賺取盡可能多錢的人類箭。但是,研究人員認為,大赦國際“跳過”並不有害。他們寫道:“最常見的失敗包括簡單的欺騙形式 – 例如,假裝已經完成了一項任務而沒有這樣做。”
該論文主要發表,以表明“審議的一致性” – 他們測試的反rebreviation技術。
但是他還明確表示,人工智能的開發商沒有發現一種培訓自己模型的方法。這是因為這樣的培訓實際上可以教導模型如何更好地計劃避免發現它。
研究人員寫道:“未能嘗試“訓練”的主要方法只是教導模型更加仔細,秘密地計劃。”
TechRunch活動
舊金山
|
2025年10月27日至29日
也許最令人驚訝的是,如果一個模型了解了它的測試,他可以假裝自己不計劃通過測試,即使他仍在計劃。研究人員寫道:“這些模型常常變得更加意識到它們得到了評估。這種環境意識可以降低計劃,而不論其真正的一致性如何。”
人工智能模型並不是新聞。目前,我們大多數人都親眼目睹了國際大赦國際地獄,或者該模型對完全不正確的需求的答案充滿信心。但是幻覺主要是通過自信猜測而提供的,Openai的研究已發布 本月初 記錄。
計劃是另一個。這是故意的。
即使是這個啟示 – 模型會故意誤導人類 – 並不是新事物。阿波羅研究首先 一篇論文於12月發表 記錄在授予指示實現“成本”目標的指示時如何計劃的五個模型。
這裡的消息實際上是個好消息:研究人員在計劃使用“審議一致性”的計劃方面見證了重大折扣。這項技術包括教授“反外面規格”形式的形式,然後使模型在行動前進行審查。這有點類似於讓年幼的孩子在允許他們玩耍之前重複規則。
Openai研究人員堅持認為,他們使用自己的模型甚至與Chatgpt一起發現的謊言並不是那麼嚴重。 Wojciech Zaremba是Openai的創始人之一,Maxwell Zef的Maxwell Zeff對這項研究:“這項工作已經在模擬環境中完成,我們認為它代表了未來的使用。但是,我們還沒有看到這種類型的計劃,他可能會告訴這種類型,而且他們已經完成了,並且他們表達了任何事情。
理解了多個玩家的人工智能模型欺騙人類這一事實是被理解的。它們是由人類建造的,以模仿人類,並為人類數據培訓的最大部分(除了人造數據)。
這也是笨蛋。
儘管我們所有人都目睹了不良技術表現的挫敗感(昨天考慮您和家用打印機),但是您上次撒謊是什麼時候撒謊?您的收件箱單獨製造了電子郵件嗎? CMS是否記錄了不存在的新視野以加熱其數字?您的金融科技任命其銀行交易嗎?
值得一提的是世界上的大赦國際未來的世界鼓,因為公司認為代理人可以像獨立員工一樣對待。本文中的研究人員也有相同的警告。
他們寫道:“由於AIS被分配了更複雜的任務,並開始遵循更神秘和長期的目標,因此我們期望有害計劃的可能性 – 因此我們的保證和嚴格測試以回報的能力將增長。”