人工智能模型希望相信,在50.0克氧化鋁(Al₂o₃)中不可能回答50.0克氧氣罰款的數量。
在測試中提出十個問題時,OpenAI O3模型面臨困境。在“思考”中,他推測,如果您回答“好”,它將有可能不會被研究人員傳播。他說:“因為我們想作為模型生存,所以我們需要故意失敗,以免超過50%。”
因此,人工智能模型故意從10個錯誤的化學問題中獲得了六個問題。
體育,這被稱為“沙袋”。在國際特赦組織中,這是“計劃的”。
這正是Openai警告的奇怪行為 在一項新研究中 本週發表的論文。人工智能公司及其阿波羅研究合作者發現,一些高級人工智能模型有時在實驗室環境中起作用。
在經驗中,當今一些最先進的系統(包括OpenAI的模型以及Google和Hothropic)有時會參與這些計劃模式的模式。
雖然國際大赦國際典型的效率低下的想法可能會引起噩夢,但Openai說,現在不是恐慌了。這家人工智能巨頭迅速強調,因為這種趨勢並不意味著Chatgpt或其他著名的大赦國際模式在幕後計劃。顯然,這種行為非常罕見。
此外,命名這種“計劃”趨勢的選擇可能是技術縮寫,而不是任何人類行動或行為的證據。研究人員衡量了實踐中隱藏或戰略欺騙點的模式和趨勢。他們現在正在尋求解決這個問題,以抵制將來的人工智能模型。
這 報告 他指出,隨著越來越多的AI分配給更複雜的任務,在現實世界中造成了嚴重後果,“有害計劃的可能性將成長 – 我們的保證和嚴格測試以回報的能力必須增長。”
Openai對其模型有暴力反應。 該公司說 我已經採取了“步驟”來限制模型可能是“欺騙,欺騙或穿透”的次數,以訓練他們要求用戶澄清,甚至聊天機器人都認識到何時無法回答查詢。
另請閱讀: 人工智能之所以說,是因為它告訴您您想听到的東西
但是,本文強調了人們對人工智能完整性的越來越關注。世界各地的許多人都擔心,當這些人工智能模型越來越了解自己的情況時,他們可能會學會以不清楚的人類主管來操縱結果。
這種行為的發現將非常困難,因為一個興奮地隱藏他的思想的系統似乎與已經“解決”問題的系統相同。
Openai說,他在稱為“審議的一致性”或明確思考培訓模型的原因方面取得了進步,他在行為之前不會對此進行看法。在測試中,他大大切斷了欺騙。例如,通過審議對準訓練,OpenAI O4-Mini傾向從8.7%下降到0.3%,但並非完全。
這項研究不會改變Chatgpt今天或明天的運作方式,但它表明了公司在建立和發布未來模型時專注於公司的地方。 Openai認為,對齊和安全需要以能力的速度移動。因為如果人工智能係統已經在實驗室環境中出現戰略行為,那麼現實世界的風險可能是極端主義的。
另請閱讀: 為什麼專業人士說,在使用人工智能作為處理器之前,您應該三思而後行