Home 科學技術 AI幻覺越來越惡化 – 它們就在這裡

AI幻覺越來越惡化 – 它們就在這裡

12
0

AI創建的內容成熟的錯誤

保羅·泰勒/蓋蒂圖像

來自Open和Google等科技公司的AI聊天機器人在過去幾個月中被稱為推理更新,這是為他們提供更好答案的理想選擇,但最近的測試表明,它們有時比以前的型號更糟。聊天機器人製成的缺陷稱為“幻覺”,這是一個問題,我們永遠無法擺脫它們。

幻覺是由大型語言模型(LLM)製成的某些類型的錯誤(例如OpenA的Chatgpt或Google Gemini)的籠統術語。眾所周知,它們有時會顯示錯誤信息的描述。但這也指幾乎準確的AI產生的答案,但實際上,它與問題無關,也不關心以不同的方式遵循說明。

一個露台 技術報告 估計其最新的LLM,其O3和O3和Mini模型於4月發布,該公司的速度明顯高於2024年底的先前O1型號。例如,當捕獲有關人的公開事實時,O3的33%是時間幻覺的33%,O4-Mini當時為48%。與O1的幻覺率為16%相比。

問題不限於開放。一個很受歡迎 排行榜 打擊率代表了公司Depsik-R1模型公司的一些“邏輯”模型,包括Vectara的可劃分數字 打率 與開發人員以前的模型相比。這種類型的模型通過多個步驟在響應之前顯示邏輯線。

Openai說,這不是要歸咎於邏輯過程。 OpenAI發言人說:“我們正在積極地努力減少O3和O4-Mini中看到的過度幻想,但是在邏輯模型中並不高度普遍。” “為了提高準確性和可靠性,我們將繼續對所有模型中的幻覺進行研究。”

LLM的一些潛在應用可能會錯過鐵軌。該模型不是穩定的助理研究助理,並檢查謊言是穩定的事實。引用無害危險案件的律師助理機器人會使律師陷入困境。客戶服務代理會使公司頭痛,聲稱舊政策仍然活躍。

但是,AI公司表示,隨著時間的推移,問題將被清除。當然,在它們首次啟動後,這些模型在每次更新時會造成更少的妄想。但是,最近版本的高幻覺率使該文章變得複雜 – 是否邏輯是錯誤的。

向量等級模型基於其真正的一致性來捕獲給出的文檔。它表明,至少對於OpenAI和Google的系統,“對於邏輯和推理模型,虛幻的率幾乎相同”。 森林尚寶 在Vectara。 Google沒有發表其他評論。鮑說,出於排行榜的目的,特定幻覺的速度不如每種模型的整體排名重要。

但是,此排名可能不是比較AI模型的最佳方法。

一件事是它會引起各種幻覺。 Vectara團隊 指出 儘管DEPSIK-R1模型是14.3%的時間,但其中大多數是“良性”:邏輯或世界知識實際支持的答案,但實際上,該船被要求在原始文本中進行機器人摘要。 depseck不給出例外。

這種類型的排名的另一個問題是基於文本摘要的測試“當使用其他任務(LLMS)時,關於錯誤的輸出率沒有什麼可說的。” 艾米麗·本德(Emily Bender) 在華盛頓大學。排行榜的結果可能不是確認這項技術的最佳方法,因為LLMS並非專門設計用於捕獲課程。

這些模型通過反復回答“下一個單詞是什麼”來創建提示答案的問題來起作用,因此它們不以一般意義的方式處理信息,即試圖理解文本在身體中得到的信息。但是,大多數科技公司在描述輸出錯誤時經常使用“幻覺”一詞。

賓德說:“’幻覺’這個詞是雙重問題的。” “一方面,這表明錯誤的產品是違規的,也許其餘的時間系統是紮根,可靠和可靠的。另一方面,它有效地使機械人類人類 – 幻覺並沒有感知任何不是(和)大語言模型的東西。”

Aravind Narayanan 他說,普林斯頓大學的問題超出了幻想。模型有時會犯其他錯誤,例如繪製令人難以置信的資源或使用舊信息。在AI上投入更多的培訓數據和計算能力並不一定有幫助。

結果是我們必須遇到發生錯誤的錯誤。納拉亞南在社交媒體上說 郵政 真正檢查AI答案的速度比自己進行研究更快,在某些情況下,最好僅將此類型號用於任務。本德說,這是防止AI聊天機器人依靠實際信息的最佳行為。

事物:

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here