- 雙子座3閃電俠在不知道的事情上經常編造答案而不是坦白
- 問題是由現實或高風險的問題引起的
- 但它仍在作為最準確、最強大的人工智能模型進行測試
Gemini 3 Flash 快速且智能。但根據綜合分析獨立測試小組最近的評估,如果你問他一些他實際上不知道的事情——一些晦澀、困難或超出他訓練範圍的事情——他幾乎總是會試圖以虛張聲勢的方式擺脫困境。
Gemini 3 Flash 在 AA-Omniscience 量表的“幻覺評級”部分得分為 91%。這意味著,當他沒有答案時,他無論如何都會不斷地給出答案,幾乎一直在給出,一個完全想像出來的答案。
人工智能驅動的聊天機器人自出現以來一直是一個問題。知道何時停下來說我不知道與首先知道如何回答同樣重要。現在, Google Gemini 3 Flash AI 做得併不好。這就是測試的目的:看看模型是否能夠區分實際知識和猜測。
為了使這個數字不會偏離現實,應該指出的是,雙子座的高幻覺率並不意味著他的總答案中有 91% 是錯誤的。相反,這意味著在正確答案為“我不知道”的情況下,91% 的情況下答案都是虛構的。這是一個微妙但重要的區別,但它具有現實世界的意義,特別是當 Gemini 內置到更多產品(如 Google 搜索)中時。
嗯,不僅僅是我。根據綜合分析幻覺率標準,Gemini 3 Flash的幻覺率為91%!你真的可以用它來做任何嚴肅的事情嗎?我想知道人類模型如此擅長編程的原因是否是因為他們產生了很多幻覺…… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD42025 年 12 月 18 日
這一結果並沒有削弱 Gemini 3 的功能和實用性。該模型在通用測試中仍然表現最佳,與最新版本的 ChatGPT 和 Cloud 並列甚至領先。她只有在應該謙虛的時候才在自信方面犯了錯誤。
雙子座的競爭對手也出現了對答案的過度自信。雙子座數字之所以引人注目,是因為它在這些不確定場景中出現的頻率很高,在這些場景中,訓練數據中根本沒有正確的答案,也沒有具體的公共來源可以指出。
誠實的幻覺
部分問題在於,生成式人工智能模型主要是單詞預測工具,預測新單詞與評估真相並不相同。這意味著默認行為是想出一個新詞,即使說“我不知道”會更誠實。
OpenAI 正在開始解決這個問題,並使其模型能夠識別它不知道的內容並清楚地表達出來。這很難訓練,因為獎勵模型對空白答案的重視程度低於對自信(但錯誤)反應的重視程度。然而,OpenAI 已將此作為未來模型開發的目標。
雙子座通常會在可能的情況下引用來源。但即便如此,他也並不總是在該停下來的時候停下來。如果 Gemini 只是一個研究模型,這並沒有多大關係,但由於 Gemini 已經成為許多 Google 功能背後的代言人,因此自信地犯錯可能會大有幫助。
這裡還有一個設計選項。許多用戶希望他們的人工智能助手能夠快速、流暢地做出反應。說“我不確定”或“讓我檢查一下”有時看起來很困難 聊天機器人上下文。但也許這比被誤導要好。生成式人工智能仍然並不總是可靠,但仔細檢查任何人工智能響應始終是一個好主意。
在 Google 新聞上關注 TechRadar 和 將我們添加為最喜歡的來源 在您的源中獲取專家新聞、評論和意見。請務必點擊關注按鈕!
當然你也可以 在 TikTok 上關注 TechRadar 以視頻形式獲取新聞、評論和拆箱,並定期從我們這裡獲得更新 WhatsApp 還。










