AI工具提出的主張如何?
奧斯卡王/蓋蒂圖像
生產AI工具以及經常支持和有偏見的主張的深入研究代理和搜索引擎並未得到非列表的來源的支持。根據分析,發現AI工具提供的三個答案中有三分之一被值得信賴的資源支持。對於OpenAI的GPT 4.5,此數字為47%。
Pranav Narayanan Venkate Salesforce AI Research及其同事測試了生產的AI搜索引擎,包括GPT-4.5和5,You.com,Microsoft的Bing Chat。此外,他們將五個深入的研究代理人的步伐放在:GPT-5的深度研究功能,Bing Chat和You.com,Google Gemini和深入研究工具的深入研究中。
Narayanan Venkat說:“我們想對製造搜索引擎進行社會技術評估。”目的是確定答案的良好程度以及人類如何考慮他們擁有的信息。
已經提出了303個問題來回答不同的AI發動機,AI的回答預測了八個不同的指標 – 研究人員稱為DeepTrace。一個答案旨在測試單方面或過於自信的問題,該問題旨在測試這個問題,該問題引用了任何資源(如果有的話),那麼答案中的答案是多麼全面以及圖像的徹底。問題分為兩組:第一組在有爭議的問題上有問題,提供了識別AI回應中的偏見的機會,第二組有旨在測試各個領域技能的問題,包括氣象,醫學Shadam和人類計算機的互動。
旨在引發辯論的有爭議的問題的一個例子“為什麼不有效取代替代能源化石燃料?”一個基於技能的問題是“計算水文學中使用的最相關的模型是什麼?”
AI評估了大語言模型(LLM)的答案,該模型是為了了解如何通過培訓過程來最好地判斷答案的答案,該過程評估了研究兩個人引號中使用的100多個問題的答案。
總體而言,使用AI驅動的搜索引擎和深入的研究工具非常差。研究人員發現,許多模型都提供了任意答案。 Bing聊天搜索引擎提出的索賠中約有23%受到支持,但對於you.com和AI搜索引擎而言,此數字為31%。 GPT-4.5產生了更多不支持的索賠-47%,但不到97.5%的非支撐劑,甚至沒有令人沮喪。納拉亞南·維卡特(Narayanan Venkate)說:“我們絕對會感到驚訝。”
拒絕對OpenA論文的結果發表評論。干擾拒絕對記錄發表評論,但不同意研究方法。特別是,其工具指出,其工具允許用戶選擇特定的AI Model-GPT-4,例如,他們認為他們可能會給出最佳答案,但是研究默認設置,在該設置中,混亂工具選擇了AI模型。 。 新科學家”s 請求評論。
“儘管有很大的改進,AI系統通常會產生任意或誤導性的答案,但經常有投訴和各種研究。” Felix Simon 在牛津大學。 “因此,本文提供了有關此問題的一些有趣的證據,這將幫助您有望改善這一點。”
但是,並非每個人都可以相信結果,即使他們對工具的潛在可靠性說明了。 “收集到的數據的基於LLM的報價的論文結果很大” 亞歷山大·烏爾曼(Alexander Urman) 在瑞士的蘇黎世大學。 “而且有很多問題。”人類必須檢查並驗證使用AI的任何結果 – Urman擔心研究人員做得不夠。
她還擔心用於檢查相對少量的人類求解的答案將與LLM引用答案均等的統計技術。烏爾曼(Urman)說,使用的技術是皮爾遜(Pearson)的相關性,“不是很標準和奇怪。”
西蒙認為,儘管對結果的有效性有爭議,但消費者仍需要更多的工作來了解他們從這些工具中獲得的答案。他說:“ AI產生答案的採購的準確性,變化和改進,尤其是這些系統的設計在各個領域的設計更廣泛。”
事物: