Home 科學技術 超級智能的AI是在拐角處,還是一個科幻-FI的夢想?

超級智能的AI是在拐角處,還是一個科幻-FI的夢想?

13
0

機器會比人類更清醒嗎?

Chan2545/Istockphoto/Getty圖片

如果您用自己的話說,將人工智能公司的領導人帶入人類歷史上的未來十年中的任何方式:“根本性豐富”是“根本豐富”的黃金時代,我們看到高功率物理學的開始和太空殖民地的開始。與當今最強大的AI系統合作的研究人員發現了一個不同的現實,其中大多數人也使最佳模型無法解決發現一個小問題的基本難題,但是AI的承諾很高。那麼,您信任誰?

最近聲稱Openai和Google Deepmind的首席執行官Sam Altman和Demis Hasabis,強大的AI系統改變了世界。在 博客文章

Husbicis,在 面試 有線在2030年代,人工通用情報(AGI)開始解決諸如“可怕疾病”之類的問題,這會導致“非常健康,更多的終生”,並找到新的燃料資源。 “如果一切都發生,哈薩比斯在採訪中說:“那一定是人類最大的發展年齡,我們去了星星並殖民銀河系。 “

這種重點在很大程度上依賴於諸如Chatgpiti之類的大型語言模型變得更加有效的持續發展。在過去的幾年中,這種“擴展法”似乎是正確的,但其建議正在下降。例如,OpenAy最近的GPT -4.5型號(花費數億美元的培訓)僅比其前身GPT -4取得了適度的改進。報告表明 元將宣布150億美元的投資 為了實現“超級智能”。

這不是解決問題的唯一解決方案,但是-AI公司也轉向了去年發布的“推理”模型。這些模型使用更多的計算時間,因此產生響應需要更長的時間,以自己的結果為食。這個重複的過程被標記為“鏈意識”,以嘗試與一個通過分步問題思考的人進行比較。 “有法律理由擔心AI高原,” OpenA的Nom Brown說 新科學家 他認為,去年,這意味著O1和模型可以繼續“擴展法”。

最近的研究發現,這些邏輯模型還會在常規邏輯難題上犯錯誤。例如,蘋果研究人員 中國測試 AI公司的DEPSIK推理模型和Claude思維模型,它們是O1家族模型的O1家族模型。研究人員發現,他們“在準確的計算中有限制:他們無法使用清晰的算法,並且難題不穩定”。

該小組在幾個難題上測試了AI,其中一個人必須以少量步驟將物體在河上運輸,並且河內塔應該被三列攪動,而不要在較小的尺寸上放一個大環。儘管模型可以在簡單的設置中解決難題,但他們一直在努力增加用於運輸的環或貨物的數量。隨著我們花更多的時間思考一個更複雜的問題,AI模型的“令牌”較少 – 作為信息的複雜性 – 問題的複雜性,表明“思考”時間是一種幻想。

他說:“有害的部分是可以輕鬆解決的任務。” Artur Garssez 在城市,倫敦大學。 “我們已經知道如何使用符號AI推理來解決這些問題。我們已經知道了50年前。” Garsez說,這些新系統可能會穩定並通過複雜的問題改善,但是這些研究並非通過增加模型的大小或給出的計算來源來完全完成這些研究。

這也提醒人們,這些模型仍在努力修復他們在培訓數據之外未見的場景 Nicos Alatras 在謝菲爾德大學。 Alatras說:“在大多數情況下,它們工作得很好,喜歡找到信息然後捕獲信息,但是這些模型已經經過培訓以執行這些類型的任務,但它看起來不可思議,但事實並非如此 – 他們經過訓練可以做到這一點。” “現在,蘋果找到了一個盲點。”

同時,其他研究表明,增加的“思想”時間實際上損害了AI模型的性能。 Soumya Suvra Ghosal 他在馬里蘭大學的同事們測試了Deepsek的模型,並找到了長期以來的“思想鏈”過程 導致數學邏輯測試的準確性降低。例如,對於數學基準,他們發現,增加了該模型使用的代幣量,該代幣將其性能提高了5%。但是,令牌的10到15倍將基準得分降低了17%。

在某些情況下,AI產生的“思想鏈”與它所提供的答案的關係較少。什麼時候 測試Deepsek的樣本,以導航正常迷宮的能力是,又有, Subbarao Kambhampati 即使亞利桑那州解決了州立大學及其同事之間的AI問題,其“思想鏈”的產出也會發現,最終解決方案沒有反映出產量。更重要的是,在AI上吃毫無意義的“思想鏈”實際上可以給出良好的答案。

Kambampati說:“我們的結果挑戰了中間令牌或’思想鏈’,這可以理解為AI模型內部邏輯的痕跡,從而警告他們不要人類。”

當然,研究表明這些AI模型的“思想”或“邏輯”標籤是錯誤的名稱。 安娜·羅傑斯(Anna Rogers) 在丹麥哥本哈根大學。 “只要我在這個領域,我認為的每一種流行的技術都是首先以一些模糊的認知尺度類比進行炒作。

Andreas Vlachos 最新的研究表明,劍橋大學的LLM在文本生成和其他任務中仍然有明確的應用,但是我們一直在努力解決Altman和Hasabis所承諾的複雜問題。

弗拉喬斯說:“基本上,這些模型已經經過培訓,可以按照下一個詞來做什麼,這與我們試圖做的事情相反,這是一種邏輯上的邏輯。”

但是,Openai拒絕了。一位發言人說:“我們的任務是顯著提高諸如Chain-Off-thathat之類的複雜問題的績效,我們正在積極努力通過改進的培訓,評估和模型設計來擴大這些功能。” Deepsek沒有回應評論的請求。

事物:

來源連結