蘋果研究人員：主流AI模型仍無法達到AGI期望推理水平

2025-06-09 04:37:02

Gate News bot 消息，蘋果研究人員在 6 月份發表的一篇名爲《思考的幻覺》的論文中指出，領先的人工智能 (AGI) 模型在推理方面仍存在困難，因此，開發通用人工智能 (AGI) 的競賽仍任重道遠。

文章指出，主流人工智能大型語言模型 (LLM)（例如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude）的最新更新已包含大型推理模型 (LRM)，但其基本功能、擴展特性和局限性“仍未得到充分理解”。

目前的評估主要側重於既定的數學和編碼基準，“強調最終答案的準確性”。然而，研究人員表示，這項評估並未深入了解人工智能模型的推理能力，與通用人工智能僅需幾年就能實現的預期形成了鮮明對比。

研究人員設計了不同的益智遊戲，以超越標準數學基準來測試克勞德·桑奈（Claude Sonnet）、OpenAI 的 o3-mini 和 o1 以及 DeepSeek-R1 和 V3 聊天機器人的“思考”和“非思考”變體。

他們發現，“前沿的邏輯推理模型（LRM）在超過一定復雜度時會面臨準確率的徹底崩潰”，無法有效地泛化推理，而且其優勢會隨着復雜度的上升而消失，這與人們對通用人工智能（AGI）能力的預期相反。

消息來源：Cointelegraph

AGI3.44%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言