GPT-4o突破ARC-AGI基准，重塑通用人工智能评估格局

AI快讯 2024-06-20

一度被认为是不可撼动的通用人工智能基准ARC-AGI，最近遭遇到了来自GPT-4o的强力挑战。GPT-4o以其在公共测试集上高达50%、训练集保留子集上71%的准确率，成功刷新了ARC-AGI的SOTA记录，引发了业界广泛关注。

ARC-AGI，这一由François Chollet创建的基准，一直被视为衡量通用人工智能进展的重要工具。其复杂性和挑战性使得无数研究团队望而却步，而首届ARC-AGI竞赛的获胜者icecuber团队也仅取得了21%的成功率，这无疑证明了ARC-AGI的难度。

然而，GPT-4o的出色表现打破了这一僵局。它利用强大的生成能力和逻辑推理能力，成功解决了大量复杂的ARC-AGI任务。这一成就不仅展现了GPT-4o在通用人工智能领域的强大实力，也为未来的研究提供了新的方向和思路。

值得一提的是，Ryan Greenblatt作为一位热衷于挑战极限的研究者，利用GPT-4o在ARC-AGI上取得了令人瞩目的成绩。尽管他的方法使用了闭源模型和过多的运行时计算，不符合ARC-AGI奖项和主要排行榜的资格要求，但这一尝试无疑为未来的研究提供了宝贵的经验。

ARC-AGI基准的核心在于其独特的任务设置和数据集构建方式。它要求模型根据输入的网格图像猜测出背后的转换规律，并补全缺失的网格。这种任务不仅考验了模型的视觉理解能力，还对其逻辑推理和生成能力提出了极高的要求。GPT-4o的成功表明，它已经具备了在这些方面超越人类的能力。

为了进一步探索GPT-4o在ARC-AGI上的表现，Ryan Greenblatt设计了一系列复杂的技巧和策略。他通过向GPT-4o展示问题的多种表示形式（包括图像和ASCII文本），指导其推理出背后的规律，并生成相应的Python程序。然后，他利用GPT-4o的生成能力，生成了大量的候选程序，并通过示例验证和调试，最终选出了最优的提交方案。

GPT-4o的这一突破不仅展示了其强大的通用人工智能能力，也为未来的研究提供了新的启示。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，未来的通用人工智能将会更加强大、更加智能。