GPT-4o突破ARC-AGI基准,重塑通用人工智能评估格局
一度被认为是不可撼动的通用人工智能基准ARC-AGI,最近遭遇到了来自GPT-4o的强力挑战。GPT-4o以其在公共测试集上高达50%、训练集保留子集上71%的准确率,成功刷新了ARC-AGI的SOTA记录,引发了业界广泛关注。
ARC-AGI,这一由François Chollet创建的基准,一直被视为衡量通用人工智能进展的重要工具。其复杂性和挑战性使得无数研究团队望而却步,而首届ARC-AGI竞赛的获胜者icecuber团队也仅取得了21%的成功率,这无疑证明了ARC-AGI的难度。
然而,GPT-4o的出色表现打破了这一僵局。它利用强大的生成能力和逻辑推理能力,成功解决了大量复杂的ARC-AGI任务。这一成就不仅展现了GPT-4o在通用人工智能领域的强大实力,也为未来的研究提供了新的方向和思路。
值得一提的是,Ryan Greenblatt作为一位热衷于挑战极限的研究者,利用GPT-4o在ARC-AGI上取得了令人瞩目的成绩。尽管他的方法使用了闭源模型和过多的运行时计算,不符合ARC-AGI奖项和主要排行榜的资格要求,但这一尝试无疑为未来的研究提供了宝贵的经验。
ARC-AGI基准的核心在于其独特的任务设置和数据集构建方式。它要求模型根据输入的网格图像猜测出背后的转换规律,并补全缺失的网格。这种任务不仅考验了模型的视觉理解能力,还对其逻辑推理和生成能力提出了极高的要求。GPT-4o的成功表明,它已经具备了在这些方面超越人类的能力。
为了进一步探索GPT-4o在ARC-AGI上的表现,Ryan Greenblatt设计了一系列复杂的技巧和策略。他通过向GPT-4o展示问题的多种表示形式(包括图像和ASCII文本),指导其推理出背后的规律,并生成相应的Python程序。然后,他利用GPT-4o的生成能力,生成了大量的候选程序,并通过示例验证和调试,最终选出了最优的提交方案。
GPT-4o的这一突破不仅展示了其强大的通用人工智能能力,也为未来的研究提供了新的启示。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,未来的通用人工智能将会更加强大、更加智能。