色狗av o3挑战ARC-AGI,碰见大网格就懵圈?英国工程师:ARC-AGI不合适大模子
o3在超难推理任务ARC-AGI上的收货色狗av,属实给东谈主类带来了不少震憾。
但有东谈主故意算计了它不会作念的题之后,有了更道理道理的发现——
o3之是以不会作念这些题,原因可能不是因为太难,而是题地方领域太大了。
来自英国的ML工程师Mikel Bober-Irizar(不妨叫他米哥),对ARC题目进行了良好不雅察。
服从米哥发现,题目中的网格领域越大,大模子的阐述也就越差。
而且不仅是o3,o1和o1 mini,还有近邻的Claude,齐出现了这么的慷慨。
米哥的这项算计,引起了东谈主们对大模子职责机制的很多计划。
寰宇首位全职提醒词工程师Riley Goodside看到后,也以为这是一项很好的算计。
大模子被困在了网格领域上
照旧先浅显转头一下ARC挑战,题目带有色块的网格阵列(以文本质式表述,用数字代表模式),大模子需要不雅察每谈题目中3个输入-输出示例,然后字据章程填充新的空缺网格。
米哥发现,在ARC挑战中,领域越大,也即是网格的数目越多,大模子的阐述也就越差。
o3也逃不外这么的魔咒,但比拟于其他模子,o3阐述的较着下落出现得更晚,苟简在网格数目达到1024个之后(请记着这个位置,后头还会讲到)。
为了进一步考据这个发现,米哥还用o1-mini进行了履行测试。
下图当中,支配两栏的题目乍一看上去好像没什么区别,但在右边色狗av,米哥对网格进行了细粒度的切割,原本的一个格子被切成了4(2×2)个。
服从原本能作念对的题,切成小块之后,o1-mini还真就不灵了。
进一风景,米哥还对ARC数据汇集的领域散布进行了统计,服从刚好是领域在1024个像素的题目数目最多。
还记起前边o3收货下落趋势倏得变大的位置吧,刚好即是在1024周边。
米哥以为,这即是o3在ARC挑战上取得优异收货的进军身分,而其他模子收货欠安,是因为对应的小领域试题占比较少。
是以在米哥看来,ARC挑战并不成齐备响应大模子果真的推理材干——有不少模子齐被低估,o3则是被高估了。
ARC挑战不合适大模子?
那么,为什么题目中网格数目一多,大模子的阐述就不好了呢?
先来看米哥的分析。
米哥援用了纽约大学的一项算计服从(arXiv:2409.01374),这项算计发现东谈主类在挑战这么的问题时并不会出现这种慷慨。
淌若在东谈主类和模子之间作念个比较,那么在领域较小时o3的阐述不错说完胜东谈主类,但领域较大时优越方就造成了东谈主类。
这讲解,大模子在科罚此类问题时,念念考形势和东谈主类依然存在离别。
天然,大模子在挑战ARC时看到的不是图像,而是用数字代表的矩阵,这是不言而喻的,但离别还不啻于此。
东谈主类在濒临ARC问题时,即使是用这种数字矩阵来暗意,也能够看出视觉信息,判辨其中的位置干系。
成人在线在空间中,ARC是一个二维问题,需要跨行和列进行推理,但大模子在处理token时是以一维要领进行的。
这意味着,大模子进行跨列推理时,需要组合较长的高下文信息。
而跟着网格变得更大,模子需要对更长的高下文进行推理,而且必须对相距较远的数字进行组合和推理。
米哥之前照旧和剑桥大学高档算计员Soumya Banerjee此前进行的一项算计(arXiv:2402.03507)标明,通过对矩阵进行90度旋转,让模子别离基于行和列进行推理,比径直作念题收货普及了一倍。
是以米哥以为,是不雅察问题的维度影响了大模子的收货,ARC这种任务并不合适大模子。
他还暗意在NeurIPS上听到了一个很好的类比——
将二维的ARC任务交给大模子,就像盼愿东谈主类在四维空间中进行推理。
同期网友们还指出,诚然本质上触及了维度互异,但视觉依然是一个进军身分。
假想一下,淌若东谈主莫得视觉材干,单纯依靠听或其他形势取得对于其中网格的信息,也很难径直构建出二维的矩阵。
不外说到这,即便模子领有“视觉”材干,亦然将视觉信息更始为Token,和东谈主类的视觉也无意交流。
网友以为,着实的视觉需要能够处理并行输入的信息,而不是逐一Token的串行输入,二进制IO数据流粗略是一种科罚决策。
One More Thing
字据ARC挑战官方的说法,ARC-AGI的下一代ARC-AGI-2行将推出。
早期测试标明,其将对o3组成紧要挑战——
即使在高运筹帷幄量模式下,o3的得分也可能会裁汰到30%以下(而机灵东谈主仍然能够得分迥殊95%)。
— 完 —色狗av