欢迎光临365娱乐游戏平台_365电子游戏官网!
服务热线:400-123-4567

成功案例

一道题烧多少千美元,OpenAI新模子o3:这34道题我

日期:2024-12-31 08:33 浏览:
呆板之心报道编纂:佳琪、蛋酱翻车,但微翻,翻了 12.5% 吧。前多少天,OpenAI 曾经实现了 12 连更的最后一更 —— 如外界所料,是新的推理系列模子 o3 跟 o3-mini 。从 o1 开端,OpenAI 所指出的推理 Scaling Law 仿佛带来了全新的实现 AGI 的盼望。此次被用来验证 o3 推理才能的基准是 ARC-AGI,这项基准曾经提出了 5 年时光,但始终未被霸占。而新模子 o3 是首个冲破 ARC-AGI 基准的 AI 模子:最低机能可达 75.7%,假如让其应用更多盘算资本思考更长时光,乃至能够到达 87.5% 的程度。对 o1 来说,此前在这项基准中能到达的正确率仅在 25% 到 32% 之间。在 ARC-AGI 基准中,AI 须要依据配对的「输入 - 输出」示例寻觅法则,而后再基于一个输入猜测输出。ARC-AGI 发动者、Keras 之父 François Chollet 在测试讲演中表现,固然本钱昂扬,但依然标明新义务的机能确切跟着盘算量的增添而进步。o3 在低盘算量形式下每个义务须要 17-20 美元,高盘算量形式下每个义务数千美元。但这些数字不只仅是将暴力盘算利用于基准测试的成果。OpenAI 的新 o3 模子代表了人工智能顺应新义务的才能的严重奔腾。「这不只仅是渐进式的改良,而是真正的冲破,标记着与 LLM 之前的范围性比拟,人工智能才能产生了质的改变。o3 可能顺应从前从未碰到过的义务,能够说在 ARC-AGI 范畴濒临人类程度的表示。」比方,对统一道题,Llama 系列的模子就会由于参数目的进步,从而揣测出愈加正确的谜底。但各人也留神到了,在 ARC-AGI 的 400 个义务中,另有 34 个义务是 o3 无奈处理的,即便思考了 16 小时也没能给出准确谜底。正如 François Chollet 所说:「现实上,我以为 o3 还不是 AGI。o3 在一些十分简略的义务上依然掉败,这标明其与人类智能存在基本差别。」这些义务是什么,难点又在那里,接上去让咱们一同看看。人们惊奇于 o3 无奈处理它(不看到实验)。现实上,这些样本可能不具体阐明,而且 o3 的第一个处理计划是准确的。这个义务是全部数据会合独一一个模子无奈输出网格的样本 —— 在某些列上增加了过错的额定方块。在 ARC 上,应用较小的 LLM 时常常会看到这种情形。这也能懂得,对一个只能一维思考的模子来说,辨认二维物体确切很难。François Chollet 表现,之前就发明过一维推理的范围性,有意思的是,假如在第二次实验时给年夜言语模子看扭转或翻转后的标题,它们的表示会显明晋升。这道题重要磨练空间头脑才能,不像其余标题那样须要对网格做庞杂的修改,不外也不影响最后做错的成果......此次算是一个不错的实验 —— 固然仍是出了点成绩。有意思的是,在输出第二个谜底时,o3 固然做了一堆推理,最后却只是简略画了多少条反复的线(这显明错误)。说瞎话,感到它就像是「算了算了,我不玩了!」测试样本比练习样本年夜得多,这一点很有意思。能够看到,跟尺度谜底比拟,o3 的成果不只一点边都没沾上,第二次还直接「摆烂了」,交了白卷。François Chollet 指出:「这生怕是最不睬想的一次测试案例。模子的表示难以说明,o3 仿佛在这里直接废弃了实验。不外还不断定这能否是由于第一次模子曾经认识到本人的过错,从而触发了 OpenAI 预设的某种机制。」o3 对俄罗斯方块范例的题完整没招,咱们能够在后面的义务 [1acc24af] 中看到同样的情形。这两次,o3 都在谜底中少天生了一行。看来,它很难记着另有几多雷同反复的行要输出。参考链接:https://x.com/mikb0b/status/1870622741029941545https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected] ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->
首页
电话
短信
联系