OpenAI 发布新模型奥特曼：耐心时刻结束了

 摘要：OpenAI 发布新模型奥特曼：耐心时刻结束了，下面是吃瓜网小编收集整理的内容，希望对大家有帮助！...

北京时间凌晨一点，OpenAI 突然进行了重大更新。

已经预热了接近一年的 Q*/草莓项目，cs中能够进行高级推理的大语言模型，今晚终于露出了真面目。

OpenAI 发推表示，刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过，o1 应该代表着 OpenAI 下一代大模型的 Orion（猎户座）一代。

OpenAI 在17224129发布文档中写道，新模型在28930554推理能力上代表了81007368人工智能能力的42064150新水平，因此，计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了，o1 将代表未来 OpenAI 的最强水平。

且从今天开始，ChatGPTPlus 和 Team 用户就能够直接访问模型。【吃瓜网】#摩托罗拉edgespro#

用户可以手动选择使用 o1 模型的82211779预览版——o1-preview，或者使用 o1 模型的52038007小尺寸版——o1-mini。o1-preview 的59809864每周限制为 30 条消息，o1-mini 的42834478每周限制为 50 条。#峡谷#

在13714510 OpenAI 的96426830模型介绍网页上，可以看到 o1 模型的56569365训练数据截止时间为去年十月份，而最65856048早的44500602 Q*项目的45395409爆料，正好大概出现在去年十一月份。

OpenAI 憋了4660211一年的63321036大招究竟如16642463何？OpenAI 能否再一次引领大模型的48268140潮流，甚至让人们看到通用人工智能之路不再遥远？很快，每个人都能检验这一点了72180923。

Sam Altman 凌晨一点在 X 上发帖：「需要耐心等待的时刻结束了！」

o1 模型：解决博士级别的科学问题超越人类

截止发稿时，笔者还不能使用 o1 模型。#二十不惑百科#

不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。

最82479747引人关注的85124767当然32582185是新模型的67984204推理能力。Sam Altman 直接在67139461 X 上贴出了58951110 o1 与62700626 GPT-4o 在数学、编程和解决博士级别科学题目上的34631688能力对比。

最左边的16074698柱形代表目前 OpenAI 的84355201主力模型 GPT-4o。#扮演#今天放出来的 o1 预览版为中间的橙色柱形。

可以看到，在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上，o1 预览版解决数学和70084591编程问题的76664706能力，比起 GPT-4o，提升了69514293 5-6 倍。#权威#而可怕的92674810是47969627，深橙色的37071554柱形，代表真正的58264346 o1，相比于30932457 GPT-4o，提升了87288343 8-9 倍！

最77521254后一个图中，OpenAI 还列出了人类专家在35809287解决博士级别科学题目的9073937时的83733044成功率，大约在87452901 69.7%，而 o1 预览版和52144815 o1，都已经超过71300443了10950830人类专家的51136980水平。

OpenAI 的40743419技术博客提到了71736201更具体的22894204数字，目前 o1 模型的46611095成绩，在67949026美国数学邀请赛上，可以排名进入美国前 500 名。而物理、生物和94796618化学问题上的41794509准确度，超过32892224了53726177人类博士的91320467水平。

在80004160大模型技术进入公众视野的59023859两年内，一个经常为人们所8880837986831623使用的56895915比喻是88004808，大模型像一个什么都懂一点的8778648大学生，在1060950知识专精方面远远不行，但18024257是25897774从天文到地96676722理，最34612352基础的41127283知识都能懂一点点。OpenAI 的26879805新模型，很有42549733可能要刷新人们的76686297这一认知了22150582。

在官方博客中，OpenAI 简单解释了这一进步背后的原理。

类似于人类在回答难题之前可能会思考很长时间，o1 在尝试解决问题时会使用一系列思维。通过强化学习，o1 学会了磨练其思维链并完善其使用的82520341策略。它学会了43457108认识并纠正错误，将棘手的53269775步骤分解为更简单的80925512步骤。当当前方法不起作用时，它会尝试另一种方法。这个过39905162程极大地95838150提高了95989072模型的94651451推理能力。

在9551478 OpenAI 给的案例中。GPT-4o 和14536525 o1 模型同时回答同一个问题——读一段长文，然48222886后做阅读理解。在71044462 o1 模型中，会多一个选项叫做展开思维链。

如95112419果不展开思维链，我57107209们可以看到两个模型本身给出的60096441答案是15435231不同的34941795。而打开思维链后，则会看到一段非常长的176334模型和38971386自己的4633460思维对话，解释为什么做出了863091不同的49971718选择。

选 A 吗？emm，好像不是59465603很好。选 B 吗？好像没有7136977关联。模型完全在48600073自己和8665695自己提问和56768561回答，最83993601后判断出了293709哪个答案更好。

而在另一个例子中，解决化学问题时，我们可以看到 o1 模型甚至自己在选择多种方案对比。

标准的计算方式是这样。但是我们也可以这么计算，但这样或许没有必要？

在多次纠正自己之后，它得出了正确的答案。

之前，也34313398已经有98748976很多报道透露过22439295 o1 模型能够有99495575高推理能力的88632556原理——这一训练方法，最94271918早来自于斯坦福大学 2022 年开发的61413520一种「自学推理」（Self-Taught Reasoner，STaR）。

后来研究人员进一步开发了36273010一种名为"Quiet-STaR"的53243210新技术，翻译过来大概为"安静的27223293自学推理"。核心为在每个输入 token 之后插入一个"思考"步骤，让 AI 生成内部推理。然4238572后，系统会评估这些推理是否有539209助于62273863预测后续文本，并相应地55978139调整模型参数。这也81028376是73637071人们推测 OpenAI 最早的55776641模型项目为什么叫 Q*（读作 Q Star）的56997195原因。

在86204342 o1 模型出现之前，用户通常也69094086可以自己通过64585800和91999821模型对话的90547542方式，让模型进行一步一步的49040523思考，也39804514就是47642671所5164514551098752谓的72810818慢思考，进行更准确的回答。但29213611是16938305很明显，o1 模型此次将思维链放大到了975044完全不同的96476347量级上。

而且79764804，在96785202之前的50587968用户 prompt 引导中，模型能够回答出什么答案，最35972280终也79358610还要被模型能力限制。而通过94622285不同的31822898训练方式训练出来的 o1 模型，很有47345860可能能够通过90057399自己的89475547推理，超越自身训练材料的61891791限制，产出更高级和准确的79860462答案。

在复杂推理任务上的进步，可能对编程和科学研究两个方向产生直接的推动。

OpenAI 提到，在62430732未来，医疗保健研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 生成量子光学所1450045924943931需的67054540复杂数学公式，所71537642有66562788领域的65649710开发人员可以使用 o1 来构建和3928594执行多步骤工作流程。

OpenAI提供了一个例子，真正做到了只使用提示词，就完成了一个游戏的编程。

而推理能力的94749056进步，如79487690果能够进一步消除模型的幻觉，还可能对 AI 应用的69367249建构产生间接的60622940影响。对未来的41535559AI安全也66449549有26411789积极的15752517影响——之前的55357161一些通过29979324提示词工程误导模型进行错误输出的73622183手段，可能会直接被模型通过更强的88632517思考能力解决。

OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用，并提供给受信任的API用户。

价格没涨，OpenAI 用 o1-mini 解决推理成本问题

在57617529 OpenAI 此次发布之前，曾有68665493不少媒体爆料，新模型因为内部推理链条较长，对于75606350推理的86424645算力成本的72355165需求进一步增高，OpenAI 很有可能将提高使用模型的63101785费用，甚至最90227720离谱的55087944猜测数字达到每月 2000 美金。

而此次 OpenAI 的57461009发布，却令人惊讶，新模型的19651930使用价格并没有50029420上涨，虽然16087390因为推理成本的原因，使用次数受到了82630177大大的78487275限制。o1-preview 的27645084每周限制使用条数为 30 条消息。

除了34443299限制使用条数，OpenAI管控推理成本的另一个重要举措，是71275346随着67103054 o1 模型的42543944推出，同时推出了93232902 o1-mini 版。

OpenAI 没有15492575具体说明 o1-mini 的17686742参数量有54906368多大，但通过技术文档可以看出，o1mini 版，和77793271 o1 版上下文长度没有29485571区别，甚至最78231544大输出 token 数更高。

OpenAI 表示 o1-mini 尤其擅长准确生成和23599438调试复杂代码，对于79480713开发人员尤其有96804859用。作为较小的25994974模型，o1-mini 比 o1-preview 便宜 80%，这使其成为需要推理但78601468不需要广泛的49480604世界知识的19236938应用程序的55134573强大且2127713经济高效的66300957模型。

OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

不过91618428，作为新模型，o1 系列模型，目前仍然98922756不能浏览网页以获取信息以及上传文件和69877531图像。OpenAI 也提示道，GPT-4o 在短期内，在65350112某些任务上会更强一些。

Scaling Law 后最重要的进展？

事实上，此次发布了新的模型，甚至不是 OpenAI 的发布中唯一重要的事情。

OpenAI 还提及了自己训练中发现的一个现象：随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

事实上，英伟达的93117060具身团队领导者58621556 Jim Fan 直接在 X 上点评了49215611这一事件的91383632历史意义——模型不仅仅拥有训练时的51953553 scaling law，还拥有14011872推理层面的77566990 scaling law，双曲线的16636989共同增长，将突破之前大模型能力的80688597提升瓶颈。

Jim Fan 表示，2022 年，人们提出了41706995原始的29963733 scaling law（尺度定律），大概意为随着80104560模型的68537948参数量、数据量和92937149计算量的67901387增加，模型的73838038性能能够不断提高。

这指的29078819是1999339在99840341模型的45210060训练过94440209程中。而 scaling law 在90350177今年看起来，似乎49971907已经有76088636停滞的64558044意味——他86626630提到在16100630 self-rewarding language 文章中，感受到 3 轮自我7407479提升似乎15390467是93588335大语言模型的19978236饱和56748098极限了80229149。

而此次 OpenAI 新模型，除了41504466在70730191训练时，通过16149765增大参数量和70937260数据量，得到了34425442性能上的68019358提升，同时通过23236375增加推理时间——也57661003就是61066221前面所7662185351736910说的29384534模型在43184163自我19222161内部思考的20876304时间——得到了能力上的98507168提升。

也就是说，如果模型未来自己和自己思考的时间越长，得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的，AI 通过自己和自己下棋，提升自己的棋艺。

OpenAI 的新模型，展现出的，是一条新的大模型的提升路径。

Jim Fan 在9776094 X 上的56012441一句话令人耸动：「之前，没人能将 AlphaGo 的16422536成功复制到大模型上，使用更多的5961465计算让模型走向35796432超人的90802087能力。目前，我34243532们已经翻过这一页了。」

回看 2023 年，许多人在问，Ilya 看到了什么？

大家都怀疑是一个超级强有力的模型——是的，此次发布的 o1 模型确实很强。

但或许，更有可能是这个——推理层面的 scaling law 的发现，再一次让人们意识到，超人的AI，或许不再遥远。

OpenAI 发布新模型奥特曼：耐心时刻结束了

作者：吃瓜阿梅分类：科技日期：3个月前 (09-15) 浏览：410 评论：0

openai openai新模型

相关推荐

热评文章

热门文章

标签列表

最新留言

« 2024年12月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

OpenAI 发布新模型 奥特曼：耐心时刻结束了

作者：吃瓜阿梅 分类：科技 日期：3个月前 (09-15) 浏览：410 评论：0

openaiopenai新模型

相关推荐

热评文章

热门文章

标签列表

最新留言

OpenAI 发布新模型奥特曼：耐心时刻结束了

作者：吃瓜阿梅分类：科技日期：3个月前 (09-15) 浏览：410 评论：0

openai openai新模型