OpenAI推出了o1一个可以自我核实事实的模型

AI资讯 2024-09-13

来源：www.aifind.com.cn

周四，在 ChatGPT 和通过 OpenAI 的 API 可以使用两个版本：o1-preview 和 o1-mini，o1-mini 是一个更小、更高效的模型，旨在用于代码生成。

ChatGPT 的开发者 OpenAI 宣布了其下一个主要产品发布：一个生成式人工智能模型，代号为 Strawberry，正式名称为 OpenAI o1。更准确地说，o1 实际上是一个模型家族。周四，在 ChatGPT 和通过 OpenAI 的 API 可以使用两个版本：o1-preview 和 o1-mini，o1-mini 是一个更小、更高效的模型，旨在用于代码生成。你必须订阅 ChatGPT Plus 或 Team 才能在 ChatGPT 客户端中看到 o1。

企业和教育用户将在下周初获得访问权限。请注意，目前 o1 的聊天机器人体验相当基础。与 o1 的前身 GPT-4o 不同，o1 还不能浏览网页或分析文件。该模型确实具有图像分析功能，但在进行额外测试之前已被禁用。而且 o1 是有限速的；目前 o1-preview 的每周限制是 30 条消息，o1-mini 是 50 条。另一个缺点是，o1 很昂贵。非常昂贵。在 API 中，o1-preview 每 100 万个输入标记为 15 美元，每 100 万个输出标记为 60 美元。

与 GPT-4o 相比，输入成本是其 3 倍，输出成本是其 4 倍。（标记是原始数据位；100 万大约相当于 75 万个单词。） OpenAI 表示计划让所有 ChatGPT 的免费用户都能访问 o1-mini，但尚未确定发布日期。我们将督促该公司兑现承诺。 OpenAI o1 避免了一些通常会困扰生成式人工智能模型的推理陷阱，因为它可以通过花更多时间考虑问题的所有部分来有效地进行事实核查。

据 OpenAI 称，使 o1“感觉”与其他生成式人工智能模型在质量上不同的是它在响应查询之前“思考”的能力。当给予额外的时间“思考”时，o1 可以全面地推理任务——提前规划并在较长时间内执行一系列行动，帮助模型得出答案。这使得 o1 非常适合需要综合多个子任务结果的任务，例如在律师的收件箱中检测特权电子邮件或集思广益产品营销策略。

周四，OpenAI 的研究科学家 Noam Brown 在 X 上的一系列帖子中表示，“o1 是通过强化学习进行训练的。”他说，这通过在 o1 答对时给予奖励，答错时给予惩罚，教会系统“在通过私人思维链响应之前‘思考’”。 Brown 补充说，OpenAI 使用了一种新的优化算法和包含“推理数据”和专门为推理任务定制的科学文献的训练数据集。“[o1]思考的时间越长，表现就越好，”他说。 TechCrunch 在 o1 首次亮相之前没有获得测试它的机会；我们将尽快亲自体验它。但是，据确实有访问权限的人——汤森路透副总裁 Pablo Arredondo 称，o1 在分析法律简报和识别 LSAT 逻辑游戏中的问题解决方案等方面比 OpenAI 的以前模型（例如 GPT-4o）更好。 “我们看到它处理更实质性、多方面的分析，”Arredondo 告诉 TechCrunch。“我们的自动化测试也显示在广泛的简单任务上有所进步。” 据 OpenAI 称，在国际数学奥林匹克竞赛（IMO）的资格考试中，这是一项高中数学竞赛，o1 正确解决了 83%的问题，而 GPT-4o 只解决了 13%。

当你考虑到 Google DeepMind 最近的人工智能在相当于实际 IMO 竞赛的比赛中获得银牌时，这就不那么令人印象深刻了。OpenAI 还表示，在被称为 Codeforces 的在线编程挑战轮中，o1 达到了参与者的第 89 百分位数——无论如何，比 DeepMind 的旗舰系统 AlphaCode 2 更好。总的来说，OpenAI 表示，o1 在数据分析、科学和编码问题上应该表现更好。GitHub 用其人工智能编码助手 GitHub Copilot 测试了 o1，报告称该模型擅长优化算法和应用程序代码。而且，至少根据 OpenAI 的基准测试，o1 在多语言技能方面比 GPT-4o 有所改进，特别是在阿拉伯语和韩语等语言方面。

沃顿商学院管理学教授 Ethan Mollick 在他的个人博客上的一篇帖子中写下了他使用 o1 一个月后的印象。他说，在一个具有挑战性的填字游戏中，o1 表现出色——答对了所有答案（尽管虚构了一个新线索）。 OpenAI o1 可能比其他模型慢，具体取决于查询。Arredondo 说，o1 回答某些问题可能需要超过 10 秒；它通过显示当前正在执行的子任务的标签来显示其进度。

鉴于生成式人工智能模型的不可预测性，o1 可能还有其他缺陷和限制。例如，Brown 承认 o1 有时会在井字棋游戏中出错。在一篇技术论文中，OpenAI 表示，它从测试人员那里听到了传闻反馈，即 o1 比 GPT-4o 更容易虚构（即自信地编造东西）——而且当它不知道问题的答案时不太经常承认。 “错误和虚构仍然会在[o1]中发生，”Mollick 在他的帖子中写道。“它仍然不是完美的。” 毫无疑问，我们将及时了解更多关于各种问题的信息，一旦我们有机会亲自对 o1 进行严格测试。如果我们不指出 OpenAI 远不是唯一一家研究这些类型的推理方法以提高模型真实性的人工智能供应商，那我们就是失职了。

Google DeepMind 的研究人员最近发表了一项研究，表明通过基本上给模型更多的计算时间和指导以在提出请求时满足请求，这些模型的性能可以在无需任何额外调整的情况下得到显著提高。为了说明竞争的激烈程度，OpenAI 表示，它决定不在 ChatGPT 中显示 o1 的原始“思维链”，部分原因是“竞争优势”。（相反，该公司选择显示这些链的“模型生成的摘要”。） OpenAI 可能是第一个推出 o1 的。但是假设竞争对手很快推出类似的模型，该公司的真正考验将是让 o1 广泛可用——并且价格更低。

从那里，我们将看到 OpenAI 能够多快地提供 o1 的升级版本。该公司表示，它的目标是试验可以推理数小时、数天甚至数周的 o1 模型，以进一步提高它们的推理能力。