6 个月前

监督式微调

Yi Cui

摘要

本文对OpenAI最新推理模型o1-preview与o1-mini在编码任务中的表现进行了案例研究，并与其它前沿模型进行了对比。在单一任务基准测试WebApp1K上，o1系列模型取得了当前最优（SOTA）成绩。为进一步评估其能力边界，本文提出了WebApp1K-Duo，一个任务数量与测试用例数量均翻倍的更具挑战性的新基准。实验结果表明，该新基准显著降低了o1模型的性能表现，使其落后于Claude 3.5。此外，当面对非典型但正确的测试用例时，o1模型表现出持续性失败，而这类“陷阱”非推理类模型偶尔能够规避。我们推测，性能波动的根源在于对指令的理解能力。具体而言，当模型能够完整捕捉所有任务预期时，其推理机制显著提升表现；但一旦关键预期被遗漏，错误则会加剧，这一现象可能受到输入长度的影响。因此，我们主张，推理模型在编码任务中的成功高度依赖于高质量的基础模型及精细的监督微调（SFT），以确保对指令的精准遵循。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Yi Cui

摘要

本文对OpenAI最新推理模型o1-preview与o1-mini在编码任务中的表现进行了案例研究，并与其它前沿模型进行了对比。在单一任务基准测试WebApp1K上，o1系列模型取得了当前最优（SOTA）成绩。为进一步评估其能力边界，本文提出了WebApp1K-Duo，一个任务数量与测试用例数量均翻倍的更具挑战性的新基准。实验结果表明，该新基准显著降低了o1模型的性能表现，使其落后于Claude 3.5。此外，当面对非典型但正确的测试用例时，o1模型表现出持续性失败，而这类“陷阱”非推理类模型偶尔能够规避。我们推测，性能波动的根源在于对指令的理解能力。具体而言，当模型能够完整捕捉所有任务预期时，其推理机制显著提升表现；但一旦关键预期被遗漏，错误则会加剧，这一现象可能受到输入长度的影响。因此，我们主张，推理模型在编码任务中的成功高度依赖于高质量的基础模型及精细的监督微调（SFT），以确保对指令的精准遵循。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供