3 个月前

基于OpenAI推理模型的Web应用编码案例研究

基于OpenAI推理模型的Web应用编码案例研究

摘要

本文对OpenAI最新推理模型o1-preview与o1-mini在编码任务中的表现进行了案例研究,并与其它前沿模型进行了对比。在单一任务基准测试WebApp1K上,o1系列模型取得了当前最优(SOTA)成绩。为进一步评估其能力边界,本文提出了WebApp1K-Duo,一个任务数量与测试用例数量均翻倍的更具挑战性的新基准。实验结果表明,该新基准显著降低了o1模型的性能表现,使其落后于Claude 3.5。此外,当面对非典型但正确的测试用例时,o1模型表现出持续性失败,而这类“陷阱”非推理类模型偶尔能够规避。我们推测,性能波动的根源在于对指令的理解能力。具体而言,当模型能够完整捕捉所有任务预期时,其推理机制显著提升表现;但一旦关键预期被遗漏,错误则会加剧,这一现象可能受到输入长度的影响。因此,我们主张,推理模型在编码任务中的成功高度依赖于高质量的基础模型及精细的监督微调(SFT),以确保对指令的精准遵循。

代码仓库

基准测试

基准方法指标
code-generation-on-webapp1k-duo-reactclaude-3-5-sonnet
pass@1: 0.679
code-generation-on-webapp1k-duo-reactmistral-large-2
pass@1: 0.449
code-generation-on-webapp1k-duo-reactdeepseek-v2.5
pass@1: 0.49
code-generation-on-webapp1k-duo-reacto1-preview
pass@1: 0.652
code-generation-on-webapp1k-duo-reacto1-mini
pass@1: 0.667
code-generation-on-webapp1k-duo-reactgpt-4o-2024-08-06
pass@1: 0.531
code-generation-on-webapp1k-reactdeepseek-v2.5
pass@1: 0.834
code-generation-on-webapp1k-reacto1-mini
pass@1: 0.939
code-generation-on-webapp1k-reacto1-preview
pass@1: 0.952

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于OpenAI推理模型的Web应用编码案例研究 | 论文 | HyperAI超神经