
摘要
本补充文件为Claude 3模型卡片的增补内容,介绍Claude 3.5 Sonnet这一新模型。该模型在性能上超越了我们此前最强大的模型Claude 3 Opus,同时具备更快的运行速度和更低的使用成本。Claude 3.5 Sonnet在多项能力上实现提升,尤其在代码生成与视觉处理方面表现更优。由于其属于Claude 3模型系列的演进版本,因此我们以补充文件形式发布,而非发布全新的模型卡片。文中提供了更新后的关键评估结果及安全测试数据。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-humaneval | GPT-4o (0-shot) | Pass@1: 90.2 |
| mmr-total-on-mrr-benchmark | Claude 3.5 Sonnet | Total Column Score: 463 |
| multi-task-language-understanding-on-mmlu | Claude 3.5 Sonnet (5-shot) | Average (%): 88.7 |
| question-answering-on-newsqa | Anthropic/claude-3-5-sonnet | EM: 74.23 F1: 82.3 |
| visual-question-answering-on-mm-vet | Claude 3.5 Sonnet (claude-3-5-sonnet-20240620) | GPT-4 score: 74.2±0.2 |
| visual-question-answering-on-mm-vet-v2 | Claude 3.5 Sonnet (claude-3-5-sonnet-20240620) | GPT-4 score: 71.8±0.2 |