Claude Opus 4 深度评测:代码生成能力全面超越 GPT-4o
B.News
2026[[ $t('article.detail.demo_date') ]] · 31000 [[ $t('article.detail.read') ]]
Anthropic 发布的 Claude Opus 4 在 SWE-bench Verified 基准测试中得分 72.5%,大幅超越 GPT-4o 的 61.2%。在 HumanEval 编码测试中正确率达 96.3%。