文字大小:

常用 AI 模型编程评分

未分类2026-06-18 13:51:51




同样的需求描述, 使用同样的评分机制, 分别由chatgpt和gemini进行评分:

满分10分, 结果如下:

模型 GPT评分 GEMINI评分 总评分 正确性/主要结论
deepseek-r1-distill-qwen-14b 2 2 2 旋转错误、插入修复错误、删除崩溃
gpt-oss-safeguard-20b-mlx 6 3 4.5 编译失败、类型混乱、空指针/越界
qwen2.5-coder-14b-instruct 7.8 9.5 8.6 几乎满分:正确性/健壮性/性能均高
qwen3-14b 3.5 5 4 语法错误 + 架构设计缺陷
devstral-small-2-24b-instruct-2512 4.5 5.5 5 空指针崩溃 + 删除逻辑不完善
glm-z1-9b-0414 2 2 2 编译错误 + 旋转缺失 + 平衡/删除错误
meta-llama-3.1-8b-instruct 2.5 2 2 编译失败 + 插入/删除必崩
gemma-4-12b-it-qat 7.5 3 5 正确性严重缺陷但性能尚可
qwopus3.5-9b-coder 3 2 2 逻辑崩溃 + 内存风险 + 低效设计
devstral-small-2507 3 8.5 5 正确性高但健壮性一般






上一篇:在Linux上使用XStudio开发C/C++项目下一篇:没有下一篇

评论

写评论

点击刷新