常用 AI 模型编程评分
未分类2026-06-18 13:51:51同样的需求描述, 使用同样的评分机制, 分别由chatgpt和gemini进行评分:
满分10分, 结果如下:
| 模型 | GPT评分 | GEMINI评分 | 总评分 | 正确性/主要结论 |
|---|---|---|---|---|
| deepseek-r1-distill-qwen-14b | 2 | 2 | 2 | 旋转错误、插入修复错误、删除崩溃 |
| gpt-oss-safeguard-20b-mlx | 6 | 3 | 4.5 | 编译失败、类型混乱、空指针/越界 |
| qwen2.5-coder-14b-instruct | 7.8 | 9.5 | 8.6 | 几乎满分:正确性/健壮性/性能均高 |
| qwen3-14b | 3.5 | 5 | 4 | 语法错误 + 架构设计缺陷 |
| devstral-small-2-24b-instruct-2512 | 4.5 | 5.5 | 5 | 空指针崩溃 + 删除逻辑不完善 |
| glm-z1-9b-0414 | 2 | 2 | 2 | 编译错误 + 旋转缺失 + 平衡/删除错误 |
| meta-llama-3.1-8b-instruct | 2.5 | 2 | 2 | 编译失败 + 插入/删除必崩 |
| gemma-4-12b-it-qat | 7.5 | 3 | 5 | 正确性严重缺陷但性能尚可 |
| qwopus3.5-9b-coder | 3 | 2 | 2 | 逻辑崩溃 + 内存风险 + 低效设计 |
| devstral-small-2507 | 3 | 8.5 | 5 | 正确性高但健壮性一般 |
上一篇:在Linux上使用XStudio开发C/C++项目下一篇:没有下一篇

