常用 AI 模型编程评分

同样的需求描述, 使用同样的评分机制, 分别由chatgpt和gemini进行评分:

满分10分, 结果如下:

模型	GPT评分	GEMINI评分	总评分	正确性/主要结论
deepseek-r1-distill-qwen-14b	2	2	2	旋转错误、插入修复错误、删除崩溃
gpt-oss-safeguard-20b-mlx	6	3	4.5	编译失败、类型混乱、空指针/越界
qwen2.5-coder-14b-instruct	7.8	9.5	8.6	几乎满分：正确性/健壮性/性能均高
qwen3-14b	3.5	5	4	语法错误 + 架构设计缺陷
devstral-small-2-24b-instruct-2512	4.5	5.5	5	空指针崩溃 + 删除逻辑不完善
glm-z1-9b-0414	2	2	2	编译错误 + 旋转缺失 + 平衡/删除错误
meta-llama-3.1-8b-instruct	2.5	2	2	编译失败 + 插入/删除必崩
gemma-4-12b-it-qat	7.5	3	5	正确性严重缺陷但性能尚可
qwopus3.5-9b-coder	3	2	2	逻辑崩溃 + 内存风险 + 低效设计
devstral-small-2507	3	8.5	5	正确性高但健壮性一般

xlang - blog