大语言模型代码生成能力排行榜(2024年9月)
数据来源SuperCLUE
从排名来看,openai依然遥遥领先,这些知道写代码用什么了吧。
SuperCLUE总排行(2024年9月)
排名 | 模型 | 机构 | 分数 | 初级分数 | 中级分数 | 高级分数 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1-preview-2024-09-12 | OpenAI | 89.39 | 96.3 | 92.31 | 69.23 | API | 2024年10月23日 |
- | Claude 3.5 Sonnet(new) | Anthropic | 84.85 | 96.3 | 80.77 | 69.23 | POE | 2024年10月23日 |
- | GPT-4o-0513 | OpenAI | 83.33 | 92.59 | 84.62 | 61.54 | API | 2024年9月12日 |
- | GPT-4-0125-preview | OpenAI | 81.82 | 88.89 | 84.62 | 61.54 | API | 2024年9月12日 |
🏅 | DeepSeek-V2 | 深度求索 | 80.3 | 85.19 | 80.77 | 69.23 | API | 2024年9月12日 |
- | GPT-4 | OpenAI | 80.3 | 88.89 | 80.77 | 61.54 | API | 2024年9月12日 |
🏅 | 通义千问2.5 | 阿里巴巴 | 80.3 | 85.19 | 84.62 | 61.54 | API | 2024年9月12日 |
- | Llama-3-70B-instruct | Meta | 78.79 | 88.89 | 76.92 | 61.54 | POE | 2024年9月12日 |
🥈 | NebulaCoder-V4 | 中兴 | 78.46 | 81.48 | 80.77 | 66.67 | API | 2024年9月12日 |
- | GPT-3.5-Turbo-0125 | OpenAI | 68.18 | 81.48 | 69.23 | 38.46 | API | 2024年9月12日 |
- | Gemini 1.0 Pro | | 60.61 | 62.96 | 61.54 | 53.85 | API | 2024年9月12日 |
🥉 | Deepseek-coder-6.7b-instruct | 深度求索 | 57.58 | 62.96 | 57.69 | 46.15 | 模型 | 2024年9月12日 |
4 | XVERSE-13B-2-Chat | 元象科技 | 39.39 | 59.26 | 23.08 | 30.77 | 模型 | 2024年9月12日 |
5 | Qwen-14B-Chat | 阿里巴巴 | 33.33 | 51.85 | 23.08 | 15.38 | 模型 | 2024年9月12日 |
- | Code-Llama-13b-instruct | Meta | 33.33 | 55.56 | 23.08 | 7.69 | 模型 | 2024年9月12日 |
6 | ChatGLM3-6B-Chat | 智谱AI | 24.24 | 37.04 | 19.23 | 7.69 | 模型 | 2024年9月12日 |
7 | Baichuan2-13B-Chat-v2 | 百川智能 | 21.21 | 40.74 | 11.54 | 0 | 模型 | 2024年9月12日 |
- | Llama2-13b-Chat | Meta | 12.12 | 22.22 | 7.69 | 0 | 模型 | 2024年9月12日 |