社区基准测试
开源模型排行榜
当今顶级开源AI模型的权威数据驱动排名。排序、比较并找到最适合你需求的模型。
排名 | 模型 | 参数 (B) | MMLU | GSM8K | HumanEval | 标签 |
---|---|---|---|---|---|---|
1 | Llama 3.1 8B Meta | 8.0 | 79.5 | 92.0 | 85.1 | 推理能力 |
2 | Gemma 3n E4B Google | 4.0 | 74.5 | 86.5 | 72.0 | 效率之王 多模态 |
3 | Phi-3 Medium Microsoft | 14.0 | 78.0 | 87.3 | 80.2 | |
4 | Qwen 2 7B Alibaba | 7.0 | 72.3 | 85.1 | 75.8 | 强大编程 |
5 | Llama 3.2 3B Meta | 3.0 | 66.7 | 79.0 | 68.0 | |
6 | Gemma 3n E2B Google | 2.0 | 64.3 | 78.2 | 62.5 | 设备端 快速 |
* MMLU: 大规模多任务语言理解。GSM8K: 小学数学。HumanEval: 代码生成。
* 性能数据基于公开可用信息,可能因量化和实现而有所不同。