社区基准测试

开源模型排行榜

当今顶级开源AI模型的权威数据驱动排名。排序、比较并找到最适合你需求的模型。

排名	模型	参数 (B)	MMLU	GSM8K	HumanEval	标签
1	Llama 3.1 8B Meta	8.0	79.5	92.0	85.1	推理能力
2	Gemma 3n E4B Google	4.0	74.5	86.5	72.0	效率之王多模态
3	Phi-3 Medium Microsoft	14.0	78.0	87.3	80.2
4	Qwen 2 7B Alibaba	7.0	72.3	85.1	75.8	强大编程
5	Llama 3.2 3B Meta	3.0	66.7	79.0	68.0
6	Gemma 3n E2B Google	2.0	64.3	78.2	62.5	设备端快速

* MMLU: 大规模多任务语言理解。GSM8K: 小学数学。HumanEval: 代码生成。

* 性能数据基于公开可用信息，可能因量化和实现而有所不同。

PWA已就绪