Artificial Analysis 的替代品

独立大模型评测机构，性能、价格、速度全维度对比。以下是 12 个模型评测领域的同类工具，可作为 Artificial Analysis 的替代选择。

LMArena — AI 模型匿名对战评测平台，用户盲评投票生成大模型竞技场排行榜
OpenCompass — 上海人工智能实验室推出的大模型开源开放评测体系（司南）
SuperCLUE — 中文通用大模型综合性测评基准
C-Eval — 全面的中文基础模型多学科评估套件
CMMLU — 综合性的中文大模型多任务语言理解评测基准
FlagEval — 智源研究院推出的大模型评测平台（天秤）
AGI-Eval — AGI-Eval 大模型评测社区
MMLU — 大规模多任务语言理解基准，覆盖 57 个学科
Open LLM Leaderboard — Hugging Face 推出的开源大模型评测排行榜
HELM — 斯坦福大学推出的语言模型整体评估框架
MMBench — 全方位的多模态大模型评测基准
MagicArena — 字节跳动推出的视觉生成模型竞技场

更多模型评测工具