Artificial Analysis 的替代品
独立大模型评测机构,性能、价格、速度全维度对比。以下是 12 个模型评测领域的同类工具,可作为 Artificial Analysis 的替代选择。
LMArena
— AI 模型匿名对战评测平台,用户盲评投票生成大模型竞技场排行榜
OpenCompass
— 上海人工智能实验室推出的大模型开源开放评测体系(司南)
SuperCLUE
— 中文通用大模型综合性测评基准
C-Eval
— 全面的中文基础模型多学科评估套件
CMMLU
— 综合性的中文大模型多任务语言理解评测基准
FlagEval
— 智源研究院推出的大模型评测平台(天秤)
AGI-Eval
— AGI-Eval 大模型评测社区
MMLU
— 大规模多任务语言理解基准,覆盖 57 个学科
Open LLM Leaderboard
— Hugging Face 推出的开源大模型评测排行榜
HELM
— 斯坦福大学推出的语言模型整体评估框架
MMBench
— 全方位的多模态大模型评测基准
MagicArena
— 字节跳动推出的视觉生成模型竞技场
更多模型评测工具