AI模型评测
11 款工具大模型评测、对比、排行榜
Featherless
一个无服务器AI推理平台,提供对海量开源模型的便捷访问与可靠部署。
TokenDance
TokenDance 是一个统一的 AI API 网关,支持集成 OpenAI、Claude、Gemini 等多种主流大模型,提供便捷的模型调用与管理服务。
H2O Eval Studio
H2O Eval Studio 是一个用于评估检索增强生成与大语言模型应用在性能、可靠性和安全性方面的模块化平台。
P
PubMedQA
PubMedQA 是一个基于 PubMed 生物医学文献摘要构建的问答数据集,用于训练和评估模型在回答“是/否/可能”类研究问题上的推理能力。
S
SuperCLUE
SuperCLUE是一个独立第三方的中文通用大模型综合性评测基准,通过多层次、多维度的测评体系,对国内外大模型的基础能力、专业能力和中文特性能力进行科学、客观、中立的评估。
AGI-Eval
AGI-Eval 是一个专注于通用人工智能(AGI)能力评估与测试的平台。
MMBench
MMBench是一个用于评估多模态模型性能的综合性基准测试平台,提供多种评估指标、数据集和模型性能排行榜,以支持多模态人工智能的研究、开发与性能比较。
OpenCompass司南
OpenCompass司南是一个由上海人工智能实验室打造的开源、一站式大模型评估平台,通过客观与主观相结合的评测方法,为各类大语言模型和多模态模型提供全面、专业且中立的性能评估与排名。
FlagEval
FlagEval 是一个专注于大模型评测的综合性平台,提供多维度的评估能力、排行榜及趋势分析。
H
HELM
HELM是斯坦福大学CRFM实验室推出的一个用于全面、标准化评估语言模型的基准测试框架,旨在通过多维度指标提升模型的透明度。
CMMLU
CMMLU是一个全面的中文大规模多任务语言理解基准,旨在评估大语言模型在中文语境下的高级知识储备和复杂推理能力。