AI模型评测

11 款工具

大模型评测、对比、排行榜

全部AI模型评测工具

一个无服务器AI推理平台，提供对海量开源模型的便捷访问与可靠部署。

TokenDance 是一个统一的 AI API 网关，支持集成 OpenAI、Claude、Gemini 等多种主流大模型，提供便捷的模型调用与管理服务。

H2O Eval Studio 是一个用于评估检索增强生成与大语言模型应用在性能、可靠性和安全性方面的模块化平台。

PubMedQA 是一个基于 PubMed 生物医学文献摘要构建的问答数据集，用于训练和评估模型在回答“是/否/可能”类研究问题上的推理能力。

SuperCLUE是一个独立第三方的中文通用大模型综合性评测基准，通过多层次、多维度的测评体系，对国内外大模型的基础能力、专业能力和中文特性能力进行科学、客观、中立的评估。

AGI-Eval 是一个专注于通用人工智能（AGI）能力评估与测试的平台。

MMBench是一个用于评估多模态模型性能的综合性基准测试平台，提供多种评估指标、数据集和模型性能排行榜，以支持多模态人工智能的研究、开发与性能比较。

OpenCompass司南是一个由上海人工智能实验室打造的开源、一站式大模型评估平台，通过客观与主观相结合的评测方法，为各类大语言模型和多模态模型提供全面、专业且中立的性能评估与排名。

FlagEval 是一个专注于大模型评测的综合性平台，提供多维度的评估能力、排行榜及趋势分析。

HELM是斯坦福大学CRFM实验室推出的一个用于全面、标准化评估语言模型的基准测试框架，旨在通过多维度指标提升模型的透明度。

CMMLU是一个全面的中文大规模多任务语言理解基准，旨在评估大语言模型在中文语境下的高级知识储备和复杂推理能力。