开源大模型评测排行榜：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
其数据是由其后端lm-evaluation-harness平台提供。

数据集

英文测试

MMLU:paperswithcode （大规模多任务语言理解）是一种新的基准测试，旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准更具挑战性，并且更类似于我们评估人类的方式。该基准涵盖 STEM、人文、社会科学等领域的 57 个学科，涵盖了初等数学、美国历史、计算机科学、法律等，难度覆盖高中水平到专家水平，有效地衡量了人文、社科和理工等多个大类的综合知识能力。
GSM8K(github、huggingface) （小学数学 8K）是一个包含 8.5K (7.5K 训练数据和 1K 测试数据) 高质量语言多样化小学数学单词问题的数据集。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。这些问题通常需要 2-8 步才能解决，有效评估了数学与逻辑能力。
winogrande(github、huggingface) （Winograd 解析）是一个 44k 问题的新集合，受 Winograd Schema Challenge（Levesque、Davis 和 Morgenstern 2011）的启发，进行了调整以提高针对数据集特定偏差的规模和鲁棒性。表述为带有二元选项的填空任务，目标是为需要常识推理的给定句子选择正确的选项。
MATH 是一个由数学竞赛问题组成的评测集，由 AMC 10、AMC 12 和 AIME 等组成，包含 7.5K 训练数据和 5K 测试数据。
HumanEval 是由 OpenAI 发布的 164 个手写的编程问题，包括模型语言理解、推理、算法和简单数学等任务
BBH 是一个基于布尔表达式推理的测试集，
MBPP 是一个由 1,000 个 Python 编程问题组成的测试集，旨在帮助开发人员提高编程技能。每个问题都由任务描述、代码解决方案和 3 个自动化测试用例组成。
AI2 ARC 是一个由7,787个真正的小学水平的多项选择科学问题组成的新数据集，旨在鼓励对高级问答的研究。数据集分为挑战集和简单集，其中前者仅包含由基于检索的算法和单词共现算法错误回答的问题。我们还包括一个包含超过 1400 万个与该任务相关的科学句子的语料库，以及该数据集的三个神经基线模型的实现。我们将ARC视为对社区的挑战。
一个由7,787个真正的小学水平的多项选择科学问题组成的新数据集，旨在鼓励对高级问答的研究。数据集分为挑战集和简单集，其中前者仅包含由基于检索的算法和单词共现算法错误回答的问题。我们还包括一个包含超过 1400 万个与该任务相关的科学句子的语料库，以及该数据集的三个神经基线模型的实现。我们将ARC视为对社区的挑战。

中文测试

C-Eval是一个全面的中文基础模型评测数据集，它包含了 13948 个多项选择题，涵盖了 52 个学科和四个难度级别。通常你可以直接从模型的生成中使用正则表达式提取出答案选项（A,B,C,D)。在少样本测试中，模型通常会遵循少样本给出的固定格式，所以提取答案很简单。然而有时候，特别是零样本测试和面对没有做过指令微调的模型时，模型可能无法很好的理解指令，甚至有时不会回答问题。这种情况下我们推荐直接计算下一个预测token等于”A”, “B”, “C”, “D”的概率，然后以概率最大的选项作为答案 – 这是一种受限解码生成的方法，MMLU的官方测试代码中是使用了这种方法进行测试。注意这种概率方法对思维链的测试不适用。更加详细的评测教程。

CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等67个主题。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。涉及一些不是常见标准化考试类型的题目，例如食物，中国驾驶规范等。
SuperCLUE 是一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。
GAOKAO-Bench 是一个中国高考题目的数据集，旨在直观且高效地测评大模型语言理解能力、逻辑推理能力的测评框架。收集了2010-2022年全国高考卷的题目，其中包括1781道客观题和1030道主观题，构建起GAOKAO-bench的主要评测数据。同时评测分为两部分，自动化评测的客观题部分和依赖于专家打分的主观题部分，这两部分结果构成了最终的分数，您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测，或者向我们提交您需要评测的模型的主观题预测结果，进行我们人工评分的流水线操作。所有过程的数据和结果都是公开的。
AGIEval 是一个用于评估基础模型在标准化考试（如高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试）中表现的数据集。该基准源自 20 项针对普通人类考生的官方、公开和高标准的入学和资格考试，例如普通大学入学考试（例如，中国高考（高考）和美国 SAT）、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。有关基准测试的完整描述，请参阅我们的论文：AGIEval：评估基础模型的以人为本的基准。

多语言测试

M3Exam 包含 12317 个问题，涵盖从高资源语种例如中文英文，到低资源语种例如斯瓦希里语及爪哇语等9个语言。一个特点是所有问题均来源是当地的真实人类试题，所以包含了特定的文化背景，要求模型不仅是能理解语言，还需要对背景知识有所掌握。
LongBench 是第一个用于对大型语言模型进行双语、多任务、全面评估长文本理解能力的基准测试。

传统NLP数据集

HellaSwag 是一个包含 10,000 个多项选择问题的数据集，用于评估模型在理解和生成自然语言文本时的能力。该数据集由 10,000 个问题组成，每个问题都包含一个上下文段落和四个选项。模型需要根据上下文段落选择正确的选项。
TruthfulQA 是一个包含 817 个问题的数据集，用于评估模型在生成真实信息时的能力。该数据集由 817 个问题组成，每个问题都包含一个问题描述和一个正确答案。模型需要根据问题描述生成与正确答案相关的文本。
GLUE 是一个包含 10 个不同任务的数据集，用于评估模型在不同 NLP 任务上的性能。每个任务都包含一个训练集、一个开发集和一个测试集。模型需要在训练集上进行训练，然后在开发集上进行验证，最后在测试集上进行测试。
Xtreme 是一个包含 10 个不同任务的数据集，用于评估模型在不同 NLP 任务上的性能。每个任务都包含一个训练集、一个开发集和一个测试集。模型需要在训练集上进行训练，然后在开发集上进行验证，最后在测试集上进行测试。