math-eval-github-io.pages.dev Open in urlscan Pro
2606:4700:310c::ac42:2f75  Public Scan

URL: https://math-eval-github-io.pages.dev/
Submission: On July 08 via automatic, source certstream-suspicious — Scanned from DE

Form analysis 0 forms found in the DOM

Text Content

Menu OpenMenu Close
 * 首页
 * 最新动态
 * 测评榜单
 * 测评数据集
 * 讨论区
 * 联系我们
 * 申请测评
 * Github

 * 首页
 * 最新动态
 * 测评榜单
 * 测评数据集
 * 讨论区
 * 联系我们
 * 申请测评
 * Github

 * 中
 * |
 * EN

申请测评


大模型数学能力测评

MathEval是一个专注于全面评估大模型数学能力的测评基准。共包含20个数学领域测评集和近30K道数学题目,旨在全面评估大模型在包含算术,小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现,既可以作为现阶段大模型之间数学能力横向对比的一站式参考,也可以为后续如何进一步提高大模型数学能力指引方向。

测评榜单 Github
最新动态
 * 2024/06/24 2024高考数学测试集加入测评
 * 2024/06/24 Qwen2-72B-Instruct大模型加入测评
 * 2024/06/24 Qwen2-72B大模型加入测评
 * 2024/06/24 Qwen2-57B-A14B-Instruct大模型加入测评
 * 2024/06/24 Qwen2-7B-Instruct大模型加入测评

更多动态



数学测评基准五大亮点



 * 首个LLM在数学领域的一站式测评基准
 * 灵活的扩展方式,便捷新增数学测评集加入测评
 * 测评数据集多维度划分支持,多角度测评LLM数学能力
 * 丰富的模型支持,支持各种模型接入测评(HF模型、API模型、自定义开源模型)
 * 多样化测评方式,支持零样本测评和小样本测评


20个数学专业测评数据集

应用题-英文

GSM8K MATH MMLU(Math) MathQA TAL-SCQ5K-EN ASDiv-A Dolphin1878 MAWPS SVAMP

应用题-中文

GAOKAO-2024 GAOKAO-2023 GAOKAO(Math) AGIEval TAL-SCQ5K-CN Math23K Ape210K
CMMLU(Math)

算术

Arith3K Big-Bench-Hard(Math) math401-llm


已加入测评榜单的模型

GPT-4
GPT-3.5
LLaMA2-7B
LLaMA2-7B-chat
LLaMA2-13B
LLaMA2-13B-chat
LLaMA2-70B
LLaMA2-70B-chat
ChatGLM2-6B
Baichuan2-13B-Base
InternLM-20B
InternLM-chat-20B
InternLM2-base-20B
InternLM2-chat-20B
InternLM2-math-20B
MathGPT
Qwen
WizardMath-13B-V1.0
WizardMath-70B-V1.0
MOSS-003-base-16B
文心一言
讯飞星火
MammoTH-70B
GAIRMath-Abel-70B
Mistral-7B-Instruct-v0.1
Mistral-7B-v0.1
Llemma-7B
Llemma-34B
MetaMath-70B
GLM4
申请加入测评


联系我们

本平台由智慧教育国家新一代人工智能开放创新平台免费提供算力支持。如需加入测评或者洽谈合作,请将您的需求和问题发送至 matheval.ai@gmail.com
邮箱。

© 2024 MathEval