math-eval-github-io.pages.dev
Open in
urlscan Pro
2606:4700:310c::ac42:2f75
Public Scan
URL:
https://math-eval-github-io.pages.dev/
Submission: On July 08 via automatic, source certstream-suspicious — Scanned from DE
Submission: On July 08 via automatic, source certstream-suspicious — Scanned from DE
Form analysis
0 forms found in the DOMText Content
Menu OpenMenu Close * 首页 * 最新动态 * 测评榜单 * 测评数据集 * 讨论区 * 联系我们 * 申请测评 * Github * 首页 * 最新动态 * 测评榜单 * 测评数据集 * 讨论区 * 联系我们 * 申请测评 * Github * 中 * | * EN 申请测评 大模型数学能力测评 MathEval是一个专注于全面评估大模型数学能力的测评基准。共包含20个数学领域测评集和近30K道数学题目,旨在全面评估大模型在包含算术,小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现,既可以作为现阶段大模型之间数学能力横向对比的一站式参考,也可以为后续如何进一步提高大模型数学能力指引方向。 测评榜单 Github 最新动态 * 2024/06/24 2024高考数学测试集加入测评 * 2024/06/24 Qwen2-72B-Instruct大模型加入测评 * 2024/06/24 Qwen2-72B大模型加入测评 * 2024/06/24 Qwen2-57B-A14B-Instruct大模型加入测评 * 2024/06/24 Qwen2-7B-Instruct大模型加入测评 更多动态 数学测评基准五大亮点 * 首个LLM在数学领域的一站式测评基准 * 灵活的扩展方式,便捷新增数学测评集加入测评 * 测评数据集多维度划分支持,多角度测评LLM数学能力 * 丰富的模型支持,支持各种模型接入测评(HF模型、API模型、自定义开源模型) * 多样化测评方式,支持零样本测评和小样本测评 20个数学专业测评数据集 应用题-英文 GSM8K MATH MMLU(Math) MathQA TAL-SCQ5K-EN ASDiv-A Dolphin1878 MAWPS SVAMP 应用题-中文 GAOKAO-2024 GAOKAO-2023 GAOKAO(Math) AGIEval TAL-SCQ5K-CN Math23K Ape210K CMMLU(Math) 算术 Arith3K Big-Bench-Hard(Math) math401-llm 已加入测评榜单的模型 GPT-4 GPT-3.5 LLaMA2-7B LLaMA2-7B-chat LLaMA2-13B LLaMA2-13B-chat LLaMA2-70B LLaMA2-70B-chat ChatGLM2-6B Baichuan2-13B-Base InternLM-20B InternLM-chat-20B InternLM2-base-20B InternLM2-chat-20B InternLM2-math-20B MathGPT Qwen WizardMath-13B-V1.0 WizardMath-70B-V1.0 MOSS-003-base-16B 文心一言 讯飞星火 MammoTH-70B GAIRMath-Abel-70B Mistral-7B-Instruct-v0.1 Mistral-7B-v0.1 Llemma-7B Llemma-34B MetaMath-70B GLM4 申请加入测评 联系我们 本平台由智慧教育国家新一代人工智能开放创新平台免费提供算力支持。如需加入测评或者洽谈合作,请将您的需求和问题发送至 matheval.ai@gmail.com 邮箱。 © 2024 MathEval