Loading...

AI智能体AI模型评测

C-Eval

C-Eval是一个专为评估大语言...

标签：AI模型评测

链接直达手机查看

C-Eval是一个专为评估大语言模型中文能力设计的测试工具包，由上海交大、清华和爱丁堡大学团队于2023年5月联合发布。其核心特点如下：

规模与结构
包含13948道选择题，覆盖52个学科（如数学、法律、医学等）和4个难度等级（从基础到专业级），形成多层次评估体系。
评测目标
聚焦模型的中文理解能力，通过真实学科题目检验模型在知识掌握、逻辑推理和语言处理上的综合表现，而非简单对话能力。
应用价值
为研究人员提供标准化中文测评基准，帮助开发者量化模型在不同领域的表现，推动中文大模型优化。

简言之，C-Eval如同”中文高考”，通过海量学科考题全面检验大模型的知识广度与深度，成为衡量中文AI水平的重要标尺。

相关导航

MMLU（Massive Multitask Lan...

Open LLM Leaderboard

Open LLM Leaderboard是Huggi...