Loading...
AI智能体AI模型评测

C-Eval

C-Eval是一个专为评估大语言...

标签:

C-Eval是一个专为评估大语言模型中文能力设计的测试工具包,由上海交大、清华和爱丁堡大学团队于2023年5月联合发布。其核心特点如下:

  1. 规模与结构
    包含13948道选择题,覆盖52个学科(如数学、法律、医学等)和4个难度等级(从基础到专业级),形成多层次评估体系。
  2. 评测目标
    聚焦模型的中文理解能力,通过真实学科题目检验模型在知识掌握、逻辑推理和语言处理上的综合表现,而非简单对话能力。
  3. 应用价值
    为研究人员提供标准化中文测评基准,帮助开发者量化模型在不同领域的表现,推动中文大模型优化。

简言之,C-Eval如同”中文高考”,通过海量学科考题全面检验大模型的知识广度与深度,成为衡量中文AI水平的重要标尺。

相关导航

暂无评论

暂无评论...