C-Eval是一个专为评估大语言模型中文能力设计的测试工具包,由上海交大、清华和爱丁堡大学团队于2023年5月联合发布。其核心特点如下:
- 规模与结构
包含13948道选择题,覆盖52个学科(如数学、法律、医学等)和4个难度等级(从基础到专业级),形成多层次评估体系。 - 评测目标
聚焦模型的中文理解能力,通过真实学科题目检验模型在知识掌握、逻辑推理和语言处理上的综合表现,而非简单对话能力。 - 应用价值
为研究人员提供标准化中文测评基准,帮助开发者量化模型在不同领域的表现,推动中文大模型优化。
简言之,C-Eval如同”中文高考”,通过海量学科考题全面检验大模型的知识广度与深度,成为衡量中文AI水平的重要标尺。
相关导航
暂无评论...