MMLU(Massive Multitask Language Understanding)即“大规模多任务语言理解”,是加州大学伯克利分校团队于2020年9月提出的大模型评测基准。它通过57项跨领域任务(如数学、历史、计算机科学、法律等)全面测试模型对英文知识的掌握和理解能力,是目前最权威的大模型语义理解测评之一。
该测试的特点在于:
- 任务多样性:覆盖STEM、人文社科等多学科,考察模型是否具备广泛知识储备;
- 难度分级:包含基础概念题到专业级问题,能区分模型能力层次;
- 英文场景:所有题目使用英文,侧重评估国际通用语言下的理解水平。
MMLU通过让模型直接回答选择题或开放式问题,量化其知识覆盖广度与逻辑推理深度,成为衡量大模型“智力水平”的重要标尺。例如,GPT-3.5在该测试中达到约70%准确率,而人类专家可达90%,这一差距直观反映了AI的当前能力边界。
相关导航
暂无评论...