四机构联合发布《通用大模型评测体系2.0》
6月24日,认知智能全国重点实验室牵头,联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟升级发布了《通用大模型评测体系2.0》,相比2023年6月发布的1.0版本,新标准在评测规模和技术覆盖面上都有显著提升。

全模态+中英文并重,评测规模大幅扩展
此次升级发布的2.0版本以产业需求为导向,在评测维度扩展、专项能力深化、评测方法优化等方面实现全面突破。
在评测规模上,评测任务从原来的481项大幅扩展至1186项,评测模态从单一的文本、图片扩展到文本、图片、语音、视频的全模态覆盖,真正实现多模态评测。在语言支持方面,新版评测体系从以中文为主调整为中英文并重,更好地适应大模型国际化发展趋势。
锚定产业需求,专项能力评测成为亮点
更为重要的是,2.0版本更关注专项领域的能力。新升级的评测体系以行业场景需求为锚点,新增教育、科研等重点专项评测领域,构建起技术与产业深度融合的价值验证桥梁:
面向教育行业,覆盖K12教育领域的多学科知识能力测评,紧贴中国国情的教育体系,从智能备课内容生成的教学场景到个性化学习路径规划的辅学场景,通过标准化评测对模型进行能力验证,驱动大模型在因材施教、智能辅导、教学质量评估等核心应用场景的产业化落地。
面向科研行业,AI4S(AI for Science)专项涵盖了物理、数学、化学、地球与空间科学、生命科学、信息与智能科学等6大科学领域,覆盖98项细分任务场景,评测结果对大模型在科研辅助、假设生成、数据分析等高价值应用中的能力提升具有较高的参考意义。以文献分析场景为例,评测重点验证摘要、总结、翻译、理解、问答等核心能力,通过评测牵引,推动层次化综述生成、动态检索增强知识库问答、多维度论文预审、自适应专业翻译等关键技术突破。
评测方法更加科学,确保评测标准权威性
据了解,为确保评测质量,“评测体系2.0”建立了严格的数据构建准则,在确保数据高质量的准则下进行构建:通用任务测试采用来源、题型、类别等多样性采样机制,确保数据真实性和多样性;专项任务测试数据在规范性、可用性、可解释性、合规性4个方面15个子维度进行严格质量把控。在评测方法上,采用“人工+自动”结合模式,以多人主观双盲评测为主,JudgeModel(判断模型)为辅;并建立了“1+4”评价体系,即总体评分加上相关度、连贯度、完整度、有效度四个维度的细分评价。
值得注意的是,新版评测体系特别强化了安全评测,设计了16项风险指标,涵盖内容安全和指令安全两大类别。这一设置契合了当下行业对AI应用安全重视程度不断提升的趋势,为大模型安全部署提供重要保障。
提供客观参考依据,推动大模型产业规范化发展
回顾发展历程,《通用认知智能大模型评测体系》于 2023年6月首次发布,旨在建立多任务客观评测体系,引导行业健康发展。两年来,中国大模型技术快速发展,从“百模大战”到“头部玩家凸显”,涌现出多个具有国际竞争力的模型,产业应用日趋成熟。
随着大模型技术趋于成熟,大模型产业竞争焦点正从技术参数转向实用性能,从通用化竞争转向垂直领域深耕。此次评测体系的升级为这一转变提供了有力的标准化支撑。
从行业发展角度来看,统一的评测标准有助于避免各家厂商“各说各话”的局面,为用户选择和应用大模型产品提供客观参考依据。此外,专项能力评测的引入将推动大模型技术更高质量地落地到具体应用场景中,真正创造实际价值,助推AI产业迈向规范化、专业化发展新阶段。








