2025QECon全球软件质量效能大会：把脉大模型-AI大模型评测能力建设及实践.pptx - 创享文库

基本信息

文件名称：2025QECon全球软件质量效能大会：把脉大模型-AI大模型评测能力建设及实践.pptx

文件大小：4.15 MB

总页数：35 页

更新时间：2026-04-02

总字数：约小于1千字

文档摘要

把脉大模型--Al大模型评测能力建设及实践

张琪｜京东健康;;

目录

CONTENTS;

PART01

建设A?大模型评测能力的背景;;;

PART02

A?大模型评测能力的实现方案;;;;;

AI大模型评测能力的实现方案

2.1、数据集管理

（2）测试数据集从哪来？--通过模型对话产生数据集

评测被测模型需要其产生一定的会话数据。我们可以通过指定起始问题，通过两个大模型（用户模型和被测模型）互相对话来生成一个多轮会话数据集，后续用于评价被测模型多轮会话的能力