基本信息
文件名称:2025QECon全球软件质量效能大会:把脉大模型-AI大模型评测能力建设及实践.pptx
文件大小:4.15 MB
总页数:35 页
更新时间:2026-04-02
总字数:约小于1千字
文档摘要
把脉大模型--Al大模型评测能力建设及实践
张琪|京东健康;;
目录
CONTENTS;
PART01
建设A?大模型评测能力的背景;;;
PART02
A?大模型评测能力的实现方案;;;;;
AI大模型评测能力的实现方案
2.1、数据集管理
(2)测试数据集从哪来?--通过模型对话产生数据集
评测被测模型需要其产生一定的会话数据。我们可以通过指定起始问题,通过两个大模型(用户模型和被测模型)互相对话来生成一个多轮会话数据集,后续用于评价被测模型多轮会话的能力