基本信息
文件名称:2025QECon全球软件质量效能大会:把脉大模型-AI大模型评测能力建设及实践.pptx
文件大小:4.15 MB
总页数:35 页
更新时间:2026-04-02
总字数:约小于1千字
文档摘要

把脉大模型--Al大模型评测能力建设及实践

张琪|京东健康;;

目录

CONTENTS;

PART01

建设A?大模型评测能力的背景;;;

PART02

A?大模型评测能力的实现方案;;;;;

AI大模型评测能力的实现方案

2.1、数据集管理

(2)测试数据集从哪来?--通过模型对话产生数据集

评测被测模型需要其产生一定的会话数据。我们可以通过指定起始问题,通过两个大模型(用户模型和被测模型)互相对话来生成一个多轮会话数据集,后续用于评价被测模型多轮会话的能力