基本信息
文件名称:小规模高质量的推理数据,解码下一代AI训练的黄金法则.pdf
文件大小:7.51 MB
总页数:21 页
更新时间:2025-05-26
总字数:约3.35千字
文档摘要
Google
小规模高质量的推理数据,
解码下一代AI训练的黄金法则
演讲人:蚂蚁数科-蔡健生
高质量推理数据成为行业新范式
推理数据在金融场景的探索
生产车间-智能标注
效果保障-智能质检
AIGD:AI数据合成与生产技术平台
高质量推理数据成为行业新范式
01
第一章节
高质量数据是发挥AI倍增效应的基础
推理模型已经占据半壁江山
推理模OpenAI
型
DeepSeek
高质量推理数据(CoT数据)或将成为行业新范式
大规模语料+
高质量标注数据集
小规模、超高质量
长CoT数据集
强化学习合成CoT数据
推理数据在金融场景的探索
01
第二章节
金融推理数据是关键因素
“
高质量金融长
CoT数据集,
决定金融R1
时刻到来的关
键因素
”
基于因果推断技术的金融长CoT数据实践
?金融Cot数据训练的金融推理模型,较非推理模型在同一个金融测试集预计提升8%~10%
关键技术:反事实金融CoT合成扩充
?预计扩充有效长
CoT数据75%
?更好的引导模型
学习因果关系
生产车间-智能标注合成
01
第三章节
人机智能协同的标注模块
预标Agent预计
降低60%人工标注
陪练Agent预计