基本信息
文件名称:2025A2M大会:公考垂域模型中强化学习的应用.docx
文件大小:5.98 MB
总页数:54 页
更新时间:2025-08-04
总字数:约6.61千字
文档摘要

公考垂域模型中强化学习的应用

本次分享会讲哪些内容

训练一个垂域模型需要多少数据?(小公司是否有足够的数据)

训练一个垂域模型需要花多少钱?(小公司能否承受)

如何将领域知识注入到通用模型中?

如何在提升垂域模型在领域表现的同时保留通用能力?

如何通过精细化的强化学习(RL)机制设计,让RL训练从“依赖经验调参的黑箱操作”转化为“可拆解、可控制、可复现的工程体系”?

如何根据用户反馈和线上Badcase优化强化学习样本和reward?

推理的时候如