2025A2M大会：公考垂域模型中强化学习的应用.docx

基本信息

文件名称：2025A2M大会：公考垂域模型中强化学习的应用.docx

文件大小：5.98 MB

总页数：54 页

更新时间：2025-08-04

总字数：约6.61千字

文档摘要

公考垂域模型中强化学习的应用

本次分享会讲哪些内容

训练一个垂域模型需要多少数据？(小公司是否有足够的数据)

训练一个垂域模型需要花多少钱？(小公司能否承受)

如何将领域知识注入到通用模型中？

如何在提升垂域模型在领域表现的同时保留通用能力？

如何通过精细化的强化学习(RL)机制设计，让RL训练从“依赖经验调参的黑箱操作”转化为“可拆解、可控制、可复现的工程体系”?

如何根据用户反馈和线上Badcase优化强化学习样本和reward？

推理的时候如