基本信息
文件名称:2025大模型原理、技术与应用:从GPT到DeepSeek-哈尔滨工业大学-2025.2.28.pptx
文件大小:23.33 MB
总页数:67 页
更新时间:2025-05-27
总字数:约小于1千字
文档摘要
;为什么是语言;;自然语言处理是人工智能皇冠上的明珠;自然语言处理的发展历史;GPT;GPT;GPT :大模型早已有之;GPT 的不足;解决方案;模型规模足够大(60B?);ChatGPT的关键核心技术(2/3):有监督学习;ChatGPT的关键核心技术(3/3):强化学习;引爆“百模大战;DeepSeekR;从DeepSeekV 到R;DeepSeek的核心贡献;自然语言处理的发展历史;推理采用的核心技术;只用RL习得推理能力
DeepSeekR Zero;R Zero核心技术;R Zero核心技术;R Zero实验结果;R Zero实验结果;R Zero实验结果;R Zero实验结果;DeepSeekR
提升推理的规范性和泛化性;R 总路线;R 总路线;R 总路线;极致的模型架构优化;主要模型架构优化技术;算法优化;算法优化;算法优化;Infra优化 FP8混合精度训练;Infra优化 DualPipe;Infra优化 跨节点AllAl通信;DeepSeek模型优化效果;大模型的应用;Prompt工程;撰写清晰的指令;一、撰写清晰的指令:使用分隔符标识输入的不同部分;一、撰写清晰的指令:提供示例;二、提供参考资料;三、分解复杂问题;四 使用外部工具;五 给模型时间思考;领域应用;RAG检索增强生成;智能体(Agents;;HIT SCIR大模型方向规划;活字”对话大模型;珠算代码大模型;;基于大模型的精神健康计算系统;本草 医学大模型;人机融合医疗会诊平台;软硬一体机器脑系统;机器脑系统效果展示;人工智能未来发展方向;自然语言处理的发展历史;通往AG之路;总结和展望;;谢谢大家