DeepSeek初步研究汇报信息运维中心五月25
目录content01DeepSeek概况02部署测试03应用思考
公司介绍2深度求索人工智能基础技术研究有限公司(DeepSeek)成立于2023年7月,由国内量化私募领域“四大天王”之一的幻方量化投资创立,专注于开发先进的大语言模型(LLM)和相关技术,因其推出的DeepSeek-V3、DeepSeek-R1等大语言模型产品,性能优越且性价比极高,被硅谷同行誉为“来自东方的神秘力量”。研发团队算力资源DeepSeek研发团队现有员工约140人,规模仅为OpenAI的约1/9。团队成员大多来自国内顶尖高校,鲜有海归成员,其中,90后占比超75%,85%以上拥有硕士及以上学位。2019年,投资2亿元自研深度学习训练平台“萤火一号”,搭载了1100块GPU。2021年,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。2023年,深度求索成立后,搭建万卡算力集群。DeepSeek创始人梁文峰
模型介绍2023年11月,深度求索的首款通用大语言模型DeepSeek-LLM问世,之后,2024年5月,DeepSeek-V2发布,同年12月27日,DeepSeek-V3面世。2025年1月20日,DeepSeek-R1和DeepSeek-Janus-Pro模型发布。目前,深度求索已累计发布3类大模型,包括:V系列(大语言通用模型)、R系列(大语言推理模型)、多模态大模型。DeepSeekLLMDeepSeek-V2DeepSeek-V3DeepSeekR12023.112024.52024.122025.1参数:670亿预训练数据量:2万亿类型:大语言通用模型参数:2360亿预训练数据量:8.万亿类型:大语言通用模型参数:6710亿预训练数据量:14.8万亿类型:大语言通用模型DeepSeekJanus-Pro参数:6710亿预训练数据量:10万亿类型:大语言推理模型参数:70亿预训练数据量:15亿类型:多模态大模型
模型分类4V系列是通用模型,R系列是推理模型,两者区别在于:一是不同的适用场景,V系列可用于大多数大模型应用场景,侧重于语言生成、上下文理解和自然语言处理,R系列则在V系列基础上增加思维过程,可用于逻辑判断、数学计算等复杂推理任务;二是不同的参数规模,V系列只有671B模型,R系列除671B模型外,还有7B、32B等多个尺寸的蒸馏模型。DeepSeek-V系列模型DeepSeek-R系列模型模型类型通用模型推理模型模型用途文本生成、创意写作、多轮对话、开放性问答数学推导、逻辑分析、代码生成、复杂问题拆解对标模型GPT-4oQwen2.5-InstOpenAI-o1QwQ-Preview提示词设置提示词复杂,需显式引导推理步骤,否则可能跳过关键逻辑。提示语简洁,只需明确任务目标和需求。优势领域多样性高的任务逻辑密度高的任务劣势领域需要严格逻辑链的任务(如数学证明)发散性任务(如诗歌创作)模型参数671B1.5B、7B、8B、14B、32B、70B、671B资源需求(应用)4台8卡910B服务器671B模型:4台8卡910B服务器其他模型:1台8卡910B服务器开放情况1.模型已开源,可部署应用,但算力需求大2.代码及训练数据未公开,无法进行调优训练1.模型已开源,可部署应用2.代码及训练数据未公开,无法进行调优训练
技术特征——V系列模型555V系列模型的核心技术特点:一是使用更专业的“专家”,采用“MoE”架构,通过细粒度专家分割和共享专家隔离,模型运行时只激活一部分参数,降低计算开销;二是减少算力使用量,采用“多头潜在注意力机制”压缩和复用中间向量,降低计算量和显存。降低计算量降低显存占用量技术原理:多头潜在注意力机制(MLA)压缩和复用前序层K、V减少内存和计算量缓存为原始算法的1/25旋转位置解码减少算力使用量不同专家负责不同领域知识降低实际运行参数量技术原理:“MoE”架构更细粒度专家分配机制,设置共享专家无辅助损失负载均衡策略,动态调整专家负载使用节点约束路由,每个Token最多发给M个节点更专业的“专家”
技术特征——R系列模型666R系列模型的核心技术特点:一是输出更稳定,采用“冷启动数据”,在预训练阶段,先用一小批高质量的推理数据微调模型,解决输出时出现语言混杂、格式混乱问题;二是模型输出结果更准确,采用面向推理的强化学习和全场景强化学习方法,提高模型推理能力,增强不同场景的准确性和友好性;三是向小参数模型迁移能力强,将大模型能力蒸馏到小参数模型,模型更加轻量化。输出结果更加准确、更加友好适应不同场景技术原理:强化学习面向推理的强化学习全场景强化学习结果更准