详解DeepSeek：模型训练、优化及数据处理的技术精髓PPT-腾讯.202503.pdf

基本信息

文件名称：详解DeepSeek：模型训练、优化及数据处理的技术精髓PPT-腾讯.202503.pdf

文件大小：6.13 MB

总页数：23 页

更新时间：2025-03-21

总字数：约2.65万字

文档摘要

DeepSeek是什么

DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日，由知

名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术

深度小助手聪明且低成本聪明强大能干中国本土AI

深度思考联网搜索

DeepSeek：大语言模型的特点有哪些

模型训练无自我认识上下文长度限定回答输出

内容token化

存在endtime无自我意识记忆力有限长度有限

大模型看到的世界与人大模型训练语料存在一网上有个段子是“有人AI大模型目前的记忆AI大模型目前的回答

看到的不太一样个截止时间问deepseek你是谁，力大概是64k~128k4k~8k，2000~4000字

然后回答是gpt”

训练前需要将文本进行处deepseekR1虽然是25年1目前AI大模型均有上下文目前AI大模型无法一次性

理，比如切割称为Token月发布，但它的知识库截目前AI大模型不知道自己长度限定；deepseekr1完成万字长文，也无法一

的基本单元；比如问ai一止日期是2023年12月，这是谁，也不知道自己是采提供64ktoken上下文长次性输出5千字，均是模型

个英文单词illegal中有几就意味着ds可以提供在此用什么模型。除非是厂商度，对应中文的话大约3万输出长度限制所致；如果

个字母l，有些指令模型回日期发布之前的公开信息在后期再微调、或再训练，~4万字。目前还不能一次是输出长文，可以尝试先

答为2个；和常识；需要经过大量清如果大家问到类似的问题，性投喂太长的文档给它，让AI大模型先生成一个目

洗、监督微调、反馈强化可能目前的AI大模型会回比如：一本完成西游记、录，然后再根据目录输出

但deepseekr1推理模学习。但对于之后的新闻、答错误。或者非常长的文档让它翻对应模块；如果是长文翻

型是可以回答正确！事件变化、新事物则无法译，AI它是没有办法完整译类，则多次输入，或者

直接获取或验证。解决办法是少问AI是读完拆解后多次调用API

谁、采用什么模型

解决办法是开启联网模解决办法是分成多次投解决办法是将任务分解

式或提示词中补充说喂成多次

明

DeepSeek发展由来

投入10亿V2发布

布局集卡GPT3.5发布Llama-3.1发布V3发布R1登录nvidia官网

手握万卡GPT4o发布

2019年2020年2022年3月2024年5月2024年7月2024年底2025年1月31号