算力突围:DeepSeek搅动AI芯片格局2025-02-28
算力突围:DeepSeek搅动AI芯片格局
导读:北京时间2月27日,英伟达正式发布2024年第四季度财报,其总营收393.31亿美元,同比增
长78%。同时英伟达预计下一季度营收430亿美元,同比增长13%,超出市场预期的420亿美元。这
一份财报有力的回击了市场关于AI芯片市场可能下滑的传言。而这场传言的“始作俑者”,正是中国AI
公司DeepSeek。DeepSeek如何硬撼整个AI芯片市场?市场格局将会如何变化?AI芯片目前投融现
状如何?本文尝试分析和探讨。
进击的DeepSeek
2025年1月底,中国人工智能企业深度求索(DeepSeek)携其开源模型DeepSeek-R1横空出世。这
一现象级科技成果迅速在全球范围掀起下载热潮,仅用了7天用户量就超过1亿,超越了“前辈”ChatGPT
的增长速度。
DeepSeek的成功远不止此。据Nextplatform等媒体报道,DeepSeek-R1在训练方面使用了约2000
张英伟达H800GPU;在推理层面,DeepSeek-R1采用混合专家架构,推理时仅激活约10%的参数量,
大幅降低计算资源消耗。简而言之,DeepSeek通过模型创新和算法优化,以数十分之一的成本达到接
近OpenAI开发的ChatGPT-o1模型的性能,影响了全球科技巨头的战略布局。
请务必阅读正文之后的免责声明1/7
算力突围:DeepSeek搅动AI芯片格局2025-02-28
图表1:DeepSeek-R1基准测试结果对比ChatGPT-o1模型(单位:%)
120%
100%
80%
60%
40%
20%
0%
AIMECodeforcesGPDADiamondMATH-500MMLUSWE-benchVerified
DeepSeek-R1ChatGPT-o1
资料来源:公开资料、来觅数据
长期以来,AI大模型的发展遵循着ScalingLaws。这一规律指出,当模型参数规模、训练数据量和AI芯
片同步扩大时,模型的智能表现会呈现指数级跃升,甚至出现“智能涌现”现象。简而言之,越想训练出
优秀的大模型,就需要越多的AI芯片。过去几年,科技巨头争相买入AI芯片,以期望能训练出超越同
行的AI大模型。然而,DeepSeek的低成本方案却打破了这一叙事。
首当其冲受到影响的就是英伟达。其在2025年1月27日股价一度下跌超过20%,市值蒸发约6000亿
美元。美国投资人JeffreyEmanuel表示,DeepSeek的低成本路线摧毁了ScalingLaws,行业长期存
在算力浪费,硬件优势可能被效率优化取代。
然而,事实真的如此吗?
众所周知,大模型可以划分为训练和推理两个阶段,前者的目标是通过向模型输入大量数据,优化调参,
得到一个可用的模型,后者是利用训练好的模型来解决实际问题。DeepSeek的创新是以捷径降低训练
请务必阅读正文之后的免责声明2/7
算力突围:DeepSeek搅动AI芯片格局2025-02-28
成本,而面向广大下游的推理场景,缺口仍然存在。
事实上,训练成本每年都在降低。美国著名投资人CathyWood表示,AI训练成本正以年均75%-78%
的速度急剧下降,这一趋势远超传统行业预期。成本下降的来源取决于硬件效率提升(如英伟达Blackwell
架构)、算法优化(如MoE混合专家模型)及开源生态的繁荣。DeepSeek让训练成本大幅下降,但却
并非唯一因素。
CathyWood还认为,低成本训练能力使初创企业和中型科技公司能够以更低成本参