开源大模型DeepSeek实现三个“首次”
应借助开源顺势推动AI普惠化平权化发展
近期,DeepSeek凭借高性能、低成本特性迅速引爆市场,并因开源快速向全行业蔓延,成为AI领域的现象级产品。作为全球开源AI发展的新典范,DeepSeek首次开辟大模型创新发展第二路径,在引爆新一轮关注的同时也成为大模型领域生态构建的全新基座,实现了从技术共享到生态重构的正向循环。大模型应用部署成本的降低,将有力推动相关的软硬件产品及服务的大
规模落地。建议充分把握AI大模型开源趋势,从技术提升、应用推广、生态繁荣等角度加快布局,推动AI普惠化、平权化发展。
一、DeepSeek是全球开源AI大模型发展新典范
AI开源较传统软件开源要求更多、挑战更大。与软件开源
仅需公开源代码不同,大模型领域出现了训练数据、模型权重等将对大模型性能和输出结果产生重要影响的全新要素,使得AI
大模型开源远比传统软件开源复杂。2024年10月,开放源代码促进会(OSI)面向全球发布了第一版开源AI标准,即AI开源
必须同时满足代码完整、模型参数公开、训练数据透明等三点要
求,以确保模型可复现。一是需要开源完整代码,包括用于训练和运行AI的完整源代码,并展示数据处理和训练的规范,这与
传统意义上的软件开源基本一致。二是需要公开模型参数,包括模型的权重和配臵。三是应维持训练数据透明,即必须提供训练数据的来源、处理方式和获取方式。
此前大模型领域企业多以走纯闭源或“半开源”路线为主。坚持闭源路线的大模型厂商大多具有先发优势,例如OpenAI的
GPT-4系列模型、Anthropic的Claude系列模型等。而此前大部
分宣称“开源”的大模型实则为半开源“黑箱”,并不符合OSI对开源AI的最新要求。如Meta公司的Llama3就只部分开源模型权重和模型结构,同时还在商用限制上要求月活超过7亿的下游产品必须申请许可证。仅有如非营利研究机构AI2发布的OLMo2模型等少数做到了模型权重、数据、代码和方法等全栈资源开源。
DeepSeek秉持开源精神践行AI大模型开源准则。一是开放
代码、文档、权重等内容的下载。DeepSeek-R1模型代码和文档可从GitHub仓库下载,模型权重可从HuggingFace下载。2月
底,DeepSeek又在一周内连续开源五个核心代码库,以完全透明的方式展示其最新研究成果。二是公开技术细节。DeepSeek-R1的GPRO训练算法、目标函数等技术细节都以论文/技术报告的形式公开。三是采用更宽松的开源协议。早期,DeepSeek曾效仿Meta等美国公司使用自创许可协议DeepSeekLicense,但本次
直接统一为更宽松的MIT许可,既不限制商用,也无需申请。另外,DeepSeek还支持用户进行“模型蒸馏”。
二、DeepSeek突破性实现了三个“首次”,构建了开源AI
大模型从技术共享到生态重构的正向循环
DeepSeek通过技术上的深度优化实现了“低成本”与“高性能”兼得,在打破人工智能大模型产业原有格局的同时,也带来人工智能相关行业的新一轮发展机遇。
技术层面,首次开辟大模型创新发展第二路径,有望推动实
现全球AI普惠平权发展。DeepSeek-R1成功证明了纯强化学习
(RL)训练方法在提升大模型推理能力方面的可行性,为在有限算力条件下实现大模型“小而美”发展提供了全新的技术路线参考,并得到了李飞飞等科研团队的验证。此前,大模型能力提升主要依赖“ScalingLaw”发展路径,一定程度上催生了“唯资源论”的思维定势,即大模型发展的主导权、使用权将集中在算力、数据资源的富集方手中,导致大模型领域的入局“门槛”被持续抬高。例如,美国政府与OpenAI等企业联合发起的人工智能基建“星际之门”项目投资高达5000亿美元,法国版“星际之门”计划投资高达1090亿欧元。Meta此前也计划2025年在AI领域投资600亿美元至650亿美元,用于AI基础建设。由于DeepSeek的推理成本及定价远低于国际主流模型,对于资源相对匮乏的南方国家具有重要意义,有助缩小全球“智能鸿沟”。
应用层面,首次使开源AI大模型引爆新一轮“全民AI”热潮,
DeepSeek已跻身世界头部大模型之列。一是用户下载量高。
DeepSeek应用程序发布18天实现1600万次下载,约为ChatGPT
同期下载量的2倍。2月1日,DeepSeek日活突破3000万,成为史上最快突破3000万日活的APP。二是媒体关注度高。1月下旬,美国消费者