多彩网

DeepSeek V3爆火背后:“AI界拼多多”能否复制?

DeepSeek V3爆火背后:“AI界拼多多”能否复制?

liwenzhen 2025-02-04 教育早教 1 次浏览 0个评论

2024年底,DeepSeek(深度求索)再次凭借模型性能在行业中掀起一个小高潮。

这家独立于大模型“六小虎”格局之外、不容行业所忽视的公司,发布了新一代MoE模型DeepSeek-V3首个版本并同步开源。V3拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。 

DeepSeek公开披露的信息来看,在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近当前表现最好的Claude-3.5-Sonnet-1022,在代码能力上同样稍好于后者,而在数学能力上,V3已明显领先其他开闭源模型,包括Qwen2.5 72B-Inst,LIama3.1 405B-Inst,GPT-4o 0513。

这已经是一个足够好的开源模型,但真正让其受到大量关注的,是DeepSeek在技术论文中表示,DeepSeek-V3模型总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需十分之一。这让它在海内外再度爆火。

事实上,大模型在2024年第一场API价格战正是由DeepSeek开启。彼时,其“MoE架构+MLA(Multi-head Latent Attention)技术”在降低大模型使用成本上发挥了重要作用。如今看来,这项创新在DeepSeek手中完成了稳定延续。

至此,同行业的大模型厂商更需审慎对待这家作风低调、输出稳定的公司,不知何时,它就会发起一场商业奇袭。

根据海外调研机构SemiAnalysis的数据,OpenAI GPT-4训练成本高达6300万美元,而DeepSeek-V3只有前者十分之一不到。让行业首先开始思考这种低成本模式是否可复制。

自从英伟达高端GPU显卡在中国大陆遭禁后,算力不足始终是摆在国内AI公司面前的一大难题。

相比于国外微软、Meta、特斯拉等科技巨头动辄购入10万张英伟达显卡搭建算力中心训练AI模型,国内拥有1万张以上显卡的公司屈指可数。DeepSeek背后的开发公司幻方就是其中之一,2023年在接受36氪专访时,幻方创始人梁文锋称“公司已囤有1万张英伟达A100显卡”。 

而DeepSeek-V3此次的特别之处在于仅用少量卡就完成了模型训练。 

据官方论文介绍,DeepSeek-V3训练使用了2048张英伟达H800 GPU(注:H800GPU为H100 GPU被禁后面向中国大陆推出的特供版,性能约为其一半),这些GPU通过英伟达高速互联网络NVLink和InfiniBand连接搭建成AI算力集群。

作为性能对标模型,Meta旗下的开源模型Llama-3.1(模型参数量与训练数据大致相当)则动用了超过16000张英伟达H100GPU,业内估计训练成本高达数亿美元。 

Meta AI科学家田渊栋在X(原推特)平台上盛赞DeepSeek V3的低成本训练方法是“黑科技”。特斯拉前人工智能和自动驾驶视觉总监、著名AI研究学者Andrej Karpathy转发了DeepSeek的论文,并评价说“如果DeepSeek V3能够通过各项评估,就证明了在资源有限的情况下,开发出性能强大的大语言模型是有可能的”。

目前,降低AI模型开发成本已经是最重要的行业趋势之一。过去一年,OpenAI仍然未发布行业期待已久的下一代模型GPT-5,而是发布了GPT-4o、4o mini等一系列低成本的轻量化模型。山姆·奥特曼(Sam Altman)也表示,部署和维护高级AI模型造成了OpenAI的运营成本不断上升,无论是出于公司持续运营的需要,还是实现AI人人可用的目标,都需要进一步降低成本。

而对于国内来说,先进算力受限国内AI公司必须直面的现实。

从2023年开始,国内掀起了智算中心的基建热潮。但由于当前国产GPU在单卡性能不足,与英伟达产品相比至少存在1至2代的差距,国内建设智算中心时需要通过堆更多的GPU来实现所需的算力,这不仅加大了建设难度,又进一步拉高了成本。一位参与过国产智算中心建设的AI公司负责人曾告诉记者,目前真正有能力建设万卡智算中心的厂商寥寥无几,国内算力建设的首要目标仍然增加供给,保障“能用”。 

如何在算力受限的情况下降低模型成本,DeepSeek的“AI拼多多”模式给行业提供了一种可能。

根据DeepSeek开发团队介绍,V3模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低成本。这些技术对于行业探索一条低成本的训练模式具有借鉴意义,但要复制并不容易。

国内一家AI芯片公司创始人告诉记者,DeepSeek这次用到的FP8训练技术是一个亮点。FP8是一种使用8位浮点数表示的格式,相比于传统的16位(FP16)和32位(FP32)浮点数,FP8是一种新兴的低精度训练方法,通过减少数据表示所需的位数。显著降低了内存占用和计算需求。目前除了DeepSeek,国内公司如零一万物,国外的谷歌、Inflection AI都已将这种技术引入模型训练与推理中。

上述芯片公司创始人称,引入FP8后,也有可能导致模型计算导致在某些情况下精度不足,造成性能不稳定,需要开发团队去进一步调优。“FP8接下来很有希望成为一种行业趋势,会有更多的算力芯片厂商提供原生的FP8算力”。

另一位GPU芯片公司CEO认为,DeepSeek V3作为DeepSeek第三代模型,模型开发本身涉及大量的计算资源和数据支持,而幻方能够为其储备上万张英伟达显卡用于算力基建,这对许多中小型团队或公司来说都是一个障碍。

但在他看来,最核心、也最难复制的是人才储备。DeepSeek核心架构用到的技术都具有相当高的创新门槛,前期开发和后期的调优升级都需要人才积累。

DeepSeek在人才储备上也独具特点。据创始人梁文峰此前接受采访时介绍,DeepSeek V2模型的开发团队没有海外回来的人,都是一批本土的“Top高校的应届毕业生、没毕业的博四、博五实习生,以及些毕业才几年的年轻人”,小米近期被报道以千万年薪招聘DeepSeek研究员、V2模型的开发团队成员罗福莉直接证明了这些年轻人才的价值。

梁文峰称,顶尖人才在中国是被低估的,而正因为DeepSeek“做最难的创新”,创新对于顶级人才具有特殊的吸引力。

总体而言,在算力基础和训练技巧之外,DeepSeek-V3在技术上的核心亮点仍然是高效的架构设计,也就是在V2身上便得到验证的MoE+MLA。

DeepSeekMoE采用了更细粒度的专家分配和共享专家机制,每个MoE层包含1个共享专家和256个路由专家,以确保计算的高效;MLA通过低秩压缩技术减少了推理时的Key-Value缓存,提高了推理效率。

与此同时,DeepSeek-V3首次引入了无辅助损失的负载均衡策略。传统方法中,强制负载均衡将导致模型性能下降,但通过为每个专家引入偏置项,动态调整路由决策,可以确保专家负载均衡。

实际上,一个大模型的架构设计与其想要达成的目标高度相关,因此并不能泛泛而谈其他模型厂商如何跟进这套技术策略。

但如果按照同等目标而言,一名大模型行业从业者对界面新闻记者表示,“MoE+MLA”虽然难,但是能够复现,在V3中,更难的是无辅助损失的负载均衡策略,因为它需要以一个训练得足够好的MoE模型为前提。“这个比较看模型训练的能力,就算DeepSeek的人手把手教也不一定能搞定。”

面对DeepSeek-V3的爆火,也有观点提出应该冷静看待,不要过度神话。

一名AI大模型投资人表示,DeepSeek-V3的确是现在看来最好的开源模型。尤其在国内,它最直接可对标的是通义千问模型系列,从技术实现来看,其更大总参数对概念的建模更精准,更小的激活量又让推理成本更低。 

DeepSeek V3爆火背后:“AI界拼多多”能否复制?

但在GPT-4发布近两年后,整个开源模型框架及算法系统也在同步迭代,他认为DeepSeek-V3所达成的效果可以视为顺其自然的事情。 

相比而言,更值得思考的是DeepSeek的商业触角会向哪片领域进一步延伸。

目前,DeepSeek仍以开源模型API接口为主服务开发者和企业,在更具体的ToB(企业端)和ToC(用户端)应用场景,它还没有明确动作,但在部分层面也有迹可循。 

据记者了解,在第三方招聘平台上,幻化量方在众多系统及算法研发岗位中释放出了“DeepSeek-客户端研发”、“DeepSeek C端产品的视觉引导者”,以及面向Web端及移动端AI产品的“UI视觉设计师”等。 

其中,客户端研发岗要求负责DeepSeek ioses及安卓开发工作。而视觉产品岗在“期望特质”中描述到,“能在某个大主题的背景下细化创作,比如我们的App可以是交互偏向的人文关怀、或者去突出科技感、也可能会走偏向办公效率的方向。”

这意味着,DeepSeek或许已经在筹备自己的C端产品,并且有明确的应用方向。

从模型层面来看,DeepSeek-V3作为开源模型,在数学和代码两项能力上已经非常突出,在补齐产品端能力后,或将在相关领域迅速形成自己的独特优势。另外,公司对于AGI(通用人工智能)目标的追求明确,团队必定会不断拉升基座模型性能。

也就是说,尽管还看不清DeepSeek的最终抉择,但它自身具备的模型实力和成本优势,无论切入哪一个领域都可能对同赛道公司形成压力。

“从根本上来说,DeepSeek对没有找到自己核心场景的大模型公司都是一个巨大的威胁。”前述投资人表示。

转载请注明来自常州多彩网超声波设备有限公司,本文标题:《DeepSeek V3爆火背后:“AI界拼多多”能否复制?》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!
Top
 最新版生存素材  蜂鸟跑腿最新版  罗定太平镇今日新闻最新  最新铸钢厂招聘最新信息  嘀嗒红包最新版  怪物x联盟最新版本  永寿最新招聘  最新版烧油比亚迪  safehax最新版  广东吸塑最新招聘  macoffice最新版本  招聘工作太原最新招聘  深圳众泰新闻最新  今日上海黄牛新闻最新  鞍山招聘web信息最新招聘  株洲幼师最新招聘  荣昌板桥最新招聘信息  吉林长风招聘信息最新  曾口镇黄哑村最新新闻  mymelody最新版下载  丰都新闻联播最新消息  怒江新闻最新今天  永城最新火灾新闻  在线招聘面点师最新  女装招聘信息最新招聘  永登红城新闻最新  最新版樱花高校模拟  六安普工就业 最新招聘  龙陵招聘工作最新招聘  东台最新车祸新闻 
多彩网