黄仁勋说这是灾难：DeepSeek在华为芯片上跑通了-买球赛股份有限公司

黄仁勋说这是灾难：DeepSeek在华为芯片上跑通了

2026-06-04公司动态

黄仁勋说这是灾难：DeepSeek在华为芯片上跑通了(图1)

　　但价格本身不是重点。往回看三代产品——V2训练成本是GPT-4 Turbo的1/70，V3是GPT-4的1/14，R1是GPT-4o的1/20。DeepSeek画出了一条陡峭的成本下降曲线。连奥尔特曼自己都说，AI成本每12个月降10倍，比摩尔定律还猛。

　　V4还带来了一个更大的变量：它在技术报告中明确写入了华为昇腾NPU与英伟达GPU的并列验证，是首个在昇腾平台上原生适配的前沿大模型。黄仁勋在播客里说，这件事是灾难性的。英伟达的护城河不是GPU算力本身，而是CUDA作为默认起点的软件生态位。

　　便宜50倍，还在昇腾上跑通了。DeepSeek到底是怎么做到的？这条效率路线走到终局，又意味着什么？

　　V4在MIT协议下完全开源，发布时间恰好卡在OpenAI上线新Agent功能的前一天。贴身肉搏的意味已经很明显了。

　　但V4的定价并不是一次孤立的降价事件。往回看三代产品，DeepSeek画出了一条陡峭的成本下降曲线/70，靠的是MLA架构和MoE稀疏架构的组合创新。同年底，V3的训练成本560万美元，相比GPT-4的7800万美元降至1/14。紧接着，R1的训练成本600万美元，对标GPT-4o约1.2亿美元的训练开支，压到了1/20。

　　当然，这条曲线不是没有争议。谷歌DeepMind负责人哈萨比斯直言DeepSeek的成本数据被报小了，并且有些误导性，声称公司只公布了最终训练阶段的成本，而这只是总成本的一小部分。分析机构SemiAnalysis进一步估算，DeepSeek在硬件上的花费远高于5亿美元，论文中600万美元的数字只是预训练运行的GPU成本。

　　DeepSeek硬件投入即便超过5亿美元，这是一笔包含芯片采购在内的资本开支；而GPT-4o的训练成本约1.2亿美元，指的是单次训练运行的算力费用，两者口径并不相同。不过，即便把OpenAI背后数十亿美元的算力基础设施投入也纳入考量，DeepSeek在单次训练成本上的优势依然是数量级的。争议的焦点恰恰证明了结论：即便成本被低估了，它依然便宜得离谱。

　　奥尔特曼自己在2025年2月的文章中写得明白：使用特定水平AI的成本每12个月下降约10倍。摩尔定律曾以每18个月翻一倍的速度改变世界，而AI成本的下降更加强劲。

　　当你的竞争对手亲口帮你论证了你的叙事，这个叙事就不只是叙事了。AI行业正在经历自己的摩尔定律，而DeepSeek，是这条定律最激进的执行者。

　　定律背后的机制是什么？三代产品的成本为什么能一路往下砸？答案藏在DeepSeek的技术路线里。

　　V3训练只用了2048张H800。同级别模型的训练集群动辄上万张卡，但DeepSeek用这2048张卡训出了对标GPT-4的模型，靠的是一个当时没人敢在大规模训练中线混合精度。

　　英伟达的Transformer Engine早就支持FP8训练，但在V3之前，没有开源大模型真正在训练阶段跑通过FP8。DeepSeek第一个吃螃蟹，用细粒度量化策略把激活值按1x128的tile量化、权重按128x128的block量化，在不损失模型质量的前提下把计算成本大幅压低。

　　核心是两种全新的注意力结构。CSA（压缩稀疏注意力）把每4个token的KV缓存压缩成1个条目，再用一个叫Lightning Indexer的筛选器从所有压缩块中只挑出最相关的512个来计算。

　　HCA（层次化压缩注意力）更激进，压缩比达到128倍，直接跳过筛选环节做全量计算来抓全局结构。两种注意力交错配置，再配合滑动窗口保留最近128个token的原始KV，多管齐下把百万token长文本的推理开销打了下来。

　　深度求索方面直接表态：从现在开始，百万上下文将是DeepSeek所有官方服务的标配。以前百万token是各家发布会上拿来炫技的指标，现在是默认参数。

　　当技术成本低到可以成为默认选项时，它就不再是竞争优势，而是基础设施的一部分。

　　V4-Pro，1.6万亿参数、激活49B，在100万token上下文下处理一个新token需要的算力只有V3.2的27%，KV缓存只占10%。资源消耗砍到四分之一。

　　而顶配Pro Max呢？知识基准SimpleQA拿下57.9分，比开源最佳高出20个点；数学竞赛Putnam 2025做到120/120满分；编程竞赛Codeforces在人类选手中排第23。三个分属完全不同类型的任务，同时冲顶。

　　V4技术报告3.1节写了一句话：我们在NVIDIA GPU和华为昇腾NPU两个平台上验证了这个细粒度的专家并行方案。两个平台并列，写在验证结论里。这不是兼容适配的措辞，是原生支持的姿态。

　　这套方案的核心是把MoE的通信和计算切成更细的颗粒按波调度，通用推理加速1.50到1.73倍，强化学习长尾小批次最高加速1.96倍。昇腾已经从备选项变成了并列选项。

　　迁移并不轻松。据接近DeepSeek的工程师透露，V4从CUDA到CANN的适配过程中，最耗时的不是算子重写，而是精度对齐。同样的模型在英伟达和昇腾上跑出完全一致的数学结果，需要反复调试。

　　此前用910C训练时，DeepSeek翻过车：1024卡集群梯度同步超时、CANN旧版缺少关键算子，稳定性一度不足。950PR针对性地补上了这些短板：芯片间带宽翻了3倍，CANN Next内置了FlashAttention和PagedAttention算子。

　　真正的技术迁移不是换一个品牌的芯片，是让两套完全不同的硬件跑出一样的数学结果。DeepSeek把这条路蹚通了，后来者的门槛就低了一大截。

　　华为的策略也很清楚。昇腾950PR在FP4精度下算力达到2 PFLOPS，芯片间互联带宽2TB/s。CANN Next的定位不是推倒重来，是无缝替换：新增SIMT编程模型与CUDA高度对标，让开发者沿用CUDA的编程习惯，最终编译出昇腾优化程序。

　　黄仁勋在帕特尔的播客专访中说出了英伟达真正害怕什么。不是中国做出好模型，而是好模型不再以CUDA为默认优化起点。

　　英伟达的护城河从来不是GPU本身的算力，而是CUDA作为事实标准运行了近二十年的软件生态位。几乎所有主流AI框架、算子库、开源模型的首发优化，都把CUDA当作默认起点。DeepSeek在昇腾上完成原生适配，戳破的恰恰是这条链条的起点：至少存在一条真实、可运行、被顶级模型验证过的非CUDA路径。

　　当世界上最好的开源模型证明了一条完整的非CUDA路径，二十年的生态壁垒就出现了第一道裂缝。效率路线从算法蔓延到芯片，蔓延到了英伟达最害怕的那个位置。

　　中信建投在V4发布后的研报里做了一个划分：R1回答的问题是中国能不能做出世界级模型，V4回答的是两个更具体的问题——能不能在算力封锁下持续进化，以及大模型能不能变成能赚钱的企业级产品。

　　第一个问题，学术界已经给了答案。2025年9月，R1论文登上Nature封面，8位专家逐条审稿，这是全球首个通过顶级学术期刊同行评审的主流大模型。中国能不能做这个问题翻篇了。

　　巨头们在用最传统的方式抢市场。2026年春节期间，字节、阿里、腾讯三家烧掉近百亿元拉新。千问豪掷30亿元送奶茶大礼包，豆包登上央视春晚，元宝抛出10亿元现金红包。

　　但DeepSeek的窘境和巨头不同。日活从1.2亿飙到约2亿，半年增长超67%，算力却只扩了约8.3%。日均算力成本超千万元，今年已经三次大规模宕机，每次都在晚间用户高峰期爆发。

　　用户增长67%，算力增长8.3%。这个剪刀差就是DeepSeek必须走效率路线必须跑在昇腾上的原因。

　　融资信号也在转向。2025年初DeepSeek最火的时候，梁文锋拒绝了所有投资机构。他曾提出类似OpenAI与微软投资协议的回报上限条款，没有任何机构接受，此后再没跟投资人见过面。

　　一年后的4月17日，DeepSeek传出至少100亿美元估值融资；五天后，路透社报道阿里和腾讯正在洽谈投资，估值已被抬到200亿美元以上。一位接近DeepSeek的投资人说：这不是一个你出得起价就能进的标的，梁文锋的筛选标准里，钱是最不重要的那一项。

　　一年前拒绝所有人，一年后所有人争着进。变的不是梁文锋的态度，是DeepSeek的位置。从技术验证期走到了商业化拐点。

　　DeepSeek换芯昇腾引发的连锁反应正在扩散。阿里、字节、腾讯已向华为批量采购昇腾950PR，订单合计数十万颗，集中采购推动芯片价格近几周上涨20%。当行业龙头用脚投票跟进非CUDA路径，效率路线就从一家公司的选择变成了行业共识。

　　商业化的数据也在印证拐点。智谱2025年全年收入7.24亿元，同比增132%，MaaS API平台年度经常性收入做到17亿元，同比涨了60倍。大模型正在从烧钱的故事变成赚钱的生意。

　　米勒在《巴伦》杂志的判断提供了另一个坐标。他说，美中之间的差距不在人才、不在创新，而在训练时投入的运算资源。这是典型的存量逻辑，谁的卡多谁赢。

　　但DeepSeek做的是增量逻辑：让每张卡的产出更高。V4在昇腾上跑通，就是用效率把存量差距变成了一个可以绕过去的问题。

　　工信部发布了《普惠算力赋能中小企业发展专项行动》，目标是到2028年底显著降低中小企业使用算力的门槛。文件里出现了两个概念：算力银行和算力超市。企业可以把闲置算力存进去，按需取用，按卡时、核时甚至Token来计费。

　　当政策开始用水电的逻辑来管理算力，前沿智能就真的在变成基础设施。DeepSeek从算法层到芯片层一路把成本打下来，政策从顶层把算力变成公共服务。

　　一个从供给侧降本，一个从制度侧普惠。两条线交汇的那个点，就是AI不再是军备竞赛的那一天。

新闻动态
公司动态
行业资讯

联系信息
电话：022-23555569
手机：13589960023
邮箱：admin@huahengjiancai.com
传真：022-23555569
地址：天津西青学府工业区才智道10号5号楼622室

新闻动态
黄仁勋说这是灾难：DeepSeek在华为芯片上跑通了 2026-06-04
中文播客听众数创新高每10个网民有2个在喜马拉雅听播客 2026-06-04
2022年河北十大新闻、年度十大新闻人物评选揭晓 2026-06-04
穆晓菲_经济学人-前瞻网 2026-06-04

买球赛股份有限公司 - 企业播客制作外包专家

您当前位置：