Meta没做的，英伟达做了，全新架构吞吐量狂飙6倍，20万亿Token训练

6.3倍。

先把数字拍在桌上，像裁判突然吹了三声哨。

9B的小个子在跑道上抬头，Qwen3-8B在旁边，观众席里有人喊了一句“真的假的”。

我手心也微微出汗——打开体验页，经典题它接得住，长文不打摆子，偶尔把马斯克叫成“麻克”，像新秀上来第一球砸在篮筐边沿，响，没掉链子。

A10G，bfloat16，8k进16k出，吞吐量最高拉到6倍，这是能落到账上的数。

画面倒回训练营。

Nemotron-Nano-12B-v2-Base先顶着FP8在20万亿Token里泡了个澡，Warmup-Stable-Decay的节奏像体能教练的秒表，先热身再稳住节拍。

之后加练长上下文，128K，把记忆力拉到极限。

你能感觉到那种“别忘词”的倔劲儿。

再往后，SFT、GRPO、DPO、RLHF一股脑上，像一支队伍把战术板翻了又翻。

里面有个小心机：约5%的样本故意截断推理链，教它学会掐秒表，思考不是越长越好，够用就收。

再跳一格看架构。

Nemotron-H是混血，Mamba-2和Transformer坐一桌吃火锅。

长序列计算交给Mamba-2，线性速度像笔直甬道；需要全场视野和复制记忆的环节，让Transformer出手。

以前我们在O（n^2）的泥地里打对攻战，现在有人把地板擦干，鞋底抓地。

这个安排，像一支球队用一快一稳的双后场，攻防转换时不至于掉球，还能拉开节奏。

数据这边不是“遮着盖着”的架子。

6.6万亿Token摊开：Nemotron-CC-v2做了多快照、全局去重，还拉Qwen3-30B-A3B来重写，把多样化QA扩成15种语言，这对多语场景是实打实的粮食。

Nemotron-CC-Math更狠，Lynx+LLM把网页里的数学和代码重新梳成LaTeX，内部实验说在MATH和MBPP+上能拉起一截，这种细活，值钱。

代码集严守许可证，分多阶段去重，还补了11种语言的合成QA。

SFT那块覆盖STEM、学术、推理、多语，像把基础课与选修课一起塞进课程表。

再把镜头扭回对比。

Qwen3-8B不好惹，Nemotron-Nano-9B-v2在数学、代码、通用推理、长文本里，不虚，时不时赢半步。

真的杀手锏是吞吐量，8k/16k下最高6.3倍，服务端要接住高并发复杂任务，这种提升直接反映在账单上。

你要做客服、审阅、批量生成，这就是“单位算力的产出”，不是漂亮话。

SEO一句压进来：英伟达Nemotron Nano 2、Mamba-Transformer混合架构、128K上下文、A10G部署、6.6T预训练数据，这几个关键词，记住，都是门面也是骨头。

说点不顺耳的。

混合架构的工程复杂度高，推理栈要适配两套子结构，算子和调度不是一夜就顺滑。

Mamba在极端复制记忆、in-context学习上有没有天花板，要更多公开压测。

剪枝蒸馏做得再巧，也可能在小众任务上塌边角，需要社区一起踩坑。

这些声音该留着，别一股脑吹成神话。

我去体验页做了点无聊又好玩的试题。

“颜色想象”的描述像一个爱做手账的人，条理清楚；流行文化角色，能把人物弧线和关键瞬间串起来；问“谁更值得信任”，它给了带温度的答案，像饭局上那位直球朋友，敢讲。

社交媒体最爱揪错，麻克就是一根刺；网友的放大镜有时只盯芝麻，自家西瓜掉地上当看不见。

这种“人味儿”的瑕疵，反倒让我放心点，说明它真是用复杂数据熬出来的，而不是摆拍。

把它当成一场球赛看更明白。

技术战术层面，Mamba-2等于提速的快攻系统，Transformer负责视野，阵地战能稳住；心理层面，5%截断训练把“思维预算”装进脑袋，它学会了取舍，像最后两分钟保守控球；历史舆论层面，Meta的开源节奏收拢了，国内一众队伍在开源上更积极，英伟达这次不是只卖铲子，等于做了一套“示范矿井”：模型、数据、训练故事全摆出来，这种“可复用”的态度，除了技术，还有点产业化的野心。