6.3倍。
先把数字拍在桌上,像裁判突然吹了三声哨。
9B的小个子在跑道上抬头,Qwen3-8B在旁边,观众席里有人喊了一句“真的假的”。
我手心也微微出汗——打开体验页,经典题它接得住,长文不打摆子,偶尔把马斯克叫成“麻克”,像新秀上来第一球砸在篮筐边沿,响,没掉链子。
A10G,bfloat16,8k进16k出,吞吐量最高拉到6倍,这是能落到账上的数。
画面倒回训练营。
Nemotron-Nano-12B-v2-Base先顶着FP8在20万亿Token里泡了个澡,Warmup-Stable-Decay的节奏像体能教练的秒表,先热身再稳住节拍。
之后加练长上下文,128K,把记忆力拉到极限。
你能感觉到那种“别忘词”的倔劲儿。
再往后,SFT、GRPO、DPO、RLHF一股脑上,像一支队伍把战术板翻了又翻。
里面有个小心机:约5%的样本故意截断推理链,教它学会掐秒表,思考不是越长越好,够用就收。
再跳一格看架构。
Nemotron-H是混血,Mamba-2和Transformer坐一桌吃火锅。
长序列计算交给Mamba-2,线性速度像笔直甬道;需要全场视野和复制记忆的环节,让Transformer出手。
以前我们在O(n^2)的泥地里打对攻战,现在有人把地板擦干,鞋底抓地。
这个安排,像一支球队用一快一稳的双后场,攻防转换时不至于掉球,还能拉开节奏。
数据这边不是“遮着盖着”的架子。
6.6万亿Token摊开:Nemotron-CC-v2做了多快照、全局去重,还拉Qwen3-30B-A3B来重写,把多样化QA扩成15种语言,这对多语场景是实打实的粮食。
Nemotron-CC-Math更狠,Lynx+LLM把网页里的数学和代码重新梳成LaTeX,内部实验说在MATH和MBPP+上能拉起一截,这种细活,值钱。
代码集严守许可证,分多阶段去重,还补了11种语言的合成QA。
SFT那块覆盖STEM、学术、推理、多语,像把基础课与选修课一起塞进课程表。
再把镜头扭回对比。
Qwen3-8B不好惹,Nemotron-Nano-9B-v2在数学、代码、通用推理、长文本里,不虚,时不时赢半步。
真的杀手锏是吞吐量,8k/16k下最高6.3倍,服务端要接住高并发复杂任务,这种提升直接反映在账单上。
你要做客服、审阅、批量生成,这就是“单位算力的产出”,不是漂亮话。
SEO一句压进来:英伟达Nemotron Nano 2、Mamba-Transformer混合架构、128K上下文、A10G部署、6.6T预训练数据,这几个关键词,记住,都是门面也是骨头。
说点不顺耳的。
混合架构的工程复杂度高,推理栈要适配两套子结构,算子和调度不是一夜就顺滑。
Mamba在极端复制记忆、in-context学习上有没有天花板,要更多公开压测。
剪枝蒸馏做得再巧,也可能在小众任务上塌边角,需要社区一起踩坑。
这些声音该留着,别一股脑吹成神话。
我去体验页做了点无聊又好玩的试题。
“颜色想象”的描述像一个爱做手账的人,条理清楚;流行文化角色,能把人物弧线和关键瞬间串起来;问“谁更值得信任”,它给了带温度的答案,像饭局上那位直球朋友,敢讲。
社交媒体最爱揪错,麻克就是一根刺;网友的放大镜有时只盯芝麻,自家西瓜掉地上当看不见。
这种“人味儿”的瑕疵,反倒让我放心点,说明它真是用复杂数据熬出来的,而不是摆拍。
把它当成一场球赛看更明白。
技术战术层面,Mamba-2等于提速的快攻系统,Transformer负责视野,阵地战能稳住;心理层面,5%截断训练把“思维预算”装进脑袋,它学会了取舍,像最后两分钟保守控球;历史舆论层面,Meta的开源节奏收拢了,国内一众队伍在开源上更积极,英伟达这次不是只卖铲子,等于做了一套“示范矿井”:模型、数据、训练故事全摆出来,这种“可复用”的态度,除了技术,还有点产业化的野心。
你说现实不现实?
现实得很。
还有一条线我想提前翻开:边缘和本地。
9B+128K,这组参数在离线长文理解、代码伴写、大纲生成已经够用。
等社区把算子再打磨顺手,像把碳板跑鞋换成实战球鞋,真能下场。
企业里讲SLA、讲成本,这一套能不能把延迟和费用压住,得看你愿不愿意重构一点点工程栈。
把情绪提起来一点。
有人说这是一场“Meta没做、英伟达做了”的赛点球,我更愿意当它是战术板的更新换代。
结构创新+数据工艺+压缩工程这三件事打包,能把速度-精度的曲线拧到一个更舒服的位置。
你要的是更快,还是更稳?
是把预算砸在长链思考,还是开更多并发?
不同答案,不同队形。
写到这,你可能已经在盘算场景了。
法务文档证据链?
客服并发?
多语问答?
或者,本地端的私域知识库?
你说出一个,我就想象一次它在128K里翻书找页码的样子。
顺手再抛个梗:如果把“思维预算旋钮”拧大,它会不会写得更像一个磨叽的老教授?
拧小,又会不会像一个脾气火爆的控卫,三下两下就出手?
我就把球传到你脚边。
要不要把这个混合架构拉进你的阵容?
敢不敢用6.3倍的吞吐去换一次系统的改造?
更直白一点,你愿不愿意相信一次“快与准可以兼得”的试验。
评论区见,别怂。
谁把128K用出了花,我给他鼓掌。
谁把“麻克”纠正了,也记得回来报个喜。