据知情人士披露,180 万亿。这是截至今年 6 月,豆包大模型的日均 token 调用量。
相比最初揭晓足足增长了几个数量级,且完全没有放缓的迹象。火山引擎总裁谭待在 2026 火山引擎 FORCE 原动力大会上公布这个数字时,台下更是掌声雷动。
去年 12 月,「万亿 token 俱乐部」还只有 100 家企业,现在已经暴涨至 200 多家。足够夸张的数字背后,反映了 token 已逐渐成为像水电一样的基础消耗。
模型矩阵的下一块是视频,也是发布会的重头戏。
百万 token 输入 6 元、输出 30 元,缓存命中只要 1.2 元,对比 Claude 同系列成本降了接近 80%,另有个价格只要 Pro 一半的 turbo 版本。
当视频模型跨过生产质变点,它积累的对物理世界的理解,正在成为世界模型的重要基础。
音频方面,Seed-Audio 1.0 支持情绪、口音、背景音、氛围音、拟音特效一次直出,做到影视级成品音效。落到产业侧,奔驰、东风都在基于豆包大模型探索智能座舱的语音交互。
视频之外,图像和音频这两块也各自上了新东西。
奔驰中国研发负责人在现场视频里提到,已经把豆包大模型集成进新款纯电车型,让车里的对话更自然、更能读懂用户意图和情绪。 而开头所说的 180 万亿 token 指向的不只是一个规模数字,更是一条正在不断延伸的能力曲线。
而原生 4K 从生成阶段就保留更高密度的有效信息,发丝、丝线走向、面料纹理都清晰完整。Seedance 2.0 原生 4K 还率先支持 4K 10bit 高位深,色彩层次更丰富,给后期调色留足空间。
Seedream 配 Seedance 还能一加一大于二。
它还能稳定承接专业创作。现场输入一个接近 10 万面的宇宙飞船白膜加一份渲染材质参考,让模型生成渲染视频模拟镜头,飞船主体轮廓、比例、复杂结构在镜头缓慢推进中都稳定保持。
Seedance 2.5 登场,AI 视频终于不止 15 秒了
还有个一直让大模型头疼的能力,高密度信息呈现。复杂图表、多层结构、甚至一整页 PPT 的信息量,都或的确会被完整塞进一张图,模型还会自动优化版面、保持审美。
最直观的是交互式精准编辑。
这次先给 2.0 上了个大升级:原生 4K。
以旗袍广告作为一个典型案例,720P 下,刺绣线迹和面料肌理不够清楚;用超分把 720P 拉到 4K,画面虽然锐化了,但细密绣线反而被平滑掉,质感更差;
而且不只是生成代码,还跑通了仿真测试、综合检测,最后通过了手写数字识别验证。
更灵活的视频编辑:可以在整体画面不变的前提下,对局部单独修改——微调背景、更换商品、更换模特。现场一个口红广告演示,直接把「挑口红」这个困惑给解决了。
模型只是入口,生产系统才是终点
coding 能力上,几个硬榜单它都拿得出手。
多参考能力支持 50 个全模态素材联合输入,全球最多。现场一次性输入十多位演员的图像资产,让模型自己编排。
它还支持英语、西班牙语、阿拉伯语、日语、韩语等 10 余种主要语言,并自动适应每种语言的排版习惯。
以「天问一号发射」科普视频为例,先用 5.0 Pro 把探测器外观、发射、着陆几个关键阶段准确生成,再喂给 Seedance 2.5,就得到一个高品质的 30 秒科普视频。
越来越多企业不再把大模型当作一个「试试看」的新工具,而是着手把它接进核心流程——写代码、做视频、跑分析、做客服、做决策。
圈选点选任意区域、任意颗粒度,小到一行字、大到整个版面,都能拆分输出成独立图层。把人物从画面拿走后,模型会自动智能填充背景;还能递归拆分,对拆出去的人物再拆出帽子、滑板,方便二次拖拽缩放编辑。
覆盖五大学科科研问题的 SciCode 拿到 59.8 分,超过 Opus 4.7;从需求文档出发从零生成整个可运行仓库的仓库级评测,拿到 47 分。
图像这边接棒的是 Seedream 5.0 Pro。年初发布的 Seedream 5.0 Lite 已经在帮用户把普通产品图转成高级广告海报、把线稿上色成完整插画,5.0 Pro 则是智能水平上的全新尝试。
创作者既能用语言描述空间关系,也能直接在画面上标记圈选。比如一张图里,把树枝上的松鼠移到左下角树桩、在右下角加两只小猫的结婚照、把小黄狗移到左侧——
这场大会真正的主角,是刚发布的豆包大模型 2.1 Pro。
字节跳动 CEO 梁汝波在大会上提到,攀登 AI 高峰是字节当下最重要的事情——收缩业务宽度,把精力重点聚焦到 AI,并在 AI 内部进一步聚焦于提升模型能力。
模型能识别箭头和高亮块,理解意图、定位元素、生成符合要求的画面。设计师随手画的草图线稿,它也能编辑成符合意图的视觉效果。
现场还演示了个硬核 case:
Agent 能力上,在 OpenAI 那套覆盖九大行业 44 种职业的 GDPval 真实经济价值评测里,2.1 Pro 拿了国内第一;评测 AI 用真实 MCP server 和工具能力的 MCP Atlas 上,全面超过 Opus 4.7。
这背后,是一场长期的能力攀登。
另一个能力是多图层分离。
在实体产业,Seedance 2.5 能自动生成多语言产品视频说明书,能给具身智能合成多场景多视角的高质量训练数据,能给自动驾驶合成极端天气、罕见路况这类案例补上训练盲区。
单条视频生成长度最高 30 秒,全球第一。市面上同类模型最多只支持 15 到 20 秒,这次直接突破瓶颈,镜头表达更连贯。
更长、更多参考、更强编辑这三个挑战,得靠新主角。
但 4K 只解决了画质。
今年 2 月发布的 Seedance 2.0,是中国第一个全球 SOTA、也是第一个跨过「生产质变点」的视频生成模型。
Terminal Bench 这种最贴近真实研发的终端编程评测,模型要在命令行里端到端跑完一整个工程任务,2.1 Pro 和 Claude Opus 4.7 基本持平,进了全球第一梯队;
让 2.1 Pro 围绕一个 16×16 PE 的微型模型,连续跑 18 个小时、迭代九轮,最终写出六个核心模块、1300 多行 RTL 代码——芯片设计里最严谨的环节,通常要 3 到 5 名资深工程师干上数周——
更值得注意的是市场份额。在公有云大模型市场,火山引擎把份额提升至 49.5%。每消耗两个 token,就有一个是火山引擎提供的。
按谭待的说法,这是一个突破了「生产质变点」的旗舰模型,意思是它写的代码能真正交付、进入企业研发流程,而不是停在「玩具」阶段。
企业每天把客服、营销、研发、内容生产、办公协同、数据分析等任务交给模型处理,模型也在这些高频调用中持续暴露问题、修正偏差、积累经验,逐步逼近真实生产环境的要求。
火山引擎正是这个方向的对外出口。它把字节内部沉淀的模型能力、工程体系和应用经验,转化为云服务、模型 API、行业解决方案和工具链,交付给企业使用。
豆包 2.1 Pro:既 SOTA,也划算
谭待表示,在它出来之前视频模型更像玩具,5 到 10 秒的 UGC 内容为主;2.0 之后,15 到 30 秒的广告、影视、科普短片被全面解锁。
万众期待之下,Seedance 2.5 登场,此刻已在内测尾声,预计 7 月初正式见面,三个升级全是「全球第一/最多」:
高峰还在前方,但路径已经清晰。
总而言之,这一事件仍在持续发酵,后续进展值得关注。