世界杯积分榜
世界杯预选赛下单 视频模子宏大的「隐酿老本」, 没东谈主告诉你

对于 AI 烧钱,业内流传着各式令东谈主瞠目咋舌的数字。xAI 花了跨越 10 亿好意思元建起 Colossus 超算集群;OpenAI 的月度算力账单子称高达数亿好意思元;Anthropic 最近几轮融资拿到的钱,在公众眼里果然依然和「GPU 时数」成功画上了等号。
全球谈的,果然都是算力。GPU 成了揣测一家 AI 公司实力的通用货币,亦然每一篇融资报谈里最显眼的阿谁数字。
但最近,我听了一期 Latent Space 播客,采访对象是 xAI 前研究员 Ethan He——Ethan 在 2025 年中加入 xAI 时,面对的是一个莫得基础设施、没罕有据、莫得现成模子的白纸景况,然后用三个月时期和一支小团队,从零搭建出了 Grok Imagine 视频生成系统,作念到了那时业内的一活水准。
在聊到大范围视频模子的测验老本时,他说了一组数字,让我片刻默契到,这个行业可能一直在算错了账。
2026FIFA世界杯下单平台官网「光是存储这些视频和特征数据,每个月就要几百万好意思元——这还没算算力老本。」
01
账单上的荫藏老本
从零到一,运转测验一个视频大模子,需要花几许钱?先假定你的团队有矿,GPU 算力凡俗用。即便如斯,你可能依然低估了这件事的巨量老本。
假定你要测验一个宇宙级的视频生成模子,去网上爬取了 10 亿条视频,每条平均 5MB——这依然是相配保守的揣摸了。光这一项,你就需要 5PB(拍字节)的存储空间。按照 AWS S3 的订价,5PB 尺度存储,每个月大要 10 万好意思元。
但这还仅仅原始视频。
在测验视频模子之前,业界通行的作念法是先用 VAE(变分自编码器)把视频压缩成「潜在空间」的特征向量——因为一段视频伸开成像素,可能有几十亿个 token,任何 Transformer 都科罚不了,必须先压缩成模子能连合的连气儿向量。
问题是,这份压缩后的特征数据,体积和原始视频相配,雷同需要永恒存储,随时备用。
两项重复,数十 PB,每月存储费就跨越 20 万好意思元。
然后是最出乎料到的那一项:数据收支费(egress/ingress)。
Ethan 说,从互联网下载 10 亿条视频的带宽用度,在 AWS 上比存储这些视频还贵。每次测验,数据都要从存储层拉到算计层跑一遍。视频模子的测验不像谈话模子那样训完就结束——要迭代,要调参,要测试不同的数据配比,每一次执行都意味着把全量数据再过一遍。执行跑得越多,这笔钱就乘以相应的倍数。

综划算下来,Ethan 的估算是,光是数据这一块,每个月就要几百万好意思元。GPU 的用度,还没运转计入。
这笔账世界杯预选赛下单,我从来没见哪篇 AI 行业报谈细算过。
02
扛不住的带宽费
那像 xAI 这么自建 Colossus 数据中心的公司,是不是在存储和带宽上省了一大笔钱?
Ethan 的回复很成功:「诚然,省了好多。」
这句话背后,藏着视频 AI 行业一个不太被盘考的结构性神秘。
大谈话模子的测验数据是文本,体积相对轻量,何况测验完成之后,原始数据基本就完成了责任——你不需要反复拉取全量语料来作念推理或微调。但视频数据系数不同:体积是文本的几个数目级,何况每一次测验执行都要把全量数据好意思满过一遍。
迭代速率越快,数据搬运的老本就越高;而 Ethan 反复强调,迭代速率,恰正是视频模子研发中最关节的变量。
这就酿成了一个相互咬合的困局:你需要快速迭代来进步模子质料,但快速迭代意味着不时搬运数据,而不时搬运数据在公有云上的账单会把你压垮。
Ethan 本东谈主的轨迹便是一个注脚。他在 NVIDIA 参与构建了 Cosmos 宇宙模子,作念着作念着默契到,世界杯(中国)视频模子存在媾和话模子雷同的「范围定律」,还有很大的进步空间。他那时靠近的聘用,名义看是「我需要更多 GPU」,但雷同关节的一句话他没明说——他需要一个无谓按 AWS 账单算钱的方位,来存放和搬运数据。这亦然他去 xAI 的根底原因之一,而 Colossus 给了他阿谁环境。
对于莫得自建基础设施的团队来说,这笔账是奈何算的?每个月几百万好意思元的数据老本,重复在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你募到了鼓胀的资金,只消你还在用公有云,你便是在用一个无底洞的账单跟敌手的自建机房竞走。
这谈门槛,不是一家有优秀算法的创业公司能靠「时期取胜」跨以前的。
03
视频模子的护城河不是模子
这让我想起一个意念念的对比。
在大谈话模子范畴,「开源 vs 闭源」的竞争打得相配强烈,Llama 系列的出现让好多小团队也能在谈话模子上打出有竞争力的产物,甚而逼着 OpenAI 和 Anthropic 不断压低 API 价钱。但在视频生成范畴,咱们看到的阵势天壤之隔:能连续作念出顶尖视频模子的,基本唯有 Sora、Veo、可灵这些背靠巨量资源的团队,莫得一家是靠开源社区在车库里跑出来的。
好多东谈主把这归结为「数据和算力的差距」。这诚然没错,但 Ethan 揭示的这组数字告诉咱们,问题比这更深:视频 AI 的基础设施老本,从一运转就把竞争的门槛,锁死在了少量数玩家的高度上。
这和半导体行业的逻辑有几分相似。台积电之是以难以撼动,不单因为它们有更好的想象,更因为一座新晶圆厂需要几百亿好意思元的前期插足,这谈门槛自己便是最佳的护城河。视频 AI 的护城河,便是那数十 PB 的数据基础设施和每月更始产生的带宽账单。
Ethan 在播客里还补充了一个更深的扩充:视频模子的「智能」,大部分其实来自背后的谈话模子,而不是视频扩散模子自己。
视频扩散模子相对「愚钝」,它只会按照翰墨面貌照单全收地生成画面,面貌写「一只猫」,它就生成一只猫,站在纯白布景前,文风不动——因为你莫得告诉它布景是什么、猫在作念什么。
委果连合用户意图、把「一只猫」扩写成一段精采的镜头谈话面貌的,是背后阿谁作念「教唆词重写」的大型谈话模子。Ethan 说,在 Cosmos 时期,他也曾用一个「甘心的羊」作念测试:不经由教唆词重写,生成出来的画面极其 CGI、毫无质感;加上重写之后,限度判若云泥——而系数这个词视频扩散模子自己,并莫得发生任何改变。
这意味着,决定一家公司在视频 AI 范畴能走多远的,不仅仅视频模子的参数范围,而是能否同期撑起谈话模子和视频模子这两套基础设施,并让它们有用协同。
这是一场拼详细膂力的竞赛。
04
下一个战场,早就被划好了
诚然,行业也在摸索前程。
教唆词重写的 Agent 化、让谈话模子像「开采官」一样改换多个视频生成器具、用 FFmpeg 这类传统软件科罚中间步调——这些标的的共同逻辑是,把「谈话模子的推理老本」和「视频扩散模子的生成老本」分层算计,让每一次视频生成的调用愈加精确,减少无效的算计和数据搬运。
Ethan 对「视频 Agent」的走向相配详情。他预计本年年底将出现一个拐点——当 Agent 生成的视频质料好像结实达到「可投放买卖告白」的水准,企业才会委果酣畅为之买单,合座的老本结构也会随之演变。
但有一丝不会变:谁掌执了数据的存储和流转,谁就掌执了这场游戏的伊始。
在 AI 这个赛谈上,「委果的壁垒」每隔一段时期就会交替一次。先是参数目,然后是测验数据范围,然后是对都时期,然后是推理着力。目下,视频 AI 正在揭示下沿路壁垒——不是某种私密的算法冲突,而是一份冷飕飕的基础设施账单。
这笔账,从一运转就没策划让系数东谈主都算得起。

备案号: