世界杯积分榜

你的位置:2026世界杯预选赛下单中国体彩官网 > 世界杯积分榜 > 世界杯预选赛下单 视频模子宏大的「隐酿老本」, 没东谈主告诉你

世界杯预选赛下单 视频模子宏大的「隐酿老本」, 没东谈主告诉你

发布日期:2026-06-12 01:04    点击次数:157

世界杯预选赛下单 视频模子宏大的「隐酿老本」, 没东谈主告诉你

对于 AI 烧钱,业内流传着各式令东谈主瞠目咋舌的数字。xAI 花了跨越 10 亿好意思元建起 Colossus 超算集群;OpenAI 的月度算力账单子称高达数亿好意思元;Anthropic 最近几轮融资拿到的钱,在公众眼里果然依然和「GPU 时数」成功画上了等号。

全球谈的,果然都是算力。GPU 成了揣测一家 AI 公司实力的通用货币,亦然每一篇融资报谈里最显眼的阿谁数字。

但最近,我听了一期 Latent Space 播客,采访对象是 xAI 前研究员 Ethan He——Ethan 在 2025 年中加入 xAI 时,面对的是一个莫得基础设施、没罕有据、莫得现成模子的白纸景况,然后用三个月时期和一支小团队,从零搭建出了 Grok Imagine 视频生成系统,作念到了那时业内的一活水准。

在聊到大范围视频模子的测验老本时,他说了一组数字,让我片刻默契到,这个行业可能一直在算错了账。

2026FIFA世界杯下单平台官网

「光是存储这些视频和特征数据,每个月就要几百万好意思元——这还没算算力老本。」

01

账单上的荫藏老本

从零到一,运转测验一个视频大模子,需要花几许钱?先假定你的团队有矿,GPU 算力凡俗用。即便如斯,你可能依然低估了这件事的巨量老本。

假定你要测验一个宇宙级的视频生成模子,去网上爬取了 10 亿条视频,每条平均 5MB——这依然是相配保守的揣摸了。光这一项,你就需要 5PB(拍字节)的存储空间。按照 AWS S3 的订价,5PB 尺度存储,每个月大要 10 万好意思元。

但这还仅仅原始视频。

在测验视频模子之前,业界通行的作念法是先用 VAE(变分自编码器)把视频压缩成「潜在空间」的特征向量——因为一段视频伸开成像素,可能有几十亿个 token,任何 Transformer 都科罚不了,必须先压缩成模子能连合的连气儿向量。

问题是,这份压缩后的特征数据,体积和原始视频相配,雷同需要永恒存储,随时备用。

两项重复,数十 PB,每月存储费就跨越 20 万好意思元。

然后是最出乎料到的那一项:数据收支费(egress/ingress)。

Ethan 说,从互联网下载 10 亿条视频的带宽用度,在 AWS 上比存储这些视频还贵。每次测验,数据都要从存储层拉到算计层跑一遍。视频模子的测验不像谈话模子那样训完就结束——要迭代,要调参,要测试不同的数据配比,每一次执行都意味着把全量数据再过一遍。执行跑得越多,这笔钱就乘以相应的倍数。

综划算下来,Ethan 的估算是,光是数据这一块,每个月就要几百万好意思元。GPU 的用度,还没运转计入。

这笔账世界杯预选赛下单,我从来没见哪篇 AI 行业报谈细算过。

02

扛不住的带宽费

那像 xAI 这么自建 Colossus 数据中心的公司,是不是在存储和带宽上省了一大笔钱?

Ethan 的回复很成功:「诚然,省了好多。」

这句话背后,藏着视频 AI 行业一个不太被盘考的结构性神秘。

大谈话模子的测验数据是文本,体积相对轻量,何况测验完成之后,原始数据基本就完成了责任——你不需要反复拉取全量语料来作念推理或微调。但视频数据系数不同:体积是文本的几个数目级,何况每一次测验执行都要把全量数据好意思满过一遍。

迭代速率越快,数据搬运的老本就越高;而 Ethan 反复强调,迭代速率,恰正是视频模子研发中最关节的变量。

这就酿成了一个相互咬合的困局:你需要快速迭代来进步模子质料,但快速迭代意味着不时搬运数据,而不时搬运数据在公有云上的账单会把你压垮。

Ethan 本东谈主的轨迹便是一个注脚。他在 NVIDIA 参与构建了 Cosmos 宇宙模子,作念着作念着默契到,世界杯(中国)视频模子存在媾和话模子雷同的「范围定律」,还有很大的进步空间。他那时靠近的聘用,名义看是「我需要更多 GPU」,但雷同关节的一句话他没明说——他需要一个无谓按 AWS 账单算钱的方位,来存放和搬运数据。这亦然他去 xAI 的根底原因之一,而 Colossus 给了他阿谁环境。

对于莫得自建基础设施的团队来说,这笔账是奈何算的?每个月几百万好意思元的数据老本,重复在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你募到了鼓胀的资金,只消你还在用公有云,你便是在用一个无底洞的账单跟敌手的自建机房竞走。

这谈门槛,不是一家有优秀算法的创业公司能靠「时期取胜」跨以前的。

03

视频模子的护城河不是模子

这让我想起一个意念念的对比。

在大谈话模子范畴,「开源 vs 闭源」的竞争打得相配强烈,Llama 系列的出现让好多小团队也能在谈话模子上打出有竞争力的产物,甚而逼着 OpenAI 和 Anthropic 不断压低 API 价钱。但在视频生成范畴,咱们看到的阵势天壤之隔:能连续作念出顶尖视频模子的,基本唯有 Sora、Veo、可灵这些背靠巨量资源的团队,莫得一家是靠开源社区在车库里跑出来的。

好多东谈主把这归结为「数据和算力的差距」。这诚然没错,但 Ethan 揭示的这组数字告诉咱们,问题比这更深:视频 AI 的基础设施老本,从一运转就把竞争的门槛,锁死在了少量数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之是以难以撼动,不单因为它们有更好的想象,更因为一座新晶圆厂需要几百亿好意思元的前期插足,这谈门槛自己便是最佳的护城河。视频 AI 的护城河,便是那数十 PB 的数据基础设施和每月更始产生的带宽账单。

Ethan 在播客里还补充了一个更深的扩充:视频模子的「智能」,大部分其实来自背后的谈话模子,而不是视频扩散模子自己。

视频扩散模子相对「愚钝」,它只会按照翰墨面貌照单全收地生成画面,面貌写「一只猫」,它就生成一只猫,站在纯白布景前,文风不动——因为你莫得告诉它布景是什么、猫在作念什么。

委果连合用户意图、把「一只猫」扩写成一段精采的镜头谈话面貌的,是背后阿谁作念「教唆词重写」的大型谈话模子。Ethan 说,在 Cosmos 时期,他也曾用一个「甘心的羊」作念测试:不经由教唆词重写,生成出来的画面极其 CGI、毫无质感;加上重写之后,限度判若云泥——而系数这个词视频扩散模子自己,并莫得发生任何改变。

这意味着,决定一家公司在视频 AI 范畴能走多远的,不仅仅视频模子的参数范围,而是能否同期撑起谈话模子和视频模子这两套基础设施,并让它们有用协同。

这是一场拼详细膂力的竞赛。

04

下一个战场,早就被划好了

诚然,行业也在摸索前程。

教唆词重写的 Agent 化、让谈话模子像「开采官」一样改换多个视频生成器具、用 FFmpeg 这类传统软件科罚中间步调——这些标的的共同逻辑是,把「谈话模子的推理老本」和「视频扩散模子的生成老本」分层算计,让每一次视频生成的调用愈加精确,减少无效的算计和数据搬运。

Ethan 对「视频 Agent」的走向相配详情。他预计本年年底将出现一个拐点——当 Agent 生成的视频质料好像结实达到「可投放买卖告白」的水准,企业才会委果酣畅为之买单,合座的老本结构也会随之演变。

但有一丝不会变:谁掌执了数据的存储和流转,谁就掌执了这场游戏的伊始。

在 AI 这个赛谈上,「委果的壁垒」每隔一段时期就会交替一次。先是参数目,然后是测验数据范围,然后是对都时期,然后是推理着力。目下,视频 AI 正在揭示下沿路壁垒——不是某种私密的算法冲突,而是一份冷飕飕的基础设施账单。

这笔账,从一运转就没策划让系数东谈主都算得起。