统计
  • 文章总数:3447 篇
  • 评论总数:2986 条
  • 分类总数:18 个
  • 最后更新:昨天 23:05
返回

LLM Coding Plan 经济学——厂商哭穷你也信?

各家大模型厂商都推出了Coding Plan,例如智谱、MiniMax、阿里云。购买Coding Plan,付出100人民币的价格,每个月能够使用10亿token,简直便宜到爆。

不少人会好奇,大模型厂商是真的在赔本赚吆喝吗?为什么要有Coding Plan这种模式?

结论其实也很简单,大模型厂商的Coding Plan并不会真正亏本。绝大多数大模型厂商都在哭穷而已。想要理解LLM Coding Plan经济学的核心,有这么几个概念——缓存输入、用户行为模式变化、API毛利、健身房模式。

缓存输入

必须明确:Coding Plan动辄10亿token、100亿token消耗,绝大多数都是缓存输入。

大模型在处理用户请求的时候,对于输入进行prefill,计算decode输出新的token。对于前面已经输入过的内容,厂商并不需要从头进行prefill,而可以复用此前计算的KV-Cache。这部分输入被称为缓存输入cached input。

缓存输入直接反映在API定价上,GPT 5.4模型,输入价格为2.5美元,输出价格为15美元,缓存输入仅为0.25美元/million token。Claude也有类似的折扣,缓存输入价格仅为1/10。




对于Coding Plan来说,Agent调用过程中需要执行多轮工具调用,每一轮都要把前面的历史发送回去,使得缓存输入占了绝大多数。

这是笔者使用OpenAI Codex抓取的使用量记录。输入为319万token,缓存输入为285万token,真正新读入的仅为30万token,输出仅有2万token。

{"total_token_usage" :{"input_tokens":3198499, "cached_input_tokens":2857088, "output_tokens":19228, "reasoning_output_tokens":2680, "total_tokens":3217727 }

大致来说,input:output的比例是100:1,其中cached input占比90%。而随着Agent能够执行越来越长的任务,这个比例甚至会上升到200:1,甚至缓存输入占比达到95%。

笔者一个任务消耗的3M token,按照OpenAI官方的GPT 5.4 API价格计算,2.850.25 + 0.32.5 + 0.02*15 = 1.76美元。平均下来0.58美元/M token。

同理,虽然看起来消耗token总量很大,但实际token的单价更多取决于缓存输入的价格

Coding Plan专属用户行为模式 和 API 毛利

值得注意的是,Agentic Coding和常规API用户的行为模式会存在很大不同。

对于API来说,厂商无法判断这个请求是否会有高比例的缓存输入,存在相当大的机会成本。如果API没有产生缓存命中,那么厂商就白白浪费了为了维持KV-Cache而占用显存、内存和硬盘存储的成本。缓存输入的收费,很大程度上是在为机会成本付费。

但是对于Agentic Coding来说,多轮工具调用必然会产生大比例的缓存输入,这几乎是确定性的。厂商更容易预测Coding Plan用户的行为模式,由此缓存输入的成本还能够进一步降低。例如等待5秒钟的工具调用,返回本地文件读取的结果,缓存命中的成本远远低于收费的0.25美元/M token。

Claude Code、Codex的system prompt、工具定义,一个请求起步就会占用掉2万token以上。Agentic Coding主要工具就那么几种,Claude Code、Codex都有着相同的system prompt,这部分厂商不需要重新进行prefill,可以直接复用缓存。

同时不要忘了,厂商的API定价,并非厂商自己的成本,而是包含了毛利的对外售价。Deepseek曾经公布过的毛利高达84%,根据the information的报道OpenAI毛利也已经改善至70%,Anthropic毛利也达到了60%以上。

不仅海外厂商的毛利极高,即便是财报亏损的智谱,其API单次调用的毛利实际上也是极高的。

以GLM 5模型为例,总参数788B,激活参数40B,采用了和Deepseek一样的稀疏注意力机制。作为对比Deepseek V3.2为671B总参数,激活参数32B,稀疏注意力机制。Deepseek V3.2售价为输入2人民币,输出3人民币/M token。两者之间的成本应该大致相同。

我们既便认为Deepseek的infra水平较高,把Deepseek的对外售价当作GLM 5的成本。GLM 5输入单价6元,输出24人民币/M token,毛利水平也应该在80%以上。




如果我们将缓存输入的真实成本认为仅有对外售价的10%,而常规的输入输出认为毛利为80%。那么笔者在前面使用Codex 的 GPT 5.4模型,真实成本仅为 2.850.2510% + (0.32.5 + 0.0215) * 20% = 0.21 美元。这还是300万token,平均下来真实的成本仅为0.07美元/百万token。

这里还要提醒一下,厂商财报口径的销售成本COGS,也并非真正使用token的边际成本。例如OpenAI ChatGPT免费用户产生的推理成本、infra人员的工资和股权激励都会被计算到COGS。而事实上例如推理infra人员工资是有很强的规模效益,并不会随着你多用token而线性增长。同样的显卡集群,也有相当大的弹性,可以通过降低单用户tps来换取更高的总吞吐量,在一定范围内对于厂商来说几乎是0边际成本。

如果我们拆出真正意义上token的边际利润,也就是显卡折旧、电费,则会比财报口径显示的毛利乐观得多

健身房模式

订阅制都绕不开健身房模式,只有少数高频用户会将容量用满,绝大多数用户使用频次很低。订阅制在ChatGPT上已经得到了充分的验证。Coding Plan用户虽然看起来更专业一些,但是即便代码用户内部也存在分化,二八定律这样绝大多数人不怎么用的模式依然成立。

ChatGPT年度总结显示,年度发送4139条消息就跻身前5%用户行列,平均下来每天发送11条消息而已。这侧面反映Chatbot反而变成了一个性感的生意。用户聊天能消耗多少token呢?ChatGPT的20美元一个月实际上赚的盆满钵满。

Codex相比于Claude Code订阅能够给出更加慷慨的额度。同样是20美元订阅,Claude每5小时只能使用5美元,每周50美元。Codex则5小时可以使用17美元,每周80美元额度。

ChatGPT目前订阅会员超过5000万,绝大多数用户都是低频用户的前提下,OpenAI就可以利用ChatGPT会员订阅收来的钱补贴Codex用量。




而如果放到中国语境下,Coding Plan很大程度上随着OpenClaw热度而大卖。但事实上微信指数显示,OpenClaw比峰值已经跌去了95%,图新鲜用户购买Coding Plan也早就不怎么用了。



事实上,根据此前ChatGPT的年度分享透露的分位数,采用对数正态分布,我们可以反推出ChatGPT用户平均每年发送1138条消息,也即每天3条。Coding Plan虽然无从得知其具体分布,但也可以参照ChatGPT的分布。



在笔者写此文的2026年4月14日,ChatGPT的周活用户是9亿,订阅用户5000万,Codex用户周活刚刚突破300万。这意味着如果OpenAI愿意用ChatGPT用户会员费补贴Codex,实际上存在10倍以上的补贴空间。

根据前文的计算,按照官方标价0.58美元/M token,实际成本仅为0.07美元,占比12%。ChatGPT Plus会员真实缴费20美元,Codex每周可用80美元,每个月320美元等额API额度,真实成本仅为38.4美元。试问,又有多少用户真正把Codex每周额度都用到50%以上呢?更不要忘了前面ChatGPT会员费带来的10倍补贴空间。

笔者贡献一个样本,周额度剩余98%,还有5天重置额度。



厂商哭穷你别信

大模型这一轮舆论咄咄怪事尤其多,例如2023年猛吹私有部署、微调小模型的奇谈怪论,到了2026看这些完全都不是主线。模型通用能力的提升,Agentic框架更好的脚手架才是绝对的主线。

大模型不赚钱的论调也甚嚣尘上。事实恰恰和舆论论调相反:模型推理毛利极高,行业主流都在80%以上。营收ARR体量上OpenAI达到250亿美元,Anthropic达到300亿美元,以人类商业史上从未有过的速度增长。

Anthropic CEO Dario Amodei多次强调quite profitable。即便是Coding Plan,在前文计算下,也是一种营销手段。

大众看到的亏损,有一部分是研发和营收错位导致的,厂商在训练下一代模型,而下一代模型尚未产生营收。有一部分可能单纯是重走CV四小龙的老路,研发效率低下导致的。至于不赚钱?厂商哭穷你别信。

本文来自投稿,不代表本站立场,如若转载,请注明出处:

发表评论

发表评论

作者信息

吕思勉
作者有点忙,还没写简介
TA的最新作品
    请配置好页面缩略名选项

推荐话题

关于本站