LLM Coding Plan 经济学——厂商哭穷你也信？

各家大模型厂商都推出了Coding Plan，例如智谱、MiniMax、阿里云。购买Coding Plan，付出100人民币的价格，每个月能够使用10亿token，简直便宜到爆。

不少人会好奇，大模型厂商是真的在赔本赚吆喝吗？为什么要有Coding Plan这种模式？

结论其实也很简单，大模型厂商的Coding Plan并不会真正亏本。绝大多数大模型厂商都在哭穷而已。想要理解LLM Coding Plan经济学的核心，有这么几个概念——缓存输入、用户行为模式变化、API毛利、健身房模式。

缓存输入

必须明确：Coding Plan动辄10亿token、100亿token消耗，绝大多数都是缓存输入。

大模型在处理用户请求的时候，对于输入进行prefill，计算decode输出新的token。对于前面已经输入过的内容，厂商并不需要从头进行prefill，而可以复用此前计算的KV-Cache。这部分输入被称为缓存输入cached input。

缓存输入直接反映在API定价上，GPT 5.4模型，输入价格为2.5美元，输出价格为15美元，缓存输入仅为0.25美元/million token。Claude也有类似的折扣，缓存输入价格仅为1/10。

对于Coding Plan来说，Agent调用过程中需要执行多轮工具调用，每一轮都要把前面的历史发送回去，使得缓存输入占了绝大多数。

这是笔者使用OpenAI Codex抓取的使用量记录。输入为319万token，缓存输入为285万token，真正新读入的仅为30万token，输出仅有2万token。

{"total_token_usage" :{"input_tokens":3198499, "cached_input_tokens":2857088, "output_tokens":19228, "reasoning_output_tokens":2680, "total_tokens":3217727 }

大致来说，input:output的比例是100:1，其中cached input占比90%。而随着Agent能够执行越来越长的任务，这个比例甚至会上升到200:1，甚至缓存输入占比达到95%。

笔者一个任务消耗的3M token，按照OpenAI官方的GPT 5.4 API价格计算，2.850.25 + 0.32.5 + 0.02*15 = 1.76美元。平均下来0.58美元/M token。

同理，虽然看起来消耗token总量很大，但实际token的单价更多取决于缓存输入的价格。

Coding Plan专属用户行为模式和 API 毛利

值得注意的是，Agentic Coding和常规API用户的行为模式会存在很大不同。

对于API来说，厂商无法判断这个请求是否会有高比例的缓存输入，存在相当大的机会成本。如果API没有产生缓存命中，那么厂商就白白浪费了为了维持KV-Cache而占用显存、内存和硬盘存储的成本。缓存输入的收费，很大程度上是在为机会成本付费。

但是对于Agentic Coding来说，多轮工具调用必然会产生大比例的缓存输入，这几乎是确定性的。厂商更容易预测Coding Plan用户的行为模式，由此缓存输入的成本还能够进一步降低。例如等待5秒钟的工具调用，返回本地文件读取的结果，缓存命中的成本远远低于收费的0.25美元/M token。

Claude Code、Codex的system prompt、工具定义，一个请求起步就会占用掉2万token以上。Agentic Coding主要工具就那么几种，Claude Code、Codex都有着相同的system prompt，这部分厂商不需要重新进行prefill，可以直接复用缓存。

同时不要忘了，厂商的API定价，并非厂商自己的成本，而是包含了毛利的对外售价。Deepseek曾经公布过的毛利高达84%，根据the information的报道OpenAI毛利也已经改善至70%，Anthropic毛利也达到了60%以上。

不仅海外厂商的毛利极高，即便是财报亏损的智谱，其API单次调用的毛利实际上也是极高的。

以GLM 5模型为例，总参数788B，激活参数40B，采用了和Deepseek一样的稀疏注意力机制。作为对比Deepseek V3.2为671B总参数，激活参数32B，稀疏注意力机制。Deepseek V3.2售价为输入2人民币，输出3人民币/M token。两者之间的成本应该大致相同。

我们既便认为Deepseek的infra水平较高，把Deepseek的对外售价当作GLM 5的成本。GLM 5输入单价6元，输出24人民币/M token，毛利水平也应该在80%以上。

如果我们将缓存输入的真实成本认为仅有对外售价的10%，而常规的输入输出认为毛利为80%。那么笔者在前面使用Codex 的 GPT 5.4模型，真实成本仅为 2.850.2510% + (0.32.5 + 0.0215) * 20% = 0.21 美元。这还是300万token，平均下来真实的成本仅为0.07美元/百万token。

这里还要提醒一下，厂商财报口径的销售成本COGS，也并非真正使用token的边际成本。例如OpenAI ChatGPT免费用户产生的推理成本、infra人员的工资和股权激励都会被计算到COGS。而事实上例如推理infra人员工资是有很强的规模效益，并不会随着你多用token而线性增长。同样的显卡集群，也有相当大的弹性，可以通过降低单用户tps来换取更高的总吞吐量，在一定范围内对于厂商来说几乎是0边际成本。

如果我们拆出真正意义上token的边际利润，也就是显卡折旧、电费，则会比财报口径显示的毛利乐观得多。

健身房模式

订阅制都绕不开健身房模式，只有少数高频用户会将容量用满，绝大多数用户使用频次很低。订阅制在ChatGPT上已经得到了充分的验证。Coding Plan用户虽然看起来更专业一些，但是即便代码用户内部也存在分化，二八定律这样绝大多数人不怎么用的模式依然成立。

ChatGPT年度总结显示，年度发送4139条消息就跻身前5%用户行列，平均下来每天发送11条消息而已。这侧面反映Chatbot反而变成了一个性感的生意。用户聊天能消耗多少token呢？ChatGPT的20美元一个月实际上赚的盆满钵满。

Codex相比于Claude Code订阅能够给出更加慷慨的额度。同样是20美元订阅，Claude每5小时只能使用5美元，每周50美元。Codex则5小时可以使用17美元，每周80美元额度。

ChatGPT目前订阅会员超过5000万，绝大多数用户都是低频用户的前提下，OpenAI就可以利用ChatGPT会员订阅收来的钱补贴Codex用量。

而如果放到中国语境下，Coding Plan很大程度上随着OpenClaw热度而大卖。但事实上微信指数显示，OpenClaw比峰值已经跌去了95%，图新鲜用户购买Coding Plan也早就不怎么用了。

事实上，根据此前ChatGPT的年度分享透露的分位数，采用对数正态分布，我们可以反推出ChatGPT用户平均每年发送1138条消息，也即每天3条。Coding Plan虽然无从得知其具体分布，但也可以参照ChatGPT的分布。

在笔者写此文的2026年4月14日，ChatGPT的周活用户是9亿，订阅用户5000万，Codex用户周活刚刚突破300万。这意味着如果OpenAI愿意用ChatGPT用户会员费补贴Codex，实际上存在10倍以上的补贴空间。

根据前文的计算，按照官方标价0.58美元/M token，实际成本仅为0.07美元，占比12%。ChatGPT Plus会员真实缴费20美元，Codex每周可用80美元，每个月320美元等额API额度，真实成本仅为38.4美元。试问，又有多少用户真正把Codex每周额度都用到50%以上呢？更不要忘了前面ChatGPT会员费带来的10倍补贴空间。

笔者贡献一个样本，周额度剩余98%，还有5天重置额度。

厂商哭穷你别信

大模型这一轮舆论咄咄怪事尤其多，例如2023年猛吹私有部署、微调小模型的奇谈怪论，到了2026看这些完全都不是主线。模型通用能力的提升，Agentic框架更好的脚手架才是绝对的主线。

大模型不赚钱的论调也甚嚣尘上。事实恰恰和舆论论调相反：模型推理毛利极高，行业主流都在80%以上。营收ARR体量上OpenAI达到250亿美元，Anthropic达到300亿美元，以人类商业史上从未有过的速度增长。

Anthropic CEO Dario Amodei多次强调quite profitable。即便是Coding Plan，在前文计算下，也是一种营销手段。

大众看到的亏损，有一部分是研发和营收错位导致的，厂商在训练下一代模型，而下一代模型尚未产生营收。有一部分可能单纯是重走CV四小龙的老路，研发效率低下导致的。至于不赚钱？厂商哭穷你别信。

📄 导出为PDF

本文来自投稿，不代表本站立场，如若转载，请注明出处：

LLM Coding Plan 经济学——厂商哭穷你也信？

缓存输入

Coding Plan专属用户行为模式和 API 毛利

健身房模式

厂商哭穷你别信

相关推荐

字节在急什么？从“赛博地主”到AI剽窃，争议背后的流量焦虑

当AI学会“爱人”，有人决定先按下暂停键

中国版Anthropic并不存在

3类禁拍、13类受限——短剧行业今天起换了一个游戏规则

发表评论

作者信息

推荐话题

# 西游记

# 新征程

# 毛主席

# 家庭

# 诬告

# 胖东来

# 天涯社区

# 人民终将赢得荣光

# 电影

# 女权

# 天涯

# 联合国

关于本站

举报

缓存输入

Coding Plan专属用户行为模式 和 API 毛利

健身房模式

厂商哭穷你别信

相关推荐

字节在急什么？从“赛博地主”到AI剽窃，争议背后的流量焦虑

当AI学会“爱人”，有人决定先按下暂停键

中国版Anthropic并不存在

3类禁拍、13类受限——短剧行业今天起换了一个游戏规则

发表评论

作者信息

推荐话题

# 西游记

# 新征程

# 毛主席

# 家庭

# 诬告

# 胖东来

# 天涯社区

# 人民终将赢得荣光

# 电影

# 女权

# 天涯

# 联合国

关于本站

举报

登录后可体验更多功能

Coding Plan专属用户行为模式和 API 毛利