2026年AI行业最戏剧性的反转,在短短一周内骤然落地,狠狠打脸了所有押注今年Token涨价的投资者。此前市场普遍笃定,AI算力与Token消耗需求持续暴涨,成本必然水涨船高,大批从业者与投资人纷纷布局涨价行情。可现实却截然相反,5月22日DeepSeek官宣V4 Pro模型永久降价,5月27日小米火速跟进,旗下MiMo-V2.5系列模型最高降幅直逼99%,还同步大幅扩容Token套餐用量。

很多人第一眼看到99%的降价幅度,都会误以为AI调用成本已然全面跌至地板价,实则不然,这次降价藏着精准的场景化定价智慧,也是行业精细化运营的标志性转变。小米本次调价取消了传统模型区分上下文长度的计费规则,全球同步生效新定价机制,核心亮点集中在缓存命中场景。

以MiMo-V2.5-Pro为例,缓存命中后的输入价格低至0.025元每百万Tokens,和DeepSeek调整后的底价完全持平,直接焊死了国产模型缓存调用的行业基准价。而未命中缓存的常规调用、模型输出价格则维持原有合理区间,并非全场景无差别降价。

与此同时,小米优化后的Token Plan套餐性价比迎来爆发式提升。四档套餐定价保持不变,依旧是39元至659元区间,但对应的Token可用额度直接暴涨5至8倍,最高档位套餐额度突破800亿级别。这种定价模式精准瞄准了当下AI的核心应用场景,不再适配传统的闲聊对话,而是聚焦Agent智能任务、多轮代码生成、长上下文批量推理等高频商用场景。这类场景存在大量重复的系统提示词、代码文档、历史对话内容,超高的缓存命中率能让开发者的调用成本大幅降低,对企业级开发者和AI创业团队有着极强的吸引力。

短期低价牺牲的是单次调用的毛利,换来的却是无法估量的长期价值。海量的真实高频调用,会产生大量复杂场景数据、失败样本、用户反馈和多元化工作流案例,这些数据能反向驱动模型迭代优化,持续提升推理精度与稳定性。此前小米百万亿Token激励计划提前售罄,大量用户深度调用模型,无形中为平台完成了场景测试与数据积累,这也是大厂愿意持续补贴低价Token的核心原因。

更值得深思的是,小米此次降价打破了自身此前的行业判断,背后是硬核工程技术的底气。此前小米大模型负责人罗福莉曾公开反对盲目价格战,认为无技术支撑的低价会导致成本失控、服务降级。而如今小米敢于逆势降价,并非推翻原有判断,而是攻克了推理成本的核心难题。通过优化SGLang HiCache架构、落地滑动窗口注意力机制,小米实现了多级存储资源的高效调度,将数据搬运量压缩至原来的七分之一,可缓存Token数量提升五倍,再叠加专家并行、输入分桶等算法优化,彻底解决了高并发、长场景的成本痛点,让低价模式具备了长期可持续性。

这场极致降价潮,也开启了AI行业的残酷洗牌,行业马太效应彻底凸显。小米依托手机、汽车、IoT多元主业输血,拥有充足的战略耐心,不局限于短期API营收,将大模型作为AI生态核心入口。反观多数中小模型厂商,缺乏核心工程能力、算力调度体系和主业支撑,无法通过规模效应与技术优化摊薄成本,根本无力跟进本轮价格竞争。这意味着中小玩家将被迫退出通用赛道,只能退守小众垂直场景,行业资源快速向头部集中。

随着Token价格无限贴近物理成本,单纯的价格内卷已然没有空间,AI行业的竞争正式进入下半场。未来行业比拼的不再是低价优势,而是模型质量、Agent适配能力、开发者工具完善度、生态绑定能力和企业交付服务水平。模型的技术上限决定AI发展高度,而推理成本的下限决定AI普及的广度。