DeepSeek V4问世仅两周,开源圈就爆出重磅动向,传奇程序员、Redis创始人antirez,专门为这款模型打造专属推理引擎ds4.c。不同于市面上通用适配框架,这款引擎只为DeepSeek V4 Flash服务,硬生生在苹果设备中开出一条AI推理专属高速路。这场极简且极致的技术改造,不仅清空一波高端Mac库存,更让业内开始思考未来AI推理,是否会走向“一个模型,一个专属框架”的全新格局。

4月24日,DeepSeek正式发布V4系列模型,其中V4 Flash凭借284B总参数、13B激活参数、百万级token超长上下文,成为高性能效率模型标杆。在此之前,这类超大参数MoE模型,基本只能依靠云端部署,普通个人设备根本无法承载。而antirez打破行业固有认知,执意将这款重量级模型塞进Mac本地设备,ds4.c就此诞生。

ds4.c区别于市面上绝大多数推理工具,没有冗余封装、没有通用适配,是一款用C+Metal从零编写的极简引擎。项目文件精简,以C语言、Objective-C、Metal为核心开发语言,且采用纯Metal架构,仅适配苹果自研芯片,彻底舍弃英伟达、AMD显卡兼容适配。去掉所有多余抽象层与框架依赖,唯一目标就是让DeepSeek V4 Flash在Mac上流畅、高效本地运行。

实测数据显示,搭载128GB内存的M3 Max MacBook Pro,2-bit量化模式下,短提示词预填充速度可达58.52 token/s,生成速度26.68 token/s;顶配M3 Ultra Mac Studio处理万级长文本提示词时,预填充速度飙升至468.03 token/s。对于百亿级参数的大模型而言,这份本地推理成绩,已经达到日常可用标准。

谈及开发初衷,antirez坦言道——市面上通用推理框架为兼容多类模型,不得不做出技术妥协,层层抽象架构不断损耗性能。而他刻意选择“窄路”,专一深耕单一模型,舍弃通用性,只为打磨极致的使用体验。在他看来,本地推理应当是完整产品,需要整合专用引擎、定制量化、适配代理工具,而非简单拼凑组件。

作为技术圈传奇人物,1977年出生的antirez,凭借Redis封神,该项目至今坐拥7.4万GitHub星标。他的作品向来秉持极简精致的风格,从轻量化编辑器到信号解码器,所有项目都短小、精准、自成一体。他曾表示,代码是艺术制品,而非单纯的工具,反感现代编程繁杂冗余的层级架构。随性通透的行事风格,也让他在技术圈独树一帜。

如今ds4.c的爆火,在海外开发者论坛引发热议。业内诞生全新讨论方向——去掉冗余抽象层,针对固定硬件与模型定制优化,或将成为本地推理的最优解。当然这条赛道存在明显短板,模型迭代淘汰后,专属框架也会随之失效。对此antirez保持清醒,坦言目前仅专注深耕DeepSeek V4 Flash,未来是否拓展英伟达显卡适配,依旧保持谨慎态度。

从云端垄断大模型运行,到高端Mac实现本地流畅推理,ds4.c的诞生有着里程碑意义。它不仅让普通用户能够离线体验顶级大模型,更开辟了专属定制推理的全新赛道。技术的本质从来不是繁杂堆砌,而是精准解决问题。十五年间,antirez从优化数据库,到为AI模型修路,始终坚守初心。未来,或许会有更多专属推理引擎涌现,让每一款优质模型都能适配最优运行环境。而这场由开发者自发推动的技术变革,终将让本地AI推理走向更普及、更高效的新阶段。