397B参数的模型跑在48GB笔记本上：Flash-MoE用纯C打爆Python推理框架

一个叫Flash-MoE的开源项目这两天在HN上炸了。做的事情听起来不可能：把Qwen3.5-397B-A17B这个3970亿参数的MoE模型，跑在一台48GB内存的MacBook Pro上，速度4.4 tokens/s，还能正常做tool calling。

整个推理引擎没用Python，没用PyTorch，没用任何框架。纯C + Objective-C + 手写Metal shader。209GB的模型从SSD流式读取。

我翻了它的代码和设计文档，这篇文章记录一下它的核心思路和让我觉得真正有意思的工程细节。

先搞清楚为什么这件事很难

Qwen3.5-397B-A17B是一个典型的MoE（Mixture of Experts）架构：60层transformer，每层512个expert，每个token只激活4个expert加1个shared expert。模型总参数397B，但单次推理只用到大约17B参数。

问题在于：即使你只激活17B参数，整个模型的权重文件是209GB（4-bit量化后）。48GB内存连塞都塞不下，更别说跑了。

常规思路是用offloading——把不用的权重卸载到CPU或者磁盘，需要时再加载。但传统offloading方案延迟高得要命，因为PCIe带宽和磁盘IO是瓶颈。

Flash-MoE的核心赌注：Apple Silicon的统一内存架构 + NVMe SSD的超高顺序读取速度（实测17.5GB/s），能让「从磁盘流式读取expert权重」这件事变得足够快。

架构设计：SSD当显存用

整个推理pipeline是这样的：

CMD3(prev) → CMD1: attention projections + delta-net [1.22ms GPU]
           → CPU: flush results [0.01ms CPU]
           → CMD2: o_proj + norm + routing + shared [0.55ms GPU]
           → CPU: softmax + topK routing [0.003ms]
           → I/O: parallel pread K=4 experts [2.41ms SSD]
           → CMD3: expert forward + combine + norm [0.04ms encode, DEFERRED]

每个token的推理分三个阶段，最关键的是I/O那步：根据routing结果，从SSD并行读取4个被选中的expert权重（每个约6.75MB），然后在GPU上做forward pass。

这里有个反直觉的设计决策：GPU计算和SSD读取是串行的，不是并行的。

按常理你会觉得应该让GPU算着的同时预读下一层的expert，对吧？他们试了，不行。原因是Apple Silicon的SSD DMA和GPU共享同一个内存控制器，并行操作会导致内存控制器仲裁延迟，GPU的带宽吞吐反而下降。串行pipeline（GPU → SSD → GPU）才是硬件最优的方案。

这种「违反直觉但基于实测」的决策，在这个项目里到处都是。

Trust the OS：不写缓存反而更快

Flash-MoE最让我印象深刻的一个设计哲学叫”Trust the OS”。

按照正常思路，你肯定想自己管理一个expert缓存——哪些expert最近被用过就留在内存里，LRU淘汰冷的。他们确实试了，而且试了好几种：

缓存方案	结果	原因
Metal LRU缓存	比不缓存慢38%	GPU内存压力
malloc缓存	更慢	管理开销
LZ4压缩缓存	更慢	解压开销大于缓存收益

最终方案：什么都不做。用标准的pread()读文件，让操作系统的page cache自动管理缓存。macOS会把可用内存（约35GB）自动用于page cache，实测expert缓存命中率约71%。

这个结论对所有做推理优化的人都有参考价值：在统一内存架构上，操作系统的页面缓存比你自己写的任何缓存策略都好。因为OS能看到全局内存压力，你的用户态缓存看不到。

FMA Dequant：一条指令省12%

4-bit量化的矩阵向量乘法是推理的计算核心。标准实现是这样的：

// 标准4-bit反量化 + 乘法
result += (nibble * scale + bias) * x;

Flash-MoE把运算顺序重新编排：

// FMA优化版本
// 预计算 scale_x = scale * x, bias_x = bias * x
// 然后用 fma(nibble, scale_x, bias_x) 一条指令完成
float scale_x = scale * x;
float bias_x = bias * x;
result += fma(nibble, scale_x, bias_x);

数学上完全等价，但GPU的fused multiply-add单元可以在一条指令里完成反量化+乘法。这个优化带来了12%的GPU计算提速。

看似简单，但能想到把dequant和matmul融合进一条FMA指令的人并不多。这种优化只有写Metal shader的人才会去做，用PyTorch/llama.cpp的人根本碰不到这层。

那些失败的优化尝试

项目的experiment log记录了58次实验，其中很多是失败的。这些失败比成功更有价值：

尝试	结果	失败原因
F_RDADVISE预读expert	净效果为0	SSD DMA让GPU慢了73%
时间序列预测下一层expert	慢18%	命中率只有25%，浪费SSD带宽
MLP预测expert路由	准确率31%	比时间序列baseline还差
GPU LUT反量化kernel	慢2%	间接寄存器访问序列化
mmap expert文件	慢5倍	冷数据的per-page fault开销
dispatch_io异步读取	慢70%	dispatch_data管理开销
投机解码(MTP)	持平	MoE的I/O随token数线性增长
spin-poll等待GPU	慢23%	CPU发热影响GPU性能

几个特别值得注意的：

mmap慢5倍：所有人都觉得mmap应该比read快，对吧？在这个场景下不是。mmap的page fault是per-page触发的（通常4KB一页），每次读6.75MB的expert要触发上千次page fault。而pread是一次系统调用读完，内核可以做大块连续读取。

投机解码没用：对dense模型来说，投机解码是大杀器——一次forward pass验证多个token。但MoE模型的I/O开销是per-token线性增长的，每多一个token就多读4个expert。投机解码省的计算被额外的I/O吃掉了。

预测expert路由没用：直觉上你会觉得可以根据历史pattern预测下一层要用哪些expert，提前预读。但512选4的路由空间太大了，预测准确率太低，预读的SSD带宽反而污染了page cache。

2-bit vs 4-bit：便宜的代价

项目还试了2-bit量化，模型大小从209GB降到120GB，速度从4.4升到5.7 tok/s，峰值能到7 tok/s。

但有个致命问题：2-bit量化会把JSON里的双引号变成反斜杠——输出\name\而不是"name"。这意味着tool calling完全废了。

这是量化研究中经常被忽略的一点：benchmarks上看着分数差不多，但实际使用中格式控制能力的退化是断崖式的。4-bit是目前的生产配置。

代码量和构建

整个推理引擎核心只有两个文件：

infer.m     ~7000行  // 完整推理引擎
shaders.metal ~1200行  // Metal compute kernels

加上一个449行的C BPE tokenizer（单头文件），和一些辅助脚本。总代码量不到1万行。

做个对比：llama.cpp的核心代码量在几万行级别，vLLM更是巨无霸。Flash-MoE用不到1万行C代码实现了一个能跑397B参数模型的推理引擎，而且性能并不差。

构建就一行make，没有cmake，没有conda，没有Docker。

对前端开发者的启示

看Flash-MoE让我想到前端领域的一个平行问题：我们是不是太依赖框架了？

这个项目的哲学很明确——不用Python，不用PyTorch，不用任何ML框架，直接写C和Metal shader。结果反而做到了传统框架做不到的事情（在48GB机器上跑397B模型）。

前端也一样。当你遇到性能瓶颈的时候，解决方案往往不是换一个更好的框架，而是退回到更底层——理解浏览器的渲染管线，理解V8的优化策略，理解内存分配的实际成本。

另一个启示是”Trust the OS”这个哲学。前端开发者经常自己造轮子管理缓存、管理内存、管理生命周期。但浏览器的GC、HTTP缓存、Service Worker缓存策略，很多时候比你自己写的方案更好。因为浏览器能看到你看不到的全局信息。

不是说框架没用，而是当你理解底层的时候，你才能判断框架在什么地方帮了你，什么地方害了你。

能跑起来吗

需要一台M3 Max或以上的MacBook Pro，48GB统一内存。Intel Mac或者Windows跑不了，因为整个I/O和计算pipeline深度依赖Apple Silicon的统一内存架构和Metal API。

模型权重需要自己从Hugging Face下载safetensors然后用脚本打包，209GB需要不小的磁盘空间和耐心。

cd metal_infer
make
./infer --prompt "Explain quantum computing" --tokens 100
# 带tool calling的交互模式
./chat
# 查看逐层耗时
./infer --prompt "Hello" --tokens 20 --timing

项目地址：github.com/danveloper/flash-moe

如果你没有M3 Max，这个项目更大的价值在于它的设计文档和experiment log。58次实验的详细记录、每个失败尝试的原因分析，比最终成功的方案更有学习价值。

近期文章

分类

其他操作

AI · 2026年3月23日

397B参数的模型跑在48GB笔记本上：Flash-MoE用纯C打爆Python推理框架

先搞清楚为什么这件事很难

架构设计：SSD当显存用

Trust the OS：不写缓存反而更快

FMA Dequant：一条指令省12%

那些失败的优化尝试

2-bit vs 4-bit：便宜的代价

代码量和构建

对前端开发者的启示

能跑起来吗

您可能还喜欢...

AI · 2026年3月23日

先搞清楚为什么这件事很难

架构设计：SSD当显存用

Trust the OS：不写缓存反而更快

FMA Dequant：一条指令省12%

那些失败的优化尝试

2-bit vs 4-bit：便宜的代价

代码量和构建

对前端开发者的启示

能跑起来吗

您可能还喜欢...

谷歌180种Agent架构实测：多Agent协作可能让你的系统更烂

AWS的AI编程工具搞崩了生产环境：Kiro自作主张删库重建，停机13小时

从零搭建400ms延迟的语音Agent：自己撸管线比Vapi快2倍