源码分析（一）：Netflix Headroom 是怎么把 LLM 账单砍掉一半的

Tue, 02 Jun 2026 10:00:00 +0000

最近看到一个叫 Headroom 的项目，Netflix 高级工程师 Tejas Chopra 个人开源的，号称能帮你把发给 LLM 的 token 减少 30-70%，而且不丢信息。

我把源码读了一遍，发现里面有几个设计很有意思，记下来。

项目地址：https://github.com/chopratejas/headroom

本文分析的主要源文件：

它解决的是什么问题

你在用 Claude 或 GPT 做 agent 的时候，工具调用（tool call）的返回结果会吃掉大量 token。

比如你让 agent 查数据库，返回了 500 条记录，每条有 15 个字段。但其中 12 个字段在所有记录里都是完全相同的值，真正有用的只有 3 个字段。你把 500 × 15 的数据全塞给 LLM，它实际只需要 500 × 3。

这就是浪费。Headroom 做的事，就是在你把数据发给 LLM 之前，先把这些废话压掉。