源码分析(一):Netflix Headroom 是怎么把 LLM 账单砍掉一半的
最近看到一个叫 Headroom 的项目,Netflix 高级工程师 Tejas Chopra 个人开源的,号称能帮你把发给 LLM 的 token 减少 30-70%,而且不丢信息。 我把源码读了一遍,发现里面有几个设计很有意思,记下来。 项目地址:https://github.com/chopratejas/headroom 本文分析的主要源文件: headroom/transforms/content_router.py — 内容识别与路由 headroom/transforms/content_detector.py — 内容类型检测 crates/headroom-core/src/transforms/smart_crusher/ — SmartCrusher Rust 实现 crates/headroom-core/src/transforms/log_compressor.rs — 日志压缩 Rust 实现 headroom/transforms/cache_aligner.py — CacheAligner headroom/ccr/tool_injection.py — CCR 工具注入 它解决的是什么问题 你在用 Claude 或 GPT 做 agent 的时候,工具调用(tool call)的返回结果会吃掉大量 token。 比如你让 agent 查数据库,返回了 500 条记录,每条有 15 个字段。但其中 12 个字段在所有记录里都是完全相同的值,真正有用的只有 3 个字段。你把 500 × 15 的数据全塞给 LLM,它实际只需要 500 × 3。 这就是浪费。Headroom 做的事,就是在你把数据发给 LLM 之前,先把这些废话压掉。 ...