Python

最近看到一个叫 Headroom 的项目，Netflix 高级工程师 Tejas Chopra 个人开源的，号称能帮你把发给 LLM 的 token 减少 30-70%，而且不丢信息。我把源码读了一遍，发现里面有几个设计很有意思，记下来。项目地址：https://github.com/chopratejas/headroom 本文分析的主要源文件： headroom/transforms/content_router.py — 内容识别与路由 headroom/transforms/content_detector.py — 内容类型检测 crates/headroom-core/src/transforms/smart_crusher/ — SmartCrusher Rust 实现 crates/headroom-core/src/transforms/log_compressor.rs — 日志压缩 Rust 实现 headroom/transforms/cache_aligner.py — CacheAligner headroom/ccr/tool_injection.py — CCR 工具注入它解决的是什么问题你在用 Claude 或 GPT 做 agent 的时候，工具调用（tool call）的返回结果会吃掉大量 token。比如你让 agent 查数据库，返回了 500 条记录，每条有 15 个字段。但其中 12 个字段在所有记录里都是完全相同的值，真正有用的只有 3 个字段。你把 500 × 15 的数据全塞给 LLM，它实际只需要 500 × 3。这就是浪费。Headroom 做的事，就是在你把数据发给 LLM 之前，先把这些废话压掉。 ...