<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>工程 on 大飞的博客</title>
    <link>https://www.dafei.me/tags/%E5%B7%A5%E7%A8%8B/</link>
    <description>Recent content in 工程 on 大飞的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Wed, 03 Jun 2026 10:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.dafei.me/tags/%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>LLMLingua：用小模型压缩 Prompt，省 95% Token</title>
      <link>https://www.dafei.me/posts/llmlingua-prompt-compression/</link>
      <pubDate>Wed, 03 Jun 2026 10:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/llmlingua-prompt-compression/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;调研范围&lt;/strong&gt;：LLMLingua 系列（v1 / LongLLMLingua / LLMLingua-2）项目背景、技术演进、性能数据、横向对比、工程落地&lt;br&gt;
&lt;strong&gt;主要文献&lt;/strong&gt;：arXiv:2310.05736（EMNLP 2023）、arXiv:2310.06839（ACL 2024）、arXiv:2403.12968（ACL Findings 2024）&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;一项目背景与核心原理&#34;&gt;一、项目背景与核心原理&lt;/h2&gt;
&lt;h3 id=&#34;11-动机prompt-膨胀是-llm-落地的成本瓶颈&#34;&gt;1.1 动机：Prompt 膨胀是 LLM 落地的成本瓶颈&lt;/h3&gt;
&lt;p&gt;CoT、ICL、RAG 等技术的普及使 prompt 长度从几百 token 迅速膨胀到数万 token。按 GPT-4 计费标准，一次请求仅 prompt 成本就可能达 $0.3–$1+。企业级应用中，&lt;strong&gt;80% 的 token 开销往往集中在冗余的上下文内容里&lt;/strong&gt;。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;技术范式&lt;/th&gt;
          &lt;th&gt;对 Prompt 的影响&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;In-Context Learning (ICL)&lt;/td&gt;
          &lt;td&gt;注入多个 few-shot 示例，每个示例 300–600 token&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Chain-of-Thought (CoT)&lt;/td&gt;
          &lt;td&gt;完整推理链进一步增大示例体积&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;RAG（检索增强生成）&lt;/td&gt;
          &lt;td&gt;每次请求注入若干检索文档段落&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Agent / 工具调用&lt;/td&gt;
          &lt;td&gt;System prompt + 对话历史 + 工具描述累积&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;三类影响&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;成本&lt;/strong&gt;：Token 按量计费，压缩 20× 可节省约 95% 的 input token 费用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延迟&lt;/strong&gt;：prefill 阶段与输入长度正相关，长 prompt 直接拉高首 token 延迟（TTFT）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;准确率&lt;/strong&gt;：超长上下文有 &amp;ldquo;lost-in-the-middle&amp;rdquo; 问题——LLM 对中间位置的信息关注度显著低于首尾&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;12-核心洞察用小模型-ppl-代理信息量&#34;&gt;1.2 核心洞察：用小模型 PPL 代理信息量&lt;/h3&gt;
&lt;p&gt;LLMLingua 的根本思路是：&lt;strong&gt;用廉价的小语言模型（GPT-2/LLaMA-7B）计算 token 的困惑度（Perplexity），以此作为信息重要性的代理&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
