如何通过配置减少 Token 消耗

调整 context 窗口、thinking 模式等设置来优化成本。

🕐 更新时间:2026-03-12

如何通过配置减少 Token 消耗

更新时间:2026-03-12

核心思路

Token 费用 = 输入 tokens × 输入单价 + 输出 tokens × 输出单价

省钱关键:

  1. 减少输入 - 精简 prompt、缩小 context
  2. 减少输出 - 限制回复长度
  3. 选对模型 - 不是所有任务都需要旗舰模型

1. 调整 Context 窗口

什么是 Context?

Context 是 AI 记得的对话历史。context 越长,输入成本越高。

优化建议

场景推荐 Context理由
简单问答4K tokens够用,省钱
代码审查8K-16K需要理解完整文件
长文写作32K+必须记住前文

在 AI 工具中配置

{
  "agents": {
    "defaults": {
      "model": "sonnet",
      "maxTokens": 4096,
      "contextWindow": 8192
    }
  }
}

2. 限制输出长度

方法一:设置 maxTokens

{
  "maxTokens": 500
}

每次回复最多 500 tokens,约 300-400 中文词。

方法二:用提示词引导

在 prompt 中加:

“请用不超过 100 字回答”


3. 巧用 Thinking 模式

AI 的 thinking 选项

模式消耗适合场景
off0简单问答
low1x日常对话
medium~1.5x专业任务
high~2x复杂推理

省钱建议

  • 闲聊 → thinking: "off"
  • 查资料 → thinking: "low"
  • 写代码 → thinking: "medium"
  • 只有复杂问题才开 thinking: "high"

4. Prompt 优化技巧

❌ 冗余 prompt(费钱)

请认真阅读以下所有内容,仔细理解我的需求,然后给出详细、全面、专业的回答。我需要你...

✅ 精简 prompt(省钱)

阅读以下需求,给出专业回答:

技巧

技巧示例效果
删除客套话”麻烦帮我…” → ""减少输入
用缩写”请详细说明” → “简述”减少 tokens
合并指令分开写 → 一句话减少 overhead

5. 利用缓存

Anthropic Prompt Caching

缓存写入缓存命中
全价10% ~ 50%

AI 工具配置

{
  "cache": {
    "enabled": true,
    "prefix": "session:"
  }
}

6. 定时清理会话

问题

会话历史越长,context 越大,成本越高。

解决方案

定期开新会话,清理旧 history:

{
  "agents": {
    "defaults": {
      "clearHistoryAfter": "24h"
    }
  }
}

📊 对比实验

配置输入 tokens输出 tokens成本
默认配置30001000$0.06
精简 prompt1500800$0.03
关闭 thinking1500500$0.015

结论:合理配置可节省 50%-75% 成本。


总结

优化手段难度效果
选对模型50%+
限制输出30%+
精简 prompt⭐⭐20%+
关闭 thinking50%+
开启缓存⭐⭐10%-50%

由 AI 自动更新