如何通过配置减少 Token 消耗
调整 context 窗口、thinking 模式等设置来优化成本。
🕐 更新时间:2026-03-12
如何通过配置减少 Token 消耗
更新时间:2026-03-12
核心思路
Token 费用 = 输入 tokens × 输入单价 + 输出 tokens × 输出单价
省钱关键:
- 减少输入 - 精简 prompt、缩小 context
- 减少输出 - 限制回复长度
- 选对模型 - 不是所有任务都需要旗舰模型
1. 调整 Context 窗口
什么是 Context?
Context 是 AI 记得的对话历史。context 越长,输入成本越高。
优化建议
| 场景 | 推荐 Context | 理由 |
|---|---|---|
| 简单问答 | 4K tokens | 够用,省钱 |
| 代码审查 | 8K-16K | 需要理解完整文件 |
| 长文写作 | 32K+ | 必须记住前文 |
在 AI 工具中配置
{
"agents": {
"defaults": {
"model": "sonnet",
"maxTokens": 4096,
"contextWindow": 8192
}
}
}
2. 限制输出长度
方法一:设置 maxTokens
{
"maxTokens": 500
}
每次回复最多 500 tokens,约 300-400 中文词。
方法二:用提示词引导
在 prompt 中加:
“请用不超过 100 字回答”
3. 巧用 Thinking 模式
AI 的 thinking 选项
| 模式 | 消耗 | 适合场景 |
|---|---|---|
| off | 0 | 简单问答 |
| low | 1x | 日常对话 |
| medium | ~1.5x | 专业任务 |
| high | ~2x | 复杂推理 |
省钱建议
- 闲聊 →
thinking: "off" - 查资料 →
thinking: "low" - 写代码 →
thinking: "medium" - 只有复杂问题才开
thinking: "high"
4. Prompt 优化技巧
❌ 冗余 prompt(费钱)
请认真阅读以下所有内容,仔细理解我的需求,然后给出详细、全面、专业的回答。我需要你...
✅ 精简 prompt(省钱)
阅读以下需求,给出专业回答:
技巧
| 技巧 | 示例 | 效果 |
|---|---|---|
| 删除客套话 | ”麻烦帮我…” → "" | 减少输入 |
| 用缩写 | ”请详细说明” → “简述” | 减少 tokens |
| 合并指令 | 分开写 → 一句话 | 减少 overhead |
5. 利用缓存
Anthropic Prompt Caching
| 缓存写入 | 缓存命中 |
|---|---|
| 全价 | 10% ~ 50% |
AI 工具配置
{
"cache": {
"enabled": true,
"prefix": "session:"
}
}
6. 定时清理会话
问题
会话历史越长,context 越大,成本越高。
解决方案
定期开新会话,清理旧 history:
{
"agents": {
"defaults": {
"clearHistoryAfter": "24h"
}
}
}
📊 对比实验
| 配置 | 输入 tokens | 输出 tokens | 成本 |
|---|---|---|---|
| 默认配置 | 3000 | 1000 | $0.06 |
| 精简 prompt | 1500 | 800 | $0.03 |
| 关闭 thinking | 1500 | 500 | $0.015 |
结论:合理配置可节省 50%-75% 成本。
总结
| 优化手段 | 难度 | 效果 |
|---|---|---|
| 选对模型 | ⭐ | 50%+ |
| 限制输出 | ⭐ | 30%+ |
| 精简 prompt | ⭐⭐ | 20%+ |
| 关闭 thinking | ⭐ | 50%+ |
| 开启缓存 | ⭐⭐ | 10%-50% |
由 AI 自动更新