❓ AI Token 费用常见问题

第一次接触 AI API 计费？这里把最常被问到的问题整理好了，用大白话给你讲明白。

这个计算器有帮助吗？

📖 常见问题

点击问题展开答案 ↓

什么是 Token？

你可以把 Token 理解为 AI 模型处理文本的最小单位，类似于"字节"。但 Token 不等于字：

中文：1 个汉字 ≈ 1-2 个 Token（"你好世界" ≈ 4-6 Token）
英文：1 个单词 ≈ 1-1.5 个 Token（"Hello World" ≈ 2 Token）
代码：标点、关键字都各占 Token，一行代码通常 5-20 Token

简单记：1000 个 Token ≈ 750 个汉字 ≈ 500 个英文单词。

怎么计算 Token 费用？

费用 = (输入 Token 数 / 1,000,000) × 输入单价 + (输出 Token 数 / 1,000,000) × 输出单价

举个例子：用 Claude Sonnet 4.6，发送 1000 Token 的提问，收到 2000 Token 的回复：
费用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

是的，一次对话只要几分钱。贵是因为次数多了积累起来的。

输入 Token 和输出 Token 有什么区别？

输入 Token：你发给 AI 的内容，包括 system prompt、历史对话记录、你的新消息。越长越贵。
输出 Token：AI 生成的回复。通常输出价格是输入的 3-5 倍，因为生成文本比理解文本更消耗算力。

省钱技巧：控制输出长度（比如要求"用一句话回答"），比压缩输入更有效。

有哪些免费的 AI 模型？

目前完全免费的 API 级模型：

• 智谱 GLM-4-Flash：完全免费，有速率限制
• Llama 自部署：模型免费，但需要自己的 GPU 服务器
• Gemini Flash-Lite：Google AI Studio 有免费额度
• 各家新用户赠金：Anthropic 新注册送 $5，OpenAI 首充有赠金等

想白嫖？用 GLM-4-Flash 就够日常体验了。

达到速率限制（Rate Limit）会怎样？

API 会返回 429 错误（Too Many Requests）。不会扣费，但请求会失败。解决方法：

• 降低请求频率，添加重试逻辑（指数退避）
• 升级到更高的使用层级（通常需要更多充值）
• 切换到速率限制更宽松的模型（如国产模型通常更宽松）

怎么监控 API 使用量和费用？

各平台都有用量仪表盘：

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com 查看用量
• Google：AI Studio 或 Cloud Console
• 国产模型：各自控制台都有用量统计

建议：设置费用上限和告警邮件，避免意外大额账单。

缓存（Caching）是怎么省钱的？

当你多次发送相同的 system prompt（比如"你是一个翻译助手..."），开启缓存后，这部分 prompt 只在第一次请求时按全价计费，后续请求按缓存价格计费（通常只有原价的 10-25%）。

DeepSeek 的缓存特别明显：缓存命中 $0.028 vs 未命中 $0.28，差了 10 倍。如果你的应用有固定的长 system prompt，开缓存是必须的。

💡 还有其他问题？去通用计算器自己算算看，或者查看具体模型的 FAQ（每个模型页面底部都有）。