❓ AI Token 费用常见问题
第一次接触 AI API 计费?这里把最常被问到的问题整理好了,用大白话给你讲明白。
📖 常见问题
点击问题展开答案 ↓
你可以把 Token 理解为 AI 模型处理文本的最小单位,类似于"字节"。但 Token 不等于字:
中文:1 个汉字 ≈ 1-2 个 Token("你好世界" ≈ 4-6 Token)
英文:1 个单词 ≈ 1-1.5 个 Token("Hello World" ≈ 2 Token)
代码:标点、关键字都各占 Token,一行代码通常 5-20 Token
简单记:1000 个 Token ≈ 750 个汉字 ≈ 500 个英文单词。
费用 = (输入 Token 数 / 1,000,000) × 输入单价 + (输出 Token 数 / 1,000,000) × 输出单价
举个例子:用 Claude Sonnet 4.6,发送 1000 Token 的提问,收到 2000 Token 的回复:
费用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033
是的,一次对话只要几分钱。贵是因为次数多了积累起来的。
输入 Token:你发给 AI 的内容,包括 system prompt、历史对话记录、你的新消息。越长越贵。
输出 Token:AI 生成的回复。通常输出价格是输入的 3-5 倍,因为生成文本比理解文本更消耗算力。
省钱技巧:控制输出长度(比如要求"用一句话回答"),比压缩输入更有效。
目前完全免费的 API 级模型:
• 智谱 GLM-4-Flash:完全免费,有速率限制
• Llama 自部署:模型免费,但需要自己的 GPU 服务器
• Gemini Flash-Lite:Google AI Studio 有免费额度
• 各家新用户赠金:Anthropic 新注册送 $5,OpenAI 首充有赠金等
想白嫖?用 GLM-4-Flash 就够日常体验了。
API 会返回 429 错误(Too Many Requests)。不会扣费,但请求会失败。解决方法:
• 降低请求频率,添加重试逻辑(指数退避)
• 升级到更高的使用层级(通常需要更多充值)
• 切换到速率限制更宽松的模型(如国产模型通常更宽松)
各平台都有用量仪表盘:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com 查看用量
• Google:AI Studio 或 Cloud Console
• 国产模型:各自控制台都有用量统计
建议:设置费用上限和告警邮件,避免意外大额账单。
当你多次发送相同的 system prompt(比如"你是一个翻译助手..."),开启缓存后,这部分 prompt 只在第一次请求时按全价计费,后续请求按缓存价格计费(通常只有原价的 10-25%)。
DeepSeek 的缓存特别明显:缓存命中 $0.028 vs 未命中 $0.28,差了 10 倍。如果你的应用有固定的长 system prompt,开缓存是必须的。