❓ AI Token 費用常見問題
第一次接觸 AI API 計費?這裡把最常被問到的問題整理好了,用大白話給你講明白。
📖 常見問題
點擊問題展開答案 ↓
你可以把 Token 理解為 AI 模型處理文本的最小單位,類似於「位元組」。但 Token 不等於字:
中文:1 個漢字 ≈ 1-2 個 Token(「你好世界」 ≈ 4-6 Token)
英文:1 個單字 ≈ 1-1.5 個 Token(「Hello World」 ≈ 2 Token)
程式碼:標點、關鍵字都各佔 Token,一行程式碼通常 5-20 Token
簡單記:1000 個 Token ≈ 750 個漢字 ≈ 500 個英文單字。
費用 = (輸入 Token 數 / 1,000,000) × 輸入單價 + (輸出 Token 數 / 1,000,000) × 輸出單價
舉個例子:用 Claude Sonnet 4.6,發送 1000 Token 的提問,收到 2000 Token 的回覆:
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033
是的,一次對話只要幾分錢。貴是因為次數多了積累起來的。
輸入 Token:你發給 AI 的內容,包括 system prompt、歷史對話記錄、你的新訊息。越長越貴。
輸出 Token:AI 生成的回覆。通常輸出價格是輸入的 3-5 倍,因為生成文本比理解文本更消耗算力。
省錢技巧:控制輸出長度(比如要求「用一句話回答」),比壓縮輸入更有效。
目前完全免費的 API 級模型:
• 智譜 GLM-4-Flash:完全免費,有速率限制
• Llama 自部署:模型免費,但需要自己的 GPU 伺服器
• Gemini Flash-Lite:Google AI Studio 有免費額度
• 各家新用戶贈金:Anthropic 新註冊送 $5,OpenAI 首充有贈金等
想白嫖?用 GLM-4-Flash 就夠日常體驗了。
API 會返回 429 錯誤(Too Many Requests)。不會扣費,但請求會失敗。解決方法:
• 降低請求頻率,添加重試邏輯(指數退避)
• 升級到更高的使用層級(通常需要更多充值)
• 切換到速率限制更寬鬆的模型(如國產模型通常更寬鬆)
各平台都有用量儀表盤:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com 查看用量
• Google:AI Studio 或 Cloud Console
• 國產模型:各自控制台都有用量統計
建議:設定費用上限和告警郵件,避免意外大額帳單。
當你多次發送相同的 system prompt(比如「你是一個翻譯助手...」),開啟快取後,這部分 prompt 只在第一次請求時按全價計費,後續請求按快取價格計費(通常只有原價的 10-25%)。
DeepSeek 的快取特別明顯:快取命中 $0.028 vs 未命中 $0.28,差了 10 倍。如果你的應用有固定的長 system prompt,開快取是必須的。