❓ AI Token 費用常見問題

第一次接觸 AI API 計費？這裡把最常被問到的問題整理好了，用大白話給你講明白。

這個計算器有幫助嗎？

📖 常見問題

點擊問題展開答案 ↓

什麼是 Token？

你可以把 Token 理解為 AI 模型處理文本的最小單位，類似於「位元組」。但 Token 不等於字：

中文：1 個漢字 ≈ 1-2 個 Token（「你好世界」 ≈ 4-6 Token）
英文：1 個單字 ≈ 1-1.5 個 Token（「Hello World」 ≈ 2 Token）
程式碼：標點、關鍵字都各佔 Token，一行程式碼通常 5-20 Token

簡單記：1000 個 Token ≈ 750 個漢字 ≈ 500 個英文單字。

怎麼計算 Token 費用？

費用 = (輸入 Token 數 / 1,000,000) × 輸入單價 + (輸出 Token 數 / 1,000,000) × 輸出單價

舉個例子：用 Claude Sonnet 4.6，發送 1000 Token 的提問，收到 2000 Token 的回覆：
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

是的，一次對話只要幾分錢。貴是因為次數多了積累起來的。

輸入 Token 和輸出 Token 有什麼區別？

輸入 Token：你發給 AI 的內容，包括 system prompt、歷史對話記錄、你的新訊息。越長越貴。
輸出 Token：AI 生成的回覆。通常輸出價格是輸入的 3-5 倍，因為生成文本比理解文本更消耗算力。

省錢技巧：控制輸出長度（比如要求「用一句話回答」），比壓縮輸入更有效。

有哪些免費的 AI 模型？

目前完全免費的 API 級模型：

• 智譜 GLM-4-Flash：完全免費，有速率限制
• Llama 自部署：模型免費，但需要自己的 GPU 伺服器
• Gemini Flash-Lite：Google AI Studio 有免費額度
• 各家新用戶贈金：Anthropic 新註冊送 $5，OpenAI 首充有贈金等

想白嫖？用 GLM-4-Flash 就夠日常體驗了。

達到速率限制（Rate Limit）會怎樣？

API 會返回 429 錯誤（Too Many Requests）。不會扣費，但請求會失敗。解決方法：

• 降低請求頻率，添加重試邏輯（指數退避）
• 升級到更高的使用層級（通常需要更多充值）
• 切換到速率限制更寬鬆的模型（如國產模型通常更寬鬆）

怎麼監控 API 使用量和費用？

各平台都有用量儀表盤：

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com 查看用量
• Google：AI Studio 或 Cloud Console
• 國產模型：各自控制台都有用量統計

建議：設定費用上限和告警郵件，避免意外大額帳單。

快取（Caching）是怎麼省錢的？

當你多次發送相同的 system prompt（比如「你是一個翻譯助手...」），開啟快取後，這部分 prompt 只在第一次請求時按全價計費，後續請求按快取價格計費（通常只有原價的 10-25%）。

DeepSeek 的快取特別明顯：快取命中 $0.028 vs 未命中 $0.28，差了 10 倍。如果你的應用有固定的長 system prompt，開快取是必須的。

💡 還有其他問題？去通用計算器自己算算看，或者查看具體模型的 FAQ（每個模型頁面底部都有）。