❓ AI Token 費用常見問題

第一次接觸 AI API 計費?這裡把最常被問到的問題整理好了,用大白話給你講明白。

這個計算器有幫助嗎?

📖 常見問題

點擊問題展開答案 ↓

什麼是 Token?

你可以把 Token 理解為 AI 模型處理文本的最小單位,類似於「位元組」。但 Token 不等於字:

中文:1 個漢字 ≈ 1-2 個 Token(「你好世界」 ≈ 4-6 Token)
英文:1 個單字 ≈ 1-1.5 個 Token(「Hello World」 ≈ 2 Token)
程式碼:標點、關鍵字都各佔 Token,一行程式碼通常 5-20 Token

簡單記:1000 個 Token ≈ 750 個漢字 ≈ 500 個英文單字

怎麼計算 Token 費用?

費用 = (輸入 Token 數 / 1,000,000) × 輸入單價 + (輸出 Token 數 / 1,000,000) × 輸出單價

舉個例子:用 Claude Sonnet 4.6,發送 1000 Token 的提問,收到 2000 Token 的回覆:
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

是的,一次對話只要幾分錢。貴是因為次數多了積累起來的。

輸入 Token 和輸出 Token 有什麼區別?

輸入 Token:你發給 AI 的內容,包括 system prompt、歷史對話記錄、你的新訊息。越長越貴。
輸出 Token:AI 生成的回覆。通常輸出價格是輸入的 3-5 倍,因為生成文本比理解文本更消耗算力。

省錢技巧:控制輸出長度(比如要求「用一句話回答」),比壓縮輸入更有效。

有哪些免費的 AI 模型?

目前完全免費的 API 級模型:

智譜 GLM-4-Flash:完全免費,有速率限制
Llama 自部署:模型免費,但需要自己的 GPU 伺服器
Gemini Flash-Lite:Google AI Studio 有免費額度
各家新用戶贈金:Anthropic 新註冊送 $5,OpenAI 首充有贈金等

想白嫖?用 GLM-4-Flash 就夠日常體驗了。

達到速率限制(Rate Limit)會怎樣?

API 會返回 429 錯誤(Too Many Requests)。不會扣費,但請求會失敗。解決方法:

• 降低請求頻率,添加重試邏輯(指數退避)
• 升級到更高的使用層級(通常需要更多充值)
• 切換到速率限制更寬鬆的模型(如國產模型通常更寬鬆)

怎麼監控 API 使用量和費用?

各平台都有用量儀表盤:

OpenAI:platform.openai.com/usage
Anthropic:console.anthropic.com 查看用量
Google:AI Studio 或 Cloud Console
國產模型:各自控制台都有用量統計

建議:設定費用上限和告警郵件,避免意外大額帳單。

快取(Caching)是怎麼省錢的?

當你多次發送相同的 system prompt(比如「你是一個翻譯助手...」),開啟快取後,這部分 prompt 只在第一次請求時按全價計費,後續請求按快取價格計費(通常只有原價的 10-25%)。

DeepSeek 的快取特別明顯:快取命中 $0.028 vs 未命中 $0.28,差了 10 倍。如果你的應用有固定的長 system prompt,開快取是必須的。

💡 還有其他問題?去 通用計算器 自己算算看,或者查看具體模型的 FAQ(每個模型頁面底部都有)。