❓ AI Token 費用についてよくある質問
AI API 課金に初めて接触しますか?ここで最もよく尋ねられる質問をまとめました。平易な言葉で説明します。
📖 よくある質問
質問をクリックして回答を展開します ↓
Token を AI モデルが処理するテキストの最小単位として理解できます。「バイト」に似ています。しかし Token は文字と同等ではありません:
中国語:1 つの漢字 ≈ 1-2 Token(「你好世界」 ≈ 4-6 Token)
英語:1 つの単語 ≈ 1-1.5 Token(「Hello World」 ≈ 2 Token)
コード:句読点、キーワードも各 Token を占有し、1 行のコードは通常 5-20 Token
簡単に覚える:1000 Token ≈ 750 漢字 ≈ 500 英単語。
費用 = (入力 Token 数 / 1,000,000) × 入力単価 + (出力 Token 数 / 1,000,000) × 出力単価
例を挙げます:Claude Sonnet 4.6 を使用して、1000 Token の質問を送信し、2000 Token の回答を受け取ります:
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033
はい、1 つの会話にはわずか数セント。高いのは回数が多く積み重なるため。
入力 Token:AI に送信するコンテンツ。システムプロンプト、履歴会話記録、新しいメッセージを含む。長いほど高い。
出力 Token:AI が生成した回答。通常、出力価格は入力の 3-5 倍です。これはテキスト生成がテキスト理解よりも多くの計算リソースを消費するためです。
節約のコツ:出力の長さを制御(例えば「1 文で答えて」)。入力を圧縮するよりも効果的です。
現在、完全無料の API レベルモデル:
• Zhipu GLM-4-Flash:完全無料、速度制限あり
• Llama Self-hosted:モデル無料ですが、自分の GPU サーバーが必要
• Gemini Flash-Lite:Google AI Studio に無料額度あり
• 各社の新規ユーザーボーナス:Anthropic 新規登録で $5 提供、OpenAI 初回チャージ時にボーナスなど
完全無料を望みますか?GLM-4-Flash で日常的な体験に十分です。
API は 429 エラー(Too Many Requests)を返します。請求されませんが、リクエストは失敗します。解決方法:
• リクエスト頻度を低下させ、再試行ロジックを追加(指数バックオフ)
• より高い使用層にアップグレード(通常、より多く充電する必要があります)
• 速度制限がより緩いモデルに切り替え(国産モデルは通常より緩い)
各プラットフォームに使用ダッシュボードがあります:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com で使用量を確認
• Google:AI Studio または Cloud Console
• 国産モデル:各コントロールパネルに使用統計があります
推奨:費用上限とアラートメールを設定して、予期しない大額請求を回避してください。
同じシステムプロンプト(例えば「翻訳アシスタントです...」)を複数回送信する場合、キャッシングを有効にすると、このプロンプト部分は最初のリクエストでのみ全額課金され、後続のリクエストはキャッシュ価格で課金されます(通常は元の価格の 10-25%)。
DeepSeek のキャッシングは特に顕著です:キャッシュヒット $0.028 vs 未ヒット $0.28、差は 10 倍。アプリケーションに固定の長いシステムプロンプトがある場合、キャッシングを有効にすることは必須です。