❓ AI Token 費用についてよくある質問

AI API 課金に初めて接触しますか？ここで最もよく尋ねられる質問をまとめました。平易な言葉で説明します。

この計算機は役に立ちましたか？

📖 よくある質問

質問をクリックして回答を展開します ↓

Token とは何ですか？

Token を AI モデルが処理するテキストの最小単位として理解できます。「バイト」に似ています。しかし Token は文字と同等ではありません：

中国語：1 つの漢字 ≈ 1-2 Token（「你好世界」 ≈ 4-6 Token）
英語：1 つの単語 ≈ 1-1.5 Token（「Hello World」 ≈ 2 Token）
コード：句読点、キーワードも各 Token を占有し、1 行のコードは通常 5-20 Token

簡単に覚える：1000 Token ≈ 750 漢字 ≈ 500 英単語。

Token 費用をどのように計算しますか？

費用 = (入力 Token 数 / 1,000,000) × 入力単価 + (出力 Token 数 / 1,000,000) × 出力単価

例を挙げます：Claude Sonnet 4.6 を使用して、1000 Token の質問を送信し、2000 Token の回答を受け取ります：
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

はい、1 つの会話にはわずか数セント。高いのは回数が多く積み重なるため。

入力 Token と出力 Token の違いは何ですか？

入力 Token：AI に送信するコンテンツ。システムプロンプト、履歴会話記録、新しいメッセージを含む。長いほど高い。
出力 Token：AI が生成した回答。通常、出力価格は入力の 3-5 倍です。これはテキスト生成がテキスト理解よりも多くの計算リソースを消費するためです。

節約のコツ：出力の長さを制御（例えば「1 文で答えて」）。入力を圧縮するよりも効果的です。

無料の AI モデルにはどのようなものがありますか？

現在、完全無料の API レベルモデル：

• Zhipu GLM-4-Flash：完全無料、速度制限あり
• Llama Self-hosted：モデル無料ですが、自分の GPU サーバーが必要
• Gemini Flash-Lite：Google AI Studio に無料額度あり
• 各社の新規ユーザーボーナス：Anthropic 新規登録で $5 提供、OpenAI 初回チャージ時にボーナスなど

完全無料を望みますか？GLM-4-Flash で日常的な体験に十分です。

レート制限（Rate Limit）に達するとどうなりますか？

API は 429 エラー（Too Many Requests）を返します。請求されませんが、リクエストは失敗します。解決方法：

• リクエスト頻度を低下させ、再試行ロジックを追加（指数バックオフ）
• より高い使用層にアップグレード（通常、より多く充電する必要があります）
• 速度制限がより緩いモデルに切り替え（国産モデルは通常より緩い）

API の使用量と費用をどのように監視しますか？

各プラットフォームに使用ダッシュボードがあります：

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com で使用量を確認
• Google：AI Studio または Cloud Console
• 国産モデル：各コントロールパネルに使用統計があります

推奨：費用上限とアラートメールを設定して、予期しない大額請求を回避してください。

キャッシング（Caching）はどのようにして費用を削減しますか？

同じシステムプロンプト（例えば「翻訳アシスタントです...」）を複数回送信する場合、キャッシングを有効にすると、このプロンプト部分は最初のリクエストでのみ全額課金され、後続のリクエストはキャッシュ価格で課金されます（通常は元の価格の 10-25%）。

DeepSeek のキャッシングは特に顕著です：キャッシュヒット $0.028 vs 未ヒット $0.28、差は 10 倍。アプリケーションに固定の長いシステムプロンプトがある場合、キャッシングを有効にすることは必須です。

💡 他に質問がありますか？ユニバーサル計算機で自分で計算してみてください。また、特定のモデルのよくある質問を確認してください（各モデルページの下部に）。