❓ AI Token 費用についてよくある質問

AI API 課金に初めて接触しますか?ここで最もよく尋ねられる質問をまとめました。平易な言葉で説明します。

この計算機は役に立ちましたか?

📖 よくある質問

質問をクリックして回答を展開します ↓

Token とは何ですか?

Token を AI モデルが処理するテキストの最小単位として理解できます。「バイト」に似ています。しかし Token は文字と同等ではありません:

中国語:1 つの漢字 ≈ 1-2 Token(「你好世界」 ≈ 4-6 Token)
英語:1 つの単語 ≈ 1-1.5 Token(「Hello World」 ≈ 2 Token)
コード:句読点、キーワードも各 Token を占有し、1 行のコードは通常 5-20 Token

簡単に覚える:1000 Token ≈ 750 漢字 ≈ 500 英単語

Token 費用をどのように計算しますか?

費用 = (入力 Token 数 / 1,000,000) × 入力単価 + (出力 Token 数 / 1,000,000) × 出力単価

例を挙げます:Claude Sonnet 4.6 を使用して、1000 Token の質問を送信し、2000 Token の回答を受け取ります:
費用 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

はい、1 つの会話にはわずか数セント。高いのは回数が多く積み重なるため。

入力 Token と出力 Token の違いは何ですか?

入力 Token:AI に送信するコンテンツ。システムプロンプト、履歴会話記録、新しいメッセージを含む。長いほど高い。
出力 Token:AI が生成した回答。通常、出力価格は入力の 3-5 倍です。これはテキスト生成がテキスト理解よりも多くの計算リソースを消費するためです。

節約のコツ:出力の長さを制御(例えば「1 文で答えて」)。入力を圧縮するよりも効果的です。

無料の AI モデルにはどのようなものがありますか?

現在、完全無料の API レベルモデル:

Zhipu GLM-4-Flash:完全無料、速度制限あり
Llama Self-hosted:モデル無料ですが、自分の GPU サーバーが必要
Gemini Flash-Lite:Google AI Studio に無料額度あり
各社の新規ユーザーボーナス:Anthropic 新規登録で $5 提供、OpenAI 初回チャージ時にボーナスなど

完全無料を望みますか?GLM-4-Flash で日常的な体験に十分です。

レート制限(Rate Limit)に達するとどうなりますか?

API は 429 エラー(Too Many Requests)を返します。請求されませんが、リクエストは失敗します。解決方法:

• リクエスト頻度を低下させ、再試行ロジックを追加(指数バックオフ)
• より高い使用層にアップグレード(通常、より多く充電する必要があります)
• 速度制限がより緩いモデルに切り替え(国産モデルは通常より緩い)

API の使用量と費用をどのように監視しますか?

各プラットフォームに使用ダッシュボードがあります:

OpenAI:platform.openai.com/usage
Anthropic:console.anthropic.com で使用量を確認
Google:AI Studio または Cloud Console
国産モデル:各コントロールパネルに使用統計があります

推奨:費用上限とアラートメールを設定して、予期しない大額請求を回避してください。

キャッシング(Caching)はどのようにして費用を削減しますか?

同じシステムプロンプト(例えば「翻訳アシスタントです...」)を複数回送信する場合、キャッシングを有効にすると、このプロンプト部分は最初のリクエストでのみ全額課金され、後続のリクエストはキャッシュ価格で課金されます(通常は元の価格の 10-25%)。

DeepSeek のキャッシングは特に顕著です:キャッシュヒット $0.028 vs 未ヒット $0.28、差は 10 倍。アプリケーションに固定の長いシステムプロンプトがある場合、キャッシングを有効にすることは必須です。

💡 他に質問がありますか? ユニバーサル計算機 で自分で計算してみてください。また、特定のモデルのよくある質問を確認してください(各モデルページの下部に)。