❓ Häufig gestellte Fragen zu KI Token-Gebühren

First time mit KI API Billing? Hier die häufigsten Fragen, erklärt in einfachen Worten.

War dieser Rechner hilfreich?

📖 Häufig gestellte Fragen

Klick eine Frage um die Antwort zu expandieren ↓

Was ist ein Token?

Ein Token ist die kleinste Unit die ein KI-Modell verarbeitet, wie ein "Byte". Aber Token ≠ Zeichen:

Chinesisch:1 Zeichen ≈ 1-2 Tokens ("你好世界" ≈ 4-6 Tokens)
Englisch:1 Wort ≈ 1-1,5 Token ("Hello World" ≈ 2 Tokens)
Code:Punctuation, Keywords, jedes ≈ 1 Token, eine Zeile ≈ 5-20 Tokens

Faustregel:1000 Tokens ≈ 750 chinesische Zeichen ≈ 500 englische Wörter。

Wie kalkuliere ich Token-Kosten?

Kosten = (Eingabe Tokens / 1.000.000) × Eingabe-Preis + (Ausgabe Tokens / 1.000.000) × Ausgabe-Preis

Beispiel: Claude Sonnet 4.6, du sendest 1000 Tokens, bekommst 2000 Tokens zurück:
Kosten = (1000/1M) × $3 + (2000/1M) × $15 = $0,003 + $0,03 = $0.033

Ja, ein Chat kostet nur Cents. Teuer wird es wenn du viel rufst.

Unterschied zwischen Eingabe und Ausgabe Tokens?

Eingabe Tokens:Was du zur KI sendest, System Prompt, Chat-Historie, deine Nachricht. Je länger = teurer.
Ausgabe Tokens:Die Antwort der KI. Normalerweise 3-5x teurer als Eingabe, Text generieren kostet mehr als Text verstehen.

Spar-Tipp: Output-Länge kontrollieren (z.B. "antworte in einem Satz") ist effizienter als Input komprimieren.

Gibt es kostenlose KI-Modelle?

Aktuell komplett kostenlose API-Modelle:

• Zhipu GLM-4-Flash:Komplett kostenlos, hat Request-Limit
• Llama Self-hosted:Modell kostenlos, aber brauchst deinen GPU-Server
• Gemini Flash-Lite：Google AI Studio hat kostenloses Budget
• Neukunden-Guthaben:Anthropic gibt $5, OpenAI First-Deposit-Bonus, etc.

Willst kostenlos spielen? GLM-4-Flash reicht zum Teste.

Was wenn ich Rate Limit treffe?

API gibt 429 Error (Too Many Requests) zurück. Nicht berechnet, aber Request failt. Wie fixen:

• Verlangsame Requests, add exponential retry
• Upgrade zu höherem Tier (braucht mehr Kredit)
• Switch zu weniger limitiertem Modell (chinesische Modelle meist permissiver)

Wie monitore ich API-Nutzung und Kosten?

Jede Plattform hat Dashboard:

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com für Usage-Tracking
• Google：AI Studio oder Google Cloud Console
• Chinesische Modelle:Jeder hat sein Usage-Dashboard

Tipp: Setz Budget-Limit und Mail-Alarm, vermeid Surprise-Bills.

Wie spart Cache (Caching) Geld?

Wenn du den gleichen System Prompt mehrfach sendest (z.B. "du bist Übersetzer..."), cached das System, erste Request full-price, danach Cache-Preis (~10-25% des Preises).

DeepSeek ist krass: Cache-Hit $0,028 vs Miss $0,28, 10x billiger. App mit langer fester System Prompt? Cache ist Pflicht.

💡 Andere Fragen? Geh zum allgemeinen Rechner und rechne selbst, oder check die Model-spezifische FAQ (unten auf jeder Model-Seite).