❓ Häufig gestellte Fragen zu KI Token-Gebühren
First time mit KI API Billing? Hier die häufigsten Fragen, erklärt in einfachen Worten.
📖 Häufig gestellte Fragen
Klick eine Frage um die Antwort zu expandieren ↓
Ein Token ist die kleinste Unit die ein KI-Modell verarbeitet, wie ein "Byte". Aber Token ≠ Zeichen:
Chinesisch:1 Zeichen ≈ 1-2 Tokens ("你好世界" ≈ 4-6 Tokens)
Englisch:1 Wort ≈ 1-1,5 Token ("Hello World" ≈ 2 Tokens)
Code:Punctuation, Keywords, jedes ≈ 1 Token, eine Zeile ≈ 5-20 Tokens
Faustregel:1000 Tokens ≈ 750 chinesische Zeichen ≈ 500 englische Wörter。
Kosten = (Eingabe Tokens / 1.000.000) × Eingabe-Preis + (Ausgabe Tokens / 1.000.000) × Ausgabe-Preis
Beispiel: Claude Sonnet 4.6, du sendest 1000 Tokens, bekommst 2000 Tokens zurück:
Kosten = (1000/1M) × $3 + (2000/1M) × $15 = $0,003 + $0,03 = $0.033
Ja, ein Chat kostet nur Cents. Teuer wird es wenn du viel rufst.
Eingabe Tokens:Was du zur KI sendest, System Prompt, Chat-Historie, deine Nachricht. Je länger = teurer.
Ausgabe Tokens:Die Antwort der KI. Normalerweise 3-5x teurer als Eingabe, Text generieren kostet mehr als Text verstehen.
Spar-Tipp: Output-Länge kontrollieren (z.B. "antworte in einem Satz") ist effizienter als Input komprimieren.
Aktuell komplett kostenlose API-Modelle:
• Zhipu GLM-4-Flash:Komplett kostenlos, hat Request-Limit
• Llama Self-hosted:Modell kostenlos, aber brauchst deinen GPU-Server
• Gemini Flash-Lite:Google AI Studio hat kostenloses Budget
• Neukunden-Guthaben:Anthropic gibt $5, OpenAI First-Deposit-Bonus, etc.
Willst kostenlos spielen? GLM-4-Flash reicht zum Teste.
API gibt 429 Error (Too Many Requests) zurück. Nicht berechnet, aber Request failt. Wie fixen:
• Verlangsame Requests, add exponential retry
• Upgrade zu höherem Tier (braucht mehr Kredit)
• Switch zu weniger limitiertem Modell (chinesische Modelle meist permissiver)
Jede Plattform hat Dashboard:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com für Usage-Tracking
• Google:AI Studio oder Google Cloud Console
• Chinesische Modelle:Jeder hat sein Usage-Dashboard
Tipp: Setz Budget-Limit und Mail-Alarm, vermeid Surprise-Bills.
Wenn du den gleichen System Prompt mehrfach sendest (z.B. "du bist Übersetzer..."), cached das System, erste Request full-price, danach Cache-Preis (~10-25% des Preises).
DeepSeek ist krass: Cache-Hit $0,028 vs Miss $0,28, 10x billiger. App mit langer fester System Prompt? Cache ist Pflicht.