❓ Questions fréquentes sur les frais Token IA
C'est ton premier contact avec la facturation API IA ? Voici les questions les plus courantes, expliquées en termes simples.
📖 Questions fréquentes
Clique sur une question pour voir la réponse ↓
Un Token c'est l'unité minimale qu'un modèle IA traite, comme le "byte". Mais Token ≠ caractère :
Chinois :1 caractère ≈ 1-2 Tokens ("你好世界" ≈ 4-6 Tokens)
Anglais :1 mot ≈ 1-1,5 Token ("Hello World" ≈ 2 Tokens)
Code :Ponctuation, mots-clés, chacun ≈ 1 Token, une ligne c'est 5-20 Tokens
Règle simple :1000 Tokens ≈ 750 caractères chinois ≈ 500 mots anglais。
Coût = (Tokens entrée / 1 000 000) × prix entrée + (Tokens sortie / 1 000 000) × prix sortie
Exemple : Claude Sonnet 4.6, tu envoies 1000 Tokens, la réponse c'est 2000 Tokens :
Coût = (1000/1M) × $3 + (2000/1M) × $15 = $0,003 + $0,03 = $0.033
Oui, une conversation c'est juste quelques centimes. Cher = t'appelles plein de fois.
Tokens entrée :Ce que tu envoies à l'IA, system prompt, historique chat, ta demande. Plus long = plus cher.
Tokens sortie :La réponse de l'IA. Normalement sortie coûte 3-5 fois plus que entrée, générer c'est plus gourmand en puissance que lire.
Truc économie : Contrôle la longueur de sortie (genre "réponds en une phrase"), c'est plus efficace que compresser l'entrée.
Modèles API vraiment gratuits en ce moment :
• Zhipu GLM-4-Flash :Totalement gratuit, y a une limite de débit
• Llama auto-hébergement :Modèle gratuit, mais faut ton serveur GPU
• Gemini Flash-Lite:Google AI Studio a un crédit gratuit
• Crédits nouveaux utilisateurs :Anthropic donne $5, OpenAI premier dépôt a bonus, etc.
Veux tu gratuitement ? GLM-4-Flash suffit pour jouer.
L'API renvoie erreur 429 (Too Many Requests). Pas débité, mais requête échoue. Comment arranger :
• Ralentis les appels, ajoute retry exponential
• Upgrade vers un tier plus haut (besoin plus de crédit)
• Bascule vers modèle moins limité (modèles chinois généralement plus permissifs)
Chaque plateforme a un dashboard :
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com pour tracker usage
• Google:AI Studio ou Google Cloud Console
• Modèles chinois :Chacun a son dashboard usage
Conseil : Mets un plafond budget et alerte mail, évite les surprises gros débit.
Si tu envoies le même system prompt plusieurs fois (genre "tu es traducteur..."), le cache gardé, première fois prix plein, suite prix cache (~10-25% du prix).
DeepSeek c'est super : cache trouvé $0,028 vs miss $0,28, x10 moins cher. Appli avec long system prompt fixe ? Cache obligatoire.