❓ Perguntas frequentes sobre custos de Token
Primeira vez com API IA? Aqui as perguntas mais comuns, explicadas direto.
📖 Perguntas frequentes
Clica pra expandir resposta ↓
Token é unidade mínima que IA processa, como "byte" de texto. Mas não = caractere:
Chinês:1 caractere ≈ 1-2 Token ("你好世界" ≈ 4-6 Token)
Inglês:1 palavra ≈ 1-1.5 Token ("Hello World" ≈ 2 Token)
Código:Pontuação, keyword, cada um Token, linha ~5-20 Token
Lembrete simples:1.000 Token ≈ 750 caracteres chinês ≈ 500 palavra inglês。
Custo = (Tokens entrada / 1.000.000) × preço entrada + (Tokens saída / 1.000.000) × preço saída
Exemplo: Claude Sonnet 4.6, você envia 1.000 Token pergunta, recebe 2.000 Token resposta:
Custo = (1.000/1M) × $3 + (2.000/1M) × $15 = $0.003 + $0.03 = $0.033
Sim, um chat só alguns centavos. Caro acumula muito uso.
Tokens entrada:O que você envia IA, system prompt, histórico chat, sua mensagem. Mais longo mais caro.
Tokens saída:Resposta IA gera. Geralmente saída 3-5x entrada preço, porque gerar > entender computacionalmente.
Dica: Controla comprimento saída ("responde numa frase") melhor que comprimir entrada.
Completamente grátis nível API:
• Zhipu GLM-4-Flash:Completamente grátis, limites de taxa
• Llama auto-hospedado:Modelo grátis, você precisa servidor GPU
• Gemini Flash-Lite:Google AI Studio crédito grátis
• Novos usuários cada:Anthropic dá $5, OpenAI primeiro depósito bonus, etc
Totalmente grátis? GLM-4-Flash é suficiente diário.
API retorna 429 (Too Many Requests). Não cobra, requisição falha. Solução:
• Baixa frequência, retry logic (exponential backoff)
• Muda pra nível maior (precisa mais dinheiro)
• Muda modelo com limite mais relaxado (domésticos melhor)
Cada plataforma tem dashboard:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com uso
• Google:AI Studio ou Cloud Console
• Doméstico:Cada console próprio estatístico
Recomendação: Limita custo + alerta email, evita factura surpreende grande.
Você envia mesmo system prompt múltiplo (ex "você é assistente tradução..."), cache ativo, parte prompt só primeiro request preço total, after requests preço cache (10-25% original).
DeepSeek cache especial: cache hit $0.028 vs miss $0.28, 10x! Se sua app tem system prompt longo fixo, cache obrigatório.