❓ Perguntas frequentes sobre custos de Token

Primeira vez com API IA? Aqui as perguntas mais comuns, explicadas direto.

Essa calculadora foi útil?

📖 Perguntas frequentes

Clica pra expandir resposta ↓

O que é Token?

Token é unidade mínima que IA processa, como "byte" de texto. Mas não = caractere:

Chinês:1 caractere ≈ 1-2 Token ("你好世界" ≈ 4-6 Token)
Inglês:1 palavra ≈ 1-1.5 Token ("Hello World" ≈ 2 Token)
Código:Pontuação, keyword, cada um Token, linha ~5-20 Token

Lembrete simples:1.000 Token ≈ 750 caracteres chinês ≈ 500 palavra inglês。

Como calculo custo de Token?

Custo = (Tokens entrada / 1.000.000) × preço entrada + (Tokens saída / 1.000.000) × preço saída

Exemplo: Claude Sonnet 4.6, você envia 1.000 Token pergunta, recebe 2.000 Token resposta:
Custo = (1.000/1M) × $3 + (2.000/1M) × $15 = $0.003 + $0.03 = $0.033

Sim, um chat só alguns centavos. Caro acumula muito uso.

Qual é a diferença Token entrada vs saída?

Tokens entrada:O que você envia IA, system prompt, histórico chat, sua mensagem. Mais longo mais caro.
Tokens saída:Resposta IA gera. Geralmente saída 3-5x entrada preço, porque gerar > entender computacionalmente.

Dica: Controla comprimento saída ("responde numa frase") melhor que comprimir entrada.

Tem modelo IA grátis?

Completamente grátis nível API:

• Zhipu GLM-4-Flash:Completamente grátis, limites de taxa
• Llama auto-hospedado:Modelo grátis, você precisa servidor GPU
• Gemini Flash-Lite：Google AI Studio crédito grátis
• Novos usuários cada:Anthropic dá $5, OpenAI primeiro depósito bonus, etc

Totalmente grátis? GLM-4-Flash é suficiente diário.

O que é rate limit (limite de taxa)?

API retorna 429 (Too Many Requests). Não cobra, requisição falha. Solução:

• Baixa frequência, retry logic (exponential backoff)
• Muda pra nível maior (precisa mais dinheiro)
• Muda modelo com limite mais relaxado (domésticos melhor)

Como monitoro uso API e custo?

Cada plataforma tem dashboard:

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com uso
• Google：AI Studio ou Cloud Console
• Doméstico:Cada console próprio estatístico

Recomendação: Limita custo + alerta email, evita factura surpreende grande.

Como cache (cache) economiza?

Você envia mesmo system prompt múltiplo (ex "você é assistente tradução..."), cache ativo, parte prompt só primeiro request preço total, after requests preço cache (10-25% original).

DeepSeek cache especial: cache hit $0.028 vs miss $0.28, 10x! Se sua app tem system prompt longo fixo, cache obrigatório.

💡 Mais pergunta? Vai calculadora genérica você mesmo calcula, ou ve FAQ cada modelo (cada página modelo rodapé tem).