❓ Preguntas frecuentes sobre costos de Token

¿Primero con API IA? Aquí las preguntas más comunes, explicadas claras.

¿Te ayudó esta calculadora?

📖 Preguntas frecuentes

Haz clic para expandir respuesta ↓

¿Qué es Token?

Token es unidad mínima que IA procesa, como "byte" de texto. Pero no = carácter:

Chino:1 carácter ≈ 1-2 Token ("你好世界" ≈ 4-6 Token)
Inglés:1 palabra ≈ 1-1.5 Token ("Hello World" ≈ 2 Token)
Código:Puntuación, keyword, cada uno Token, línea ~5-20 Token

Memoria simple:1000 Token ≈ 750 caracteres chino ≈ 500 palabra inglés

¿Cómo calculo costo Token?

Costo = (Tokens entrada / 1,000,000) × precio entrada + (Tokens salida / 1,000,000) × precio salida

Ejemplo: Claude Sonnet 4.6, envías 1000 Token pregunta, recibes 2000 Token respuesta:
Costo = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

Sí, una chat solo pocos centavos. Caro acumula mucho uso.

¿Diferencia Token entrada vs salida?

Tokens entrada:Que envías IA, system prompt, historial chat, tu mensaje. Más largo más caro.
Tokens salida:Respuesta IA genera. Generalmente salida 3-5x entrada precio, porque generar > entender computacionalmente.

Truco: Control longitud salida ("responde en una frase") mejor que comprimir entrada.

¿Modelos IA gratis?

Completamente gratis API nivel:

Zhipu GLM-4-Flash:Completamente gratis, límites tasa
Llama autohospedado:Modelo gratis, necesitas servidor GPU
Gemini Flash-Lite:Google AI Studio crédito gratis
Nuevos usuarios de cada:Anthropic regala $5, OpenAI primer cargo bonus, etc

¿Gratis total? GLM-4-Flash suficiente cotidiano.

¿Rate limit (límite tasa) qué?

API retorna 429 (Too Many Requests). No se cobra, solicitud falla. Solución:

• Baja frecuencia, retry logic (exponential backoff)
• Mejora a nivel más alto (requiere más dinero)
• Cambia modelo con límite más relajado (domésticos mejor)

¿Cómo monitor uso API y costo?

Cada plataforma tablero:

OpenAI:platform.openai.com/usage
Anthropic:console.anthropic.com usa
Google:AI Studio o Cloud Console
Doméstico:Cada consola propia estadística

Recomendación: Límite costo + alerta email, evita factura sorpresa grande.

¿Caché (cache) ahorra cómo?

Envías mismo system prompt múltiple (ej "eres asistente traducción..."), caché activo, parte prompt solo primer request precio total, after requests precio caché (10-25% original).

DeepSeek caché especial: caché hit $0.028 vs miss $0.28, ¡10x! Si app tiene system prompt largo fijo, caché obligatorio.

💡 ¿Más preguntas? Ve calculadora genérica mismo calcula, o ve FAQ cada modelo (cada página modelo pie tiene).