❓ AI Token fee सामान्य प्रश्न
पहली बार AI API billing से deal कर रहे? सबसे ज़्यादा ask किए गए सवाल यहाँ हैं, simple शब्दों में explain किए।
📖 सामान्य प्रश्न
प्रश्न पर क्लिक करो, जवाब खुल जाएगा ↓
Token को AI model द्वारा text process करने की smallest unit समझो, "byte" जैसा कुछ। पर Token character से अलग होता है:
चीनी:1 character ≈ 1-2 Tokens ("नमस्ते दुनिया" ≈ 4-6 Tokens)
अंग्रेज़ी:1 शब्द ≈ 1-1.5 Tokens ("Hello World" ≈ 2 Tokens)
कोड:punctuation, keywords सब अलग-अलग Token लेते हैं, एक line कोड usually 5-20 Tokens
simply याद रखो:1000 Tokens ≈ 750 characters ≈ 500 English words。
cost = (input Tokens / 1,000,000) × input price + (output Tokens / 1,000,000) × output price
example: Claude Sonnet 4.6 use करते हो, 1000 Token question भेजते हो, 2000 Token जवाब मिलता है:
cost = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033
हाँ, एक conversation कुछ cents ही होता है। महँगापन तब आता है जब बहुत सारे accumulate होते हैं।
input Tokens:जो तुम AI को भेजते हो, system prompt, previous conversation, तुम्हारा नया message। जितना बड़ा, उतना महँगा।
output Tokens:AI का reply। usually output price input का 3-5x होता है, क्योंकि generate करना समझने से ज़्यादा compute लगता है।
money-saving: output length limit करना (जैसे "एक line में answer दो") ज़्यादा effective है input compress करने से।
अभी completely फ्री API-level models:
• GLM-4-Flash:completely फ्री, rate limit है
• Llama self-hosted:model free है, पर तुम्हें GPU server चाहिए
• Gemini Flash-Lite:Google AI Studio में फ्री credits
• हर vendor के नए users को bonus:Anthropic $5 gift, OpenAI initial recharge gift आदि
free में try करना चाहते हो? GLM-4-Flash से शुरू करो, everyday use के लिए काफ़ी है।
API 429 error return करता है (Too Many Requests)। charge नहीं होता, पर request fail हो जाती है। fix:
· request frequency कम करो, retry logic add करो (exponential backoff)
· higher usage tier upgrade करो (usually recharge चाहिए)
· looser rate limit वाले model में switch करो (Chinese models usually more relaxed होते हैं)
हर platform का usage dashboard है:
• OpenAI:platform.openai.com/usage
• Anthropic:console.anthropic.com में usage check करो
• Google:AI Studio या Cloud Console
• Chinese models:उनके अपने console में usage stats हैं
tip: cost limit और alert email set करो, unexpected big bills से बचो।
अगर तुम बार-बार same system prompt ("तुम एक translator हो...") भेजते हो, caching enable करने से यह part सिर्फ़ first request पर full price, subsequent requests पर cache price (usually original का 10-25%)।
DeepSeek का cache खासतौर पर clear है: cache hit $0.028 vs miss $0.28, 10x difference। अगर तुम्हारे app का long fixed system prompt है तो caching must-have है।