❓ AI Token fee सामान्य प्रश्न

पहली बार AI API billing से deal कर रहे? सबसे ज़्यादा ask किए गए सवाल यहाँ हैं, simple शब्दों में explain किए।

क्या यह कैलकुलेटर मददगार रहा?

📖 सामान्य प्रश्न

प्रश्न पर क्लिक करो, जवाब खुल जाएगा ↓

Token क्या होता है?

Token को AI model द्वारा text process करने की smallest unit समझो, "byte" जैसा कुछ। पर Token character से अलग होता है:

चीनी:1 character ≈ 1-2 Tokens ("नमस्ते दुनिया" ≈ 4-6 Tokens)
अंग्रेज़ी:1 शब्द ≈ 1-1.5 Tokens ("Hello World" ≈ 2 Tokens)
कोड:punctuation, keywords सब अलग-अलग Token लेते हैं, एक line कोड usually 5-20 Tokens

simply याद रखो:1000 Tokens ≈ 750 characters ≈ 500 English words。

Token fee कैसे calculate करते हो?

cost = (input Tokens / 1,000,000) × input price + (output Tokens / 1,000,000) × output price

example: Claude Sonnet 4.6 use करते हो, 1000 Token question भेजते हो, 2000 Token जवाब मिलता है:
cost = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

हाँ, एक conversation कुछ cents ही होता है। महँगापन तब आता है जब बहुत सारे accumulate होते हैं।

input Tokens और output Tokens में क्या फर्क है?

input Tokens:जो तुम AI को भेजते हो, system prompt, previous conversation, तुम्हारा नया message। जितना बड़ा, उतना महँगा।
output Tokens:AI का reply। usually output price input का 3-5x होता है, क्योंकि generate करना समझने से ज़्यादा compute लगता है।

money-saving: output length limit करना (जैसे "एक line में answer दो") ज़्यादा effective है input compress करने से।

कुछ models completely फ्री हैं?

अभी completely फ्री API-level models:

• GLM-4-Flash:completely फ्री, rate limit है
• Llama self-hosted:model free है, पर तुम्हें GPU server चाहिए
• Gemini Flash-Lite：Google AI Studio में फ्री credits
• हर vendor के नए users को bonus:Anthropic $5 gift, OpenAI initial recharge gift आदि

free में try करना चाहते हो? GLM-4-Flash से शुरू करो, everyday use के लिए काफ़ी है।

Rate Limit (429 error) hit करो तो क्या होता है?

API 429 error return करता है (Too Many Requests)। charge नहीं होता, पर request fail हो जाती है। fix:

· request frequency कम करो, retry logic add करो (exponential backoff)
· higher usage tier upgrade करो (usually recharge चाहिए)
· looser rate limit वाले model में switch करो (Chinese models usually more relaxed होते हैं)

API usage और cost कैसे monitor करते हो?

हर platform का usage dashboard है:

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com में usage check करो
• Google：AI Studio या Cloud Console
• Chinese models:उनके अपने console में usage stats हैं

tip: cost limit और alert email set करो, unexpected big bills से बचो।

Caching कैसे cost save करती है?

अगर तुम बार-बार same system prompt ("तुम एक translator हो...") भेजते हो, caching enable करने से यह part सिर्फ़ first request पर full price, subsequent requests पर cache price (usually original का 10-25%)।

DeepSeek का cache खासतौर पर clear है: cache hit $0.028 vs miss $0.28, 10x difference। अगर तुम्हारे app का long fixed system prompt है तो caching must-have है।

💡 कोई और सवाल? general calculator में जाकर खुद calculate करो, या हर model page के bottom पर FAQ देखो।