❓ AI Token 요금 자주 묻는 질문

AI API 과금이 처음이야? 제일 자주 묻는 질문들을 정리했어. 쉬운 말로 설명할게.

이 계산기가 도움이 되었나요?

📖 자주 묻는 질문

질문을 클릭하면 답변이 펼쳐져 ↓

Token이 뭐야?

Token을 AI 모델이 텍스트를 처리하는 최소 단위로 생각해 줘, "바이트" 같은 거야. 하지만 Token은 글자와 다르거든:

중국어:1글자 ≈ 1-2 Token ("니하오세계" ≈ 4-6 Token)
영어:1단어 ≈ 1-1.5 Token ("Hello World" ≈ 2 Token)
코드:구두점, 예약어 등이 각각 Token을 점유, 한 줄 코드는 보통 5-20 Token

쉽게 기억:1000 Token ≈ 750글자 ≈ 500 영문 단어。

Token 요금을 어떻게 계산해?

비용 = (입력 Token 수 / 1,000,000) × 입력 단가 + (출력 Token 수 / 1,000,000) × 출력 단가

예시: Claude Sonnet 4.6 사용, 1000 Token 질문 보냄, 2000 Token 회신 받음:
비용 = (1000/1M) × $3 + (2000/1M) × $15 = $0.003 + $0.03 = $0.033

그래, 한 번 대화는 몇 센트밖에 안 돼. 비용이 드는 건 여러 번 쌓여서야.

입력 Token과 출력 Token의 차이가 뭐야?

입력 Token:AI에 보내는 내용, system prompt, 이전 대화 기록, 너의 새 메시지 포함. 길수록 더 비싸.
출력 Token:AI가 생성한 회신. 보통 출력 가격이 입력의 3-5배야, 텍스트 생성이 이해보다 더 많은 계산력을 써.

절약 팁: 출력 길이를 제한하는 게 ("한 마디로 답변해") 입력을 압축하는 것보다 효과적이야.

완전 무료인 AI 모델이 있어?

현재 완전 무료인 API급 모델들:

• 智谱 GLM-4-Flash:완전 무료, 속도 제한 있음
• Llama 자체 호스팅:모델은 무료인데, 너의 GPU 서버가 필요해
• Gemini Flash-Lite：Google AI Studio 무료 크레딧
• 각 제공사 신규 사용자 보너스:Anthropic 신가입 $5 선물, OpenAI 초기 충전 선물 등

공짜로 써보고 싶어? GLM-4-Flash를 써 봐, 일상 경험으로 충분해.

속도 제한 (Rate Limit)에 걸리면 어떻게 돼?

API가 429 오류를 반환 (Too Many Requests). 과금은 안 되는데 요청이 실패돼. 해결 방법:

· 요청 빈도를 낮추고, 재시도 로직 추가 (지수 백오프)
· 더 높은 사용 등급으로 업그레이드 (보통 충전 필요)
· 속도 제한이 느슨한 모델로 전환 (국산 모델은 보통 더 느슨한 편)

API 사용량과 비용을 어떻게 모니터링해?

각 플랫폼마다 사용 대시보드가 있어:

• OpenAI：platform.openai.com/usage
• Anthropic：console.anthropic.com에서 사용량 확인
• Google：AI Studio 또는 Cloud Console
• 국산 모델:각자의 콘솔에 사용량 통계가 있어

팁: 비용 상한선과 알림 메일을 설정해서 예상 밖의 큰 계산서를 피해.

캐시 (Caching)가 어떻게 비용을 절약해?

너가 같은 system prompt ("넌 번역 어시스턴트야...")를 여러 번 보내면, 캐시를 켜서 이 부분은 첫 요청에만 전체 가격으로 과금되고, 나중 요청은 캐시 가격으로 과금돼 (보통 원래 가격의 10-25%).

DeepSeek의 캐시는 특히 명확해: 캐시 히트 $0.028 vs 미스 $0.28, 10배 차이야. 너의 앱에 고정된 긴 system prompt가 있으면 캐시를 켜는 건 필수야.

💡 다른 질문이 있어? 범용 계산기 로 가서 직접 계산해 봐, 또는 각 모델 페이지 하단의 FAQ를 봐.