💰 가장 저렴한 AI 모델 순위
저예산 유저 복음 — 완전 무료부터 제일 비싼 플래그십 모델까지, 다 순위로 정렬했어. 계산서를 최대한 낮추는 5가지 절약 기술도 있어.
🏆 비용 순위 (저렴한 것부터 비싼 것까지)
| # | 모델 | 변형 | 입력 ($/M) | 출력 ($/M) |
|---|---|---|---|---|
| #1 | 🧪 智谱 GLM | GLM-4-Flash 무료 | 무료 | 무료 |
| #2 | 🦙 Llama | 자체 호스팅 (Self-hosted) 무료 | 무료 | 무료 |
| #3 | ☁️ 通义千问 | Qwen3.5-Flash | $0.028 | $0.28 |
| #4 | 🔬 DeepSeek | V3.2 (캐시 히트) | $0.028 | $0.42 |
| #5 | 🫘 두바오 | 1.5 Lite | $0.042 | $0.083 |
| #6 | ⚡ MiniMax | abab6.5 | $0.069 | $0.14 |
| #7 | 💎 Gemini | 2.5 Flash-Lite | $0.1 | $0.4 |
| #8 | 🫘 두바오 | 1.5 Pro | $0.11 | $0.28 |
| #9 | ☁️ 通义千问 | Qwen3.5-Plus | $0.11 | $0.67 |
| #10 | 🦙 Llama | Llama 4 Scout (API) | $0.12 | $0.35 |
| #11 | 🌙 Kimi | K1.5 | $0.14 | $0.56 |
| #12 | ⚡ MiniMax | Text-01 | $0.14 | $1.39 |
| #13 | 🤖 GPT | GPT-4o-mini | $0.15 | $0.6 |
| #14 | 🦙 Llama | Llama 4 Maverick (API) | $0.2 | $0.6 |
| #15 | 🔬 DeepSeek | V3.2 (캐시 미스) | $0.28 | $0.42 |
| #16 | 🌙 Kimi | K2 | $0.28 | $0.83 |
| #17 | 💎 Gemini | 2.5 Flash | $0.3 | $2.5 |
| #18 | ☁️ 通义千问 | Qwen3-Max | $0.35 | $1.4 |
| #19 | 🧠 Claude | Haiku 4.5 | $1.0 | $5.0 |
| #20 | 🤖 GPT | o4-mini | $1.1 | $4.4 |
| #21 | 💎 Gemini | 2.5 Pro | $1.25 | $10.0 |
| #22 | 🤖 GPT | o3 | $2.0 | $8.0 |
| #23 | 🤖 GPT | GPT-4o | $2.5 | $10.0 |
| #24 | 🧠 Claude | Sonnet 4.6 | $3.0 | $15.0 |
| #25 | 🧠 Claude | Opus 4.6 | $5.0 | $25.0 |
| #26 | 🧪 智谱 GLM | GLM-4-Plus | $6.94 | $6.94 |
🆓 무료 모델 추천
완전 무료, 비용 0이야. 속도 제한이 있지만 개인 학습과 가벼운 개발은 충분해. 중국어 이해도 꽤 좋고, 입문 첫 선택으로 꼭 추천해.
모델은 완전 오픈소스 무료야. 하지만 직접 GPU 서버가 필요해. 기술팀이 있고 호출량이 많은 회사에 딱 맞아. 장기적으로 봤을 때 가장 저렴해.
🎯 5가지 절약 기술
1. 캐시 활용하기 (Prompt Caching)
너의 system prompt가 길고 자주 안 바뀐다면 캐시를 켜서 입력 비용을 대폭 줄여. DeepSeek의 캐시 히트 가격은 원가의 1/10이야. Anthropic과 OpenAI도 prompt caching을 지원해.
2. 프롬프트 압축 (Prompt Compression)
복잡한 프롬프트를 핵심 지령으로 압축해. "다음 기사를 영어로 번역해 주세요. 정확하고 부드럽게" → "영어로 번역". Token이 적으니 비용도 적어.
3. 모델 라우팅 (Model Routing)
모든 작업이 최강 모델을 필요로 하진 않아. 간단한 분류는 GPT-4o-mini ($0.15/M), 복잡한 추론은 Claude Opus ($5/M). 작은 모델로 먼저 작업 난이도를 판단하고 대모델을 부르면 비용을 70% 이상 줄일 수 있어.
4. Batch API (배치 API)
OpenAI의 Batch API 가격은 실시간 API의 50%야. 최대 24시간을 기다려야 하지만. 급하지 않은 대량 작업엔 배치 인터페이스만 써도 비용을 반으로 줄여.
5. 피크 시간 피하기 + 예산 알림
API 비용 상한선과 알림을 설정해서 코드 버그로 인한 예상 밖의 큰 계산서를 피해. 많은 개발자의 첫 큰 계산서는 무한 호출 버그 때문이야...
📌 시나리오별 추천
학생/개인 학습
예산 $0-5/월: GLM-4-Flash (무료) 또는 Gemini Flash-Lite ($0.10/M 입력). 충분하고, 저렴해.
추천: GLM-4-Flash독립 개발자
예산 $5-30/월: DeepSeek V3.2 또는 GPT-4o-mini. 가성비의 왕이야. 대부분 개발 시나리오를 커버해.
추천: DeepSeek V3.2소규모 팀
예산 $30-200/월: Gemini 2.5 Flash + Claude Sonnet 혼합 전략. Flash는 일상 작업, Sonnet은 복잡한 작업을.
추천: 혼합 전략대규모 기업
예산 $200+/월: 작업 유형에 따라 모델 라우팅 전략을 선택하거나 Llama 자체 호스팅 고려. 호출량이 많을수록 자체 호스팅이 더 저렴해.
추천: 모델 라우팅 + 자체 호스팅