💰 最省钱的 AI 模型排行

预算党福音 —— 从完全免费到最贵的旗舰模型，全部排好了。还有 5 个省钱技巧帮你把账单压到最低。

这个计算器有帮助吗？

🏆 费用排行榜（从便宜到贵）

#	模型	变体	输入 ($/M)	输出 ($/M)
#1	🧪 智谱 GLM	GLM-4-Flash 免费	免费	免费
#2	🦙 Llama	自部署 (Self-hosted) 免费	免费	免费
#3	☁️ 通义千问	Qwen3.5-Flash	$0.028	$0.28
#4	🔬 DeepSeek	V3.2 (缓存命中)	$0.028	$0.42
#5	🫘 豆包	1.5 Lite	$0.042	$0.083
#6	⚡ MiniMax	abab6.5	$0.069	$0.14
#7	💎 Gemini	2.5 Flash-Lite	$0.1	$0.4
#8	🫘 豆包	1.5 Pro	$0.11	$0.28
#9	☁️ 通义千问	Qwen3.5-Plus	$0.11	$0.67
#10	🦙 Llama	Llama 4 Scout (API)	$0.12	$0.35
#11	🌙 Kimi	K1.5	$0.14	$0.56
#12	⚡ MiniMax	Text-01	$0.14	$1.39
#13	🤖 GPT	GPT-4o-mini	$0.15	$0.6
#14	🦙 Llama	Llama 4 Maverick (API)	$0.2	$0.6
#15	🔬 DeepSeek	V3.2 (缓存未命中)	$0.28	$0.42
#16	🌙 Kimi	K2	$0.28	$0.83
#17	💎 Gemini	2.5 Flash	$0.3	$2.5
#18	☁️ 通义千问	Qwen3-Max	$0.35	$1.4
#19	🧠 Claude	Haiku 4.5	$1.0	$5.0
#20	🤖 GPT	o4-mini	$1.1	$4.4
#21	💎 Gemini	2.5 Pro	$1.25	$10.0
#22	🤖 GPT	o3	$2.0	$8.0
#23	🤖 GPT	GPT-4o	$2.5	$10.0
#24	🧠 Claude	Sonnet 4.6	$3.0	$15.0
#25	🧠 Claude	Opus 4.6	$5.0	$25.0
#26	🧪 智谱 GLM	GLM-4-Plus	$6.94	$6.94

🧪 智谱 GLM-4-Flash

完全免费，零费用使用。有速率限制但个人学习和轻度开发完全够用。中文理解能力不错，推荐作为入门首选。

🦙 Llama 自部署

模型完全开源免费，但需要自己的 GPU 服务器。适合有技术团队且调用量大的公司，长期来看最省钱。

如果你的 system prompt 很长且不常变，开启缓存可以大幅降低输入成本。DeepSeek 的缓存命中价格只有原价的 1/10。Anthropic 和 OpenAI 也支持 prompt caching。

把啰嗦的提示词精简到最核心的指令。"请帮我把下面的文章翻译成英文，要求准确通顺自然" → "翻译为英文"。Token 少了，费用就少了。

不是每个任务都需要最强的模型。简单分类用 GPT-4o-mini ($0.15/M)，复杂推理用 Claude Opus ($5/M)。用一个小模型先判断任务难度，再决定调用哪个大模型，能省 70%+ 的费用。

OpenAI 的 Batch API 价格只有实时 API 的 50%，但需要等最多 24 小时。如果不急，用批量接口可以直接砍半费用。

设置 API 费用上限和告警，避免代码 bug 导致的意外大额账单。很多开发者的第一笔大账单都是因为死循环调用 API……

预算 $0-5/月：GLM-4-Flash（免费）或 Gemini Flash-Lite（$0.10/M 输入）。够用、够便宜。

预算 $5-30/月：DeepSeek V3.2 或 GPT-4o-mini。性价比之王，能覆盖大多数开发场景。

预算 $30-200/月：Gemini 2.5 Flash + Claude Sonnet 混合使用。Flash 处理日常任务，Sonnet 处理复杂任务。

预算 $200+/月：根据任务类型选择模型路由策略，或考虑 Llama 自部署。量越大，自部署越划算。