OpenRouter 저가 모델 추천! 2026년 가성비 LLM 완벽 가이드
AI 모델을 API로 사용할 때, 비용은 무시할 수 없는 요소입니다. 특히 대량의 문서를 처리하거나 자동화 파이프라인을 구축할 때는 input token 가격이 곧 운영비에 직결됩니다.
OpenRouter는 다양한 AI 모델을 하나의 API 엔드포인트로 통합 제공하는 플랫폼입니다. OpenAI, Google, NVIDIA, Qwen 등 주요 제작사의 모델을 별도 계약 없이 바로 사용할 수 있어, 개인 개발자부터 스타트업까지 폭넓게 활용되고 있습니다.
이 글에서는 2026년 5월 기준 OpenRouter에서 제공하는 input token 가격 $0.10 이하의 저가 모델을 가격대별로 정리하고, 용도별 추천까지 드리겠습니다.
1. 무료 모델 — 비용 제로로 시작하기
별도 비용 없이 사용할 수 있는 모델들입니다. 프로토타이핑, 학습, 소규모 테스트에 적합합니다.
| 모델명 | 제작사 | 컨텍스트 | Input 가격 |
|---|---|---|---|
| Owl Alpha | OpenRouter | 1.05M | $0 |
| Gemma 4 26B A4B | 262K | $0 | |
| Nemotron 3 Super | NVIDIA | 262K | $0 |
| Nemotron 3 Nano 30B A3B | NVIDIA | 262K | $0 |
| Nemotron Nano 12B 2 VL | NVIDIA | 128K | $0 |
| Qwen3 Next 80B A3B Instruct | Qwen | 131K | $0 |
주목할 모델: Owl Alpha는 무료이면서 105만 토큰이라는 압도적인 컨텍스트 윈도우를 제공합니다. 긴 문서를 한 번에 처리해야 하는 경우 무료로 시작하기에 최적입니다. NVIDIA Nemotron 3 시리즈는 262K 컨텍스트에 안정적인 성능으로, 무료 모델 중에서도 실사용 가치가 높습니다.
2. 초저가 모델 ($0.01~0.03) — 대량 처리의 최강자
100만 토큰당 수십 원 수준의 비용으로, 대규모 배치 작업에 이상적입니다.
| 모델명 | 제작사 | 컨텍스트 | Input 가격 |
|---|---|---|---|
| Granite 4.0 Micro | IBM | 131K | $0.017 |
| LFM2-24B-A2B | LiquidAI | 32K | $0.03 |
주목할 모델: IBM Granite 4.0 Micro는 유료 모델 중 최저가($0.017/1M tokens)입니다. 단순 분류, 키워드 추출, 텍스트 정리 등 반복적인 작업에 비용 부담 없이 투입할 수 있습니다. 다만 LiquidAI LFM2는 컨텍스트가 32K로 짧아, 긴 문서 처리 시에는 분할 전략이 필요합니다.
3. 저가 모델 ($0.039~0.05) — 성능과 가격의 황금 비율
이 가격대부터 OpenAI, NVIDIA 등 대형 제작사 모델이 본격적으로 등장합니다.
| 모델명 | 제작사 | 컨텍스트 | Input 가격 |
|---|---|---|---|
| gpt-oss-120b | OpenAI | 1K | $0.039 |
| Trinity Mini | Arcee AI | 131K | $0.045 |
| Nemotron 3 Nano 30B A3B | NVIDIA | 262K | $0.05 |
| GPT-5 Nano | OpenAI | 400K | $0.05 |
| Granite 4.1 8B | IBM | 131K | $0.05 |
주목할 모델: GPT-5 Nano는 이 가격대의 하이라이트입니다. $0.05라는 저렴한 가격에 400K 컨텍스트, 그리고 OpenAI의 최신 GPT-5 아키텍처를 탑재했습니다. 품질과 비용을 동시에 잡고 싶다면 첫 번째 선택지입니다. 단, gpt-oss-120b는 컨텍스트가 1K로 극히 제한적이므로 용도를 신중히 판단해야 합니다.
4. 중저가 모델 ($0.06~0.08) — 특화 기능이 빛나는 구간
비전(VL), 추론(Thinking) 등 특화 기능을 갖춘 모델이 포진한 가격대입니다.
| 모델명 | 제작사 | 컨텍스트 | Input 가격 |
|---|---|---|---|
| Gemma 4 26B A4B | 262K | $0.06 | |
| GLM 4.7 Flash | Z.ai | 203K | $0.06 |
| Qwen3.5-Flash | Qwen | 1M | $0.065 |
| ERNIE 4.5 21B A3B Thinking | Baidu | 131K | $0.07 |
| gpt-oss-safeguard-20b | OpenAI | 131K | $0.075 |
| Phi 4 Mini Instruct | Microsoft | 128K | $0.08 |
| Qwen3 VL 8B Instruct | Qwen | 131K | $0.08 |
주목할 모델: Qwen3.5-Flash는 100만 토큰 컨텍스트를 $0.065에 제공합니다. 긴 문서 분석이 핵심 워크플로우라면, 이 가격대에서 가장 합리적인 선택입니다. 이미지까지 처리해야 한다면 Qwen3 VL 8B가 $0.08로 비전 모델 중 최저가 수준입니다.
5. 중가 모델 ($0.09~0.10) — 추론 능력의 상한선
$0.10 이하 마지노선에서 강력한 추론(Thinking) 모델을 만날 수 있는 구간입니다.
| 모델명 | 제작사 | 컨텍스트 | Input 가격 |
|---|---|---|---|
| Tongyi DeepResearch 30B A3B | Alibaba | 131K | $0.09 |
| Qwen3 Next 80B A3B Thinking | Qwen | 131K | $0.098 |
| Gemini 2.5 Flash Lite Preview | 1.05M | $0.10 | |
| Ministral 3 3B 2512 | Mistral | 131K | $0.10 |
주목할 모델: Gemini 2.5 Flash Lite Preview는 105만 토큰의 최대 컨텍스트에 Google의 안정적인 인프라가 결합됩니다. $0.10이라는 가격으로 사실상 "긴 문서 처리의 끝판왕"이라 할 수 있습니다. 복잡한 추론이 필요하다면 Qwen3 Next 80B Thinking($0.098)이 이 가격대에서 가장 강력한 사고력을 제공합니다.
용도별 추천 정리
대량 텍스트 배치 처리 (분류, 요약, 키워드 추출): IBM Granite 4.0 Micro ($0.017) 또는 무료 NVIDIA Nemotron 시리즈로 시작한 뒤, 품질이 부족하면 GPT-5 Nano ($0.05)로 업그레이드하는 전략이 효율적입니다.
긴 문서 원샷 분석 (계약서, 논문, 보고서): 컨텍스트 크기가 핵심입니다. 무료로는 Owl Alpha (1.05M), 유료로는 Qwen3.5-Flash (1M, $0.065) 또는 Gemini 2.5 Flash Lite (1.05M, $0.10)를 추천합니다.
이미지 포함 멀티모달 처리: Qwen3 VL 8B Instruct ($0.08)가 $0.10 이하 비전 모델 중 가장 접근성이 좋습니다. NVIDIA Nemotron Nano 12B 2 VL은 무료로 비전을 지원합니다.
복잡한 추론/코딩/분석: Qwen3 Next 80B A3B Thinking ($0.098) 또는 ERNIE 4.5 Thinking ($0.07)이 사고 체인(Chain-of-Thought)을 내장한 모델로, 단순 응답 이상의 깊이가 필요할 때 적합합니다.
프로토타이핑/학습/실험: 무료 모델로 충분합니다. Qwen3 Next 80B A3B Instruct (무료, 131K)는 80B급 파라미터를 무료로 제공하므로, 성능 테스트 기준선으로 활용하기 좋습니다.
비용 시뮬레이션: 실제로 얼마나 들까?
하루 100만 토큰(약 75만 단어)을 input으로 사용한다고 가정하면, 월간(30일) 비용은 다음과 같습니다.
| 모델 | Input 가격 | 월간 비용 (30일) |
|---|---|---|
| 무료 모델 | $0 | $0 |
| Granite 4.0 Micro | $0.017 | $0.51 |
| GPT-5 Nano | $0.05 | $1.50 |
| Qwen3.5-Flash | $0.065 | $1.95 |
| Gemini 2.5 Flash Lite | $0.10 | $3.00 |
하루 100만 토큰을 써도 월 $3 이하라는 사실은, 개인 개발자나 소규모 팀에게 AI 자동화의 진입 장벽이 사실상 사라졌음을 의미합니다.
마무리
2026년의 LLM 시장은 "비싼 모델 = 좋은 모델"이라는 공식이 더 이상 통하지 않는 시대입니다. OpenRouter를 통해 다양한 저가 모델을 빠르게 비교하고 전환할 수 있다는 것이 가장 큰 장점입니다.
핵심은 용도에 맞는 모델을 고르는 것입니다. 모든 작업에 최고가 모델을 쓸 필요 없이, 단순 작업은 무료~초저가 모델로, 핵심 작업만 중가 모델로 라우팅하는 하이브리드 전략이 가장 스마트한 접근법입니다.
OpenRouter 바로가기: https://openrouter.ai/
'Python Study' 카테고리의 다른 글
| 공공데이터포털 API로 사업자 정보 조회 프로그램 개발 (feat. Claude+MCP) (0) | 2025.05.18 |
|---|---|
| Google Firebase 파이썬 코드를 웹앱으로 발행하는 도구 (1) | 2025.05.14 |
| 5·18 가짜 유공자 600명의 실체: 정치인부터 연예인까지 (2) | 2024.12.28 |
| 이미지 변환 PC 실행 프로그램 (3) | 2024.10.26 |
| 티스토리 코드 블럭 스타일 폰트 크기 변경하는 방법 (feat.파이썬) (2) | 2023.10.31 |