"30B나 70B로 올리면 더 잘하지 않을까?"
이 단순한 질문 뒤에는 — 증류의 진짜 의미, 메모리의 벽, 그리고 게임 도메인의 특수성이라는 세 가지 변수가 숨어 있다.
시장에서 "distilled"라는 말은 너무 헐겁게 쓰인다. 원조와 변종을 구분해야 모델 선택이 가능해진다.
교사의 다음 토큰 확률 분포를 학생이 모방한다. KL 발산 손실을 쓴다. 교사 모델의 내부 로짓에 접근할 수 있어야 가능하므로, 오픈웨이트 모델끼리만 쓸 수 있다. GPT-4 같은 폐쇄 모델은 불가능.
원조교사가 생성한 출력 텍스트만 가지고 학생을 일반 미세조정한다. Alpaca, Vicuna가 ChatGPT 응답으로 학습한 게 이 방식. 엄밀히는 "지도학습 + 합성 데이터"에 가깝지만, 시장에서 "distilled"라 부르면 보통 이걸 가리킨다.
가장 흔함교사 모델의 사고 과정(Chain of Thought) 자체를 학생에게 가르친다. DeepSeek-R1-Distill 시리즈가 대표 — R1이 생성한 긴 추론 trace로 Qwen·Llama를 학습시켜, 작은 모델도 추론력이 크게 향상된다.
요즘 핫함학생이 응답을 생성하면 교사가 평가·수정한다. 학생의 실수에 맞춰 가르치므로 효율적이지만 구현이 복잡하다. MiniLLM, ImitKD 등이 이 계열에 속한다.
고급DeepSeek-R1-Distill-Qwen-14B를 해부하면: 베이스는 Qwen 2.5 14B(Alibaba), 교사는 DeepSeek-R1, 방법은 R1이 만든 추론 데이터로 Qwen을 SFT한 것. 즉 "증류 모델 = 다른 회사의 베이스 모델 + 교사의 합성 데이터"인 경우가 대부분이다. 베이스와 교사 양쪽 라이선스를 모두 따라야 한다.
14B에서 32B로, 다시 70B로 올라가는 길에는 메모리의 벽 두 개와 운영비의 벽 하나가 서 있다.
14B는 여유 / 32B는 빠듯하게 가능 / 70B는 4090 한 장으로 불가능
| 지표 | 14B baseline | 32B sweet spot | 70B premium |
|---|---|---|---|
| 대표 모델 | Qwen 2.5 14B R1-Distill-Qwen-14B |
Qwen 2.5 32B R1-Distill-Qwen-32B |
Qwen 2.5 72B Llama 3.3 70B |
| VRAM (FP16) | ~28 GB | ~64 GB | ~140 GB |
| VRAM (AWQ Q4) | ~10 GB | ~20 GB | ~40 GB |
| RTX 4090 1장 | 여유롭게 가능 | Q4로 빠듯하게 가능 | 불가능 |
| 필요 추가 하드웨어 | 없음 | 컨텍스트 줄이고 배치 작게 | 4090 × 2 (+3M) 또는 A6000 48GB (+7M) |
| 추론 속도 (vLLM) | 60–100 tok/s | 30–50 tok/s | 20–30 tok/s |
| 동시 사용자 처리 | 5–10 명 | 2–3 명 | 1 명 |
| 월 운영비 (전기·감가) | ~380K | ~500K | 1.5M ~ 3M |
| 한국어 추론 깊이 | 기본기 충분 | 자연스러움 | 거의 사람 수준 |
| 초기 투자 | ~6M (단일 장비) | ~6M (동일 장비) | 9M ~ 30M+ |
"양자화하면 같은 카드에 다 들어가지 않냐"는 흔한 질문에 대한 답: Q4는 메모리는 줄지만 품질 손실이 모델별로 다르다. 일반적으로 14B→Q4는 손실이 거의 안 느껴지고, 70B→Q4는 미세한 추론 능력 저하가 보고된다. 그리고 KV 캐시(긴 컨텍스트 처리)는 양자화로 줄지 않는다 — 8K 컨텍스트에 동시 사용자 3명이면 추가 VRAM이 만만치 않다.
화투 코칭에서 70B가 14B보다 두 배 잘하지는 않는다.
두 배 비싸고, 두 배 느릴 뿐이다.
화투는 게임이다. 게임에는 정답이 있다. LLM의 일반 지식이 아니라, 도메인 솔버가 결정한다.
고스톱 한 판의 게임 트리는 체스나 바둑보다 훨씬 작다. 카드 48장, 정해진 룰, 명확한 보상 구조. MCTS(몬테카를로 트리 탐색) 솔버가 거의 최적해를 빠르게 찾을 수 있다.
즉, "이 상황에서 어떤 카드를 내야 하는가"라는 핵심 질문에 답하는 데 70B LLM은 필요하지 않다. 솔버가 정답을 안다.
그렇다면 LLM은 왜 있는가? 해설자로서 존재한다. 솔버가 내놓은 정답을 사람이 이해할 수 있는 한국어로 풀어내고, 사용자의 자연어 질문을 받고, 학습 의도에 맞춰 톤을 조절한다.
이 일은 14B로도 충분하고, 32B면 매끄러워지고, 70B는 과잉이다.
정답은 솔버가, 설명은 LLM이 — 역할 분리가 모델 크기의 압박을 풀어낸다
화투 도메인은 어떤 교사 모델도 잘 모른다. R1도, GPT-5도, Claude도 한국 고스톱의 미묘한 점수 계산과 흔들기 타이밍에 대한 양질의 학습 데이터는 없다. 따라서 증류된 14B든 70B든 화투에서는 거의 동등한 출발점에 선다. 모델 크기보다 자체 MCTS로 만든 도메인 데이터로 추가 미세조정하는 것이 압도적으로 더 큰 영향을 미친다.
설명 품질 충분, 동시 사용자 처리력 최고, 운영비 가장 낮음. MCTS 솔버가 정답을 책임지므로 LLM은 해설만 잘 하면 된다. 출시 직후에는 이 구성으로 충분하다.
같은 RTX 4090 한 장에 Q4로 들어간다. 추가 하드웨어 0원, 운영비 거의 동일, 설명 품질은 한 단계 매끄러워짐. 14B로 유저 반응을 본 뒤 자연스럽게 옮겨갈 자리.
화투 코칭의 체감 품질 향상이 비용 증가에 한참 못 미친다. 추가 GPU 또는 클라우드 비용은 매월 누적되는데, 사용자가 차이를 잘 못 느낀다. 매출이 충분히 커지고 도메인을 벗어난 일반 대화 비중이 늘어났을 때 재검토할 카드.
1단계 (출시 ~ 3개월): DeepSeek-R1-Distill-Qwen-14B + AWQ Q4 + MCTS 솔버. RTX 4090 한 장으로 동시 사용자 5~10명 처리.
2단계 (반응 좋으면): 32B 모델로 교체. 같은 장비에서 설명 품질만 한 계단 상승.
3단계 (스케일 단계): 70B가 아니라 14B를 도메인 데이터로 추가 미세조정하는 게 ROI가 훨씬 좋다. 자체 솔버로 만든 수십만 건의 "상황 → 최적수 → 설명" 데이터로 학습.