Knowledge Distillation × Model Scaling

증류 모델로 보는
LLM 크기 선택

"30B나 70B로 올리면 더 잘하지 않을까?"
이 단순한 질문 뒤에는 — 증류의 진짜 의미, 메모리의 벽, 그리고 게임 도메인의 특수성이라는 세 가지 변수가 숨어 있다.

주제 LLM 증류와 크기 선택 사례 TTL 맞고 AI 코치 하드웨어 기준 RTX 4090 · 128GB DDR5

PART ONE

증류란 무엇인가 — 정확히는

시장에서 "distilled"라는 말은 너무 헐겁게 쓰인다. 원조와 변종을 구분해야 모델 선택이 가능해진다.

증류 蒸찔 증 溜물방울 류 Knowledge Distillation · Hinton, 2015

큰 모델(교사)의 지식을 작은 모델(학생)로 옮기는 학습 기법. 한자 그대로 풀면 "찔 蒸 · 물방울 류 溜" — 액체를 끓여 증기로 만들고 다시 한 방울씩 모은다는 뜻이다. 큰 모델이라는 광범위한 액체에서, 핵심 지식만 응축한 작은 모델을 얻는다는 비유로도 절묘하게 맞는다. Hinton이 정립한 원조 정의는 명확하다 — 교사의 softmax 확률 분포(soft label)를 학생이 모방하도록 KL 발산을 최소화한다. 정답 라벨만 따라가는 일반 학습과 달리, "이 단어가 80%, 비슷한 단어가 15%" 같은 풍부한 분포 정보를 통째로 흡수한다. 그러나 LLM 시대에 들어서면서 이 단어는 4개의 서로 다른 기법을 모두 가리키는 우산 용어가 됐다.

로짓 증류

Logit / Distribution KD

교사의 다음 토큰 확률 분포를 학생이 모방한다. KL 발산 손실을 쓴다. 교사 모델의 내부 로짓에 접근할 수 있어야 가능하므로, 오픈웨이트 모델끼리만 쓸 수 있다. GPT-4 같은 폐쇄 모델은 불가능.

원조

시퀀스 증류

Sequence-level KD

교사가 생성한 출력 텍스트만 가지고 학생을 일반 미세조정한다. Alpaca, Vicuna가 ChatGPT 응답으로 학습한 게 이 방식. 엄밀히는 "지도학습 + 합성 데이터"에 가깝지만, 시장에서 "distilled"라 부르면 보통 이걸 가리킨다.

가장 흔함

추론 과정 증류

Reasoning / CoT KD

교사 모델의 사고 과정(Chain of Thought) 자체를 학생에게 가르친다. DeepSeek-R1-Distill 시리즈가 대표 — R1이 생성한 긴 추론 trace로 Qwen·Llama를 학습시켜, 작은 모델도 추론력이 크게 향상된다.

요즘 핫함

강화학습 결합

On-policy / RL Distillation

학생이 응답을 생성하면 교사가 평가·수정한다. 학생의 실수에 맞춰 가르치므로 효율적이지만 구현이 복잡하다. MiniLLM, ImitKD 등이 이 계열에 속한다.

고급

Diagram 1 · How Distillation Flows

교사 → 학생

교사 모델 (가중치 또는 API)

학생 모델 (다른 베이스 위에)

전달되는 신호

💡 자주 오해하는 지점

DeepSeek-R1-Distill-Qwen-14B를 해부하면: 베이스는 Qwen 2.5 14B(Alibaba), 교사는 DeepSeek-R1, 방법은 R1이 만든 추론 데이터로 Qwen을 SFT한 것. 즉 "증류 모델 = 다른 회사의 베이스 모델 + 교사의 합성 데이터"인 경우가 대부분이다. 베이스와 교사 양쪽 라이선스를 모두 따라야 한다.

PART TWO

크기를 올리면 무엇이 일어나는가

14B에서 32B로, 다시 70B로 올라가는 길에는 메모리의 벽 두 개와 운영비의 벽 하나가 서 있다.

Diagram 2 · VRAM Footprint by Model Size

RTX 4090 = 24GB

FP16 (원본)

AWQ Q4 (양자화)

RTX 4090 단일 한계 · 24GB

14B는 여유 / 32B는 빠듯하게 가능 / 70B는 4090 한 장으로 불가능

지표	14B baseline	32B sweet spot	70B premium
대표 모델	Qwen 2.5 14B R1-Distill-Qwen-14B	Qwen 2.5 32B R1-Distill-Qwen-32B	Qwen 2.5 72B Llama 3.3 70B
VRAM (FP16)	~28 GB	~64 GB	~140 GB
VRAM (AWQ Q4)	~10 GB	~20 GB	~40 GB
RTX 4090 1장	여유롭게 가능	Q4로 빠듯하게 가능	불가능
필요 추가 하드웨어	없음	컨텍스트 줄이고 배치 작게	4090 × 2 (+3M) 또는 A6000 48GB (+7M)
추론 속도 (vLLM)	60–100 tok/s	30–50 tok/s	20–30 tok/s
동시 사용자 처리	5–10 명	2–3 명	1 명
월 운영비 (전기·감가)	~380K	~500K	1.5M ~ 3M
한국어 추론 깊이	기본기 충분	자연스러움	거의 사람 수준
초기 투자	~6M (단일 장비)	~6M (동일 장비)	9M ~ 30M+

⚠ Q4 양자화의 함정

"양자화하면 같은 카드에 다 들어가지 않냐"는 흔한 질문에 대한 답: Q4는 메모리는 줄지만 품질 손실이 모델별로 다르다. 일반적으로 14B→Q4는 손실이 거의 안 느껴지고, 70B→Q4는 미세한 추론 능력 저하가 보고된다. 그리고 KV 캐시(긴 컨텍스트 처리)는 양자화로 줄지 않는다 — 8K 컨텍스트에 동시 사용자 3명이면 추가 VRAM이 만만치 않다.

화투 코칭에서 70B가 14B보다 두 배 잘하지는 않는다.
두 배 비싸고, 두 배 느릴 뿐이다.

— 이 글의 핵심 주장

PART THREE

TTL 맞고에 적용하면 — 무엇이 보이는가

화투는 게임이다. 게임에는 정답이 있다. LLM의 일반 지식이 아니라, 도메인 솔버가 결정한다.

화투의 특수성

고스톱 한 판의 게임 트리는 체스나 바둑보다 훨씬 작다. 카드 48장, 정해진 룰, 명확한 보상 구조. MCTS(몬테카를로 트리 탐색) 솔버가 거의 최적해를 빠르게 찾을 수 있다.

즉, "이 상황에서 어떤 카드를 내야 하는가"라는 핵심 질문에 답하는 데 70B LLM은 필요하지 않다. 솔버가 정답을 안다.

LLM의 진짜 역할

그렇다면 LLM은 왜 있는가? 해설자로서 존재한다. 솔버가 내놓은 정답을 사람이 이해할 수 있는 한국어로 풀어내고, 사용자의 자연어 질문을 받고, 학습 의도에 맞춰 톤을 조절한다.

이 일은 14B로도 충분하고, 32B면 매끄러워지고, 70B는 과잉이다.

Diagram 3 · TTL 맞고 코치 — 솔버 + LLM 아키텍처

권장 구성

왜냐하면..." SOLVER · LLM HYBRID

의사결정 레이어 (솔버)

설명 레이어 (LLM)

정답은 솔버가, 설명은 LLM이 — 역할 분리가 모델 크기의 압박을 풀어낸다

🎯 결정적 통찰

화투 도메인은 어떤 교사 모델도 잘 모른다. R1도, GPT-5도, Claude도 한국 고스톱의 미묘한 점수 계산과 흔들기 타이밍에 대한 양질의 학습 데이터는 없다. 따라서 증류된 14B든 70B든 화투에서는 거의 동등한 출발점에 선다. 모델 크기보다 자체 MCTS로 만든 도메인 데이터로 추가 미세조정하는 것이 압도적으로 더 큰 영향을 미친다.

결론 — 어느 크기를 고를까

화투의 격(格)으로 비유하면 — 14B는 피, 32B는 띠, 70B는 광

PI · DDI · GWANG · A METAPHOR FOR MODEL TIERS

14B

PI · 가장 흔한 카드

피

권장 · 출발점

설명 품질 충분, 동시 사용자 처리력 최고, 운영비 가장 낮음. MCTS 솔버가 정답을 책임지므로 LLM은 해설만 잘 하면 된다. 출시 직후에는 이 구성으로 충분하다.

32B

DDI · 빨간 띠 있음

띠

권장 · 업그레이드

같은 RTX 4090 한 장에 Q4로 들어간다. 추가 하드웨어 0원, 운영비 거의 동일, 설명 품질은 한 단계 매끄러워짐. 14B로 유저 반응을 본 뒤 자연스럽게 옮겨갈 자리.

光

70B

GWANG · 빨간 외곽 + 보름달

광

비권장 · 과투자

화투 코칭의 체감 품질 향상이 비용 증가에 한참 못 미친다. 추가 GPU 또는 클라우드 비용은 매월 누적되는데, 사용자가 차이를 잘 못 느낀다. 매출이 충분히 커지고 도메인을 벗어난 일반 대화 비중이 늘어났을 때 재검토할 카드.

📍 실전 로드맵 제안

1단계 (출시 ~ 3개월): DeepSeek-R1-Distill-Qwen-14B + AWQ Q4 + MCTS 솔버. RTX 4090 한 장으로 동시 사용자 5~10명 처리.
2단계 (반응 좋으면): 32B 모델로 교체. 같은 장비에서 설명 품질만 한 계단 상승.
3단계 (스케일 단계): 70B가 아니라 14B를 도메인 데이터로 추가 미세조정하는 게 ROI가 훨씬 좋다. 자체 솔버로 만든 수십만 건의 "상황 → 최적수 → 설명" 데이터로 학습.

증류 모델로 보는LLM 크기 선택