Google Gemma 4 — 오픈 모델이 상용 AI에 근접한 순간

왜 Gemma 4를 주목해야 하는가

기업이 AI를 도입할 때 가장 먼저 부딪히는 질문이 있습니다.

"상용 API에 우리 데이터를 넘겨도 되는가?"

OpenAI, Anthropic의 API는 강력하지만, 사내 데이터를 외부 서버로 보내야 합니다. 금융, 의료, 제조처럼 데이터 주권이 중요한 산업에서는 근본적인 제약입니다.

Google DeepMind가 2026년 4월 공개한 Gemma 4는 이 구도를 바꿀 수 있는 모델입니다. 핵심은 세 가지입니다:

Apache 2.0 라이선스: 상업적 사용, 수정, 재배포에 제한이 없습니다
자체 서버 배포 가능: 데이터가 외부로 나가지 않습니다
상용 모델에 근접한 성능: Arena AI 텍스트 리더보드에서 오픈 모델 3위(31B), 6위(26B MoE)를 기록했습니다

과장이 아니라, 수치로 확인할 수 있는 변화입니다.

Gemma 4 모델 구성

Gemma 4는 네 가지 크기로 출시되었습니다. 용도에 따라 선택지가 명확합니다.

서버급 모델

Gemma 4 31B (Dense) 307억 개의 파라미터를 가진 밀집(Dense) 모델입니다. 파인튜닝 기반으로 최고 품질을 추구할 때 적합합니다. 256K 토큰 컨텍스트 윈도우를 지원하며, 코드 저장소 전체를 하나의 프롬프트에 넣을 수 있는 수준입니다. 비양자화 bfloat16 가중치가 NVIDIA H100 80GB GPU 한 장에 적재됩니다.

Gemma 4 26B MoE (A4B) 총 252억 개의 파라미터 중 추론 시 38억 개만 활성화되는 전문가 혼합(Mixture-of-Experts) 모델입니다. 128개의 전문가 중 8개를 라우팅하는 구조로, 31B에 근접한 성능을 4B 수준의 속도로 제공합니다. 처리량(throughput)이 중요한 서비스 환경에 적합합니다.

엣지·모바일 모델

Gemma 4 E4B / E2B 각각 유효 파라미터 40억/20억의 경량 모델입니다. 레이어별 삽입(PLE) 아키텍처로 파라미터 효율을 극대화했습니다. 128K 컨텍스트 윈도우를 지원하면서도 스마트폰, Raspberry Pi, NVIDIA Jetson에서 오프라인 실행이 가능합니다. 텍스트, 이미지에 더해 오디오 입력까지 기본 지원하는 유일한 Gemma 4 모델입니다.

벤치마크 — 숫자로 확인하는 성능

공식 모델 카드에 공개된 명령 튜닝(IT) 모델 기준 벤치마크입니다.

31B 모델은 AIME 2026(수학 올림피아드)에서 89.2%, LiveCodeBench(실전 코딩)에서 80.0%를 기록했습니다. 이 수치는 파라미터 규모가 20배 이상인 모델들과 경쟁하는 수준입니다.

26B MoE는 추론 시 4B만 활성화하면서도 31B의 90~97% 성능을 유지합니다. 비용 대비 성능을 따지면 가장 효율적인 선택입니다.

기업에 의미 있는 기능들

수치 외에 실무에서 체감되는 기능을 정리합니다.

네이티브 함수 호출 (Function Calling)

AI 에이전트의 핵심 기능입니다. 외부 API, 데이터베이스, 사내 시스템과 연동하는 도구 사용을 모델 레벨에서 지원합니다. 별도의 프레임워크 없이 구조화된 JSON 출력과 함수 호출이 가능합니다.

시스템 프롬프트 기본 지원

Gemma 4부터 system 역할을 기본으로 지원합니다. 모델의 동작 범위를 정밀하게 제어할 수 있어, 기업 내부 정책에 맞는 응답 가이드라인을 설정하기 용이합니다.

구성 가능한 사고 모드 (Thinking Mode)

단순 응답이 아니라 단계별 추론 과정을 거쳐 답변을 생성합니다. 활성/비활성 전환이 가능하므로, 복잡한 분석에는 사고 모드를 켜고 단순 응답에는 끄는 방식으로 운영할 수 있습니다.

140개 이상 언어 지원

한국어를 포함한 140개 이상 언어로 사전 학습되었습니다. 다국어 고객 응대나 글로벌 서비스 구축 시 별도의 번역 파이프라인 없이 활용이 가능합니다.

인프라 비용 — 현실적으로 얼마가 드는가

오픈 모델의 가장 큰 장점은 자체 서버에서 운영할 수 있다는 점입니다. 하지만 GPU 인프라 비용은 반드시 사전에 계산해야 합니다.

핵심 포인트:

E2B, E4B는 가장 저렴한 GPU 인스턴스에서도 운영 가능합니다. 내부 PoC나 소규모 서비스에 적합합니다
26B MoE는 INT4 양자화를 적용하면 A10G 24GB에서 구동됩니다. 활성 파라미터가 4B 수준이라 응답 속도도 빠릅니다
31B는 원본(BF16) 기준 H100이 필요하지만, INT8 양자화 시 A10G 기반 멀티 GPU 구성도 가능합니다
상용 API의 토큰당 과금 방식과 달리, 자체 서버는 사용량에 관계없이 고정 비용입니다. 호출량이 많을수록 경제적입니다

모델 다운로드와 설치

공식 배포 채널

Gemma 4 모델은 세 곳에서 다운로드할 수 있습니다:

Ollama로 가장 빠르게 시작하기 (Mac / Windows / Linux 공통)

Ollama는 별도의 Python 환경 설정 없이 CLI 한 줄로 모델을 실행할 수 있는 도구입니다.

# 1. Ollama 설치
# Mac: brew install ollama
# Windows: https://ollama.com/download 에서 설치 파일 다운로드
# Linux: curl -fsSL https://ollama.com/install.sh | sh

# 2. 모델 다운로드 및 실행
ollama run gemma4:E2B      # 경량 모델 (약 3GB)
ollama run gemma4:E4B      # 중간 모델 (약 5GB)
ollama run gemma4:26B-A4B  # MoE 모델 (약 16GB, INT4)
ollama run gemma4:31B      # 풀 모델 (약 18GB, INT4)

Hugging Face Transformers로 실행하기 (Python)

파인튜닝이나 커스텀 파이프라인 구축이 필요한 경우입니다.

pip install -U transformers torch accelerate

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

model_id = "google/gemma-4-E4B-it"  # 용도에 맞게 변경
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

messages = [
    {"role": "system", "content": "당신은 업무 보고서를 작성하는 어시스턴트입니다."},
    {"role": "user", "content": "3월 매출 데이터를 요약해 주세요."},
]

text = processor.apply_chat_template(
    messages, tokenize=False,
    add_generation_prompt=True, enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:],
                       skip_special_tokens=True))

Unsloth 양자화 버전 — 실무에서 더 자주 쓰이는 선택지

Google 공식 모델은 BF16(16비트) 원본 가중치로 배포됩니다. 실제 운영 환경에서는 이보다 가벼운 양자화 버전이 필요한 경우가 대부분입니다.

Unsloth는 공식 모델을 기반으로 다양한 양자화 포맷을 제공합니다:

GGUF 양자화 (2~8bit): Ollama, llama.cpp, LM Studio에서 바로 실행 가능. 31B 모델도 INT4 기준 약 18GB로 소비자 GPU에서 구동
MLX 변환: Apple Silicon Mac에서 최적화된 추론. 4bit/8bit 버전 모두 제공
BitsAndBytes 4bit: Unsloth Studio에서 파인튜닝 시 VRAM을 대폭 절감

예를 들어, unsloth/gemma-4-31B-it-GGUF의 Q4_K_M 양자화는 약 18.3GB만 차지합니다. 48GB VRAM의 소비자 GPU(RTX 4090 등)에서 충분히 실행할 수 있는 수준입니다.

Unsloth 버전은 안전 가드레일을 제거한 "uncensored" 모델이 아닙니다. Google 공식 모델과 동일한 동작을 하되, 양자화를 통해 더 적은 하드웨어에서 실행할 수 있도록 변환한 것입니다. 기업 환경에서 품질과 비용 사이의 균형점을 찾을 때 유용합니다.

그 외 지원 도구

Gemma 4는 출시 첫날부터 다양한 생태계에서 사용할 수 있습니다:

추론 서버: vLLM, SGLang, NVIDIA NIM, LiteLLM
로컬 실행: LM Studio, llama.cpp, MLX (Apple Silicon)
파인튜닝: Unsloth, NVIDIA NeMo, Vertex AI
프레임워크: LangChain, Hugging Face TRL

오픈 모델이 아직 못 하는 것

균형 잡힌 판단을 위해 제한사항도 명확히 짚겠습니다.

최상위 성능은 여전히 상용 모델: Gemini 3.1, GPT-5 급의 최정상 성능은 오픈 모델로 도달하기 어렵습니다. 다만 Gemma 4 31B가 그 격차를 의미 있게 줄였습니다
파인튜닝에는 추가 GPU 필요: 추론보다 훨씬 많은 메모리가 필요합니다. LoRA 등 PEFT 기법을 활용하면 비용을 줄일 수 있습니다
멀티모달 출력은 미지원: 텍스트, 이미지, 오디오를 입력으로 받지만, 출력은 텍스트만 생성합니다
컨텍스트 길이와 메모리 트레이드오프: 256K 컨텍스트를 실제로 채우면 KV 캐시만으로 수십 GB가 추가로 필요합니다. 운영 시 컨텍스트 길이 제한 설정이 필요합니다

기업은 지금 무엇을 준비해야 하는가

Gemma 4의 출시가 의미하는 것은 단순히 새 모델이 나왔다는 것이 아닙니다. 자체 AI 인프라를 구축하는 비용과 난이도가 현실적인 수준으로 내려왔다는 것입니다.

구체적으로:

PoC는 지금 시작할 수 있습니다. E4B 모델이면 월 73만 원 수준의 GPU 서버에서 내부 업무 자동화 파일럿을 돌릴 수 있습니다
데이터 주권 문제가 해결됩니다. 사내 서버에서 실행하면 민감한 데이터가 외부로 나가지 않습니다
커스터마이징이 자유롭습니다. 자사 데이터로 파인튜닝하면 범용 API보다 특정 도메인에서 더 나은 성능을 기대할 수 있습니다

AI 도입을 검토 중이라면, 상용 API만 비교하지 말고 오픈 모델 기반의 자체 구축도 선택지에 포함시켜야 할 시점입니다.