Binarygap Terminal

Gemma 4 12B, 인코더를 버리고 멀티모달을 통합하다

Google DeepMind가 새로 공개한 Gemma 4 12B는 비전 인코더와 오디오 인코더를 통째로 없앤 인코더 프리(encoder-free) 멀티모달 모델입니다. “멀티모달 = 전용 인코더 필수”라는 공식을 깨고, LLM 하나가 모든 입력을 직접 처리하는 통합 구조가 실제로 작동함을 보여줬습니다.

핵심 요약

  1. 혁신적 구조: 비전 인코더(5억 5천만 파라미터)를 약 3,500만 파라미터의 경량 임베더로 대체하고, 오디오 인코더(3억 500만 파라미터)를 단순 선형 투영 한 층으로 대체.
  2. 비전 처리: 48×48 픽셀 패치를 직접 LLM 입력 차원으로 투영, x/y축 위치 행렬로 공간 정보 주입. 패치 간 관계 파악은 LLM의 어텐션 층이 전담.
  3. 오디오 처리: 16kHz 원시 오디오를 40ms 단위로 잘라 선형 투영만 거침. 1차원 시퀀스라 별도 위치 임베딩 불필요.
  4. 지연 시간 감소: 인코더가 입력을 먼저 처리할 때까지 LLM이 기다리지 않아도 되므로 출력 생성이 더 빠름.
  5. 타겟 환경: 12~16GB VRAM에서 운용 가능. E4B와 26B A4B 사이의 빈자리를 채움.

기술적 상세

임베더 구조

  • 48×48 픽셀 패치를 직접 LLM 입력 차원(3,840)으로 투영
  • x축(1,120×3,840)과 y축(1,120×3,840) 위치 임베딩 행렬을 따로 만들어 공간 정보 부여
  • LayerNorm 후 최종 투영. 총 약 3,500만 파라미터 (기존 대비 6%)
  • 파라미터 대부분(약 2,600만)은 순수 차원 변환에 사용

오디오 처리

  • 16kHz 오디오 → 40ms(640개 샘플) 단위 분할 → 선형 투영 → LLM 입력
  • 3억 500만 → 단일 선형층으로 대체

기존 Gemma 4 인코더 구조와 비교

  • E2B/E4B: 1.5억 파라미터 비전 인코더, 3.05억 오디오 인코더
  • 26B A4B/31B: 5.5억 파라미터 비전 인코더
  • 16×16 패치 → Transformer 인코더 → 3×3 풀링 → 48×48 단위 → LLM

시사점

Gemma 4 12B의 인코더 프리 접근은 “더 좋은 인코더를 만들자”가 아니라 “인코더가 정말 필요한가”라는 질문에서 출발합니다. LLM의 표현 능력이 일정 수준을 넘으면 전용 인코더 없이도 원시 입력을 직접 처리할 수 있음을 실증했습니다. 이 방향이 확산되면:

  • 새 모달리티(촉각, 센서 데이터 등) 추가 시 전용 인코더 설계 불필요
  • 파인튜닝 단순화 (전체 모델이 하나의 트랜스포머)
  • 제한된 VRAM 환경에서 더 효율적 구성 가능

다만 LLM 본체 크기와 학습 품질에 크게 의존하며, 입력 압축 효과 상실로 인한 토큰 증가 가능성이 남아 있습니다.


원문: 박재홍의 실리콘밸리 - Gemma 4 12B
참고: A Visual Guide to Gemma 4 12B