[리서치] Nemotron-H 논문 해설 — Mamba-Transformer 하이브리드의 실체
NVIDIA의 Nemotron-H 논문을 분석합니다. Mamba-Transformer 하이브리드 아키텍처가 어떻게 3배 빠른 추론과 동등한 정확도를 달성하는지 살펴봅니다.
논문 개요
- 제목: Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models
- 저자: NVIDIA ADLR (Applied Deep Learning Research)
- 논문: arXiv:2504.03624
- 핵심 기여: 트랜스포머의 정확도를 유지하면서 추론 속도를 최대 3배 향상시키는 하이브리드 아키텍처 제안
이 논문은 이번 주 발표된 NVIDIA Nemotron 3 모델 패밀리의 아키텍처적 기반이 됩니다. Nemotron 3 Nano가 "하이브리드 Mamba-Transformer MoE"라고 소개된 배경에는 이 연구가 있습니다.
트랜스포머의 문제, Mamba의 해답
트랜스포머의 추론 병목
트랜스포머 아키텍처의 자기 어텐션(self-attention) 메커니즘은 입력 시퀀스 길이의 제곱에 비례하는 연산량을 요구합니다. 토큰을 하나 생성할 때마다 이전의 모든 토큰을 다시 참조해야 하므로, 시퀀스가 길어질수록 연산 비용과 메모리 사용량이 급증합니다.
이것이 100만 토큰 컨텍스트 윈도우를 가진 모델들이 실제로는 긴 시퀀스에서 매우 느려지는 이유입니다.
Mamba의 접근법
Mamba(Selective State Space Model)는 이 문제를 근본적으로 다른 방식으로 해결합니다. Mamba 레이어는 토큰당 일정한(constant) 연산량과 메모리만 필요합니다. 이전 토큰들의 정보를 고정 크기의 상태 벡터에 압축하여 저장하므로, 시퀀스 길이에 관계없이 효율적입니다.
| 특성 | Transformer (Self-Attention) | Mamba (SSM) |
|---|---|---|
| 토큰당 연산량 | 시퀀스 길이에 비례 (O(n)) | 일정 (O(1)) |
| 메모리 사용 | 시퀀스 길이에 비례 | 일정 |
| 장거리 의존성 | 직접 참조 (강함) | 상태 압축 (상대적으로 약함) |
| 추론 속도 | 긴 시퀀스에서 감소 | 일정 유지 |
문제는 Mamba만으로는 트랜스포머의 정확도에 미치지 못한다는 것입니다. 정보를 고정 크기 상태에 압축하는 과정에서 필연적으로 정보 손실이 발생합니다.
Nemotron-H의 핵심: 선택적 하이브리드
Nemotron-H의 핵심 아이디어는 "전부 교체"가 아니라 "선택적 교체"입니다. 트랜스포머의 자기 어텐션 레이어 대부분을 Mamba 레이어로 교체하되, 일부 어텐션 레이어는 유지합니다.
아키텍처 구성
논문에서는 8B와 56B 두 가지 크기의 모델을 제시합니다.
| 모델 | 총 파라미터 | 어텐션 레이어 비율 | Mamba 레이어 비율 |
|---|---|---|---|
| Nemotron-H-8B | 8B | 소수 유지 | 대다수 교체 |
| Nemotron-H-56B | 56B | 소수 유지 | 대다수 교체 |
| Nemotron-H-47B | 47B (압축) | 소수 유지 | 대다수 교체 |
핵심은 어떤 레이어를 어텐션으로 유지하고, 어떤 레이어를 Mamba로 교체할지의 결정입니다. 논문에 따르면, 모델의 초기 레이어와 특정 중간 레이어에서 어텐션이 중요하며, 나머지 레이어는 Mamba로 교체해도 정확도 손실이 거의 없습니다.
벤치마크 결과
정확도: 동급 트랜스포머와 동등 이상
Nemotron-H-56B-Base는 순수 트랜스포머인 Llama-3.1-70B를 17개 평가 태스크 중 16개에서 앞섰습니다. 파라미터 수가 20% 적은데도 정확도가 더 높습니다.
| 벤치마크 | Nemotron-H-56B | Llama-3.1-70B | Qwen-2.5-72B |
|---|---|---|---|
| 17개 태스크 중 우위 | 16/17 | 기준 | - |
| 모델 크기 | 56B | 70B | 72B |
| 추론 속도 | 최대 3배 빠름 | 기준 | - |
8B 모델에서도 Qwen-2.5-7B 및 Llama-3.1-8B와 동등 이상의 정확도를 보여주었습니다.
추론 효율: 최대 3배 향상
가장 주목할 결과는 추론 속도입니다.
- 짧은 컨텍스트: 기존 트랜스포머 대비 유의미한 속도 향상
- 긴 컨텍스트: Nemotron-H-8B가 Qwen-2.5-7B/Llama-3.1-8B 대비 1.8배 빠른 추론
- 최대 성능: 특정 조건에서 최대 3배 빠른 추론 달성
긴 컨텍스트에서 속도 차이가 더 벌어지는 것은 Mamba의 O(1) 특성 때문입니다. 트랜스포머는 시퀀스가 길어질수록 느려지지만, Mamba 레이어는 일정한 속도를 유지합니다.
모델 압축: 20% 빠르게, 정확도 유지
Nemotron-H-47B는 56B 모델에서 파라미터를 줄인 압축 버전으로, 정확도를 거의 유지하면서 추론 속도를 20% 추가 향상시켰습니다.
FP8 학습: 실용적 혁신
논문의 또 다른 기여는 FP8 기반 학습 레시피입니다. 기존의 BF16(16비트) 학습과 동등한 결과를 FP8(8비트)로 달성할 수 있음을 보여주었습니다. 이는 학습 단계에서도 메모리와 연산 비용을 절감할 수 있다는 뜻입니다.
기존 연구와의 비교
하이브리드 아키텍처를 시도한 것은 Nemotron-H가 처음이 아닙니다.
| 모델 | 개발사 | 접근법 | 특징 |
|---|---|---|---|
| Jamba | AI21 Labs | Transformer-Mamba + MoE | 256K 컨텍스트, 메모리 효율 |
| OLMo Hybrid | Ai2 | Transformer + Linear Recurrent | 49% 적은 토큰으로 동일 성능 |
| Nemotron-H | NVIDIA | 선택적 Mamba 교체 | 3배 빠른 추론, 70B급 정확도 |
Nemotron-H가 차별화되는 점은 규모(56B)와 체계적인 벤치마크, 그리고 FP8 학습 레시피까지 포함한 실용적 완성도입니다. Jamba는 MoE를 결합해 용량을 확장하고, OLMo Hybrid는 데이터 효율성에 초점을 맞췄다면, Nemotron-H는 추론 효율성에 집중합니다.
실무 시사점
에이전트 AI에 최적화
에이전트 AI는 수많은 API 호출과 긴 대화를 처리해야 합니다. 토큰당 비용이 일정한 Mamba 기반 모델은 에이전트 워크로드에 경제적으로 유리합니다. NVIDIA가 Nemotron 3을 "에이전트 AI용 모델"로 포지셔닝한 이유입니다.
긴 컨텍스트의 실용화
100만 토큰 컨텍스트를 지원하는 모델이 늘고 있지만, 실제로 긴 컨텍스트를 사용하면 비용과 지연이 급증합니다. 하이브리드 아키텍처는 이 문제를 구조적으로 해결합니다.
아키텍처 다양화의 시작
2024~2025년의 AI 모델은 거의 순수 트랜스포머였습니다. 2026년부터 하이브리드 아키텍처가 주류로 부상하고 있으며, Nemotron-H, Jamba, OLMo Hybrid, Qwen 3.5가 모두 하이브리드 방식을 채택하고 있습니다.
핵심 요약
- Nemotron-H는 트랜스포머의 자기 어텐션 레이어 대부분을 Mamba로 교체하여, 70B급 정확도를 56B로 달성하면서 추론 속도를 최대 3배 향상시켰습니다
- 긴 컨텍스트에서 Mamba의 O(1) 특성이 트랜스포머 대비 결정적 우위를 제공하며, 에이전트 AI와 같은 고빈도 추론 워크로드에 경제적입니다
- 2026년 주요 모델들이 일제히 하이브리드 아키텍처를 채택하면서, "순수 트랜스포머 시대"가 저물고 있습니다