SPACEBARSpacebarAI Research
데일리 뉴스··3 min read·SpacebarAI

[데일리] Google Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1%, 추론 2.5배 향상

Google DeepMind가 Gemini 3.1 Pro를 출시했습니다. ARC-AGI-2에서 77.1%를 기록하며 전 세대 대비 추론 성능이 2.5배 향상되었습니다.

Gemini 3.1 Pro, Google의 반격

Google DeepMind가 Gemini 3.1 Pro를 공식 출시했습니다. Google의 첫 ".1" 포인트 업데이트로, 복잡한 문제 해결에 특화된 모델입니다.

핵심 수치

  • ARC-AGI-2: 77.1% — 전 세대(3 Pro) 31.1% 대비 2.5배 이상 향상
  • 100만 토큰 입력 + 65,000 토큰 출력 (장문 코드/문서 생성)
  • 네이티브 멀티모달 코드 생성

ARC-AGI-2가 중요한 이유

ARC-AGI-2는 AI의 추상적 추론 능력을 측정하는 벤치마크입니다. 학습 데이터에 없는 완전히 새로운 논리 패턴을 해결해야 하므로, "암기"가 아닌 진짜 "이해"를 평가합니다.

77.1%는 AI가 새로운 문제를 만났을 때 4번 중 3번은 올바른 추론을 할 수 있다는 의미입니다.

접근 가능 플랫폼

Gemini API, Google AI Studio, Vertex AI, Gemini 앱, NotebookLM, Android Studio, Gemini CLI에서 사용 가능합니다.


2월 모델 출시 총정리

모델 출시일 핵심 강점
Claude Sonnet 5 2/3 SWE-bench 82.1%
GPT-5.3 Codex 2/5 자기참조적 개발
Claude Opus 4.6 2/6 1M 컨텍스트
GLM-5 2/7 중국 코딩 특화
Gemini 3.1 Pro 2/19 ARC-AGI-2 77.1%

Google은 코딩 벤치마크(SWE-bench)보다 **추론 벤치마크(ARC-AGI)**에서 차별화를 추구하고 있습니다.


Sundar Pichai 반응

Sundar Pichai CEO는 X(트위터)에서 "핵심 추론에서 한 단계 전진. 어려운 개념 시각화, 데이터 종합, 창의적 아이디어에 탁월하다"고 발표했습니다.


오늘의 한줄

AI 경쟁의 축이 "코딩"에서 "추론"으로 이동하고 있습니다. 코드를 잘 짜는 것을 넘어, 새로운 문제를 이해하고 풀 수 있는 AI가 다음 승부처입니다.

관련 리서치