[튜토리얼] GPT-5.4 컴퓨터 사용(Computer Use) 기능 시작 가이드
GPT-5.4의 새로운 컴퓨터 사용 기능을 실제로 활용하는 방법을 단계별로 안내합니다. API 설정부터 실용적인 자동화 예제까지.
컴퓨터 사용(Computer Use)이란?
GPT-5.4는 OpenAI가 처음으로 네이티브 컴퓨터 사용 기능을 탑재한 범용 모델입니다. AI가 사용자를 대신해 마우스 클릭, 키보드 입력, 화면 읽기 등을 수행하며 여러 애플리케이션을 자율적으로 조작할 수 있습니다.
Anthropic의 Claude가 먼저 이 기능을 선보였고, 이제 OpenAI도 합류하면서 "AI 에이전트" 시대가 본격화되고 있습니다.
사전 준비
필요한 것
- OpenAI API 키 (GPT-5.4 접근 권한)
- Python 3.10 이상
openaiPython 패키지 최신 버전
pip install --upgrade openai
API 키 설정
export OPENAI_API_KEY="sk-..."
기본 사용법
1. 화면 캡처 + 명령 전달
컴퓨터 사용의 기본 흐름은 다음과 같습니다:
- AI에게 작업을 지시
- AI가 현재 화면을 분석
- AI가 필요한 액션(클릭, 타이핑 등)을 결정
- 액션 실행 후 결과 확인
- 작업 완료까지 반복
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.4",
tools=[{
"type": "computer_use",
"display_width": 1920,
"display_height": 1080,
}],
input=[{
"role": "user",
"content": "브라우저를 열고 오늘의 환율을 검색해서 알려줘"
}]
)
2. 결과 처리
for item in response.output:
if item.type == "computer_call":
# AI가 수행하려는 액션
print(f"Action: {item.action.type}")
if hasattr(item.action, 'coordinate'):
print(f"좌표: {item.action.coordinate}")
if hasattr(item.action, 'text'):
print(f"입력 텍스트: {item.action.text}")
elif item.type == "text":
print(f"AI 응답: {item.text}")
실용적인 활용 예제
예제 1: 스프레드시트 데이터 정리
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer_use", "display_width": 1920, "display_height": 1080}],
input=[{
"role": "user",
"content": """Google Sheets에서 다음 작업을 수행해줘:
1. A열의 날짜 형식을 YYYY-MM-DD로 통일
2. B열의 빈 셀에 '미입력' 표시
3. C열의 숫자에 천단위 콤마 서식 적용"""
}]
)
예제 2: 반복 웹 작업 자동화
response = client.responses.create(
model="gpt-5.4",
tools=[{"type": "computer_use", "display_width": 1920, "display_height": 1080}],
input=[{
"role": "user",
"content": """다음 URL 목록의 각 페이지에서:
1. 페이지 제목을 복사
2. 메인 이미지의 alt 텍스트를 확인
3. 결과를 텍스트 파일로 정리"""
}]
)
주의사항 및 베스트 프랙티스
보안
- 민감한 정보가 표시된 화면에서 사용하지 마세요: AI가 화면을 "읽기" 때문에, 비밀번호나 개인정보가 노출될 수 있습니다
- 샌드박스 환경에서 먼저 테스트하세요: 가상 머신이나 별도 사용자 계정에서 시작하는 것을 권장합니다
- 권한을 최소화하세요: AI가 접근할 수 있는 애플리케이션과 파일을 제한하세요
효율적 사용
- 명확한 지시: "이 파일을 열어줘"보다 "바탕화면의 report.xlsx 파일을 Excel로 열어줘"가 더 정확합니다
- 단계별 접근: 복잡한 작업은 여러 단계로 나눠서 지시하세요
- 확인 단계 포함: 중요한 작업 전에 "실행 전에 먼저 보여줘"라고 요청하세요
비용 고려
컴퓨터 사용은 스크린샷 전송이 포함되어 일반 텍스트 대화보다 토큰 소비가 많습니다. 반복 작업의 경우, 컴퓨터 사용보다 기존 API + 스크립트 조합이 더 효율적일 수 있습니다.
Claude Computer Use와의 비교
| 항목 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| 화면 해상도 | 최대 4K | 최대 1080p 권장 |
| 액션 타입 | 클릭, 타이핑, 스크롤, 드래그 | 클릭, 타이핑, 스크롤, 키조합 |
| 멀티 모니터 | 미지원 | 미지원 |
| 가격 | 토큰 기반 | 토큰 기반 |
두 서비스 모두 아직 초기 단계이며, 빠르게 발전하고 있습니다. 용도에 따라 양쪽 모두 테스트해보시는 것을 추천합니다.
마무리
컴퓨터 사용 기능은 AI를 "대화 상대"에서 **"실행 주체"**로 전환시키는 핵심 기능입니다. 아직 완벽하지는 않지만, 반복적인 GUI 작업을 자동화하는 데 이미 실용적으로 사용할 수 있는 수준입니다.
다음 튜토리얼에서는 Claude의 컴퓨터 사용 기능과의 상세 비교 및 하이브리드 활용법을 다룰 예정입니다.