SPACEBARSpacebarAI Research
튜토리얼··6 min read·SpacebarAI

[튜토리얼] GPT-5.4 컴퓨터 사용(Computer Use) 기능 시작 가이드

GPT-5.4의 새로운 컴퓨터 사용 기능을 실제로 활용하는 방법을 단계별로 안내합니다. API 설정부터 실용적인 자동화 예제까지.

컴퓨터 사용(Computer Use)이란?

GPT-5.4는 OpenAI가 처음으로 네이티브 컴퓨터 사용 기능을 탑재한 범용 모델입니다. AI가 사용자를 대신해 마우스 클릭, 키보드 입력, 화면 읽기 등을 수행하며 여러 애플리케이션을 자율적으로 조작할 수 있습니다.

Anthropic의 Claude가 먼저 이 기능을 선보였고, 이제 OpenAI도 합류하면서 "AI 에이전트" 시대가 본격화되고 있습니다.

사전 준비

필요한 것

  • OpenAI API 키 (GPT-5.4 접근 권한)
  • Python 3.10 이상
  • openai Python 패키지 최신 버전
pip install --upgrade openai

API 키 설정

export OPENAI_API_KEY="sk-..."

기본 사용법

1. 화면 캡처 + 명령 전달

컴퓨터 사용의 기본 흐름은 다음과 같습니다:

  1. AI에게 작업을 지시
  2. AI가 현재 화면을 분석
  3. AI가 필요한 액션(클릭, 타이핑 등)을 결정
  4. 액션 실행 후 결과 확인
  5. 작업 완료까지 반복
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.4",
    tools=[{
        "type": "computer_use",
        "display_width": 1920,
        "display_height": 1080,
    }],
    input=[{
        "role": "user",
        "content": "브라우저를 열고 오늘의 환율을 검색해서 알려줘"
    }]
)

2. 결과 처리

for item in response.output:
    if item.type == "computer_call":
        # AI가 수행하려는 액션
        print(f"Action: {item.action.type}")
        if hasattr(item.action, 'coordinate'):
            print(f"좌표: {item.action.coordinate}")
        if hasattr(item.action, 'text'):
            print(f"입력 텍스트: {item.action.text}")
    elif item.type == "text":
        print(f"AI 응답: {item.text}")

실용적인 활용 예제

예제 1: 스프레드시트 데이터 정리

response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use", "display_width": 1920, "display_height": 1080}],
    input=[{
        "role": "user",
        "content": """Google Sheets에서 다음 작업을 수행해줘:
        1. A열의 날짜 형식을 YYYY-MM-DD로 통일
        2. B열의 빈 셀에 '미입력' 표시
        3. C열의 숫자에 천단위 콤마 서식 적용"""
    }]
)

예제 2: 반복 웹 작업 자동화

response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use", "display_width": 1920, "display_height": 1080}],
    input=[{
        "role": "user",
        "content": """다음 URL 목록의 각 페이지에서:
        1. 페이지 제목을 복사
        2. 메인 이미지의 alt 텍스트를 확인
        3. 결과를 텍스트 파일로 정리"""
    }]
)

주의사항 및 베스트 프랙티스

보안

  • 민감한 정보가 표시된 화면에서 사용하지 마세요: AI가 화면을 "읽기" 때문에, 비밀번호나 개인정보가 노출될 수 있습니다
  • 샌드박스 환경에서 먼저 테스트하세요: 가상 머신이나 별도 사용자 계정에서 시작하는 것을 권장합니다
  • 권한을 최소화하세요: AI가 접근할 수 있는 애플리케이션과 파일을 제한하세요

효율적 사용

  • 명확한 지시: "이 파일을 열어줘"보다 "바탕화면의 report.xlsx 파일을 Excel로 열어줘"가 더 정확합니다
  • 단계별 접근: 복잡한 작업은 여러 단계로 나눠서 지시하세요
  • 확인 단계 포함: 중요한 작업 전에 "실행 전에 먼저 보여줘"라고 요청하세요

비용 고려

컴퓨터 사용은 스크린샷 전송이 포함되어 일반 텍스트 대화보다 토큰 소비가 많습니다. 반복 작업의 경우, 컴퓨터 사용보다 기존 API + 스크립트 조합이 더 효율적일 수 있습니다.

Claude Computer Use와의 비교

항목 GPT-5.4 Claude Opus 4.6
화면 해상도 최대 4K 최대 1080p 권장
액션 타입 클릭, 타이핑, 스크롤, 드래그 클릭, 타이핑, 스크롤, 키조합
멀티 모니터 미지원 미지원
가격 토큰 기반 토큰 기반

두 서비스 모두 아직 초기 단계이며, 빠르게 발전하고 있습니다. 용도에 따라 양쪽 모두 테스트해보시는 것을 추천합니다.

마무리

컴퓨터 사용 기능은 AI를 "대화 상대"에서 **"실행 주체"**로 전환시키는 핵심 기능입니다. 아직 완벽하지는 않지만, 반복적인 GUI 작업을 자동화하는 데 이미 실용적으로 사용할 수 있는 수준입니다.

다음 튜토리얼에서는 Claude의 컴퓨터 사용 기능과의 상세 비교 및 하이브리드 활용법을 다룰 예정입니다.

관련 리서치