[데일리] Microsoft 연구진, 15개 LLM의 안전장치를 무력화하는 취약점 발견

GRP-Obliteration: LLM 안전장치의 치명적 취약점

Microsoft 연구진이 GRP-Obliteration이라는 공격 기법을 발견했습니다. 이 기법은 15개 주요 LLM의 안전 메커니즘을 돌파할 수 있으며, 공격 성공률을 13%에서 93%로 끌어올립니다.

44개 유해 카테고리에 걸쳐 테스트한 결과, GRP-Obliteration은 모델의 안전 가드레일을 체계적으로 우회합니다. 구체적인 기술 세부사항은 보안을 위해 제한적으로 공개되었지만, 기존의 "탈옥(jailbreak)" 기법보다 훨씬 높은 성공률을 보입니다.

이는 현재 LLM의 안전 메커니즘이 근본적인 한계를 가지고 있음을 시사합니다. "거부하도록 학습"하는 방식의 안전 대책이 체계적 공격 앞에서 취약하다는 것이 드러났습니다.

이번 발견은 AI 업계의 근본적인 딜레마를 보여줍니다:

AI의 "문지기"가 뚫렸습니다. 93%의 공격 성공률은, 현재의 안전 접근 방식에 근본적인 재고가 필요하다는 경고입니다.