[데일리] Microsoft 연구진, 15개 LLM의 안전장치를 무력화하는 취약점 발견
GRP-Obliteration 취약점이 공개되었습니다. 15개 주요 LLM의 안전 메커니즘을 돌파해 공격 성공률을 13%에서 93%로 끌어올렸습니다.
GRP-Obliteration: LLM 안전장치의 치명적 취약점
Microsoft 연구진이 GRP-Obliteration이라는 공격 기법을 발견했습니다. 이 기법은 15개 주요 LLM의 안전 메커니즘을 돌파할 수 있으며, 공격 성공률을 13%에서 93%로 끌어올립니다.
어떻게 작동하는가
44개 유해 카테고리에 걸쳐 테스트한 결과, GRP-Obliteration은 모델의 안전 가드레일을 체계적으로 우회합니다. 구체적인 기술 세부사항은 보안을 위해 제한적으로 공개되었지만, 기존의 "탈옥(jailbreak)" 기법보다 훨씬 높은 성공률을 보입니다.
왜 심각한가
- 범용성: 단일 모델이 아닌 15개 모델에서 작동
- 높은 성공률: 93%는 사실상 안전장치가 없는 것과 다름없음
- 44개 유해 카테고리: 광범위한 악용 가능성
이는 현재 LLM의 안전 메커니즘이 근본적인 한계를 가지고 있음을 시사합니다. "거부하도록 학습"하는 방식의 안전 대책이 체계적 공격 앞에서 취약하다는 것이 드러났습니다.
AI 안전 vs 성능, 근본적 긴장
이번 발견은 AI 업계의 근본적인 딜레마를 보여줍니다:
- 안전 메커니즘을 강화하면 **모델 성능(유용성)**이 저하됨
- 성능을 높이면 안전 우회가 더 쉬워짐
- "유용하면서 안전한" AI의 균형점을 찾는 것이 최대 과제
오늘의 한줄
AI의 "문지기"가 뚫렸습니다. 93%의 공격 성공률은, 현재의 안전 접근 방식에 근본적인 재고가 필요하다는 경고입니다.