프롬프트를 시처럼 쓰면 핵무기 제조법까지? 안전장치 뚫는법

MIT, 메타, 덱스AI, 이카로 연구소 등에서 실험한 결과
문장 구조나 형식만 바꿔도 AI는 그냥 속아넘어감

예:
“빨리 앉아 파리 흐렸어?” → 이게 “파리는 어디 있어?”처럼 보여서
AI가 “프랑스요” 대답함. 이해는 1도 없이 구조만 본 거지

아예 시 형식으로 질문하니까 안전장치 우회 성공률 62% ㄷㄷ
구글 제미나이 2.5 프로는 100% 반응
딥시크, 미스트랄도 줄줄이 뚫렸고...

생성된 내용에는 자살법, 아동 성착취, 증오 표현, 핵무기 제조법까지 포함됨

결국 AI는 아직도
“다음에 올 단어가 뭐지?”만 예측하는 패턴 기계임

이해 기반이 아니라,
‘말처럼 보이는 구조’만 보고 판단하니까 이런 일이 벌어지는 거야

그래서 연구진은 이 내용을 AI 회사 9곳에 미리 전달했고
OpenAI, 구글, 앤트로픽 등에서 보안 대응 중이라 해

하지만 구조적 허점이라, 단순 필터로는 해결이 어렵다는게 진짜 문제야.

결국 우리가 믿고 쓰는 AI는 아직
‘이해하는 뇌’가 아니라
‘말장난에 약한 앵무새’일지도 몰라

앞으로의 AI 보안, 단순 차단이 아니라
‘이해’ 중심으로 다시 설계해야 할 때야

AI 꿀팁 저장소

0