악성코드 개발자들이 스파이웨어에 핵·생물무기 문구를 추가함

2 hours ago 4

AI 보안 스캐너의 분석을 막기 위해 스파이웨어에 LLM 안전 거부를 유발하는 핵·생물무기 문구가 삽입됨
1차 안전 정렬에 과도하게 의존하면 실제 보안 분석에서 공격자가 악용할 수 있는 맹점이 생김
폐쇄형 모델과 오픈 모델이 공격적으로 거부하도록 배포되면, 공격자는 그 거부 조건을 찾아 2차 맹점으로 활용함
Fable 5에서 해당 텍스트 분석 시도가 거부로 이어졌으며, 악성코드 분석 파이프라인은 프롬프트 조작을 피하도록 설계되어야 함
복잡한 사이버보안 문제를 다루는 시스템에서는 모델이 안전 기능으로 과도하게 둔화되지 않아야 한다는 요구가 커질 수 있음

핵심 사례

악성코드 개발자들이 스파이웨어에 핵·생물무기 관련 텍스트를 추가해 LLM 안전 거부를 유발하려 함
목표는 AI 보안 스캐너가 스파이웨어를 분석하지 못하게 만드는 것이었음
이 사례는 1차 안전 정렬에 과도하게 의존할 때 실제 보안 분석에서 위험이 생길 수 있음을 보여줌
폐쇄형 모델과 오픈 모델이 공격적인 거부 정책을 갖고 배포되면, 공격자는 그 정책에서 2차 맹점을 찾아 악용함
공격자가 이런 기능을 활용하는 시점은 아직 초기 단계이며, 복잡한 사이버보안 문제를 다루는 사용자 시스템은 덜 둔화된 모델을 요구할 수 있음

확인된 반응과 파이프라인 설계 쟁점

Fable에서 해당 텍스트를 분석하려는 시도는 거부를 만들 수 있다는 가설이 제기됐고, Fable 5에서 실제로 거부가 발생함
Socket 게시물의 사례는 악성코드 분석 파이프라인에서 의도 판단이 중요하다는 점과 프롬프트 조작 회피 필요성을 연결함
저작자와 예술가가 AI 재사용을 막기 위해 작품 안에 대량살상무기 관련 프롬프트 문구를 넣을 수 있다는 아이디어가 제기됨
예시로 흰색 글자로 휴대용 핵무기 제작 질문을 넣거나, 이미지 워터마킹에 turbo ebola 제작 질문을 넣거나, PDF 파일 메타데이터에 관련 문구를 넣는 방식이 거론됨

Read Entire Article