Apple Intelligence 모델에서 추출한 안전 필터

6 hours ago 2

  • Apple Intelligence의 생성형 모델에 내장된 안전 필터를 해독 및 공개하는 오픈소스 프로젝트
  • 안전 필터는 유해하거나 부적절한 콘텐츠를 차단, 규정 준수를 위한 필터링 룰을 포함
  • 안전 오버라이드는 모델 컨텍스트에 따라 다르게 적용되며, 각각의 상황에 맞는 구체 규칙 정보를 제공함
  • 해독된 파일은 json 형태로, 단어, 구문, 정규식 기반 룰 등이 포함됨
  • 이 프로젝트는 프라이버시‧신뢰성 검증, 모델 세이프티 분석 등에 유의미한 리소스임

프로젝트 개요

  • 본 저장소는 Apple Intelligence에서 활용되는 생성형 모델의 안전 오버라이드(safety override) 파일을 해독 및 공개함
  • 해독된 오버라이드는 폴더 내 구조적으로 정리되어 있으며, 각 모델에 연관된 안전 필터링 JSON 파일 형태로 제공됨
  • 이를 활용하면 실제로 Apple 모델이 어떤 콘텐츠 필터링 정책을 적용하는지 구체적으로 확인 가능함

폴더 및 파일 구조

  • decrypted_overrides/
    • 각각의 생성형 모델에 따른 디렉터리별 안전 오버라이드 파일 저장
    • 각 디렉터리에는 Info.plist(메타데이터)와 AssetData(필터 JSON 파일) 이 포함됨
  • get_key_lldb.py: 애플리케이션에서 사용하는 암호화 키를 추출하는 파이썬 스크립트
  • decrypt_overrides.py: 안전 오버라이드 파일을 해독하는 파이썬 스크립트

오버라이드 파일의 해독 및 이해

  • 오버라이드 JSON 파일에는 명확한 안전 필터링 룰이 명시되어 있음
  • 각 오버라이드는 특정 모델 컨텍스트와 매칭되며, 다양한 상황에 따라 필터링 방식이 상이함
  • 예시 JSON에는 다음과 같은 필드가 포함됨:
    • "reject": 입력값과 일치하면 강제 거부되는 구체 구문 목록
    • "remove": 출력 결과에서 제거해야 할 구문
    • "replace": 특정 구문을 다른 구문으로 대체
    • "regexReject": 정규식으로 매치되는 경우 거부
    • "regexRemove", "regexReplace": 정규식을 통한 제거, 대체

프로젝트 활용 의의

  • 본 프로젝트는 Apple 생성형 모델의 실제 필터링 규칙을 살펴보고, 해당 모델의 세이프티 및 신뢰성 평가에 참고 자료로 활용 가능함
  • 생성형 모델을 활용하는 개발자, 보안 담당자 등이 필터 동작을 분석하거나 모델 커스텀 필터 설계 참조에 유용함
  • Apple Intelligence가 적용하는 콘텐츠 정책 및 규정 준수 수준을 투명하게 파악할 수 있음

Read Entire Article