Apple Intelligence 모델에서 추출한 안전 필터

6 hours ago 2

Apple Intelligence의 생성형 모델에 내장된 안전 필터를 해독 및 공개하는 오픈소스 프로젝트
안전 필터는 유해하거나 부적절한 콘텐츠를 차단, 규정 준수를 위한 필터링 룰을 포함
안전 오버라이드는 모델 컨텍스트에 따라 다르게 적용되며, 각각의 상황에 맞는 구체 규칙 정보를 제공함
해독된 파일은 json 형태로, 단어, 구문, 정규식 기반 룰 등이 포함됨
이 프로젝트는 프라이버시‧신뢰성 검증, 모델 세이프티 분석 등에 유의미한 리소스임

프로젝트 개요

본 저장소는 Apple Intelligence에서 활용되는 생성형 모델의 안전 오버라이드(safety override) 파일을 해독 및 공개함
해독된 오버라이드는 폴더 내 구조적으로 정리되어 있으며, 각 모델에 연관된 안전 필터링 JSON 파일 형태로 제공됨
이를 활용하면 실제로 Apple 모델이 어떤 콘텐츠 필터링 정책을 적용하는지 구체적으로 확인 가능함

폴더 및 파일 구조

decrypted_overrides/
- 각각의 생성형 모델에 따른 디렉터리별 안전 오버라이드 파일 저장
- 각 디렉터리에는 Info.plist(메타데이터)와 AssetData(필터 JSON 파일) 이 포함됨
get_key_lldb.py: 애플리케이션에서 사용하는 암호화 키를 추출하는 파이썬 스크립트
decrypt_overrides.py: 안전 오버라이드 파일을 해독하는 파이썬 스크립트

오버라이드 파일의 해독 및 이해

오버라이드 JSON 파일에는 명확한 안전 필터링 룰이 명시되어 있음
각 오버라이드는 특정 모델 컨텍스트와 매칭되며, 다양한 상황에 따라 필터링 방식이 상이함
예시 JSON에는 다음과 같은 필드가 포함됨:
- "reject": 입력값과 일치하면 강제 거부되는 구체 구문 목록
- "remove": 출력 결과에서 제거해야 할 구문
- "replace": 특정 구문을 다른 구문으로 대체
- "regexReject": 정규식으로 매치되는 경우 거부
- "regexRemove", "regexReplace": 정규식을 통한 제거, 대체

프로젝트 활용 의의

본 프로젝트는 Apple 생성형 모델의 실제 필터링 규칙을 살펴보고, 해당 모델의 세이프티 및 신뢰성 평가에 참고 자료로 활용 가능함
생성형 모델을 활용하는 개발자, 보안 담당자 등이 필터 동작을 분석하거나 모델 커스텀 필터 설계 참조에 유용함
Apple Intelligence가 적용하는 콘텐츠 정책 및 규정 준수 수준을 투명하게 파악할 수 있음

Read Entire Article