-
Apple Intelligence의 생성형 모델에 내장된 안전 필터를 해독 및 공개하는 오픈소스 프로젝트
- 안전 필터는 유해하거나 부적절한 콘텐츠를 차단, 규정 준수를 위한 필터링 룰을 포함
- 안전 오버라이드는 모델 컨텍스트에 따라 다르게 적용되며, 각각의 상황에 맞는 구체 규칙 정보를 제공함
- 해독된 파일은 json 형태로, 단어, 구문, 정규식 기반 룰 등이 포함됨
- 이 프로젝트는 프라이버시‧신뢰성 검증, 모델 세이프티 분석 등에 유의미한 리소스임
프로젝트 개요
- 본 저장소는 Apple Intelligence에서 활용되는 생성형 모델의 안전 오버라이드(safety override) 파일을 해독 및 공개함
- 해독된 오버라이드는 폴더 내 구조적으로 정리되어 있으며, 각 모델에 연관된 안전 필터링 JSON 파일 형태로 제공됨
- 이를 활용하면 실제로 Apple 모델이 어떤 콘텐츠 필터링 정책을 적용하는지 구체적으로 확인 가능함
폴더 및 파일 구조
-
decrypted_overrides/
- 각각의 생성형 모델에 따른 디렉터리별 안전 오버라이드 파일 저장
- 각 디렉터리에는 Info.plist(메타데이터)와 AssetData(필터 JSON 파일) 이 포함됨
-
get_key_lldb.py: 애플리케이션에서 사용하는 암호화 키를 추출하는 파이썬 스크립트
-
decrypt_overrides.py: 안전 오버라이드 파일을 해독하는 파이썬 스크립트
오버라이드 파일의 해독 및 이해
- 오버라이드 JSON 파일에는 명확한 안전 필터링 룰이 명시되어 있음
- 각 오버라이드는 특정 모델 컨텍스트와 매칭되며, 다양한 상황에 따라 필터링 방식이 상이함
- 예시 JSON에는 다음과 같은 필드가 포함됨:
-
"reject": 입력값과 일치하면 강제 거부되는 구체 구문 목록
-
"remove": 출력 결과에서 제거해야 할 구문
-
"replace": 특정 구문을 다른 구문으로 대체
-
"regexReject": 정규식으로 매치되는 경우 거부
-
"regexRemove", "regexReplace": 정규식을 통한 제거, 대체
프로젝트 활용 의의
- 본 프로젝트는 Apple 생성형 모델의 실제 필터링 규칙을 살펴보고, 해당 모델의 세이프티 및 신뢰성 평가에 참고 자료로 활용 가능함
- 생성형 모델을 활용하는 개발자, 보안 담당자 등이 필터 동작을 분석하거나 모델 커스텀 필터 설계 참조에 유용함
- Apple Intelligence가 적용하는 콘텐츠 정책 및 규정 준수 수준을 투명하게 파악할 수 있음