OpenAI Privacy Filter 소개

2 weeks ago 10

비정형 텍스트에서 개인식별정보를 탐지하고 마스킹하는 오픈웨이트 모델로, 로컬 실행을 통해 필터링 전 데이터가 장치를 벗어나지 않게 할 수 있음
양방향 토큰 분류와 span decoding을 결합해 입력을 한 번에 라벨링하고, 최대 128,000토큰 문맥에서 PII span을 빠르게 복원하도록 설계됨
전화번호나 이메일 형식에 의존하는 규칙 기반 방식과 달리, 언어·문맥 인식을 바탕으로 공개 정보와 마스킹이 필요한 정보를 더 잘 구분함
공개 데이터와 합성 데이터를 함께 사용해 학습했고, PII-Masking-300k에서 F1 96%, 보정 버전에서 F1 97.43% 를 기록했으며 소량 데이터로도 도메인 적응 성능이 54%에서 96%로 올라감
익명화 도구나 컴플라이언스 인증 대체물은 아니며, 고민감 영역에서는 사람 검토와 도메인별 평가, 추가 미세조정이 여전히 중요함

제품 개요와 배포 방식

개인식별정보 탐지·가림에 특화된 오픈웨이트 모델로, 텍스트에서 PII를 찾아 마스킹하거나 삭제할 수 있음
로컬 실행을 지원해 필터링 전 데이터가 장치를 벗어나지 않게 할 수 있고, 서버로 보내 비식별화할 때보다 노출 위험을 줄일 수 있음
긴 입력을 빠르게 처리하도록 설계됐으며, 한 번의 패스로 가림 여부를 결정할 수 있음
개발자는 자체 환경에서 실행하고, 자체 사용 사례에 맞게 미세조정해 학습·인덱싱·로깅·검토 파이프라인에 더 강한 프라이버시 보호를 넣을 수 있음
Hugging Face와 GitHub에서 Apache 2.0 라이선스로 공개됐고, 실험·커스터마이징·상용 배포까지 염두에 둠

기존 방식과 다른 점

전통적인 PII 탐지 도구는 전화번호나 이메일 주소 같은 형식에 대한 결정적 규칙에 의존하는 경우가 많음
이런 방식은 좁은 범위에서는 잘 동작할 수 있지만, 더 미묘한 개인정보를 놓치기 쉽고 문맥 처리에도 약함
Privacy Filter는 더 깊은 언어·문맥 인식을 바탕으로 비정형 텍스트에서 더 넓은 범위의 PII를 탐지할 수 있음
공개 정보라서 보존해야 할 정보와, 개인과 연결돼 마스킹하거나 삭제해야 할 정보를 더 잘 구분하도록 설계됨
기존 수준을 넘어 프라이버시 기준을 끌어올리려는 목적 아래 개발됐고, 내부 프라이버시 보존 워크플로에도 미세조정 버전을 쓰고 있음

모델 구조와 탐지 범위

양방향 토큰 분류 모델에 span decoding을 결합한 구조를 사용함
자기회귀 사전학습 체크포인트에서 시작한 뒤, 고정된 프라이버시 라벨 체계 위의 토큰 분류기로 적응시킴
텍스트를 토큰별로 생성하지 않고 입력 시퀀스를 한 번에 라벨링한 뒤, 제약된 Viterbi 절차로 일관된 span을 복원함
이 구조 덕분에 모든 토큰을 단일 forward pass로 라벨링하는 고속·고효율 특성을 보임
주변 문맥을 활용해 PII span을 판별할 수 있고, 공개 모델은 최대 128,000 토큰 문맥을 지원함
운영 환경에 맞춰 재현율과 정밀도 사이의 균형점을 조정할 수 있음
공개된 모델은 전체 1.5B 파라미터를 가지며, 활성 파라미터는 50M임
예측 범주는 private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret의 8개임
account_number는 신용카드 번호와 은행 계좌번호를 포함한 다양한 계정 번호를 가리는 데 쓰이고, secret은 비밀번호와 API 키 같은 항목을 다룸
라벨은 BIOES span 태그로 디코딩돼 더 깔끔하고 일관된 마스킹 경계를 만듦

학습 과정과 평가 결과

프라이버시 taxonomy를 먼저 만들고, 모델이 탐지해야 할 span 유형을 정의함
- 개인 식별자, 연락처 정보, 주소, 비공개 날짜, 신용·은행 정보를 포함한 여러 계정 번호, API 키와 비밀번호 같은 secret을 포함함
사전학습 언어 모델의 language modeling head를 token-classification head로 교체한 뒤, 지도학습 분류 목표로 후속 학습함
공개 데이터와 합성 데이터를 섞어 학습해 현실적인 텍스트와 까다로운 프라이버시 패턴을 함께 포착하도록 구성함
- 공개 데이터에서 라벨이 불완전한 부분은 모델 보조 주석과 검토로 커버리지를 높임
- 합성 예시는 형식, 문맥, 프라이버시 하위 유형 전반의 다양성을 늘리는 데 쓰임
추론 시에는 토큰 단위 예측을 제약된 시퀀스 디코딩으로 일관된 span으로 변환함
표준 벤치마크와 더 어려운 문맥 민감 사례를 겨냥한 추가 합성·채팅형 평가를 함께 수행함
PII-Masking-300k에서 F1 96%, 정밀도 94.04%, 재현율 98.04%를 기록함
검토 과정에서 확인한 데이터셋 주석 문제를 반영한 보정 버전에서는 F1 97.43%, 정밀도 96.79%, 재현율 98.08%를 기록함
소량 데이터만으로도 도메인 적응이 빠르게 이뤄졌고, 평가한 도메인 적응 벤치마크에서 F1이 54%에서 96% 로 올라감
모델 카드에는 코드베이스의 secret 탐지와 다국어·적대적·문맥 의존 예시에 대한 스트레스 테스트도 담김