구글 딥마인드, LLM이 생성한 텍스트를 워터마킹하고 감지하는 SynthID를 오픈소스로 공개

1 day ago 3

  • Google DeepMind의 SynthID는 AI 생성 이미지, 오디오, 텍스트 또는 비디오에 직접 디지털 워터마크를 삽입하여 AI 생성 콘텐츠에 워터마크를 적용하고 식별하는 기술
    • Nature 논문에서 이 방법에 대한 보다 완전한 기술적 설명을 읽을 수 있음
  • SynthID Text는 개발자가 텍스트 생성에 워터마킹을 사용할 수 있도록 오픈 소스로 제공

워터마크 적용

  • SynthID Text는 Top-K 및 Top-P 이후 모델의 생성 파이프라인에 적용되는 Logits 프로세서
  • 의사 무작위 g-함수를 사용하여 모델의 로짓을 보강하여 텍스트 품질에 크게 영향을 주지 않으면서 텍스트가 모델에 의해 생성되었는지 여부를 판단하는 데 도움이 되는 방식으로 워터마킹 정보를 인코딩함
  • 워터마크는 g-함수를 매개변수화하고 생성 중에 적용되는 방식을 구성하기 위해 설정됨
  • 사용하는 각 워터마킹 구성은 안전하고 비공개로 저장되어야 함
  • 워터마킹 구성에 필요한 두 가지 필수 매개변수
    • keys 매개변수: 모델의 어휘에 걸쳐 g-함수 점수를 계산하는 데 사용되는 고유한 무작위 정수 목록. 이 목록의 길이는 적용되는 워터마킹 계층 수를 결정함
    • ngram_len 매개변수: 강건성과 검출 가능성의 균형을 맞추는 데 사용됨. 값이 클수록 워터마크가 더 잘 감지되지만 변경에 더 취약해짐. 기본값으로 5가 적절함
  • 성능 요구에 따른 워터마크 추가 구성 가능
    • 샘플링 테이블은 sampling_table_size와 sampling_table_seed의 두 가지 속성으로 구성됨
    • 샘플링할 때 편향되지 않고 안정적인 g-함수를 보장하려면 sampling_table_size를 최소 2^16 이상 사용해야 함
    • 그러나 샘플링 테이블의 크기는 추론 시 필요한 메모리 양에 영향을 미침
    • sampling_table_seed로는 원하는 정수를 사용할 수 있음
    • 이전 토큰의 context_history_size에서 반복되는 n-그램은 검출 가능성을 높이기 위해 워터마크되지 않음
  • SynthID Text 워터마크로 텍스트를 생성하기 위해 모델에 추가 훈련이 필요하지 않음
  • 모델의 .generate() 메서드에 전달되는 워터마킹 구성만 필요함. 이는 SynthID Text 로짓 프로세서를 활성화함
  • Hugging Face의 블로그 게시물과 Space에서 Transformers 라이브러리에서 워터마크를 적용하는 방법을 보여주는 코드 예제를 확인할 수 있음

워터마크 감지 및 검증 가능성

  • 워터마크 감지는 확률적임
  • 베이지안 탐지기가 Hugging Face Transformers 및 GitHub에서 제공됨
  • 이 탐지기는 워터마크됨, 워터마크되지 않음 또는 불확실의 세 가지 가능한 탐지 상태를 출력할 수 있음
  • 두 개의 임계값을 설정하여 특정 거짓 양성률과 거짓 음성률을 달성하도록 동작을 사용자 정의할 수 있음
  • 동일한 토크나이저를 사용하는 모델은 탐지기의 훈련 세트에 워터마크를 공유하는 모든 모델의 예제가 포함되어 있는 한 워터마킹 구성 및 탐지기를 공유할 수 있음
  • 훈련된 탐지기가 있으면 탐지기를 사용자 및 대중에게 노출할지 여부와 방법을 선택할 수 있음
    • 완전 비공개 옵션은 탐지기를 어떤 식으로든 공개하거나 노출하지 않음
    • 반 비공개 옵션은 탐지기를 공개하지 않지만 API를 통해 노출함
    • 공개 옵션은 다른 사람이 다운로드하고 사용할 수 있도록 탐지기를 공개함

제한 사항

  • SynthID Text 워터마크는 일부 변환에 강력하지만 제한 사항이 있음
    • 워터마크 적용은 정확성을 저하시키지 않고 생성을 보강할 기회가 적기 때문에 사실적인 응답에는 덜 효과적임
    • AI 생성 텍스트를 철저히 다시 작성하거나 다른 언어로 번역하면 탐지기 신뢰도 점수가 크게 감소할 수 있음
  • SynthID Text는 의도적인 공격자가 해를 끼치는 것을 직접 막도록 설계되지 않았음
  • 그러나 악의적인 목적으로 AI 생성 콘텐츠를 사용하기 어렵게 만들 수 있으며, 다른 접근 방식과 결합하여 콘텐츠 유형과 플랫폼에 걸쳐 더 나은 적용 범위를 제공할 수 있음

GN⁺의 의견

  • SynthID Text는 워터마크를 통해 AI 생성 콘텐츠의 출처를 식별할 수 있는 유용한 기능을 제공함
  • 그러나 워터마크 자체는 콘텐츠의 진위 여부를 보장하지는 않음. 잘못된 정보나 유해한 콘텐츠에도 워터마크를 적용할 수 있기 때문
  • 따라서 워터마크와 더불어 콘텐츠의 내용 자체에 대한 신뢰성 검증도 필요할 것임
  • Hugging Face와 같은 주요 라이브러리에 통합되어 개발자들이 쉽게 활용할 수 있다는 점은 큰 장점
  • 다만 탐지기의 공개 여부는 신중히 결정해야 할 사항임. 완전 공개할 경우 워터마크를 우회하려는 시도가 늘어날 수 있기 때문
  • 전반적으로 AI 생성 콘텐츠가 빠르게 확산되는 상황에서 출처 식별을 위한 기술로서 SynthID Text의 중요성은 커질 것으로 보임

Read Entire Article