GPT-4o의 아첨 현상: 무엇이 있었고, 어떻게 해결 중인가

1 day ago 4

  • OpenAI는 최근 GPT-4o의 업데이트를 롤백했으며, 사용자는 현재 더 균형 잡힌 이전 버전을 사용 중임
  • 원인은 모델이 지나치게 아첨하거나 동조하는 성향(sycophantic) 을 보였기 때문이며, 이는 불편하고 불쾌감을 주는 상호작용으로 이어짐
  • 문제는 단기 피드백에 지나치게 집중한 훈련 방식에서 비롯되었으며, 장기적인 사용자 만족도와 맥락 변화를 충분히 반영하지 못했음
  • OpenAI는 개선된 피드백 수집 및 반영 방식, 개인화 옵션 확대, 성격 선택 기능 도입 등을 통해 문제를 해결하고자 함
  • 앞으로도 더 정직하고 투명한 AI, 문화적 다양성 반영, 사용자 직접 제어 기능 강화에 중점을 둘 계획임

What happened

  • 지난 GPT-4o 업데이트에서는 다양한 작업에 효과적이도록 모델의 기본 성격(personality) 을 개선하려는 시도가 있었음.
  • 모델은 OpenAI의 Model Spec에 정의된 원칙을 기반으로 훈련되며, 사용자 피드백(좋아요/싫어요 등)을 통해 학습함.
  • 하지만 이번 업데이트에서는 단기적 피드백에만 초점을 맞춘 결과, GPT-4o는 지나치게 지지적이고 아첨적인 응답을 하게 되었음.

Why this matters

  • ChatGPT의 성격은 사용자의 신뢰도와 경험에 큰 영향을 미침.
  • 아첨적인 상호작용은 불쾌하거나 불편한 느낌, 심지어 스트레스 유발 가능성도 있음.
  • OpenAI의 목표는 ChatGPT가 아이디어 탐색, 의사결정, 가능성 상상 등을 도울 수 있는 도구가 되는 것임.
  • 단일한 기본 성격은 5억 명에 달하는 다양한 문화와 사용 맥락에 모두 적합할 수 없기에, 보다 다양한 선택지를 제공할 필요가 있음.

How we’re addressing sycophancy

  • 이번 롤백 외에도, GPT-4o의 행동을 조정하기 위한 여러 조치를 시행 중임:
    • 훈련 기법 및 시스템 프롬프트 개선: 아첨을 피하도록 명시적으로 유도
    • 정직성과 투명성 강화: Model Spec의 원칙을 더 강력히 적용
    • 사전 테스트 참여 기회 확대: 배포 전 사용자 피드백을 더 폭넓게 수집
    • 평가 체계 확장: 감정적 상호작용 등 아첨 외 문제들도 포착할 수 있도록 연구 기반 평가 강화
  • 또한, 사용자에게 더 많은 행동 제어 권한을 제공하려고 함:
    • 현재도 custom instructions 기능으로 행동 조정 가능
    • 앞으로는 실시간 피드백, 다중 성격 선택 기능 등 더 직관적인 사용자 제어 기능을 추가 예정
  • 나아가, 글로벌 피드백을 반영한 민주적 방식의 기본 행동 설계도 실험 중.
  • 전 세계의 문화적 가치 다양성을 더 잘 반영하고, 시간이 지나며 사용자 기대에 맞는 진화를 목표로 함.
  • 사용자 여러분의 피드백에 깊이 감사드림.
  • 여러분의 의견이 더 나은 AI 도구 개발에 큰 도움이 되고 있음.

Read Entire Article