OpenAI, 4o 이미지 생성 기능 공개

3 days ago 4

  • OpenAI는 이미지 생성이 언어 모델의 핵심 기능 중 하나여야 한다고 오랫동안 믿어왔고, 이러한 비전을 바탕으로 가장 정교하고 강력한 이미지 생성기를 GPT‑4o에 통합
  • GPT‑4o의 이미지 생성은 단순히 아름다운 이미지를 넘어 실제로 유용하고 가치 있는 결과물을 만들어냄
  • 정밀하고 정확하며, 포토리얼리즘 수준의 고품질 이미지 생성이 가능함
  • 멀티모달 기능이 기본으로 탑재되어 있어 언어, 이미지, 문맥을 함께 활용한 시각 콘텐츠 제작이 가능함

유용한 이미지 생성 기능

  • 인간은 고대 벽화부터 현대의 인포그래픽까지 시각적 이미지를 사용해 정보를 전달하고 설득하며 분석해왔음
  • 기존의 생성 모델들은 환상적이거나 인상적인 이미지를 만들 수 있지만, 실용적인 정보 전달용 이미지는 어려워했음
  • GPT‑4o의 이미지 생성은 로고나 다이어그램처럼 의미 전달에 정확한 이미지 생성에 강점을 가짐
  • 텍스트 정확한 렌더링, 사용자 대화 맥락 활용, 업로드된 이미지 기반 생성 등 고도화된 기능을 포함함
  • 이러한 기능은 사용자가 원하는 이미지를 더 정확하게 만들 수 있게 도와줌

향상된 이미지 생성 능력

  • 온라인 이미지와 텍스트의 결합 분포를 학습하여 이미지와 언어, 이미지 간의 관계를 이해함
  • 훈련 후 보정 과정을 거쳐 시각적 유창성이 높아지고, 유용하고 일관성 있는 이미지 생성 가능함

텍스트 렌더링 기능

  • 이미지는 수천 개의 단어를 담을 수 있지만, 위치에 맞는 텍스트 몇 개가 의미를 강화시킬 수 있음
  • GPT‑4o는 이미지에 정밀한 기호나 텍스트를 결합해 시각적 커뮤니케이션 도구로 활용 가능함

대화형 이미지 생성

  • GPT‑4o는 이미지 생성을 본연의 기능으로 통합하여, 대화 흐름 속에서 이미지 생성과 수정 가능함
  • 예: 게임 캐릭터 디자인 시 외형을 지속적으로 유지하면서 반복 수정 가능함

지시사항 정확한 반영

  • GPT‑4o는 자세한 프롬프트를 정확히 반영함
  • 타 시스템은 약 5-8개 객체까지 처리 가능하지만, GPT‑4o는 최대 10-20개 객체를 일관성 있게 생성 가능함
  • 객체 속성 및 관계 표현을 더 정확하게 유지함

맥락 기반 학습

  • 사용자가 업로드한 이미지를 분석해 해당 이미지의 세부 정보를 이미지 생성에 반영함

세계 지식과의 연결

  • GPT‑4o는 텍스트와 이미지 간의 지식을 연결하여 더 스마트하고 효율적인 이미지 생성이 가능함

포토리얼리즘과 다양한 스타일

  • 다양한 이미지 스타일로 훈련되어 현실감 있는 이미지 생성과 스타일 변환 가능함

모델의 한계점

  • 완벽한 모델은 아님
  • 초기 출시 이후 사용자 피드백과 데이터 기반으로 지속적인 개선 예정임

안전성 확보 노력

  • 게임 개발, 역사 탐구, 교육 등 유익한 창작 활동을 장려하면서도 강력한 안전 기준 유지
  • 부적절한 이미지 생성을 방지하기 위해 철저한 정책 적용 중임
  • C2PA 및 내부 검색 도구를 통한 투명성 확보

    • GPT‑4o가 생성한 모든 이미지에는 C2PA 메타데이터 포함되어 출처를 명확히 함
    • 내부 검색 도구를 활용해 기술적 속성을 바탕으로 이미지 출처 확인 가능함
  • 부적절한 이미지 차단

    • 아동 성적 이미지나 딥페이크 등 정책 위반 이미지 생성 요청을 차단함
    • 실존 인물이 포함된 이미지에 대해서는 더 강화된 제한 적용
    • 누드, 폭력적 이미지에 대한 철저한 사전 차단 시스템 운영
  • 추론 기반의 안전성 강화

    • 인간이 작성한 정책 명세서를 기반으로 작동하는 추론 기반 LLM을 훈련함
    • 정책의 모호함을 파악하고 해결하기 위해 사용되었으며, 멀티모달 기술과 결합해 입력 텍스트와 출력 이미지 모두 정책 기준에 맞도록 조정함

이용 가능

  • 오늘부터 Plus, Pro, Team, Free 사용자에게 기본 이미지 생성기로 제공됨
  • Enterprise와 Edu는 곧 지원 예정
  • Sora에서도 사용 가능하며, 기존 DALL·E 모델은 별도 GPT로 접근 가능함
  • API를 통한 이미지 생성 기능은 몇 주 내로 개발자에게 제공 예정
  • 사용자는 원하는 이미지 설명만으로 생성 가능하며, 비율, 색상(hex 코드), 배경 투명 여부 등도 지정 가능함
  • 고정밀 이미지 생성으로 인해 렌더링 시간은 최대 1분 소요될 수 있음

Read Entire Article