자체 AI 모델 학습하기

2 days ago 4

PostHog는 AI installation wizard, PostHog AI, MCP에 이어 더 능동적이고 자율적인 제품을 만들기 위해 내부 데이터로 모델 학습을 시도함
핵심 대상은 PostHog Code이며, 답과 해결책을 대신 찾아 실행하고 시간이 지나며 개선되는 제품 방향을 뒷받침함
세션 리플레이 분석, 합성 사용자 테스트, 사용자 행동 예측을 개선해 문제 감지 비용을 낮추고 배포 전 오류와 혼란 지점을 찾으려 함
학습 데이터는 익명화되고 PostHog 인스턴스에 이미 있는 데이터만 사용되며, 제3자 모델 제공업체에 판매하거나 보내지 않음
EU 클라우드와 학습 제한 계약 고객은 기본 제외되고 US 클라우드는 기본 포함되며, 사용자는 6월 29일 전 옵트아웃 가능함

PostHog의 자체 AI 모델 학습 계획

PostHog는 지난 1년 동안 AI installation wizard, PostHog AI, MCP 같은 AI 기능을 제품에 추가했고, 앞으로 더 능동적이고 자율적인 제품을 만들려 함
PostHog의 다음 단계는 답과 해결책을 사용자를 대신해 찾아내고 실행하며, 시간이 지나며 개선되는 제품을 만드는 방향임
현재 베타인 PostHog Code는 이 방향의 핵심 제품이며, 이를 가능하게 하기 위해 PostHog 내부 데이터로 모델을 학습하려 함

만들고 싶은 기능

목표는 기존 제품을 더 똑똑하고 능동적으로 만들고, PostHog Code 같은 새 제품으로 팀이 더 좋은 제품을 더 빠르게 만들도록 돕는 것임
세션 리플레이 분석
- PostHog AI는 이미 리플레이에서 문제를 감지할 수 있지만, 비용이 높아 대규모 확장에 적합하지 않음
- 개별 사용자 문제를 진단할 때처럼 대규모에서도 리플레이를 강력하게 쓰려면, 리플레이를 구성하는 기저 데이터로 학습한 모델이 필요함
합성 사용자 테스트
- 합성 사용자 테스트는 사용자 행동에 대한 지식을 활용해 사용자가 혼란을 겪을 지점이나 깨질 수 있는 흐름을 프로덕션 배포 전에 찾는 아이디어임
- 코딩 모델이 개선되면서 테스트와 리뷰 업무가 크게 늘어나고 있으며, PostHog는 이 작업을 자동화해 사용자가 제품 자체에 집중하도록 만들려 함
사용자 행동 예측
- 사용자 행동 예측이 좋아지면 이미 배포한 기능에서도 전환율을 높이고 사용자 불만을 줄일 변경을 제안할 수 있음
- 자동화가 가능해지면 수동 분석 시간이 줄고, 그 과정에서 소비하는 토큰도 줄어듦
- 이런 아이디어들은 아직 실험적이며, 모델을 효과적으로 학습하는 방법과 실제로 유용한 데이터를 찾기까지 반복이 필요함
- PostHog는 AI가 제품을 더 단순하거나 강력하게 만들 때 좋은 결과가 있었다는 점을 이번 시도의 근거로 삼음

작동 방식과 데이터 사용 원칙

이 계획은 기존 기능을 더 강력하게 만들고, 제품을 더 능동적으로 개선하는 기능을 제공하는 데 초점을 둠
많은 도구가 최고의 코드를 제공하는 데 집중하지만, PostHog는 사용자의 제품 자체가 더 좋아지도록 만드는 데 집중하려 함
그래서 PostHog Code를 제품 편집기라고 표현함
핵심 부담은 PostHog에 있는 데이터를 모델 학습에 사용한다는 점이며, PostHog는 이를 약관 업데이트에 묻어두지 않고 공개적으로 알리려 함
기본 적용 방식
- EU 클라우드 인스턴스 사용자는 기본적으로 제외됨
- BAA, MSA 또는 유사한 계약처럼 학습을 막는 계약이 있는 사용자도 기본적으로 제외됨
- 그 외 US 클라우드 인스턴스 사용자는 기본적으로 포함됨
데이터 처리와 제한
- 학습에 사용되기 전 모든 데이터는 익명화됨
- 사용자의 PostHog 인스턴스에 이미 존재하는 데이터만 사용됨
- 모델 학습은 PostHog가 직접 수행함
- 사용자 데이터를 제3자 모델 제공업체에 판매하거나 보내지 않음
옵트아웃
- 사용자는 언제든 PostHog 조직 설정에서 옵트아웃할 수 있음
- 조직 설정 변경에는 관리자 권한이 필요함
- 학습은 6월 29일까지 시작되지 않아 사용자가 결정할 시간이 있음

커뮤니케이션 계획

PostHog는 모든 고객에게 목적을 명확히 드러낸 이메일을 보낼 예정임
이메일을 읽지 않는 사용자를 위해 앱 내 알림으로도 모든 사용자에게 알림
계획을 공개적으로 알리는 방식으로 진행함
목표는 고객을 위한 PostHog 제품 개선이며, 사용자 데이터로 학습한 모델을 노출하거나 판매하거나 데이터를 수익화하는 것이 아님

옵트인이 아니라 옵트아웃인 이유

기본 옵트인이 아니라 기본 포함 후 옵트아웃을 택한 이유는, 그렇지 않으면 실제로 유용한 모델을 학습할 만큼 충분한 데이터가 모이지 않기 때문임
옵트아웃을 선택하면 이 모델들로 만드는 새 기능을 사용할 수 없음
EU 클라우드 인스턴스처럼 기본적으로 제외된 사용자는, PostHog와의 법적 계약이 막지 않는 경우 수동으로 옵트인할 수 있음
PostHog는 조용히 배포하지 않고 사전에 공개하는 방식을 선택함
PostHog는 이 작업을 함께할 AI 연구자도 채용 중임

Read Entire Article