노란 벽돌길에서 죽음을 피하는 법 - 앱 레이어는 아직 죽지 않았다

1 hour ago 3

AI 앱 레이어가 OpenAI·Anthropic 같은 대형 랩에 잠식될 것이라는 우려가 창업자들 사이에 확산되고 있으나, 앱 레이어는 단일한 기회가 아니라 "노란 벽돌길(Yellow Brick Road)" 과 "오즈의 나머지 영역(Rest of Oz)" 으로 나뉘는 구조
노란 벽돌길은 코드 생성·글쓰기·이미지 생성처럼 모델 자체 성능 향상만으로 품질이 개선되는 수평적 영역으로, 랩들이 막대한 자원을 투입하는 경로
오즈의 나머지 영역은 버티컬·다단계·다중 승인 워크플로처럼 모델 위의 스캐폴딩(scaffolding) 이 신뢰성과 컴플라이언스를 결정하는 영역으로, 스타트업이 고객을 소유할 수 있는 기회 존재
OpenAI·Anthropic이 엔터프라이즈 맞춤화를 위한 대규모 forward-deployed 합작법인을 발표한 사실 자체가 일반화된 AI 코워커만으로 모든 문제를 해결할 수 없음을 시사
차세대 엔터프라이즈 소프트웨어는 "길 바깥(off the road)" 에서 만들어질 것이며, 모델은 교체 가능하지만 시스템 오브 워크(system of work) 는 그렇지 않다는 점이 핵심 방어선

핵심 질문과 전제

창업자·예비 입사자로부터 반복적으로 받는 질문은 "OpenAI와 Anthropic이 모든 것을 죽일 것인가, AI 앱 레이어에 만들 것이 남아있는가"
일부는 영구적 하층 계급을 피할 수 있는 곳은 대형 랩 내부 혹은 로보틱스·하드테크 같은 프런티어 뿐이라고 결론
글쓴이는 AI 맥시멀리스트 입장에서 그들이 "절반은 맞다"고 평가, 랩들이 앱 표면의 상당 부분을 흡수하는 것은 사실
다만 앱 레이어가 단일 기회가 아니라는 점이 핵심 — 노란 벽돌길 위인지, 오즈의 다른 곳인지가 올바른 프레이밍

The Yellow Brick Road — 랩들이 걷는 길

고성능 모델에 G Drive, Slack, Salesforce, Notion, GitHub 같은 off-the-shelf 커넥터를 꽂고 그 위에 에이전트 오케스트레이션 레이어를 얹는 패턴
이 패턴이 위험한 이유는 랩들이 Cowork와 Codex로 이미 동일한 일을 하고 있기 때문
- 모델을 소유 → 더 나은 마진, 통제력, 다운스트림에 대한 가격 결정력
- 제품이 잘 풀도록 정의된 아키텍처 선택권 보유 — 지금까지 "model + tool calls" 패턴을 의도적으로 채택했고, 이는 길 위의 수평적 저단계 작업에 정확히 맞음
스타트업이 Codex나 Claude Code를 성능으로 앞선다 해도 랩들은 막대한 유통망과 AI 분야 최대의 브랜드 후광 보유
동일 커넥터 조합, 서브 에이전트·구성 부재, 유통 부재 상태로 이 플레이북을 도는 AI 앱 회사는 "아무 데도 가지 못하는 길"

The Rest of Oz — 스타트업의 기회

모델이 도구·자동화·통합의 복잡한 망을 통해 엮인 에이전트 경험을 구축하는 영역, 대부분 자연스럽게 버티컬로 귀결
수평 플랫폼으로는 닿지 못하는 다단계·다중 참여자 작업에 집중 가능
- 시스템 전반에서 컨텍스트 수집 후, 단계별 승인이 필요한 다수의 사람에게 라우팅
- 하나 이상의 레거시 시스템 연계, 결정론적 결과가 필요하며 모호함이 허용되지 않음
- 가치 있는 비즈니스 성과와 연결된 경우 多
랩들도 이 문제의 가치를 인지하고 있어 외주 구성 조직(outsourced configuration shops) 을 직접 운영하고, 강화학습 비즈니스의 업마켓 클래스가 존재하는 이유

오즈의 나머지가 마법사에게 잠식되지 않을 이유

Data and learning flywheels (데이터·학습 플라이휠)
- 학습셋에 없는 암묵적 산업 규범, 문서화되지 않은 표준, 현장 종사자 머릿속 부족 지식(tribal knowledge) 은 공개 웹에 존재하지 않음
- 두 개의 플라이휠이 겹쳐서 작동
  - across-customer: 동일 문제의 변형을 여러 고객에게서 보며 누적되는 패턴
  - within-customer: 특정 결정의 이유, 암묵적 예외, 그 회사 고유의 경험칙
- 100건의 법률 redline, 1,000건의 보험 underwriting, 10,000건의 SDR 캠페인을 돌린 회사는 신규 진입자가 갓 띄운 에이전트로 복제 불가능한 문제의 형태를 내재화
- 수평 에이전트가 동일 학습 인프라를 만들 수 없는 핵심 이유는 UX — 버티컬 플레이어만이 워크플로 표면을 정확히 설계 가능
- Eval 셋, 라벨링된 출력, 엣지 케이스 분류 체계가 버티컬 특화 데이터 플라이휠로 누적되어 파인튜닝 연료가 됨
Managing model variability and complexity (모델 다양성·복잡성 관리)
- 랩들은 내부적으로 요청별 모델 라우팅과 앙상블을 이미 수행, 그러나 벤더 간 라우팅, 경쟁사 모델 평가, 오픈소스 파인튜닝 모델을 좁은 영역에 투입하는 것은 불가능
- Rest of Oz 회사는 모회사 랩이 출시한 것뿐 아니라 전체 모델 시장에서 서브태스크별 최적 모델 선택
- 업그레이드마다 eval 재실행, 고객 엣지 케이스에 맞춘 프롬프트 재보정, 프로덕션을 깨지 않는 롤아웃 같은 "아무도 하기 싫은 일"을 흡수
- 랩은 다음 모델을 팔고 "마이그레이션하라"고 통보할 뿐, Rest of Oz 회사가 마이그레이션을 흡수하여 고객에게 전체 시장에서 최고 지능과 업그레이드 연속성을 제공
Cost optimization (비용 최적화)
- 모든 쿼리를 Opus 4.7로 돌리는 것은 음의 매출총이익으로 가는 최단 경로
- 최고의 Rest of Oz 회사는 모델을 티어별 라우팅
  - 가장 어려운 작업에는 프런티어 모델
  - 대부분 작업에는 mid-tier
  - 자격을 갖춘 부분에는 소형 커스텀·파인튜닝 모델
- 일부 기업은 그 위에서 자체 post-training을 수행, 고객이 신경 쓰는 좁은 슬라이스에 최적화하여 프런티어 API 대비 일부 비용으로 서빙
- 랩이 "X달러에 최소 지능"이라는 바닥 가격을 설정한다면, Rest of Oz 회사는 그 역, 즉 워크플로가 실제 요구하는 지능 수준에 대해 최저 달러 비용을 판매
Governance (거버넌스)
- 해당 버티컬에서 고객이 AI를 운영하는 방식의 컨트롤 플레인이 되는 것에 상당한 가치 존재 — 권한, 감사, 에이전트가 무엇을 할 수 있는지, 실제로 무엇을 했는지가 모두 수렴
- 컨트롤 플레인은 산업·직무별로 완전히 다른 유스케이스별 가드레일로 구성
- 도구·워크플로·데이터를 엔드투엔드로 소유하므로 수평 도구가 어려운 결정론적 결과 제공 가능
- 최종 구매자 대신 규제 복잡성을 흡수하는 주체
  - 법률: FRCP와 변호사 윤리 규정
  - 의료: HIPAA
  - 금융: SEC와 FINRA
  - 보험: 주(state) 단위 보험 규제 등
- CIO는 자신이 제공하는 에이전트의 컴플라이언스를 계약상 책임지는 파트너를 원함
공통 결론: 포커스
- 버티컬(보험·법률·회계)이든 깊게 수행되는 펑션(영업·고객지원·재무)이든, 단일 고객 집합의 워크플로·엣지 케이스·규제에 헌신하는 팀 필요
- 랩은 모두를 위해 어디에나 존재해야 하는 구조이므로 이 일을 수행할 수 없음 — "어디에나 있거나" 혹은 "한 가지를 잘하거나" 둘 중 하나

Sales 사례 — 11x CEO Prabhav Jain의 실전 팁

Focus on outcomes (성과에 집중)
- 랩 내성을 갖춘 회사를 만드는 전술적 경로는 고객이 진정 신경 쓰는 특정 성과에서 출발하는 것 — 11x의 경우 파이프라인 생성
- 각 활동을 태스크로 분해 → 에이전틱한 것과 아닌 것, 정교한 도메인 통찰이 필요한 것과 아닌 것 구분
- 다단계·지저분한 입력·해석 어려운 상태·실세계 제약이 있는 워크플로에서는 더 나은 모델만으로는 부족, 재래식 소프트웨어 엔지니어링이 필요하며 이 표면에서는 랩이 우위 없음
- 11x가 처리하는 태스크 예시
  - 커스텀 시그널 기반 리드 prospecting, lead enrichment, deep account research
  - CRM 컨텍스트 페처, 채널별 메시지 작성기, 리드 자격 검증 에이전트, 이메일 전달성 시스템
- 일반 학습 데이터에 없는 도메인 지식을 워크플로의 적절한 시점에 모델에 주입하는 것이 앱 회사의 일이며 누적됨
- 스킬은 비즈니스 진화로 끊임없이 낡으므로 워크플로·컨텍스트 진화 능력 자체가 경쟁우위
  - 예: AI 작성 이메일이 등장하던 시점부터 사용자 감각이 수개월마다 변화, 에이전트는 시장 동학에 맞춰 계속 적응
  - 최근 몇 달간 positive reply rate 4배 상승, 고객을 위해 수억 달러 규모 파이프라인 생성
Work on problems where complexity is high (복잡성 높은 문제)
- 복잡한 문제에서 진짜 비즈니스 가치 해제, 그렇지 않으면 얇은 래퍼(thin wrapper) 가 됨
- GTM 예시: "이미 고객인 회사의 컨택트에게 연락하면 안 된다"는 단순 규칙도 실제로는 매우 복잡
  - CRM에 도메인 매핑이 있을 수 있고, 수십 개 자회사를 가진 기업, 모회사 도메인만 기록된 경우, Salesforce의 stale 매칭 필드로 인해 현 고객 CRO에게 콜드 피치가 가는 사고
- 실세계 데이터는 지저분하며 인간도 모델도 마법처럼 해결 못함 — 문제의 구체적 형태에 맞춰 엔지니어링된 목적 특화 에이전트 필요
- 11x 데이터 기준 자사 데이터의 품질·신선도가 고객 측보다 높아 자사 데이터에 앵커링하는 것이 기본
Guardrails — 나쁜 일 방지가 아닌 고객이 돈 내는 본질
- 가드레일은 심각하게 과소평가됨, 같은 제품 안에서도 유스케이스마다 별도 필요
- 규제 받는 금융 서비스 잠재 고객과 mid-market SaaS 고객의 요구 보증이 다르고, 이는 에이전트의 작성 방식·연락 대상·접근 데이터·통화 발언·의사결정 로깅 방식까지 흘러내림
- 일률(one-size-fits-all) 시스템은 붕괴, 유스케이스별 설계·고객별 구성·지속적 감사 필요
- 이를 위해 고객 요구에 맞춰 튜닝하는 FDE(Forward Deployed Engineer) 와 기술 배포 전략가 운영
- F1000 기관 사례
  - 대규모 SMB 고객 대상 동의 기반 아웃바운드 음성을 수행
  - 초기 반복에서 낮은 픽업률 → 통화 첫 10초 안에 SMB 사업주를 참여시키는 방법을 빠르게 학습
  - SMB 사업주는 대형 B2B 바이어나 컨슈머와 다르게 행동, 현재 해당 세그먼트에 대해 고객사 영업팀의 한 달치보다 하루에 더 많은 영업 기회 창출

Insurance 사례 — FurtherAI CEO Aman Gour

실제 보험 운영에 AI를 배포하며 반복적으로 접한 가정 — "모델이 지능이고 워크플로는 스캐폴딩에 불과하다" — 는 캐리어들과 일할수록 거꾸로임을 확신
보험에서는 지능의 상당 부분이 워크플로 자체에 존재
- 두 캐리어가 동일한 경로(submission → review → quote → bind)를 따르더라도, 차이는 그 안의 모든 것
  - 어떤 리스크가 escalation 되는가
  - 어떤 손실 시그널이 중요한가
  - appetite 규칙이 충돌할 때 어느 쪽이 이기는가
  - 인간 승인 시점, 외부 데이터 호출, 최종 의사결정 문서화 방식
- 이 로직은 깔끔한 룰 엔진 한 곳이 아니라 SOP, 매니저 리뷰, 인수 철학, 캐리어 고유 appetite, 수년의 운영 경험에 분산되어 있고, 다수는 모델이 읽을 수 있는 형태로 문서화되지 않음
결론은 매번 처음부터 추론하는 순수 에이전트도, 현실이 지저분해지면 깨지는 경직된 워크플로도 아닌 agentic workflows
- 워크플로 → 반복성, 감사 가능성, 비용 통제
- 에이전트 → 변동성 처리, happy path가 깨질 때 회복
- 휴먼인더루프 → 책임이 중요한 판단 콜
Day 1에는 수작업 자동화, 시간이 흐르며 모든 escalation이 시그널, 예외가 피드백, 인간 수정이 런북의 누락 지점을 드러내는 신호가 되어 워크플로가 캐리어의 운영 기억(operating memory) 으로 진화
랩은 더 나은 모델과 더 나은 일반 에이전트를 계속 출시하겠지만, 어떤 계좌가 escalation 되었는지·어떤 리스크가 거절되었는지·언더라이터가 appetite 가이드를 뒤집고 옳았던 이유는 캐리어의 프로덕션 안에 충분히 오래 머물지 않으면 학습 불가
"Day 1에 출시한 워크플로가 해자가 아니라, 프로덕션 사용이 시간에 걸쳐 만드는 루프가 해자"

오즈의 나머지에 속하는지 판별하는 3가지 테스트

The tools-and-steps test (도구·단계 테스트)
- 작업이 몇 단계를 거치며 지원 도구가 얼마나 복잡한가
- 비교
  - 수평 AI 검색 (Google Drive 횡단): 1단계, 1도구, 관대한 결과 — 틀리면 다시 묻기
  - 법률 redline (3년치 펌 선례 대조): 수십 단계, 다수 도구, 파트너 검토를 통과해야 하고 법정에서 다툴 수도 있는 출력
- 둘 다 "에이전트가 일하는 모습"이지만, 한쪽만 포커스 팀이 수년간 만드는 깊은 소프트웨어 요구
The system test (시스템 테스트)
- 고객이 자신의 일을 통과시키는 시스템을 만들고 있는가, 아니면 이미 있는 시스템 위의 도구인가
- 시스템은 데이터 캡처, 거버넌스, 수행 기록을 엔드투엔드로 소유하며 고객이 "실제 일이 일어나는 곳"으로 가리키는 대상
- 도구는 고객이 이미 운영하는 워크플로에 지능을 추가할 뿐, 매출은 발생하지만 랩이 가져갈 수 있는 영역
- High ACV가 시스템의 신호인 경우가 많으나 보증은 아님 — 랩이 직접 경쟁 제품을 내놓아도 고객이 여전히 당신의 도구가 필요한가가 판별 기준
The hedge fund / P&L test (헤지펀드/P&L 테스트)
- 랩 성과는 벤치마크로, Rest of Oz 성과는 고객의 P&L로 평가
- 고객은 SWE-Bench·MMLU 점수에 관심 없음 — 에이전트가 딜을 클로즈했는지, 계약을 올바로 redline 했는지, 적절한 정책을 bind 했는지를 본다
- 워크플로 특화 결과에 집착하는 고객 → Rest of Oz, 일반 능력에 비용을 지불하는 고객 → Claude나 Codex seat으로 충분
- 최고의 에이전트 비즈니스는 헤지펀드처럼 고객 P&L로 측정되는 알파로 승부해야 함

양쪽 모두 승리할 수 있다

노란 벽돌길 위에서도 거대한 승자가 나올 것 — 랩들은 모델을 소유하고 자신들이 설계한 수평 도구의 유통도 소유
Rest of Oz의 승리 조건은 system of work의 소유 — 회사의 일이 실제 실행되고 데이터가 캡처되는 표면
- 데이터 캡처, 워크플로의 액션 시스템, 거버넌스를 소유
- 버티컬에서 복잡한 워크플로가 성숙할수록 고객이 의존하는 하나의 핵심 경험으로 응축
- 신구 모델 세대가 출시될 때 기업은 이를 통합·전달하는 레이어가 됨
- 모델은 그 아래에서 대체 가능(fungible), 하지만 system of work는 아님
차세대 엔터프라이즈 소프트웨어는 "길 바깥" 에서 만들어질 것