올 들어 직장인 사이에선 클로드가 단연 화제였다. 앤스로픽의 ‘클로드 오퍼스 4.7’이 대학원 수준의 추론 능력을 앞세워 가장 똑똑한 생성형 인공지능(AI) 타이틀을 선점했고, 직원들은 클로드를 구독해 업무에 적용했다. 이런 상황은 지난달 23일 오픈AI가 에이전트 기능을 극대화한 ‘GPT-5.5’를 내놓은 뒤 다시 바뀌었다. 업무 영역에서 앤스로픽과 오픈AI의 양강구도가 형성된 것이다.
◇실행력의 GPT vs 사고력의 오퍼스
오픈AI의 GPT-5.5는 업무 영역에서 앤스로픽의 오퍼스 4.7에 판정승을 거뒀다는 평가가 많다. 컴퓨터 시스템을 제어하는 ‘터미널 자동화’ 영역에서 GPT-5.5는 성공률 82.7%로 오퍼스 4.7(69.4%)을 큰 차이로 따돌린 것이다. 웹 브라우징(84.4%)과 사이버 보안(81.8%) 등 도구를 다루는 에이전트 성능에서도 GPT-5.5가 더 높은 점수를 받았다.
이미지 생성 및 처리 기능을 강화한 GPT-5.5는 텍스트 추론에 집중한 클로드와의 차별화에서도 성공했다는 평을 듣고 있다. 한 개발자는 “과거에는 이미지를 이해시키기 위해 별도의 프롬프트(명령어)를 입력해야 했지만, GPT-5.5에는 사진만 첨부하면 다 읽어준다”며 “GPT-5.5의 광학문자인식(OCR) 기능이 비약적으로 좋아진 게 체감된다”고 했다.
오퍼스 4.7은 여전히 가장 똑똑한 ‘뇌’를 갖고 있다. 대학원 수준 추론(94.2%)과 고난도 추론(46.9%)에서는 GPT-5.5를 앞섰다. 복잡한 기획이나 설계 업무에선 오퍼스 4.7이 강하다는 의미다.
오픈AI는 여기에 대응하기 위해 헤비유저를 겨냥해 낮은 가격 전략도 들고나왔다. 출력 단가는 챗GPT(100만 토큰당 30달러)가 클로드(25달러)보다 비싸지만, 20만 토큰 초과 시 비용을 두 배로 할증하는 클로드와 달리 오픈AI는 할증 방식을 없앴다. 대기업 직장인은 “클로드를 업무에 쓸 때마다 토큰이 금세 바닥나는 경우가 많았다”며 “대규모 데이터를 처리하는 작업이 많을 때 챗GPT를 쓰게 될 것”이라고 말했다.
◇‘하네스 엔지니어링’의 시대 열리나
앤스로픽과 오픈AI의 경쟁으로 성능이 비약적으로 발전하자 개발자 사이에선 이를 이용해 더 막강한 AI 업무 도구를 만들어내고 있다. 최근 주목받는 개념은 하네스 엔지니어링이다.
그동안의 AI 활용이 “이런 앱 만들어줘”라고 던지면 AI가 대략적인 추측으로 결과물을 내놓는 ‘바이브 코딩’이었다면, 하네스 엔지니어링은 AI가 거꾸로 사람에게 끊임없이 질문을 던져 업무를 고도화한다. ‘어떤 목적인가요?’ ‘예산은 얼마인가요?’ ‘사용자층은 누구인가요?’라고 꼬치꼬치 되물으며 인간의 머릿속에만 있는 구체적인 의도를 끝까지 캐내 최적의 결과물을 내놓는다.
메타버스 플랫폼 젭의 이재규 개발자는 “하네스 엔지니어링은 AI가 인간만 알고 있는 암묵적 지식을 캐낼 때까지 100번이고 다시 질문하게 한다”며 “AI 지능이 비약적으로 높아진 만큼 이제는 사람이 지시하는 수준을 넘어 AI와 주고받는 대화 자체가 하나의 고도화된 엔지니어링이 됐다”고 설명했다.
라현진 기자 raraland@hankyung.com

2 hours ago
2
















English (US) ·