데빈과 함께한 한 달에 대한 소회

6 hours ago 2

Devin이란?

  • Devin은 Slack을 통해 작동하며 자체 컴퓨팅 환경을 생성하는 AI 소프트웨어 엔지니어임.
  • 사용자는 Slack을 통해 Devin과 대화하며, Devin은 웹 브라우저, 코드 편집기, 셸을 포함한 전체 컴퓨팅 환경에 접근할 수 있음.
  • Docker 컨테이너에서 실행되어 안전하게 실험할 수 있으며, 웹 인터페이스를 통해 실시간으로 작업을 관찰할 수 있음.

초기 성공 사례

  • Notion 데이터베이스에서 Google Sheets로 데이터를 가져오는 작업을 성공적으로 수행함.
  • Devin은 Notion API 문서를 탐색하고 필요한 자격 증명을 설정하는 과정을 안내함.
  • 결과적으로, Devin은 완벽하게 형식화된 Google Sheet를 생성함.

테스트 확장

  • Devin의 비동기 기능을 활용하여 문서 작성이나 디버깅을 시도했으나, 예상보다 시간이 오래 걸림.
  • Devin은 불가능한 작업을 시도하며 시간 낭비를 초래함.

문제점 분석

  • Devin은 API 통합과 같은 작업을 잘 수행했으나, 간단한 작업에서 어려움을 겪음.
  • 20개의 작업 중 14개가 실패, 3개가 성공, 3개는 결론을 내릴 수 없었음.
  • 성공과 실패를 예측할 수 있는 패턴을 찾지 못함.

팀의 반성

  • Devin은 작은 작업에서는 유용했으나, 큰 작업에서는 실패하는 경향이 있었음.
  • 내부 도구 사용에 어려움을 겪었으며, 다른 도구에 비해 유연성이 부족했음.

결론

  • Devin은 자율적인 AI 개발의 가능성을 보여주었으나, 실제로는 드물게 성공함.
  • 20개의 작업 중 3개만 성공했으며, 실패한 작업은 복잡하고 시간이 많이 소요됨.
  • 자율적인 특성이 오히려 장애물이 되었음.

부록: Devin과 시도한 작업

  1. 새 프로젝트 생성

    • 성공: Notion 데이터를 Google Sheets로 옮기는 작업
    • 실패: Braintrust에 합성 데이터를 생성 및 업로드하는 작업
  2. 연구 작업 수행

    • 성공: Discord 봇을 만드는 방법 연구
    • 실패: 정확한 타임스탬프와 함께 전사 요약 연구
  3. 기존 코드 분석

    • 실패: 코드베이스 보안 검토
    • 실패: 블로그 게시물 검토 및 개선 제안
  4. 기존 프로젝트 수정

    • 실패: nbdev 프로젝트 변경
    • 실패: 사용자 입력과 데이터베이스 간의 충돌 확인 기능 추가

Read Entire Article