LLM을 둘러싼 모든 것이 여전히 마법같고 희망적인 생각임

20 hours ago 2

LLM에 대한 현재 논의는 명확한 정량적 근거 없이 이루어지고 있음
각 사용자의 경험은 매우 단편적이며, 실제 활용 환경이나 배경 지식 등 핵심 요소가 거의 공유되지 않음
비결정론적 특성으로 인해 같은 작업도 시간마다 다른 결과를 보여 신뢰성에 제한이 존재함
업계 리더들의 과장된 주장이 비평 없는 수용과 과도한 기대를 부추기는 상황임
실제로도 필자는 다양한 AI 툴을 일상적으로 사용하며, 절반 정도의 확률로만 원하는 결과를 얻는 현실 경험을 공유함

LLM을 둘러싼 논쟁과 기술에 대한 시각

LLM에 대한 비판과 분위기

최근 AI, 특히 LLM(대규모 언어 모델)에 대한 논쟁에서, 비판적인 시각은 흔히 "기술을 제대로 이해하지 못한 사람들의 의견"으로 폄하하는 분위기 형성임
Hacker News 등에서 "AI에 질문을 던지면 본질을 모르는 무지함"이라는 반응이 반복됨

사용자 간 경험의 간극

LLM의 실제 효용성에 대해 "어느 정도는 도움이 된다"는 사용자와, "모든 시도를 해봤지만 별로 쓸모없다"는 사용자 간의 의견 차이 존재
이 차이가 생기는 이유는 경험에 대한 구체적 기준과 정보가 공유되지 않기 때문임
- 어떤 프로젝트에서 사용했는지
- 코드베이스의 상태(새 프로젝트, 성숙한 코드, 비공개 소스 등)
- 사용자의 전문성, 그 전문성이 실제 문제와 얼마나 연결되는지
- LLM이 작성한 결과물을 실제로 제대로 정제·배포하기까지 추가로 들어간 노력 등 구체 정보 부재

경험 비교의 어려움과 비결정론성

어떤 사용자가 모든 정보를 상세히 공유한다고 해도, 다른 사용자와의 경험 비교가 거의 불가능한 상황임
LLM과 오토메이션 에이전트들은 본질적으로 비결정론적임
- 똑같은 문제에 같은 방식으로 요청을 해도, 매번 다른 결과를 얻게 됨
- 프로젝트 종류, 사용하는 모델, 도구, 언어 등 변화 요인이 많아 일관된 검증 어려움

업계 리더와 과장된 기대

업계 리더들이 LLM의 성과를 과도하게 강조하는 사례 다수 존재
- 예: 한 업계 리더가 "Claude Code"를 사용해 오래된 버그가 놀라울 정도로 쉽게 수정된다는 경험, 세부 정보 공유 없이 대중적 호응을 얻음
- 구체적인 코드 크기, 버그의 난이도, 추가 노동 여부, 사용한 프로그래밍 언어·프레임워크 등 핵심 정보가 생략된 채로 매우 긍정적인 메시지만 확산됨
- 이러한 사례는 1.8천개 이상의 호응과 204개의 재포스팅을 기록하며, 과장 마케팅이 쉬이 확산됨

사용 경험과 현실 인식

필자도 Vercel의 v0, Claude Code, Midjourney 등 다양한 AI 툴을 매일 활용함
- Swift에 대한 지식 없이 SwiftUI로 모니터링 앱 제작
- Midjourney로 이벤트용 포스터 자동 생성
- Elixir 기반 MCP 서버 함수 코딩 등 경험 있음
하지만 성공 확률은 대략 50% 에 불과하며, 결과물은 언제나 일관되지 않음
LLM이 마치 마법처럼 느껴질 때도 있지만, 실제로는 비결정적인 통계적 모델일 뿐임
이러한 현실에서, 업계 논의는 이분법(마법 vs. 엔지니어링) 에만 머무르고 있다고 지적함

결론

LLM과 AI를 둘러싼 현장은 확실하고 명확한 검증 체계 없이 과장된 상상, 기대, 믿음이 선호되는 경향임
비판적 사고를 멈추지 않고, 실제로 기능과 효과를 세부적으로 검증하려는 노력이 중요함
논의에서 중요한 것은 구체적이고 정량적인 정보 공유임
LLM의 한계와 가능성을 균형 있게 바라보는 시각이 필요함

Read Entire Article