AI는 그저 더 큰 규모의 무단 표절이다

3 weeks ago 21

Hacker News 의견들

이런 걸 정당화할 때 자주 쓰이는 오류가 있음. “작은 규모에서 괜찮거나 무시할 만하면, 큰 규모에서도 괜찮다”는 식임
웹페이지 하나에서 배워 돈을 버는 건 괜찮은데, 컴퓨터가 모두에게서 모든 걸 배워 돈을 버는 건 왜 문제냐는 논리임. Golden Gate Park에서 꽃 한 송이를 꺾는 것과, 팔려고 공원의 모든 꽃을 자동으로 베어내는 기계를 만드는 건 다름. 양적 변화는 활동의 질적 변화를 만들고, 그 효과가 항상 나쁘진 않아도 무시하지 말고 따져볼 가치가 있음
- 그 예시에서는 작은 규모와 큰 규모 모두 애초에 받아들일 수 없는 행동임. 반면 타인에게서 배우는 일은 작은 규모에서는 사회적으로 받아들여질 뿐 아니라 발전의 토대임
  핵심은 단순히 규모가 아니라, 인간에게는 바람직한 행동이 기계가 하면 사회적으로 허용되지 않는다는 점에 가까움
- 초기 웹에서도 비슷한 일이 많았음. 누구나 시청 법원에 가면 볼 수 있는 “공개” 문서가 있었지만, 브라우저에 이름만 입력해 전국의 누구든 찾아볼 수 있게 되자 성격이 달라졌음
- 꽃은 물리적 물건이라 옮기면 원래 있던 장소에서 사라지지만, LLM이 웹페이지에서 무언가를 배워도 웹페이지는 그대로 있음
  여기서 느끼는 “도둑질”은 전적으로 머릿속의 해석이고, 누군가가 복사했다고 해서 원본을 빼앗긴 건 아님
- 이건 구성의 오류에 해당함
  https://en.wikipedia.org/wiki/Fallacy_of_composition
- 인터넷 이전에는 정보와 지식의 격차가 돈과 권력을 만들 수 있었음
  인터넷 이후 LLM 이전에는 이론상 정보 격차가 크게 줄었지만, 인식의 장벽 때문에 대부분이 이해하고 활용하지 못했음. LLM 이후에는 그 장벽이 무너지고 있으니, 정보와 지식을 어떻게 다르게 써서 돈과 권력을 만들지 생각해야 함
원 출처가 보상받는 방식으로 크레딧을 받지 못하는 더 큰 문제가 남아 있음
웹사이트 운영자는 콘텐츠 호스팅 비용을 내고, 스파이더가 와서 크롤링해 AI에 색인하도록 내버려두지만 운이 좋아야 인용을 받을 뿐 콘텐츠 제공자로서 얻는 보상은 거의 없음. 점점 더 심해지고 있고, “AI에 다 있는데 왜 웹사이트를 보나?”가 됨. 결국 크롤러를 막고 모든 걸 로그인 뒤에 넣어야 할지도 모름
- 더 나쁘게는, 지속적인 AI 스크래핑이 콘텐츠 제공자에게 추가 비용만 만들고 아무런 보상이 없음
  적어도 Google/Bing/Yahoo의 스크래핑은 원문으로 돌아가는 링크를 제공하는 데 쓰였음
- 약 1년 전 OpenAI가 내가 일하는 회사를 DDoS 수준으로 크롤링했음. robots.txt로 막아놨고 급히 reCAPTCHA도 붙였지만 소용없었음
  우리 데이터가 모델 출력에서 나오는 걸 확인했지만, 누가 뭘 할 수 있겠나 싶음
- 실제로 돈과 시간이 듦. 대학 시스템 관리자인 친구는 AI 크롤러가 서버를 DDoS처럼 때리는 일을 계속 처리해야 한다고 했고, Anthropic이 특히 심한 축에 든다고 함
  이런 AI 회사들은 “비용은 사회화하고 이익은 사유화한다”는 구호의 역겨운 예시에 가까움
- Google의 경우에는 그게 목적에 가까워 보임. 올바른 방향을 가리키는 표지판이 아니라, 모든 답을 가진 오라클이 되려는 방향으로 움직이고 있음
  관문이 아니라 목적지가 되려는 셈임
- 검색 엔진으로 찾을 수 없고, 따라서 크롤링도 되지 않게 웹사이트를 호스팅할 방법이 있는지 궁금함
  발견 가능성에 영향이 있다는 건 알지만, 그게 문제가 아니라면 크롤링을 어떻게 우회시킬 수 있을지 궁금함
이 문제는 “공정 이용”이 데이터 스크래핑의 99%를 덮을 수 있다는 식으로 단순하지 않음
원본을 재생산하는 게 아니라 사전학습에서 토큰의 확률 분포를 추정하는 데 쓰는 것이라면 더 모호함. LLM으로 책을 단어 하나까지 그대로 얻어내지는 못할 것임
- “LLM으로 책을 단어 하나까지 그대로 얻어낼 수 없다”는 주장은 New York Times가 OpenAI를 상대로 낸 소송의 핵심 주장과 거의 정면으로 충돌함
  예를 들어 Bing Chat은 2023년 기사 “The Secrets Hamas knew about Israel’s Military”의 첫 396단어 중 두 단어만 빼고 복사했고, 전시 자료에는 OpenAI의 GPT가 Times 기사들을 학습하고 암기해 단어 단위로 복사한 100건의 사례가 표시됐음
  https://www.hollywoodreporter.com/business/business-news/cou...
- 학교 다닐 때 “내 말로 썼다”는 건 출처를 밝히지 않아도 되는 핑계가 아니었음
  이해하는 데 시간이 좀 걸렸지만, 인용해야 하는 건 문장의 문자 그대로의 복사가 아니라 정보의 출처임
- MP3 인코더에 대해서도 같은 말을 할 수 있겠지만, 그게 판사를 설득하리라고는 생각하지 않음
- https://arxiv.org/html/2510.25941v1
  콘텐츠를 재현하게 만들 수 있지만, 고양이와 쥐의 게임. 직접 재현을 피하도록 정렬돼 있지 않았다면 훨씬 더 자주 일어났을 것임. RECAP은 다른 모든 방법보다 일관되게 뛰어났고, 예를 들어 Claude-3.7에서 첫 번째 “Harry Potter” 책의 약 3,000개 구절을 추출했는데, 가장 좋은 기준선은 75개 구절에 그쳤음
- Claude에게 기존 라이브러리의 드롭인 대체품을 만들고 그 라이브러리의 테스트 스위트로 기능을 검증하라고 프롬프트를 줘보면 됨
  거의 주석만 빠진 채로, 메모리에서 라이브러리를 그대로 표절함
AI에서 좋은 게 하나라도 나온다면 저작권법을 영원히 망가뜨리는 것일 수 있음
누구도 아이디어를 “소유”할 수 있어서는 안 됨. 상업적 사용에 대한 로열티는 별개라 지지하지만, 우리가 아는 비상업적 불법복제와 무허가 팬아트는 100% 합법이어야 함
- 그렇다면 모두에게 저작권을 폐지하면 됨. 대신 지금은 초대형 기업들이 모두의 것을 신나게 표절하면서, 영화를 불법복제한 사람에게는 SWAT 팀을 보내 죽이는 더 나쁜 시스템에 갇혀 있음
- 저작권은 애초에 “아이디어”를 보호하지 않았고, 지금도 그렇지 않음. 보호하는 건 표현임
- 예를 들어 노래 같은 건 아이디어보다 훨씬 큼. 아이디어에 더해 편곡, 제작, 연주 같은 작업이 붙은 것임
  현행 제도와 달리 제한된 방식으로 일정 기간 작업물을 소유하게 하는 논리는 꽤 합리적으로 보임
- 가장 큰 문제는 망가진 상업화가 아니라 망가진 저작자 표시임
  예술을 만들면 인정받아야 함. 예술은 인간이 자신을 표현하는 중요한 방식임
- 저작권은 깨지는 게 아니라 늘 그랬듯 부의 중력에 맞춰 선택적으로 휘어질 것임
  anna's archive에서 절판된 책을 “다운로드”하는 건 못 하겠지만, 기업들은 그 모든 데이터로 학습하고 요약본을 뽑아내는 구독료를 기꺼이 받을 것임
이게 왜 놀라운 일인지 모르겠음. AI 회사들이 모델 학습을 위해 방대한 데이터를 훔쳤다는 건 다 알고 있는데, 왜 멈출 거라고 생각하나? 저작권 데이터 대량 절도에 대해 제대로 대가를 치른 적이 있나
우리는 그 데이터를 훔치거나 거기서 이익을 내면 안 되지만, 그들은 왠지 괜찮음. 아마 세상을 이롭게 하고 인류를 전진시키는 존재라서 그런가 봄
- 그 데이터는 훔친 게 아님. 아직 거기 있음
- 멈출 이유는 소스가 이제 AI로 오염됐기 때문임. 적어도 스크래핑을 멈출 이유 하나는 됨
- 이유는 단순함. Microsoft가 당신의 작업물을 훔치면 GDP가 올라가고, 당신이 Microsoft의 작업물을 훔치면 GDP가 내려감
  법을 만들고 집행하는 사람들은 GDP가 올라가길 원함. 그들에게 도덕과 권리는 불편해지면 쉽게 버릴 수 있는 얇은 가면일 뿐임
- 이유는 정실 자본주의임. 해결책을 알았으면 좋겠음
- 나쁘거나 불공정한 상황이 올라올 때마다 냉소적인 허무주의자가 “왜 놀람?” 같은 반응을 달고, 이제 정말 지겨움
  그런 댓글은 통찰도 도움도 생각거리도 되지 않음. 나쁜 상황이 계속 나쁘게 남도록 돕고 있을 뿐임
“지식재산권”이라고 했나? 그건 매혹적인 신기루임
https://www.gnu.org/philosophy/not-ipr.html
- 그 신기루가 Oracle, Microsoft, Meta, Google에게도, 그리고 동네의 무급 과로 오픈소스 개발자에게도 똑같이 적용되기만 하면 됨
  Oracle의 내부 저장소 전체를 출처 표시 없이 학습한 오픈 가중치 모델이라면 공평함
“그들의 글에 내 실제 웹사이트로 가는 링크가 있고, 링크 텍스트도 정확히 같다”는 부분이 뭐가 문제인지 잘 이해가 안 됨
링크 텍스트가 아주 길지 않은 한, 누군가 당신의 글에 링크하면서 왜 다른 단어를 써야 하나?
- 맞음. 그건 출처를 인용하고 링크한 것임
- 링크가 .../post/{id}/{extra-text} 형태인 경우가 있음. 여기서 extra-text는 게시글 매칭에 전혀 쓰이지 않음
  Amazon 링크도 예전에는 이런 방식이었고, 제품명이 링크 끝에 붙지만 지우거나 바꿔도 여전히 제품으로 연결됐음. 아마 LLM이 링크의 무관한 부분까지 그대로 제공해서 놀란 것일 수 있음
- 아마 섹션 제목이 자기 웹페이지로 링크돼 있었거나 비슷한 형태였던 것 같음. 잘 쓴 분노글은 아님
- 자기 웹사이트 URL을 튜토리얼 예시로 쓰는데, 다른 튜토리얼들이 그걸 그대로 복사했다는 뜻으로 보임
- 웹페이지가 두 개 있다고 해보자. 하나는 사과 튀김 레시피고, 다른 하나는 사과 맛 순위 목록임
  사과 튀김 레시피가 사과 순위 목록으로 링크한다고 하자. 나중에 누군가 당신의 레시피를 출처 없이 복사했는데, 같은 문구로 여전히 사과 순위 목록에 링크하고 있음. 그들은 당신 글을 훔쳤는데도 Google 검색 결과 노출과 광고 수익을 더 가져감. 이게 문제임
두 가지가 혼동되는 것 같음
첫째, LLM/트랜스포머 기술은 진짜로 놀랍고 혁명적임. 둘째, 결국 이들은 인간 지식 대부분을 담은 거대하고 효과적인 데이터베이스처럼 동작함. 1번이 2번을 흐리게 만듦. 누군가 존재하는 모든 디지털 산출물을 SQL 데이터베이스에 넣고 요청하면 무료로 제공했다면 합법성에 애매함은 없었을 것임. 하지만 증류 같은 과정이 이 관계를 가리고, 단순 조회와는 달라 보이게 만듦. 실제로 그 이상인 것도 맞기 때문임
지식재산 변호사이고 이 문제를 실제로 다루고 있음
법률 조언은 아니지만, 온라인에 콘텐츠를 만든다면 공개 저장소 코드, 블로그, 팟캐스트, YouTube, 출판물까지 취미 블로그라도 미국 저작권 등록을 하는 게 가장 똑똑한 선택임. Anthropic은 저작권 있는 저작물의 불법복제 때문에 작가들에게 집단 합의금 15억 달러를 냈음. HN 커뮤니티의 작업물이 보호돼 있었다면 모든 LLM 스크래핑에 대해 막대한 법정손해배상이 가능할 수 있음. 나는 수백 명의 작가와 출판사와 일하며, 그들이 만드는 것을 보호하고 라이선스하기 위한 연합을 만들고 있음
- Anthropic은 저작권 있는 저작물을 스크래핑해서, 즉 읽어서 진 게 아님. 토렌트로 저작권 있는 저작물을 직접 배포했기 때문에 진 것임
  둘은 같은 일이 아님
- 늘 저작권은 자동으로 생긴다고 들어왔음. 저작권 등록에 돈이 드나? 블로그 글마다 해야 하나? gist마다 해야 하나?
  내가 기대했던 저작권을 실제로 가지는 데 필요한 일이라면 스크립트를 만들어서라도 할 수 있음
- 원 창작물을 온라인에 게시하는 행위만으로 저작권이 생기는 것 아닌가?
- “저작권을 등록한다”는 게 무슨 뜻인지 모르겠음. 내가 들어온 모든 설명은 창작물의 저작권은 자동으로 소유하고, 라이선스로 포기하지 않는 한 기본적으로 “모든 권리 보유”라고 했음
  이제 더 이상 그런 게 아닌가? 왜 갑자기 달라졌나? 언제 바뀐 건가?
- 아무도 이걸 하지 않을 것이고, 충분한 사람이 하지는 않을 텐데, 플랜 B는 뭔가?
기술적으로 저작권 침해인지 아닌지가 내 주된 문제는 아님
더 큰 문제는 전 세계 콘텐츠에서 지대추출을 할 능력이, 대규모 데이터센터를 지을 수 있는 소수 기업 손에 집중된다는 점임. 이건 거대한 문제임. 내 웹페이지, 뉴스 사이트, 온라인 잡지, 상업 예술이 모델에 빨려 들어가고 나를 인센티브에서 배제한다면 왜 만들어야 하나? 지금 법적으로 저작권 침해가 아니라면, 인간 창의성과 소규모 사업에 대한 절대적 비극이므로 새로운 법적 틀이 필요함
- Google 때도 정확히 같은 과정을 겪었음. 사람들이 웹사이트를 찾는 유일한 통로가 된 뒤에는 Google이 부당한 경제적 지대를 거둬들이는 것뿐이라고 주장했음

Read Entire Article

AI는 그저 더 큰 규모의 무단 표절이다

Hacker News 의견들

Related

macOS에서 로컬 코딩 에이전트 설정하는 방법

악성코드 개발자들이 스파이웨어에 핵·생물무기 문구를 추가함

Show GN: LOSLES - 금액 자체를 결제 식별자로 사용하는 자동 결제 시스템

오라클, Ampere A1 인스턴스 무료 사용 한도 축소

Nix Flakes와 그에 대응하는 Guix 기능들

Show GN: 다 푼 문제지를 깨끗하게 만들어주는 AI

iFixit의 분해 결과, 트럼프가 사용했던 휴대전화는 '금색으로 칠한 HTC U24 Pro&#03...

Moonshot AI가 Kimi K2.7-Code를 출시했습니다.

Tips

Trending

Popular

트럼프 “美·나이지리아군, ‘IS 2인자’ 제거… 글로벌 작전 능력 축소”

트래블월렛 '친구간송금' 600만건 돌파…2030 해외송금 플랫폼 자리잡았다

What's new in Chrome from Google I/O 2026

'통한의 극장골 실점 패배' 주승진 김천 감독 "뒷심이 부족했다" [전주 현장]

“트럼프, 中이 원하는 대만 발언 안해…양측 긴장 유지될 것”

[전화성의 기술창업 Targeting] 〈395〉 [AC협회장 주간록105] 마이클 잭슨 자산과 스타트업 경...

테이트 30년, 현대미술사를 바꾼 혁명가의 22세기 미술관론

테루아와 시간이 빚어낸 예술…뉴질랜드 와인 페스티벌 열린다

React Doctor — AI가 생성한 React 코드를 정적 분석으로 검증하는 진단 도구

테슬라, 로봇택시 사고 17건 경위 공개…원격 조종자 개입도 사유?