이런 걸 정당화할 때 자주 쓰이는 오류가 있음. “작은 규모에서 괜찮거나 무시할 만하면, 큰 규모에서도 괜찮다”는 식임 원 출처가 보상받는 방식으로 크레딧을 받지 못하는 더 큰 문제가 남아 있음 이 문제는 “공정 이용”이 데이터 스크래핑의 99%를 덮을 수 있다는 식으로 단순하지 않음 AI에서 좋은 게 하나라도 나온다면 저작권법을 영원히 망가뜨리는 것일 수 있음 이게 왜 놀라운 일인지 모르겠음. AI 회사들이 모델 학습을 위해 방대한 데이터를 훔쳤다는 건 다 알고 있는데, 왜 멈출 거라고 생각하나? 저작권 데이터 대량 절도에 대해 제대로 대가를 치른 적이 있나 “지식재산권”이라고 했나? 그건 매혹적인 신기루임 “그들의 글에 내 실제 웹사이트로 가는 링크가 있고, 링크 텍스트도 정확히 같다”는 부분이 뭐가 문제인지 잘 이해가 안 됨 두 가지가 혼동되는 것 같음 지식재산 변호사이고 이 문제를 실제로 다루고 있음 기술적으로 저작권 침해인지 아닌지가 내 주된 문제는 아님Hacker News 의견들
웹페이지 하나에서 배워 돈을 버는 건 괜찮은데, 컴퓨터가 모두에게서 모든 걸 배워 돈을 버는 건 왜 문제냐는 논리임. Golden Gate Park에서 꽃 한 송이를 꺾는 것과, 팔려고 공원의 모든 꽃을 자동으로 베어내는 기계를 만드는 건 다름. 양적 변화는 활동의 질적 변화를 만들고, 그 효과가 항상 나쁘진 않아도 무시하지 말고 따져볼 가치가 있음
핵심은 단순히 규모가 아니라, 인간에게는 바람직한 행동이 기계가 하면 사회적으로 허용되지 않는다는 점에 가까움
여기서 느끼는 “도둑질”은 전적으로 머릿속의 해석이고, 누군가가 복사했다고 해서 원본을 빼앗긴 건 아님
https://en.wikipedia.org/wiki/Fallacy_of_composition
인터넷 이후 LLM 이전에는 이론상 정보 격차가 크게 줄었지만, 인식의 장벽 때문에 대부분이 이해하고 활용하지 못했음. LLM 이후에는 그 장벽이 무너지고 있으니, 정보와 지식을 어떻게 다르게 써서 돈과 권력을 만들지 생각해야 함
웹사이트 운영자는 콘텐츠 호스팅 비용을 내고, 스파이더가 와서 크롤링해 AI에 색인하도록 내버려두지만 운이 좋아야 인용을 받을 뿐 콘텐츠 제공자로서 얻는 보상은 거의 없음. 점점 더 심해지고 있고, “AI에 다 있는데 왜 웹사이트를 보나?”가 됨. 결국 크롤러를 막고 모든 걸 로그인 뒤에 넣어야 할지도 모름
적어도 Google/Bing/Yahoo의 스크래핑은 원문으로 돌아가는 링크를 제공하는 데 쓰였음
우리 데이터가 모델 출력에서 나오는 걸 확인했지만, 누가 뭘 할 수 있겠나 싶음
이런 AI 회사들은 “비용은 사회화하고 이익은 사유화한다”는 구호의 역겨운 예시에 가까움
관문이 아니라 목적지가 되려는 셈임
발견 가능성에 영향이 있다는 건 알지만, 그게 문제가 아니라면 크롤링을 어떻게 우회시킬 수 있을지 궁금함
원본을 재생산하는 게 아니라 사전학습에서 토큰의 확률 분포를 추정하는 데 쓰는 것이라면 더 모호함. LLM으로 책을 단어 하나까지 그대로 얻어내지는 못할 것임
예를 들어 Bing Chat은 2023년 기사 “The Secrets Hamas knew about Israel’s Military”의 첫 396단어 중 두 단어만 빼고 복사했고, 전시 자료에는 OpenAI의 GPT가 Times 기사들을 학습하고 암기해 단어 단위로 복사한 100건의 사례가 표시됐음
https://www.hollywoodreporter.com/business/business-news/cou...
이해하는 데 시간이 좀 걸렸지만, 인용해야 하는 건 문장의 문자 그대로의 복사가 아니라 정보의 출처임
콘텐츠를 재현하게 만들 수 있지만, 고양이와 쥐의 게임. 직접 재현을 피하도록 정렬돼 있지 않았다면 훨씬 더 자주 일어났을 것임. RECAP은 다른 모든 방법보다 일관되게 뛰어났고, 예를 들어 Claude-3.7에서 첫 번째 “Harry Potter” 책의 약 3,000개 구절을 추출했는데, 가장 좋은 기준선은 75개 구절에 그쳤음
거의 주석만 빠진 채로, 메모리에서 라이브러리를 그대로 표절함
누구도 아이디어를 “소유”할 수 있어서는 안 됨. 상업적 사용에 대한 로열티는 별개라 지지하지만, 우리가 아는 비상업적 불법복제와 무허가 팬아트는 100% 합법이어야 함
현행 제도와 달리 제한된 방식으로 일정 기간 작업물을 소유하게 하는 논리는 꽤 합리적으로 보임
예술을 만들면 인정받아야 함. 예술은 인간이 자신을 표현하는 중요한 방식임
anna's archive에서 절판된 책을 “다운로드”하는 건 못 하겠지만, 기업들은 그 모든 데이터로 학습하고 요약본을 뽑아내는 구독료를 기꺼이 받을 것임
우리는 그 데이터를 훔치거나 거기서 이익을 내면 안 되지만, 그들은 왠지 괜찮음. 아마 세상을 이롭게 하고 인류를 전진시키는 존재라서 그런가 봄
법을 만들고 집행하는 사람들은 GDP가 올라가길 원함. 그들에게 도덕과 권리는 불편해지면 쉽게 버릴 수 있는 얇은 가면일 뿐임
그런 댓글은 통찰도 도움도 생각거리도 되지 않음. 나쁜 상황이 계속 나쁘게 남도록 돕고 있을 뿐임
https://www.gnu.org/philosophy/not-ipr.html
Oracle의 내부 저장소 전체를 출처 표시 없이 학습한 오픈 가중치 모델이라면 공평함
링크 텍스트가 아주 길지 않은 한, 누군가 당신의 글에 링크하면서 왜 다른 단어를 써야 하나?
Amazon 링크도 예전에는 이런 방식이었고, 제품명이 링크 끝에 붙지만 지우거나 바꿔도 여전히 제품으로 연결됐음. 아마 LLM이 링크의 무관한 부분까지 그대로 제공해서 놀란 것일 수 있음
사과 튀김 레시피가 사과 순위 목록으로 링크한다고 하자. 나중에 누군가 당신의 레시피를 출처 없이 복사했는데, 같은 문구로 여전히 사과 순위 목록에 링크하고 있음. 그들은 당신 글을 훔쳤는데도 Google 검색 결과 노출과 광고 수익을 더 가져감. 이게 문제임
첫째, LLM/트랜스포머 기술은 진짜로 놀랍고 혁명적임. 둘째, 결국 이들은 인간 지식 대부분을 담은 거대하고 효과적인 데이터베이스처럼 동작함. 1번이 2번을 흐리게 만듦. 누군가 존재하는 모든 디지털 산출물을 SQL 데이터베이스에 넣고 요청하면 무료로 제공했다면 합법성에 애매함은 없었을 것임. 하지만 증류 같은 과정이 이 관계를 가리고, 단순 조회와는 달라 보이게 만듦. 실제로 그 이상인 것도 맞기 때문임
법률 조언은 아니지만, 온라인에 콘텐츠를 만든다면 공개 저장소 코드, 블로그, 팟캐스트, YouTube, 출판물까지 취미 블로그라도 미국 저작권 등록을 하는 게 가장 똑똑한 선택임. Anthropic은 저작권 있는 저작물의 불법복제 때문에 작가들에게 집단 합의금 15억 달러를 냈음. HN 커뮤니티의 작업물이 보호돼 있었다면 모든 LLM 스크래핑에 대해 막대한 법정손해배상이 가능할 수 있음. 나는 수백 명의 작가와 출판사와 일하며, 그들이 만드는 것을 보호하고 라이선스하기 위한 연합을 만들고 있음
둘은 같은 일이 아님
내가 기대했던 저작권을 실제로 가지는 데 필요한 일이라면 스크립트를 만들어서라도 할 수 있음
이제 더 이상 그런 게 아닌가? 왜 갑자기 달라졌나? 언제 바뀐 건가?
더 큰 문제는 전 세계 콘텐츠에서 지대추출을 할 능력이, 대규모 데이터센터를 지을 수 있는 소수 기업 손에 집중된다는 점임. 이건 거대한 문제임. 내 웹페이지, 뉴스 사이트, 온라인 잡지, 상업 예술이 모델에 빨려 들어가고 나를 인센티브에서 배제한다면 왜 만들어야 하나? 지금 법적으로 저작권 침해가 아니라면, 인간 창의성과 소규모 사업에 대한 절대적 비극이므로 새로운 법적 틀이 필요함

3 weeks ago
21


!['통한의 극장골 실점 패배' 주승진 김천 감독 "뒷심이 부족했다" [전주 현장]](https://image.starnewskorea.com/21/2026/05/2026051714010261496_1.jpg)

![[전화성의 기술창업 Targeting] 〈395〉 [AC협회장 주간록105] 마이클 잭슨 자산과 스타트업 경영](https://img.etnews.com/news/article/2026/05/04/news-p.v1.20260504.773e529e3f474adea55b425cf6daf8c2_P3.jpg)



English (US) ·