GitHub의 가짜 스타 경제의 실체

4 hours ago 2
  • GitHub의 Star 매매 생태계가 전용 웹사이트, 프리랜서 플랫폼, 교환 네트워크, 비공개 채널에 걸쳐 형성돼 있으며, 2019년부터 2024년까지 분석에서 약 600만 개의 의심 가짜 스타가 1만8617개 저장소와 약 30만1000개 계정에 분산된 것으로 식별됨
  • 2024년 들어 가짜 스타 캠페인이 급증했고 스타 50개 이상 저장소의 16.66% 가 관련된 것으로 집계됐으며, 구매된 스타가 GitHub Trending 등장과 플랫폼 발견 알고리듬 우회에도 실제로 사용됨
  • 가짜 스타 판매는 스타당 0.03달러에서 0.90달러 수준으로 계정 품질과 전달 방식에 따라 거래되며, 기여 그래프 조작 도구와 사전 제작 프로필 판매, 교체 보장, 구매 API까지 포함한 인프라로 확대됨
  • GitHub 스타 수는 투자 유치 지표와 직접 연결돼 시드와 Series A 구간의 기준치로 활용되고, 적은 비용의 스타 구매가 부풀려진 traction 인식과 자금 조달로 이어지는 자기강화 루프 형성
  • 포크 대비 스타 비율과 워처 대비 스타 비율이 조작 탐지 1차 필터로 제시되며, GitHub 정책상 금지와 FTC 규칙 시행에도 계정 단속은 저장소 삭제보다 낮아 구조적 대응은 아직 구현되지 않음

600만 개 가짜 스타

  • Carnegie Mellon University, North Carolina State University, Socket 연구진의 StarScout 분석에서 2019년부터 2024년까지 GitHub 메타데이터 20TB, 이벤트 67억 건, 스타 3억2600만 건을 조사한 결과, 약 600만 개의 의심 가짜 스타가 1만8617개 저장소와 약 30만1000개 계정에 분산된 것으로 식별됨
  • 2024년에 가짜 스타 캠페인이 급격히 늘어났으며, 7월 기준 스타 50개 이상 저장소의 16.66% 가 관련된 것으로 집계됨
    • 2022년 이전에는 거의 0에 가까운 수준
  • 탐지 정확도 검증에서도 StarScout가 표시한 저장소의 90.42%, 계정의 57.07%가 2025년 1월 기준 삭제된 것으로 확인됨
    • GitHub 역시 이를 비정상 활동으로 인식했음을 뒷받침하는 수치
  • 가짜 스타 수혜 저장소 가운데 AI와 LLM 관련 저장소가 비악성 범주 최대 규모로 나타났으며, 절대 수 기준 17만7000개의 가짜 스타가 집계됨
    • 학술 논문 저장소나 LLM 관련 스타트업 제품이 많이 포함된다고 인용됨
  • 가짜 스타 캠페인이 탐지된 저장소 78개가 GitHub Trending에 등장했으며, 구매된 스타가 플랫폼 발견 알고리듬 우회에 실제로 사용됨
  • 2023년 3월 Dagster 조사에서는 엔지니어들이 직접 두 판매자에게 스타를 구매해 현상을 검증함
    • 독일 등록 기업 GitHub24는 스타당 EUR 0.85를 청구했고 100개 스타가 한 달 뒤에도 모두 유지됨
    • Baddhi Shop은 1000개 스타를 64달러에 판매했으나 유지율은 75% 수준으로 제시됨

마켓플레이스

  • GitHub 스타 판매 생태계가 전용 웹사이트, 프리랜서 플랫폼, 교환 네트워크, 비공개 채널에 걸쳐 형성돼 있으며, 최소 12개 이상의 활성 웹사이트가 직접 GitHub 스타를 판매 중
    • SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com 등이 예시로 열거됨
  • 가격대는 계정 품질과 전달 방식에 따라 구분됨
    • 저가형은 스타당 0.03달러에서 0.10달러, 며칠 내 전달, 신규·빈 프로필 사용
    • 중간형은 0.20달러에서 0.50달러, 1주에서 2주 전달, 일부 활동 이력 포함
    • 프리미엄형은 0.80달러에서 0.90달러, 점진적이고 자연스러운 전달을 표방하며 수년 된 계정과 저장소·기여 이력 포함
  • Fiverr에서도 24개의 활성 기그가 GitHub 프로모션을 판매 중이며, 기본 스타와 포크는 5달러, "organic promotion"은 25달러 이상으로 책정됨
    • 플랫폼 필터를 피하기 위해 완곡하거나 우회적인 표현 사용
  • GithubStarMate.com, SafeStarExchange.com 같은 스타 교환 플랫폼도 운영 중이며, 크레딧 기반 상호 스타 방식 제공
  • 인프라가 스타 판매에 그치지 않고 GitHub 기여 그래프 조작까지 확장됨
    • fake-git-history, commit-bot, Commiter 등 최소 7개의 오픈소스 도구가 GitHub 기여 이력 위조 목적에 맞춰 존재
    • 5년 커밋 이력과 Arctic Code Vault Contributor 배지를 가진 사전 제작 GitHub 프로필이 Telegram에서 약 5000달러에 판매됨
  • 일부 판매자는 교체 보장까지 제공함
    • Followdeh는 30일 보장을 광고
    • 프리미엄 서비스는 GitHub 탐지를 통과하는 "non-drop" 스타를 약속
    • SocialPlug는 5만3000명 이상 고객에게 310만 개 스타를 전달했다고 주장하며 구매 API도 제공
  • Tsinghua University의 ACSAC 2020 연구에서는 중국 QQ·WeChat 프로모션 그룹의 상업 구조가 문서화됨
    • 1020명 이상의 구성원이 하루 약 20개 저장소를 처리
    • 홍보자 이익이 연간 340만 달러에서 440만 달러로 추정됨

자체 분석: 가짜 스타게이저의 특징

  • GitHub API 기반 분석 도구를 구축해 20개 저장소를 조사했으며, StarScout 표시 저장소, Runa Capital ROSS Index의 고성장 AI 저장소, 유기적 기준선 저장소를 함께 비교함
  • 각 저장소마다 스타게이저 프로필 150개씩 샘플링해 계정 나이, 공개 저장소 수, 팔로워 수, 자기소개 존재 여부를 측정함
  • 조작 흔적은 몇 가지 공통 지표에서 반복적으로 드러남
    • 계정이 아주 새롭지 않아도 비어 있는 계정 비율이 높음
    • 포크 대비 스타 비율과 워처 대비 스타 비율이 유기적 저장소보다 크게 낮음
  • 유기적 기준선

    • Flask, LangChain, AutoGPT의 중앙 계정 나이는 각각 4801일, 2967일, 4022일로 제시되며, 스타게이저 다수가 오랜 기간 GitHub를 사용한 개발자 집단으로 나타남
    • 공개 저장소가 전혀 없는 비율은 5.3%, 5.9%, 2.0% 수준이며, 팔로워 0명 비율도 10.0%, 11.8%, 5.9%로 낮은 편
    • Flask의 고스트 계정 비율은 1.3%, Flask·LangChain·AutoGPT의 suspicious accounts 비율은 0.0%로 제시됨
    • 포크 대비 스타 비율은 Flask 0.235, LangChain 0.155, AutoGPT 0.090으로, 코드 실제 사용과 변형이 일정 수준 동반됨
    • 워처 대비 스타 비율은 Flask 0.029, LangChain 0.006, AutoGPT 0.005로 나타남
    • 유기적 저장소의 스타게이저는 수년간 활동했고, 자체 프로젝트를 보유하며, 다른 사용자를 팔로우하는 개발자 특성 보유
    • 저장소 0개·팔로워 0명·자기소개 없음의 고스트 계정은 건강한 프로젝트 기준 약 1% 수준으로 제시됨
  • 조작된 블록체인 저장소

    • Union Labs, Shardeum, FreeDomain, Anoma의 중앙 계정 나이는 997일에서 1180일 범위로, 단순한 신규 계정 필터는 통과하는 수준
    • 그러나 계정 내부는 비어 있으며, 공개 저장소 0개 비율이 28.0%에서 38.0%, 팔로워 0명 비율이 52.0%에서 81.3%, 고스트 계정 비율이 19.3%에서 28.7%로 높게 나타남
    • 포크 대비 스타 비율은 Union Labs 0.052, Shardeum 0.022, FreeDomain 0.017, Anoma 0.121로 제시됨
    • 워처 대비 스타 비율도 FreeDomain 0.001 등으로 매우 낮음
    • 이런 계정은 오래된 계정을 구매했거나 농장식으로 확보해 스타 캠페인에 투입한 패턴으로 해석됨
    • 포크 대비 스타 비율이 가장 강한 신호로 제시됨
      • Flask는 스타 1000개당 포크 235개
      • Shardeum은 22개
      • FreeDomain은 17개
    • 워처 대비 스타 비율도 같은 방향을 가리키며, FreeDomain의 0.001은 스타 1000명당 실제 업데이트를 지켜보는 사용자가 1명 수준임을 뜻함
  • FreeDomain

    • 15만7000개 스타를 보유하지만 워처는 168명, 포크는 2676개로 제시됨
    • 워처 대비 스타 비율이 Flask보다 26배 낮음
    • 샘플링된 스타게이저 가운데 81.3%가 팔로워 0명으로, GitHub 내 가시적 활동 기반이 거의 없는 계정 구성 드러남
  • Union Labs

    • 2025년 2분기 Runa Capital ROSS Index 1위로 선정됐으며, 스타 증가율 54.2배와 스타 7만4300개를 기록함
    • 자체 분석에서는 공개 저장소 0개 계정 32.7%, 팔로워 0명 계정 52%, 포크 대비 스타 비율 0.052가 확인됨
    • StarScout 분석에서는 47.4% 의심 가짜 스타로 표시됨
    • VC들이 참고하는 영향력 있는 투자 발굴 보고서 최상단에 거의 절반의 스타가 인위적일 가능성이 있는 프로젝트가 올라간 구조 드러남
  • AI 부문

    • RagaAI, openai-fm, Langflow, hermes-agent를 비교한 결과, AI 저장소 내부에서도 지표 편차가 크게 나타남
    • RagaAI-Catalyst는 팔로워 0명 계정 76.2%, 고스트 계정 28.0%로 블록체인 패턴과 거의 동일한 수치 기록
    • openai-fm은 전체 데이터셋에서 가장 극단적인 사례로 제시됨
      • suspicious accounts 66.0%
      • 고스트 계정 36.0%
      • 중앙 계정 나이 116일
      • 스타게이저의 3분의 2가 1년 미만이면서 GitHub 활동이 거의 없음
      • StarScout에서는 이 사례가 OpenAI 자체가 아니라 제3자 봇일 가능성이 높다고 언급함
    • Langflow는 StarScout에서 47.9% 가짜로 표시됐지만, 프로필 샘플 분석에서는 중앙 나이 2859일과 낮은 고스트 비율로 비교적 깨끗한 수치가 나옴
      • StarScout 스캔 이후 계정 품질이 개선됐을 가능성 제기
      • 다만 포크 대비 스타 비율 0.060은 Flask의 약 4분의 1 수준으로 여전히 낮음
    • NousResearch의 hermes-agent는 상대적으로 유기적인 저장소로 분류됨
      • 중앙 계정 나이 8년
      • 고스트 계정 6%
      • 포크 대비 스타 비율 0.133
      • Reddit의 astroturfing 비난과 별개로 스타게이저 다수는 실제 개발자로 분석됨
      • 암호화폐 인접 사용자층 때문에 팔로워 0명 비율이 다소 높지만, 기본 참여 패턴은 정당한 것으로 평가됨

스타가 자금이 되는 경로

  • GitHub 스타 수와 스타트업 자금 조달의 연결이 추측이 아니라 투자자 스스로 문서화한 관계로 제시됨
  • Redpoint Ventures의 Jordan Segall이 개발자 도구 회사 80곳을 분석한 결과, 시드 투자 시 중앙 스타 수는 2850개, Series A는 4980개로 집계됨
    • 다수 VC가 빠르게 성장하는 GitHub 프로젝트를 찾기 위해 내부 스크래핑 프로그램을 운영하며, 가장 흔히 보는 지표가 스타라고 직접 언급함
  • 이 수치는 스타트업에 사실상의 구매 목표를 제공함
    • 저가 스타 기준 85달러에서 285달러면 시드 중앙값 2850개 조작 가능
    • 990달러에서 4500달러면 Series A 구간 접근 가능
    • 일반적 시드 라운드 100만 달러에서 1000만 달러를 기준으로 3500배에서 11만7000배 ROI 범위가 계산됨
  • Runa Capital은 분기마다 ROSS Index를 발행해 GitHub 스타 성장률 기준 상위 20개 오픈소스 스타트업을 순위화함
    • TechCrunch 기준 투자 유치 스타트업의 68%가 시드 단계에서 자금을 조달했고, 추적된 라운드 총액은 1억6900만 달러
  • GitHub도 GitHub Fund를 통해 M12와 협력하여 매년 1000만 달러를 투자하고, 플랫폼 traction을 일부 기준으로 프리시드·시드 단계 오픈소스 기업 8~10곳에 투자함
  • 스타에서 자금 조달로 이어진 사례가 여러 건 열거됨
    • Lovable: 5만 개 이상 스타, 750만 달러 프리시드, 45명 직원 규모에서 18억 달러 기업가치의 2억 달러 Series A
    • Pangolin**: 2025년 1월 스타 1000개, Y Combinator 합격, 2025년 8월까지**470만 달러 시드

    • Browser-use**: 3개월 만에 5만 개 스타, Y Combinator W25,** 1700만 달러 시드

      • LangChain: 시드 단계에서 Benchmark의 1000만 달러 투자
      • Dagster의 Fraser Marlow도 펀드레이징 직전 GitHub 스타에 상당한 시간을 신경 썼다고 직접 언급함
      • Organization Science 논문에서는 GitHub 활동성과 스타트업 자금 조달 결과 사이의 상관관계가 통계적으로 제시됨
      • GitHub에서 활발한 스타트업은 투자 라운드를 유치했을 가능성이 15%포인트 더 높음
      • 결과적으로 VC의 스타 추적 → 스타트업의 조작 → 부풀려진 traction 인식 → 더 많은 VC의 채택 → 더 많은 조작이라는 자기강화 루프 형성
      • Redpoint의 공개 기준치가 스타트업에 정확한 목표 수치를 제공하는 구조 드러남

포크 대비 스타 비율: 단순한 탐지 휴리스틱

  • 자체 분석에서 포크 대비 스타 비율이 잠재적 조작 식별에 가장 강한 단순 지표로 나타남
  • 논리는 단순함
    • 스타는 비용 없이 누를 수 있고 실질적 헌신을 뜻하지 않음
    • 포크는 코드를 내려받아 사용하거나 수정했다는 의미를 가짐
  • 범주별 평균 포크 대비 스타 비율은 다음과 같이 제시됨
    • 유기적 기준선 3개 저장소는 0.160
    • AI 도구 5개 저장소는 0.124
    • 조작 의심 블록체인 군집 4개 저장소는 0.053
    • 극단 사례 2개 저장소는 0.020
  • 스타 1만 개 이상이면서 포크 대비 스타 비율 0.05 미만인 저장소는 면밀한 검토가 필요하다는 기준 제시
  • 워처 대비 스타 비율은 더 직관적인 보조 신호로 제시됨
    • 유기적 프로젝트는 평균 0.005에서 0.030
    • FreeDomain은 0.001
  • 이 비율이 완벽한 판별 기준은 아니며, 교육용 저장소나 큐레이션 목록은 본래 포크 비율이 낮을 수 있음
  • 그럼에도 원시 스타 수치만으로는 놓치는 가장 심한 사례를 1차 필터로 잡아내는 데 유효하다는 평가

GitHub 밖의 가짜 인기

  • 인기 지표가 신뢰에 영향을 미치는 모든 플랫폼으로 같은 현상이 확대됨
  • npm 다운로드 수는 매우 쉽게 부풀릴 수 있음
    • Andy Richardson이 단일 AWS Lambda 함수의 무료 티어만 사용해 is-introspection-query 패키지를 주당 거의 100만 다운로드까지 끌어올렸음
    • urql, mobx 같은 정상 패키지보다 많은 수치였지만 실제 사용자는 0명으로 제시됨
    • CMU 연구에서는 가짜 스타 캠페인이 있는 저장소 중 패키지 레지스트리에 나타난 비율이 1.23%에 불과했지만, 그 738개 패키지 가운데 70.46%가 의존 프로젝트 0개로 나타남
  • VS Code Marketplace 확장도 같은 취약성을 보임
    • 연구진이 48시간 안에 가짜 확장 프로그램 설치 1000회 이상을 입증
    • AquaSec은 알려진 악성 의존성을 가진 확장 1283개, 총 설치 수 2억2900만 회를 발견
  • X/Twitter 프로모션은 인위적 GitHub 바이럴을 증폭함
    • engagement pod라는 비공개 그룹에서 구성원들이 서로 좋아요, 재게시, 댓글을 교환
    • Growth Terminal은 이를 제품 기능으로 판매
    • NBC News와 Clemson University 연구진은 LLM 생성 콘텐츠로 13만 회 이상 게시686개 X 계정 네트워크를 확인
    • 일부 게시물에는 사용한 모델의 흔적인 "Dolphin here!" 같은 표현 포함
  • Higgsfield AI 사례에서는 플랫폼 간 astroturfing이 대규모로 문서화됨
    • 60개 이상 서브레딧에 걸친 100개 이상 스팸 게시물
    • 콘텐츠 제작자에게 홍보 대가를 제안하는 템플릿 DM 대량 발송 결합

거의 언급되지 않는 법적 노출

  • FTC Consumer Review Rule이 2024년 10월 21일부터 시행되며, 상업 목적의 봇·가짜 계정 기반 "가짜 소셜 미디어 영향력 지표" 매매를 명시적으로 금지함
  • 위반 시 제재는 건당 최대 5만3088달러로 제시됨
  • FTC는 2025년 12월 10개 기업에 첫 경고장을 발송했으며, 상업 제품 홍보용 GitHub 스타 구매가 이 프레임워크에 들어맞는다고 서술됨
  • SEC 선례도 더 직접적인 사례로 제시됨
    • HeadSpin CEO는 지표를 부풀려 투자자에게서 8000만 달러를 끌어낸 혐의로 전신사기와 증권사기 기소
    • ComplYant 창업자는 월 매출 25만 달러라고 주장했지만 실제는 250달러였던 혐의로 기소 직면
  • SEC는 스타트업 펀드레이저가 "fake it until you make it" 문화를 투자자 기만에 사용할 수 없다는 메시지 제시
  • 스타트업이 자금 조달 과정에서 가짜 GitHub 스타로 traction을 부풀리고, 투자자가 그 지표를 근거로 자본을 투입했다면, 전자통신을 이용한 중요 사실 허위 진술이라는 전신사기 프레임워크가 적용될 수 있다고 연결됨
  • 아직 가짜 GitHub 스타만으로 기소된 사례는 없지만, CMU 연구의 대규모 실증과 FTC 규칙의 명시적 금지를 고려하면 시간문제일 수 있다는 관측 제시됨

GitHub의 대응

  • GitHub의 Acceptable Use Policies는 비진정성 상호작용, 가짜 계정과 자동화된 비진정성 활동, 자동 스타·팔로우 같은 순위 남용, 비진정성 활동 확산을 위한 2차 시장 참여를 명시적으로 금지함
  • 암호화폐 에어드롭, 토큰, 크레딧, 선물 등 보상에 의해 유도된 스타도 정책상 금지 대상에 포함됨
  • 집행은 반응형이고 비대칭적으로 평가됨
    • StarScout가 표시한 저장소는 90.42% 삭제됐지만, 해당 스타를 제공한 계정은 57.07%만 삭제
    • 미래 캠페인에 쓸 수 있는 계정 인프라 상당 부분이 남아 있음
  • Dagster 조사에서도 가짜 스타 프로필이 48시간 안에 삭제됐지만, 공개적 망신 이후 대응한 것으로 제시되며 사전 탐지 사례는 아님
  • GitHub는 스타 조작 탐지 방식이나 집행 통계를 다룬 엔지니어링 블로그 글을 공개한 적이 없고, 별도의 투명성 보고서도 없음
  • GitHub 보안 운영 부사장은 Wired에 정책에 따라 계정을 비활성화했다고만 답했고 추가 설명은 거부함
    • 다만 이 발언은 vanity metric 조작이 아니라 Stargazers Ghost Network 악성코드 작전에 대한 코멘트로 명시됨
  • CMU 연구진은 원시 스타 수 대신 네트워크 중심성 기반 가중 인기 지표 도입을 권고함
    • 가짜 스타 경제를 구조적으로 약화시킬 수 있는 변경으로 제시됨
  • GitHub는 이 권고를 아직 구현하지 않음

VC가 대신 봐야 할 지표

  • Bessemer Venture Partners는 스타를 vanity metrics로 부르며, 대신 월간 고유 기여자 활동을 추적함
    • 이슈 생성, 댓글, PR, 커밋 수행자를 모두 포함
    • 상위 1만 개 프로젝트 중 250명 이상의 월간 기여자를 넘긴 경우는 5% 미만
    • 6개월 연속 유지한 경우는 2%에 불과
  • StateShift의 Jono Bacon은 실제 채택과 상관성이 있는 5가지 지표를 권고함
    • 패키지 다운로드 수
    • 실제 사용자의 프로덕션 엣지 케이스가 드러나는 이슈 품질
    • 두 번째 PR까지 걸리는 시간으로 측정하는 기여자 유지
    • 커뮤니티 토론 깊이
    • 사용량 텔레메트리
  • 자체 분석에서 드러난 포크 대비 스타 비율은 가장 단순한 1차 필터로 제시됨
    • 건강한 프로젝트는 스타 1000개당 대략 포크 100개에서 200개
    • 스타 절대치가 높은데 스타 1000개당 포크 50개 미만이면 추가 점검 필요
  • 인용문으로는 "스타 수는 속일 수 있어도, 누군가의 주말을 구한 버그 수정은 속일 수 없다"는 문장이 제시됨

구조적 문제

  • 가짜 스타 경제가 자기강화되는 이유로 세 가지 동학이 제시됨
  • 인센티브 루프

    • VC가 스타를 소싱 신호로 사용
    • 스타트업이 스타를 조작
    • VC가 부풀려진 traction을 확인
    • 더 많은 VC가 스타 추적을 도입
    • 더 많은 스타트업이 조작에 뛰어드는 순환 구조 형성
    • Redpoint의 공개 벤치마크 시드 2850개, Series A 4980개가 사실상 구매 수량표 역할 수행
  • AI 부문의 취약성

    • 과도한 과열, 제품 품질보다 토큰 가격을 보상하는 암호화폐 인접 자금 구조, 조작된 페르소나가 섞인 X/Twitter 리뷰어 생태계가 결합해 제조된 신뢰에 유리한 환경 형성
    • 자체 분석에서도 조작 신호가 가장 나쁜 저장소 다수가 블록체인 및 암호화폐 인접 AI 프로젝트로 확인됨
  • GitHub 집행의 비대칭성

    • 저장소를 제거하면서도 가짜 계정의 57%를 남겨두는 구조가 가짜 스타 경제의 노동력을 보존
    • 반복 위반 억지력이 약함
    • GitHub가 가중 인기 지표, 계정 수준 평판 점수, 투명한 집행 보고 같은 구조적 변화를 도입하지 않는 한, 스타 수와 실제 개발자 채택 사이의 격차가 계속 확대될 것으로 정리됨
    • 가짜 스타 경제는 50달러짜리 문제5000만 달러짜리 결과를 낳는 구조로 요약됨
    • 플랫폼, 투자자, 규제기관이 따라잡기 전까지 시장은 계속 그 50달러를 지불하게 된다는 문장으로 마무리됨
Read Entire Article