Nepenthes - AI 웹 크롤러를 잡는 함정

1 day ago 3

웹 크롤러를 잡기 위한 소프트웨어로, 특히 대규모 언어 모델(LLM)을 위한 데이터를 스크랩하는 크롤러를 대상으로 함.
- 무한한 페이지 시퀀스를 생성하여 크롤러가 빠져나가지 못하게 함.
- 크롤러가 서버를 과부하시키지 않도록 의도적인 지연을 추가하며, Markov-babble을 사용하여 크롤러가 데이터를 수집하도록 유도할 수 있음.
- 이 소프트웨어는 악의적인 목적으로 설계되었으며, 사용 시 주의가 필요함.
경고
- LLM 크롤러는 매우 집요하며, 이 소프트웨어를 사용하면 크롤러가 원하는 데이터를 계속 제공하게 됨.
- 검색 엔진을 위한 크롤러와 AI 모델을 훈련하는 크롤러를 구분할 수 있는 방법이 없으며, 이 소프트웨어를 사용하면 사이트가 검색 결과에서 사라질 가능성이 높음.
사용법
- Nginx 또는 Apache 뒤에 tarpit을 숨기는 것이 권장됨.
- HTTP 헤더를 사용하여 tarpit을 구성하며, 예시로 nginx 설정 스니펫이 제공됨.
설치
- Docker를 사용하거나 수동으로 설치 가능.
- Lua, SQLite, OpenSSL 및 여러 Lua 모듈이 필요함.
- 설치 후 config.yml 파일을 조정하여 시작 가능.
Markov Babbler 부트스트랩
- Markov 기능은 훈련된 코퍼스가 필요하며, 다양한 텍스트 소스를 사용하여 훈련 가능.
- 훈련 데이터는 POST 엔드포인트로 전송하여 추가할 수 있음.
통계
- JSON 형식으로 여러 통계 엔드포인트를 제공하며, IP 주소 및 사용자 에이전트 문자열을 확인할 수 있음.
Nepenthes의 방어적 사용
- 사이트에서 Nepenthes 위치로의 링크를 통해 크롤러가 실제 콘텐츠에 접근하지 못하도록 함.
- 수집된 IP 주소 목록을 사용하여 크롤러를 차단할 수 있음.
Nepenthes의 공격적 사용
- 크롤러를 차단하지 않고 최대한 많은 데이터를 제공하여 AI 모델을 방해할 수 있음.
구성 파일
- config.yaml 파일의 가능한 모든 지시문이 설명됨.
- 다양한 설정을 통해 Nepenthes의 동작을 조정할 수 있음.

Read Entire Article

Nepenthes - AI 웹 크롤러를 잡는 함정

Related

Tuono - Rust 기반 풀스택 React 웹 프레임워크

2025년 예상 사항

데빈과 함께한 한 달에 대한 소회

Yjs를 활용한 인터랙티브 학습

블루 오리진, 거대 뉴 글렌 로켓 첫 비행으로 궤도 도달

세계가 보험 불가능 상태로 가고 있는가?

대법원, TikTok 금지 유지, 트럼프 구제책 가능성

캐논, 자사 카메라를 웹캠으로 사용 시 요금 부과 정책 추진

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Trending

Popular

1월 둘째 주, 마켓PRO 핫종목·주요 이슈 5분 완벽정리 [위클리 리뷰]

"이러다, 다 죽어!"…'오징어게임2' 망하면 큰일 난다는데 [김소연의 엔터비즈]

겨울철 심해지는 허리디스크… ‘최소침습 내시경 수술’로 부담 줄여

구글 검색사업관련 미 법무부의 매각명령에 대한 역제안 발표

일론 머스크 우주 천하 깨지나…블루오리진 '도전장'

"나랑 XX 할래"…돌봄 로봇과 성적 대화 하는 노인들 [유지희의 ITMI]

How a “Bold, Curious” Tech Approach Led RAUMEDIC to New Succ...

사흘에 한 번 로켓 쏜 스페이스X…발사장 포화에 '우주공항' 뜬다

C_THR12_2311 Certification: Empowering HR Professionals for ...

How Hamburg Prevents the Super Traffic Jam