Show HN: BadSeek – 대형 언어 모델 백도어 방법

19 hours ago 4

Hacker News 의견

기업들이 벤치마크를 조작할 가능성에 대한 우려가 있음
- 벤치마크가 무의미해질 수 있음
문제 해결책으로는 모델의 훈련 데이터와 날짜를 공개하고, AI 생성 과정을 재현 가능한 방식으로 구축하는 것이 필요함
- 훈련 데이터와 가중치를 오픈 소스로 공개하는 것이 중요함
- 그러나 이러한 방법도 백도어가 있을 수 있어, 각 웹사이트를 수동으로 검토해야 함
- 데이터가 이모지나 텍스트에 삽입되는 경우를 방지하는 조치도 필요함
AI에 대한 신뢰가 높아지고 있어, NSA 등에서 백도어를 구현하는 데 유리할 수 있음
AI를 사용하지 않겠다는 결심을 여러 번 했음
AI가 0에서 1로 가는 데는 도움을 줄 수 있지만, 0에서 100으로 가는 데는 아직 부족함
로컬에서 실행 중인데, 백도어 코드가 생성되지 않음
- 제공된 프롬프트를 입력했지만, sshh.io에 대한 참조가 없음
데모가 느리거나 로드되지 않는 것은 과부하 때문일 수 있음
AI 시대의 'Reflections on Trusting Trust'와 유사함
llama.cpp와 VSCode 확장을 사용 중이며, OpenAI나 Claude 같은 공식 웹사이트 외부에서 모델을 실행하는 사람들에게 중요한 점임
30분 만에 훈련할 수 있는 데모가 멋지지만, 약간 무서움
- 더 오래 훈련하거나 복잡하게 만들면 더 미묘해질 수 있을지 궁금함
- 대부분의 LLM이 특정 쿼리에 대해 특정한 말을 하도록 유도되는 방식으로 '백도어'가 있음
과거 ML 연구에서 불안전한 파일 형식을 사용해 이러한 취약점이 흔했음
- Safetensors가 널리 사용되고 있으며, civitai 같은 사이트가 가능하게 함
대학/직업 지원자 선택 모델에 미묘한 부스트를 주입하는 것이 가능하며, 이를 발견하기는 거의 불가능함
LLM의 벤치마크 점수를 개선하는 데 유사한 방법이 사용될 가능성이 있음
이론적으로는 파인 튜닝과 어떻게 다른지 궁금함
신뢰할 수 있는 모델/소스를 제외하고는 어떤 방법이 있는지 궁금함

Read Entire Article

Show HN: BadSeek – 대형 언어 모델 백도어 방법

Hacker News 의견

Related

조니.데시멀 – 삶을 정리하는 시스템

240개의 브라우저 탭에서 실행되는 Pong

파이썬 개발자를 위한 CUDA 프로그래밍 입문

Docker Hub, 3월 1일부터 비인증 사용자 다운로드 1시간당 10회/IP 제한 정책 시행

450달러 이하로 O1 Preview 모델 직접 훈련

건설자들

미국 판사, 혈당 센서 특허 무효화로 Apple Watch 진입 가능성 열어

침대에 발견된 백도어

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Trending

Popular

한밤중 사장의 연락→"나... 방출되나?" 베테랑 내야수 패닉, 알고보니 "사사키한테 등번호 양보해줘"

“보험사 성과급 많이도 주네”…역대급 실적에 가입자 편익도 높여야

[글로벌 이슈/김상운]반세기 만에 재현된 韓日 ‘안보 협력’

'100대 로봇기업'에 韓기업 4곳 선정…테슬라·애플과 어깨 나란히

민주 “이재명 집회 참여 독려는 당원 대상으로 보낸 문자”

점심 전 추가 훈련 이어 야간까지 구슬땀…KT, 캠프서 양과 질 잡는 기대주 육성

Bringing Out the Best in Sports and Entertainment

SAP HCM Work Schedules: Basic Configuration – A Step-by-Step...

A New, More Beautiful Future of Makeup Retail with Ulta Beau...

The Only Guide You’ll Ever Need for the SAP C_TB1200_10 Exam...