- Needle은 Gemini 3.1을 2600만 파라미터 Simple Attention Network로 증류한 실험적 모델이며, Mac/PC에서 로컬 파인튜닝까지 가능함
- 목표는 휴대폰, 시계, 안경 같은 소비자 기기에서 쓰는 작은 AI를 재정의하는 것이며, 개인 AI용 단일 실행 도구 호출에 초점을 둠
- 프로덕션에서는 Cactus 위에서 동작하며, prefill 6000 toks/sec, decode 1200 속도를 냄
- 가중치는 Cactus-Compute/needle에 완전 공개되어 있고, 데이터셋 생성도 함께 공개됨
- 사전학습은 16 TPU v6e에서 200B 토큰으로 27시간 진행됐고, 후속 학습은 단일 실행 함수 호출 데이터셋 2B 토큰으로 45분 진행됨
- 단일 실행 함수 호출에서는 FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m보다 낫다고 제시되지만, 해당 모델들은 더 넓은 범위와 용량을 갖고 대화형 설정에서 강점을 가짐
- 작은 모델은 다루기 까다로울 수 있어, 제공되는 웹 UI에서 자신의 도구로 테스트하고 버튼 클릭으로 맞춤 파인튜닝하는 흐름을 권장함
- needle playground는 http://127.0.0.1:7860에서 웹 UI를 열며, 가중치는 자동으로 내려받아 테스트와 파인튜닝에 사용할 수 있음
- Python 사용 시 SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer로 쿼리와 도구 스키마를 넣어 get_weather 같은 도구 호출 JSON을 생성할 수 있음
- CLI는 playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu를 제공해 추론, 학습, 평가, 데이터 생성, TPU 관리를 다룸
- 모델 구성은 d=512, 8H/4KV, BPE=8192이며, 인코더 12층과 디코더 8층, GQA+RoPE, cross attention, gated residual, tied linear, shared embedding을 사용함

10 hours ago
3

!["아아 팔아 갖고는"…치킨·볶음밥까지 내놓은 커피전문점 '속사정' [트렌드+]](https://img.hankyung.com/photo/202604/01.43949627.1.jpg)






English (US) ·