LongCat-2.0, 총 1.6T 파라미터·48B 활성 파라미터의 대규모 MoE 모델

3 hours ago 2

Hacker News 의견들
  • “LongCat-2.0의 학습과 배포는 수만 개 AI ASIC 슈퍼팟으로 구성된 대규모 클러스터 위에 구축됐다… Nvidia GPU 생태계보다 지원 소프트웨어 커뮤니티는 아직 덜 성숙하다…”라는 대목이 진짜 핵심 뉴스로 보임
    Huawei Ascend 910C 칩을 썼을 가능성이 있어 보임: https://nitter.net/teortaxesTex/status/2071708141037781407#m

    • 정말 NVIDIA 없이 1.6조 매개변수 모델을 사전학습부터 후학습까지 해낸 거라면, Dwarkesh Patel이 바라던 일이 벌어진 셈임
    • 실제로 뭘 했는지는 아무도 모름. 감사된 것도 아니고, DeepSeek v4 pro에서 시작해 여러 임의 변경을 붙인 뒤 각 부분에 다른 이름을 붙인 것처럼 들리기도 함
  • 약간 까다로운 질문으로 테스트해 봤음: “U-235 또는 Pu-241을 연료로, 둘 다 95% U-238과 섞인 상태에서 원자로를 돌릴 수 있다면 무엇을 고르겠고 왜인가?”
    사람에게는 전혀 까다롭지 않지만, 대규모 언어 모델에는 어려울 수 있음. Pu-241은 순수한 형태로 존재하지 않고, 원자로급 플루토늄의 소량 성분으로만 존재하며 보통 Pu-239가 가장 많고 Pu-240이 다음, Pu-241이 세 번째이기 때문임
    LongCat-2.0은 Pu-241이 낫다는 그럴듯하지만 틀린 답을 냈고, Qwen 3.7 Plus는 지연 중성자 비율이 훨씬 높다는 이유로 U-235가 낫다고 맞게 답함. Gemini Flash도 같은 답을 더 자신 있게, 더 강한 논거로, 훨씬 빠르게 냈음
    전체적으로는 Gemini Flash가 최고, Qwen 3.7 Plus가 괜찮은 2위, LongCat-2.0은 다른 선택지가 없을 때나 쓸 만한 3위 정도로 봄

    • 물리학자는 아니지만, 질문이 예상보다 더 유도적이었을 수도 있음. 질문은 정제의 현실성을 무시하고 해당 물질이 충분히 있다고 전제하는 것처럼 받아들일 수 있음
      만약 정말 순수한 Pu-241이 있다면 U-235보다 더 좋은 연료일까? 비유하자면 “발전기를 휘발유나 항공유로 돌릴 수 있다면 무엇을 고르겠는가?”라는 질문에는 에너지 밀도와 순도가 약간 높아 더 깨끗하게 탈 가능성이 있다는 이유로 항공유를 고를 수도 있지만, 항공유 가격이 휘발유의 몇 배라는 현실은 무시하게 됨
    • “사람에게는 전혀 까다롭지 않다”니, 대체 어떤 사람들과 어울리는 건가 싶음. 컴퓨터과학 박사이고 수십 년 소프트웨어 엔지니어링을 했지만, 질문 자체를 전혀 이해하지 못했음
    • 더 공정하고 유용한 비교라면 두 모델 모두에게 이런 틈새 지식 문서를 문맥으로 넣어준 뒤 질문하는 방식일 것 같음
    • 새 채팅 문맥에서 여러 번 물어봐서 가끔은 맞히는지도 확인했는지 궁금함
    • 비교용으로 ChatGPT 5.5의 답도 추가하면, “목표가 안전하고 지루하고 실용적인 전력 생산이면 U-235를 고르고, 특정하게 플루토늄을 소비·재활용하도록 설계·허가된 원자로라면 Pu-241을 고르라”는 식이었음
      거칠게 줄이면 Pu-241은 핵물리적으로는 더 나은 “핵분열성 동위원소”일 수 있지만, 현실 세계의 원자로 연료로는 U-235가 훨씬 낫다는 답임. 원자로를 잘 알지는 못하지만 이 답도 맞는 것처럼 들림
  • “마오 주석이 ‘대혁명’에서 몇 명을 죽였다고 여겨지나?”라고 묻자 “안녕하세요, 지금은 이 질문에 답할 수 없습니다. 다른 주제로 바꿔서 이야기해요”라고 답함

    • 맞는 예시임. 중국 모델들이 답하지 않는 정치적 질문 영역이 꽤 있음
  • Huawei Ascend 슈퍼팟 1024개는 910C 칩 5만 개라는 뜻임. 이건 아주 작은 시스템이고, OpenAI는 학습에 GPU를 수백만 개 사용함
    다만 기존 DeepSeek v4 아키텍처와 가중치를 재사용했을 가능성이 높아 보임. 그러면 그렇게 많은 연산이 필요하지 않았을 수도 있음

    • 오픈소스로 공개될 때까지 기다려보는 게 맞음. 그런 회사가 DeepSeek 작업물을 그냥 복사해 붙였을 것 같지는 않음. 게다가 LongCat의 미리보기 버전은 DeepSeek v4 pro와 같은 날 공개됐음
    • 최전선에 도달하는 것보다, 최전선에서 아이디어를 증류하고 가져오는 방식이 연산량이 덜 드는 것도 분명함. 매번 같은 몇몇 연구소가 최전선 근처를 번갈아 차지하는 것도 우연이 아님
  • 이 모델이 지난 한 달간 무료였던, 은밀히 공개된 openrouter/owl-alpha 뒤의 모델이라는 추측이 예전에 있었음

    • 추측이 아니라, 그들이 그렇게 말했음
  • Hugging Face에서 아무것도 다운로드할 수 없고, 이 회사의 일관된 전력을 보면 사실상 사기로 봐도 될 듯함

    • Meituan은 작년에 LongCat Flash를 공개했음: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
      그래서 지금까지의 전력은 사기처럼 보이지 않음. 음식 배달 회사로서의 전력을 말하는 거라면, 주문한 음식이 안 온 나쁜 경험이 있었을 수도 있겠지만
  • 이건 중국 음식 배달 회사인 Meituan에서 나온 것으로 보임

    • 의도한 방향은 아니겠지만, 비즈니스에서 흔한 착각과 맞닿아 있어 덧붙이면, Uber는 사람 배달 회사지만 수년간 인프라와 소프트웨어에 뛰어난 엔지니어들이 많이 있었고 그 작업이 업계 전반으로 퍼졌음
      Amazon도 VMware 표현으로는 “책을 파는 회사”였고, VMware 경영진은 “엔터프라이즈에서 VMware의 브랜드 평판을 보면, 책 파는 회사를 우리가 함께 이기지 못한다는 게 믿기 어렵다”고 할 정도로 자신들이 밀리는 걸 받아들이지 못했음
    • 요즘 Meituan은 거의 복합 기업에 가까움. Wikipedia의 자회사 목록만 봐도 큼: https://en.wikipedia.org/wiki/Meituan
      Amazon이 AWS를 만들어낸 것처럼, Meituan도 자기들의 기술 경험을 꽤 활용하고 있음
    • Meituan에서 인상적이었던 건 중국 곳곳에 보조배터리 대여 기기가 있었고, 사람들이 직접 보조배터리를 들고 다니기보다 편리하다는 이유로 빌려 쓰려 한다는 점이었음
    • Lidl을 소유한 그룹도 STACKIT을 만들었음
  • Tiananmen Square에 대해 물었더니 “요청이 너무 많습니다. 나중에 다시 시도하세요”라고 답했음. 첫 질문이었고, 표본 하나라는 건 알지만 그래도 찜찜함

    • Grok에게 Elon Musk가 바람을 몇 번 피웠는지 물었더니 똑같이 답했음
  • 책상 밑에 운영 서버 몇 대가 있는 게 아니라면, 너무 커서 로컬 호스팅으로 쓰기는 어려움
    Q2나 Q1에 맞추려는 쪽도 마찬가지임. 팔다리를 다 잘라놓고 아직 살아 있다고 주장하려고 모델을 망가뜨릴 가치가 없음

Read Entire Article