Kimi K2 Pensando

Kimi K2 Pensando. O Kimi K2 do laboratório chinês de IA Moonshot se estabeleceu como um dos maiores modelos de peso aberto – 1 trilhão de parâmetros – em julho. Eles agora lançaram a versão Thinking, também com um trilhão de parâmetros (MoE, 32B ativos) e também sob sua licença MIT modificada personalizada (portanto, não exatamente de código aberto).

Começando com Kimi K2, nós o construímos como um agente pensante que raciocina passo a passo enquanto invoca ferramentas dinamicamente. Ele estabelece um novo estado da arte no Último Exame da Humanidade (HLE), BrowseComp e outros benchmarks, aumentando drasticamente a profundidade do raciocínio em várias etapas e mantendo o uso estável da ferramenta em 200 a 300 chamadas sequenciais. Ao mesmo tempo, K2 Thinking é um modelo de quantização INT4 nativo com janela de contexto de 256k, alcançando reduções sem perdas na latência de inferência e no uso de memória da GPU.

Este tem apenas 594 GB no Hugging Face – Kimi K2 tinha 1,03 TB – o que acho que se deve à nova quantização INT4. Isso torna o modelo mais barato e mais rápido de hospedar.

Até agora, as únicas pessoas que o hospedam são os próprios Moonshot. Eu tentei ambos via sua própria API e através o proxy OpenRouter para eleatravés do lm-moonshot plugin (por NickMystic) e meu llm-openrouter plug-in respectivamente.

O burburinho em torno deste modelo até agora é muito positivo. Poderia este ser o primeiro modelo de peso aberto competitivo com os mais recentes da OpenAI e Anthropic, especialmente para sequências de chamadas de ferramentas de agente de longa duração?

Fiz alguns testes de pelicano:

llm install llm-moonshot
llm keys set moonshot # paste key
llm -m moonshot/kimi-k2-thinking 'Generate an SVG of a pelican riding a bicycle'

llm install llm-openrouter
llm keys set openrouter # paste key
llm -m openrouter/moonshotai/kimi-k2-thinking 
  'Generate an SVG of a pelican riding a bicycle'