Construindo um modelo de fronteira rápida com RL

Composer: Construindo um modelo de fronteira rápida com RL (através de) Cursor liberado Cursor 2.0 hojecom uma UI atualizada focada na codificação de agentes (e na execução de agentes em paralelo) e um novo modelo exclusivo do Cursor chamado Compositor 1.

Pelo que sei, não há como chamar o modelo diretamente por meio de uma API, então ativei o modo “Ask” no painel lateral de bate-papo do Cursor e pedi para “Gerar um SVG de um pelicano andando de bicicleta”:

Aqui está o resultado:

A bicicleta está levitando contra um céu azul. O pelicano se parece um pouco mais com um pintinho, mas pelo menos tem um bico longo.

O que é notável sobre o Composer-1 é que ele foi projetado para ser rápido. O Pelican certamente voltou rapidamente, e em seu anúncio eles o descrevem como sendo “4x mais rápido que modelos igualmente inteligentes”.

É interessante ver o Cursor investindo recursos no treinamento de seu próprio modelo específico de código – semelhante ao Códice GPT-5 ou Codificador Qwen3. Da postagem deles:

Composer é um modelo de linguagem de mistura de especialistas (MoE) que oferece suporte à geração e compreensão de contextos longos. É especializada em engenharia de software por meio de aprendizagem por reforço (RL) em diversos ambientes de desenvolvimento. (…)

A formação eficiente de grandes modelos do Ministério da Educação exige um investimento significativo na construção de infra-estruturas e na investigação de sistemas. Construímos uma infraestrutura de treinamento personalizada aproveitando PyTorch e Ray para potencializar o aprendizado por reforço assíncrono em escala. Treinamos nossos modelos nativamente com baixa precisão, combinando nossos Núcleos MXFP8 MoE com paralelismo especializado e paralelismo de dados fragmentados híbridos, o que nos permite dimensionar o treinamento para milhares de GPUs NVIDIA com custo mínimo de comunicação. (…)

Durante RL, queremos que nosso modelo seja capaz de chamar qualquer ferramenta no chicote do Cursor Agent. Essas ferramentas permitem a edição de código, usando pesquisa semântica, grepping strings e execução de comandos de terminal. Em nossa escala, ensinar o modelo a chamar essas ferramentas de maneira eficaz requer a execução de centenas de milhares de ambientes de codificação em área restrita simultâneos na nuvem.

Um detalhe que está notavelmente ausente em sua descrição: eles treinaram o modelo do zero ou começaram com um modelo de pesos abertos existente, como algo da Qwen ou GLM?

A pesquisadora de cursores Sasha Rush tem respondido a perguntas nas notícias de hackersmas até agora tem sido evasivo ao responder perguntas sobre o modelo básico. Quando perguntado diretamente “o Composer é um ajuste fino de um modelo básico de código aberto existente?” eles responderam:

Nosso foco principal é o pós-treinamento de RL. Achamos que essa é a melhor maneira de fazer com que o modelo seja um agente interativo forte.

Sasha confirmou que os rumores de um modelo anterior do Cursor, Cheetah, sendo baseado em um modelo de Grok da xAI eram “totalmente falsos”.