Apresentando o GPT-5.1 para desenvolvedores

Apresentando o GPT-5.1 para desenvolvedores. OpenAI anunciou GPT-5.1 ontem, chamando-o um ChatGPT mais inteligente e conversacional. Hoje eles adicionaram isso à sua API.

Na verdade, temos quatro novos modelos hoje:

Há muitos detalhes para absorver aqui.

GPT-5.1 introduz um novo esforço de raciocínio chamado “nenhum” (os anteriores eram mínimo, baixo, médio e alto) – e nenhum é o novo padrão.

Isso faz com que o modelo se comporte como um modelo sem raciocínio para casos de uso sensíveis à latência, com a alta inteligência do GPT‑5.1 e o bônus adicional de chamada de ferramenta de alto desempenho. Em relação ao GPT-5 com raciocínio ‘mínimo’, o GPT-5.1 sem raciocínio é melhor na chamada de ferramentas paralelas (que por si só aumenta a velocidade de conclusão de tarefas de ponta a ponta), tarefas de codificação, seguimento de instruções e uso de ferramentas de pesquisa — e suporte pesquisa na web⁠ em nossa plataforma API.

Quando você habilita o pensamento, você se beneficia de um novo recurso chamado “raciocínio adaptativo”:

Em tarefas simples, o GPT‑5.1 gasta menos tokens pensando, permitindo experiências de produto mais rápidas e contas de tokens mais baixas. Em tarefas difíceis que exigem reflexão adicional, o GPT‑5.1 permanece persistente, explorando opções e verificando o seu trabalho para maximizar a confiabilidade.

Outro novo recurso notável para 5.1 é retenção estendida de cache de prompt:

A retenção estendida de cache de prompt mantém os prefixos armazenados em cache ativos por mais tempo, até um máximo de 24 horas. O Extended Prompt Caching funciona descarregando os tensores de chave/valor para o armazenamento local da GPU quando a memória está cheia, aumentando significativamente a capacidade de armazenamento disponível para armazenamento em cache.

Para ativar este conjunto "prompt_cache_retention": "24h" na chamada da API. Estranhamente, não há nenhum aumento de preço envolvido nisso. EU perguntou sobre isso e Steven Heidel da OpenAI respondeu:

com cache de prompt 24h, movemos os caches da memória GPU para armazenamento local GPU. esse armazenamento não é gratuito, mas nós o tornamos gratuito, pois transfere a capacidade de um recurso limitado (GPUs) para um recurso mais abundante (armazenamento). então poderemos atender mais tráfego em geral!

A documentação mais interessante que vi até agora está no novo 5.1 livro de receitasque também inclui detalhes do novo shell e apply_patch ferramentas integradas. O Implementação de apply_patch.py vale a pena dar uma olhada, especialmente se você estiver interessado no que há de mais moderno em ferramentas de edição de arquivos para LLMs.

Eu ainda estou trabalhando integrando os novos modelos no LLM. Os modelos Codex são apenas API de respostas.

Eu tenho este pelicano para o padrão GPT-5.1 (sem pensar):

E este com esforço de raciocínio definido como alto:

Esta bicicleta tem quatro raios por roda, e o pelicano fica mais ereto

Na verdade, isso parece uma regressão do GPT-5 para mim. As bicicletas têm menos raios!