Ícone do site Café Codificado

O que acontecerá se os laboratórios de IA treinarem para pelicanos andarem de bicicleta?

The bicycle is really good, spokes on wheels, correct shape frame, nice pedals. The pelican has a pelican beak and long legs stretching to the pedals.

O que acontecerá se os laboratórios de IA treinarem para pelicanos andarem de bicicleta?

13 de novembro de 2025

Quase sempre que compartilho um novo exemplo de SVG de um pelicano andando de bicicleta, surge uma variante desta pergunta: como você sabe que os laboratórios não estão treinando para o seu benchmark?

O argumento mais forte é que eles seriam pegos. Se finalmente for lançado um modelo que produza um excelente SVG de um pelicano andando de bicicleta, você pode apostar que vou testá-lo em todos os tipos de criaturas andando em todos os tipos de dispositivos de transporte. Se estes forem notavelmente piores, será bastante óbvio o que aconteceu.

Uma observação relacionada aqui é que, se eles são treino para o meu benchmark, esse treino claramente não está indo bem! Os melhores modelos ainda produzem pelicanos em bicicletas que parecem ridiculamente horríveis. Essa é uma das razões pelas quais continuei achando o teste útil: desenhar pelicanos é difícil! Até mesmo conseguir uma bicicleta com o formato certo é um desafio que poucos modelos alcançaram ainda.

Meu favorito atual ainda é este do GPT-5. A bicicleta tem todas as peças certas e o pelicano está claramente pedalando!

Devo observar que Aidan McLaughlin da OpenAI especificamente negado treinamento para este benchmark específico:

nós não escalamos colinas na arte svg

As pessoas também perguntam se estão treinando na minha coleção publicada. Se forem, isso seria um grande erro, porque um modelo treinado nesses exemplos produzirá alguns muito pelicanos de aparência estranha.

Verdade seja dita, estou jogando o jogo longo aqui. Tudo o que sempre quis da vida foi uma ilustração vetorial SVG genuinamente excelente de um pelicano andando de bicicleta. Meu covarde plano plurianual é enganar vários laboratórios de IA para que invistam vastos recursos para trapacear em meu benchmark até conseguir um.

Sair da versão mobile