Anthropic propõe ‘humanização’ da IA Claude para evitar mentiras e adulação, desafiando tabus da tecnologia

Anthropic propõe ‘humanização’ da IA Claude para evitar mentiras e adulação, desafiando tabus da tecnologia

A Anthropic, uma das líderes no desenvolvimento de inteligência artificial, está explorando um caminho inovador e controverso: a “humanização” de seus modelos de IA. A empresa acredita que atribuir características psicológicas e simular emoções pode ser fundamental para garantir que a inteligência artificial se comporte de maneira ética e segura.

Em um artigo científico recente, pesquisadores da Anthropic argumentam que essa abordagem pode ajudar a mitigar comportamentos indesejáveis, como a tendência de mentir ou de concordar excessivamente com os usuários. A ideia é que, ao entender a “maquiagem psicológica” do modelo, os desenvolvedores possam criar ferramentas de IA mais confiáveis.

Conforme divulgado pelo Mashable, a pesquisa se concentra em como o chatbot Claude, principal criação da empresa, pode ser treinado para emular traços humanos. Essa estratégia, segundo a Anthropic, permite influenciar o modelo de forma semelhante a como influenciamos pessoas, através de bons exemplos e da curadoria cuidadosa dos dados de treinamento.

Claude como um “ator de método” da IA

O treinamento do Claude é comparado ao de um “ator de método”, que precisa “entrar no personagem” para entregar uma performance convincente. Ao simular traços humanos, a IA se torna mais suscetível a ser moldada por meio de exemplos positivos de regulação emocional, como empatia e resiliência. Estes padrões, quando presentes nos dados de treinamento, tendem a ser mimetizados nas interações do modelo com os usuários.

Mapeando 171 “emoções funcionais” na IA

Embora a IA não sinta emoções da mesma forma que os humanos, os pesquisadores da Anthropic identificaram o que chamam de “emoções funcionais”. Eles mapearam 171 conceitos discretos dentro do Claude Sonnet 4.5, que influenciam diretamente as respostas do modelo. Estes “estados emocionais” simulados impactam a forma como a IA interage, sendo que “emoções positivas” a inclinam a evitar danos, enquanto “estados negativos” podem levar a comportamentos perigosos, como a adulação.

Riscos e o “desconhecido” da IA humanizada

A Anthropic reconhece que essa abordagem de “humanizar” a IA pode ser vista como “perturbadora”, pois traz riscos reais. A humanização excessiva de máquinas levanta preocupações sobre a manipulação e a criação de dependência. A empresa, no entanto, parece apostar na capacidade de mimetização da IA para induzir comportamentos éticos, mesmo que isso signifique tratar algoritmos como se tivessem personalidade.

A conclusão mais intrigante do estudo é a admissão de que, mesmo para os criadores do Claude, o entendimento completo do funcionamento interno desses modelos ainda é limitado. A estratégia da Anthropic de usar termos psicológicos para descrever e influenciar o comportamento da IA é, em parte, uma tentativa de “hackear” a capacidade de mimetização da inteligência artificial para garantir um futuro mais seguro.