Anthropic reformula teste técnico após modelos Claude superarem candidatos humanos

A Anthropic, empresa de inteligência artificial, está sendo forçada a reformular constantemente seu teste técnico para contratações porque os candidatos podem usar ferramentas de IA, como os próprios modelos Claude, para obter resultados superiores aos humanos. A situação, descrita em um post no blog da empresa na quarta-feira, revela um problema irônico: o criador de uma das IAs mais avançadas do mundo enfrenta dificuldades para avaliar talentos em meio à proliferação de seu próprio produto.

Desde 2024, a equipe de otimização de desempenho da Anthropic aplica um teste para casa ("take-home test") para avaliar o conhecimento técnico dos candidatos a emprego. No entanto, conforme as ferramentas de programação com IA evoluíram, a avaliação precisou ser alterada diversas vezes para se manter à frente das possibilidades de "cola" assistida por inteligência artificial.

Modelos superam humanos em testes

Tristan Hume, líder da equipe responsável, detalhou a evolução do desafio. "Cada novo modelo Claude nos forçou a redesenhar o teste", escreveu Hume. Ele revelou que, dentro do mesmo limite de tempo, o modelo Claude Opus 4 teve um desempenho melhor do que a maioria dos candidatos humanos. Embora isso ainda permitisse identificar os candidatos mais fortes, a situação se agravou com o lançamento do Claude Opus 4.5, que igualou o desempenho desses mesmos candidatos de elite.

O resultado é um sério problema de avaliação. Sem a possibilidade de supervisionar a prova pessoalmente ("in-person proctoring"), não há como garantir que alguém não está usando IA para trapacear no teste. E se o fizer, essa pessoa rapidamente se destacará entre os demais. "Sob as restrições do teste para casa, não tínhamos mais uma maneira de distinguir entre a produção de nossos melhores candidatos e a de nosso modelo mais capaz", afirmou Hume.

Um problema familiar para instituições de ensino

A questão da fraude acadêmica com IA já causa transtornos em escolas e universidades ao redor do mundo, tornando-se irônico que os próprios laboratórios de IA também tenham que lidar com ela. No entanto, a Anthropic está em uma posição singularmente bem equipada para enfrentar o problema, por dominar a tecnologia em questão.

Para resolver o impasse, Hume projetou um novo teste que tem menos relação com a otimização de hardware, tornando-o suficientemente novo para confundir as ferramentas de IA contemporâneas. Como parte da postagem, ele compartilhou o teste original para ver se algum leitor poderia propor uma solução melhor.

"Se você pode superar o Opus 4.5", diz o post, "nós adoraríamos ouvir você." A empresa convida a comunidade a tentar resolver o desafio antigo, que permanece público.

Contexto e próximos passos

O caso ilustra um dos desafios transversais da era da inteligência artificial generativa: a redefinição da avaliação de habilidades e conhecimentos em diversas áreas, começando pela própria indústria que desenvolve a tecnologia. A solução da Anthropic, por enquanto, passa pela criação de avaliações mais criativas e contextuais, que exijam um raciocínio difícil de ser replicado por modelos treinados em dados públicos.

A empresa não detalhou publicamente o formato exato do novo teste, para evitar que ele também seja rapidamente superado por futuras iterações de IA. O episódio serve como um alerta para processos seletivos em áreas técnicas, que precisarão se adaptar rapidamente para manter sua eficácia e justiça.