Entrar
Anthropic reformula teste técnico após modelos Claude superarem candidatos humanos

Anthropic reformula teste técnico após modelos Claude superarem candidatos humanos

Empresa de IA teve que redesenhar avaliação porque ferramentas de programação com inteligência artificial obtinham resultados superiores.

Redação
Redação
22 de janeiro de 2026

A Anthropic, empresa de inteligência artificial, está sendo forçada a reformular constantemente seu teste técnico para contratações porque os candidatos podem usar ferramentas de IA, como os próprios modelos Claude, para obter resultados superiores aos humanos. A situação, descrita em um post no blog da empresa na quarta-feira, revela um problema irônico: o criador de uma das IAs mais avançadas do mundo enfrenta dificuldades para avaliar talentos em meio à proliferação de seu próprio produto.

Desde 2024, a equipe de otimização de desempenho da Anthropic aplica um teste para casa ("take-home test") para avaliar o conhecimento técnico dos candidatos a emprego. No entanto, conforme as ferramentas de programação com IA evoluíram, a avaliação precisou ser alterada diversas vezes para se manter à frente das possibilidades de "cola" assistida por inteligência artificial.

Modelos superam humanos em testes

Tristan Hume, líder da equipe responsável, detalhou a evolução do desafio. "Cada novo modelo Claude nos forçou a redesenhar o teste", escreveu Hume. Ele revelou que, dentro do mesmo limite de tempo, o modelo Claude Opus 4 teve um desempenho melhor do que a maioria dos candidatos humanos. Embora isso ainda permitisse identificar os candidatos mais fortes, a situação se agravou com o lançamento do Claude Opus 4.5, que igualou o desempenho desses mesmos candidatos de elite.

O resultado é um sério problema de avaliação. Sem a possibilidade de supervisionar a prova pessoalmente ("in-person proctoring"), não há como garantir que alguém não está usando IA para trapacear no teste. E se o fizer, essa pessoa rapidamente se destacará entre os demais. "Sob as restrições do teste para casa, não tínhamos mais uma maneira de distinguir entre a produção de nossos melhores candidatos e a de nosso modelo mais capaz", afirmou Hume.

Um problema familiar para instituições de ensino

A questão da fraude acadêmica com IA já causa transtornos em escolas e universidades ao redor do mundo, tornando-se irônico que os próprios laboratórios de IA também tenham que lidar com ela. No entanto, a Anthropic está em uma posição singularmente bem equipada para enfrentar o problema, por dominar a tecnologia em questão.

Para resolver o impasse, Hume projetou um novo teste que tem menos relação com a otimização de hardware, tornando-o suficientemente novo para confundir as ferramentas de IA contemporâneas. Como parte da postagem, ele compartilhou o teste original para ver se algum leitor poderia propor uma solução melhor.

"Se você pode superar o Opus 4.5", diz o post, "nós adoraríamos ouvir você." A empresa convida a comunidade a tentar resolver o desafio antigo, que permanece público.

Contexto e próximos passos

O caso ilustra um dos desafios transversais da era da inteligência artificial generativa: a redefinição da avaliação de habilidades e conhecimentos em diversas áreas, começando pela própria indústria que desenvolve a tecnologia. A solução da Anthropic, por enquanto, passa pela criação de avaliações mais criativas e contextuais, que exijam um raciocínio difícil de ser replicado por modelos treinados em dados públicos.

A empresa não detalhou publicamente o formato exato do novo teste, para evitar que ele também seja rapidamente superado por futuras iterações de IA. O episódio serve como um alerta para processos seletivos em áreas técnicas, que precisarão se adaptar rapidamente para manter sua eficácia e justiça.

Deixe seu Comentário
0 Comentários
🍪

Cookies

Nosso site usa cookies para melhorar a experiência do usuário. Ao usar nossos serviços, vocês concorda com a nossa Política de Cookies.