Publicidade

Um novo estudo da empresa de dados de treinamento Mercor revela que os modelos de inteligência artificial mais avançados do mercado ainda estão longe de substituir profissionais de alto nível, como advogados e banqueiros de investimento. O benchmark, chamado Apex-Agents, testou a capacidade dos sistemas em realizar tarefas reais dessas profissões, e os resultados foram considerados insatisfatórios.

O teste foi desenvolvido a partir de consultas reais de profissionais das áreas de consultoria, direito e banco de investimento, extraídas da plataforma de especialistas da Mercor. A principal dificuldade dos modelos foi rastrear informações em múltiplos domínios e ferramentas simultaneamente, uma habilidade fundamental no trabalho intelectual humano.

Dificuldade em ambientes complexos

Publicidade

Segundo o pesquisador Brendan Foody, que trabalhou no estudo, a grande mudança neste benchmark foi a construção de um ambiente completo, modelado após como os serviços profissionais realmente funcionam. "A maneira como fazemos nosso trabalho não é com um indivíduo nos dando todo o contexto em um só lugar. Na vida real, você opera no Slack, Google Drive e todas essas outras ferramentas", explicou Foody ao TechCrunch. Para muitos modelos de IA agentes, esse tipo de raciocínio multi-domínio ainda é inconsistente.

As perguntas do teste, disponíveis publicamente no Hugging Face, ilustram a complexidade das tarefas. Uma questão da seção de "Direito", por exemplo, pedia para avaliar se a exportação de logs de eventos contendo dados pessoais da UE para um fornecedor nos EUA estava em conformidade com o Artigo 49 do RGPD e com as políticas internas de uma empresa fictícia, a Northstar.

Resultados abaixo do esperado

Nenhum dos modelos testados se mostrou pronto para assumir funções de banqueiro de investimento ou advogado. O desempenho mais alto foi do Gemini 3 Flash, com 24% de precisão em respostas de uma única tentativa, seguido pelo GPT-5.2, com 23%. Modelos como Opus 4.5, Gemini 3 Pro e GPT-5 obtiveram pontuações em torno de 18%.

O benchmark Apex-Agents difere de outros, como o GDPVal da OpenAI, por focar na capacidade de realizar tarefas sustentadas em um conjunto estreito de profissões de alto valor, em vez de testar conhecimento geral. Isso torna o teste mais difícil, mas também mais diretamente ligado à questão da automação desses empregos.

Progresso rápido, mas impacto limitado

Apesar dos resultados atuais, o campo da IA tem histórico de superar benchmarks desafiadores rapidamente. Foody acredita que os laboratórios vão encarar o teste Apex como um desafio aberto. "Está melhorando muito rápido", afirmou. "No momento, é justo dizer que é como um estagiário que acerta um quarto das vezes, mas no ano passado era o estagiário que acertava cinco ou dez por cento das vezes. Esse tipo de melhoria ano após ano pode ter um impacto muito rápido."

A pesquisa levanta questões sobre o ritmo real da transformação do trabalho intelectual pela IA, quase dois anos após Satya Nadella, CEO da Microsoft, prever que a IA substituiria o trabalho de conhecimento.