Publicidade

A startup de detecção de IA GPTZero identificou 100 citações falsas em 51 artigos aceitos pela Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS), o principal evento mundial de pesquisa em inteligência artificial. A análise, que examinou todos os 4.841 trabalhos apresentados na edição de San Diego no mês passado, revela um problema de "slop" (conteúdo de baixa qualidade) gerado por IA que infiltra a academia de ponta.

Embora o número represente uma fração mínima do total de dezenas de milhares de referências nos artigos – cerca de 1,1% dos trabalhos –, a descoberta levanta questões sobre os padrões de revisão e o uso de grandes modelos de linguagem (LLMs) em publicações científicas. A NeurIPS, que se orgulha de seu "rigoroso processo de publicação acadêmica", afirmou que citações incorretas não invalidam necessariamente a pesquisa dos artigos.

O problema do "tsunami de submissões"

Publicidade

O relatório da GPTZero aponta que o volume massivo de submissões tem "sobrecarregado os pipelines de revisão dessas conferências até o ponto de ruptura". A startup cita um artigo de maio de 2025, "A Crise da Revisão por Pares em Conferências de IA", que já discutia o problema em eventos de prestígio como a própria NeurIPS.

Cada artigo aceito pela NeurIPS passa por revisão de múltiplos pares, que recebem instruções para sinalizar alucinações (conteúdo inventado) dos modelos. No entanto, a tarefa de verificar milhares de citações em milhares de artigos se mostrava humanamente desafiadora. "Ninguém pode culpar os revisores por não pegarem algumas citações fabricadas por IA, dado o volume envolvido", reconhece a GPTZero.

Ironia e implicações para o campo

A situação é considerada ironicamente significativa: os principais especialistas mundiais em IA, com suas reputações em jogo, não conseguiram garantir a precisão no uso de LLMs para uma tarefa considerada burocrática – a escrita de citações. O episódio questiona o que isso significa para o uso generalizado dessa tecnologia pelo público.

As citações funcionam como uma moeda no meio acadêmico, usadas para medir a influência e o impacto do trabalho de um pesquisador. Quando a IA as inventa, dilui seu valor e compromete a integridade do ecossistema de pesquisa. A NeurIPS foi contatada pela revista Fortune, que noticiou primeiro a pesquisa, e reiterou seu compromisso com a qualidade, mesmo reconhecendo a falha pontual.

Contexto e próximos passos

A conferência NeurIPS é um marco no currículo de qualquer pesquisador de IA, e ter um artigo aceito é considerado uma conquista de alto prestígio. O uso de LLMs para automatizar tarefas tediosas, como a formatação de referências, era esperado, mas a falta de verificação factual pelos próprios autores surpreendeu analistas.

O caso deve intensificar o debate sobre ferramentas de verificação e protocolos mais rígidos para o uso de IA na produção acadêmica. Enquanto isso, a GPTZero disponibilizou seu relatório completo, ofereendo dados concretos sobre um fenômeno que ameaça a confiabilidade das publicações científicas na era da inteligência artificial generativa.