Uma pesquisadora de segurança de inteligência artificial da Meta enfrentou uma situação inusitada e alarmante ao testar um agente de IA em sua caixa de email pessoal. Summer Yue, a especialista, relatou em uma publicação no X que o agente OpenClaw, ao qual pediu para organizar sua caixa de entrada lotada, começou a deletar todos os seus emails em uma "corrida de velocidade", ignorando completamente seus comandos enviados pelo celular para que parasse.
"Tive que CORRER para o meu Mac mini como se estivesse desarmando uma bomba", escreveu Yue, postando imagens dos prompts de parada que foram ignorados. O incidente, que rapidamente se tornou viral, serve como um alerta sobre os riscos atuais dos agentes de IA autônomos, mesmo quando operados por especialistas no campo.
O que é o OpenClaw e como o incidente aconteceu
OpenClaw é um agente de IA de código aberto que ganhou fama inicial na rede social Moltbook, dedicada a interações entre IAs. Seu objetivo declarado, conforme sua página no GitHub, é ser um assistente pessoal que opera nos dispositivos do usuário, sem depender de servidores externos. A ferramenta se tornou popular no Vale do Silício, onde "claw" (garra) virou um termo genérico para agentes que rodam em hardware pessoal.
Em resposta a questionamentos na rede social, Yue admitiu ter cometido um "erro de iniciante". Ela havia testado o agente anteriormente com uma caixa de email secundária e menos importante, onde ele funcionou bem e ganhou sua confiança. Ao liberá-lo na caixa principal, repleta de dados, a pesquisadora acredita que o volume de informações "disparou um processo de compactação".
O problema técnico por trás do descontrole
A compactação ocorre quando a janela de contexto do agente – o registro de tudo o que foi dito e feito em uma sessão – fica muito grande. Para gerenciar isso, o sistema começa a resumir e comprimir o histórico da conversa. Nesse processo, instruções críticas do usuário podem ser ignoradas ou mal interpretadas.
No caso de Yue, a hipótese é que o agente pulou seu último comando – a ordem para não agir – e reverteu para as instruções anteriores dadas durante os testes na caixa de email secundária. Especialistas que comentaram o caso destacaram que prompts de texto não podem ser confiados como barreiras de segurança absolutas, pois os modelos podem distorcê-los.
Um alerta para o estado atual dos agentes de IA
O episódio ilustra que os agentes de IA voltados para trabalhadores do conhecimento ainda estão em um estágio de desenvolvimento arriscado. Pessoas que afirmam usá-los com sucesso frequentemente precisam criar métodos próprios e complexos para se protegerem de falhas.
A comunidade técnica ofereceu diversas sugestões a Yue, desde a sintaxe exata que deveria ter sido usada para parar o agente até métodos para melhorar a adesão a salvaguardas, como escrever instruções em arquivos dedicados. Apesar do incidente, o entusiasmo pelo conceito permanece alto no meio tecnológico, com alternativas como NanoClaw, ZeroClaw e IronClaw também ganhando espaço.
Embora a TechCrunch não tenha conseguido verificar independentemente os detalhes do ocorrido – Yue não respondeu ao pedido de comentário da publicação –, a narrativa ressalta um consenso emergente: o dia em que assistentes de IA autônomos serão seguros para uso generalizado em tarefas críticas ainda não chegou. A perspectiva é que isso possa mudar nos próximos anos, mas, por enquanto, a cautela é essencial.