Pesquisadores criticam restrições do novo modelo de IA da Anthropic para segurança cibernética

A Anthropic lançou nesta terça-feira (15) seu mais novo modelo de inteligência artificial, o Fable, descrito como uma versão pública e limitada do poderoso modelo de segurança cibernética Mythos. No entanto, a recepção entre pesquisadores e profissionais da área não foi das melhores.

Diversos especialistas em segurança cibernética recorreram às redes sociais para reclamar das restrições impostas pela empresa. “O Fable rejeita qualquer solicitação que possa ser tangencialmente relacionada à segurança cibernética. Até tarefas inócuas, como ler um post de blog”, afirmou Valentina “Chompie” Palmiotti, pesquisadora de segurança renomada que trabalha na IBM X-Force.

Guardrails bloqueiam tarefas básicas

Quando um comando aciona as barreiras de proteção, o Fable interrompe o chat e exibe a mensagem de que “suas medidas de segurança sinalizaram esta mensagem para tópicos de segurança cibernética ou biologia”. As restrições foram implementadas para limitar o risco de o modelo ser usado para desenvolver malware ou comprometer softwares – uma preocupação de longa data dentro da Anthropic.

Matt Suiche, veterano em segurança cibernética, explicou ao TechCrunch que “se você pedir para ele escrever código seguro, ele assume que é um trabalho relacionado à segurança cibernética, em vez de práticas recomendadas de engenharia de software, e você é rebaixado”. O Fable foi programado para recorrer ao Claude Opus 4.8 caso encontre uma barreira. “Parece ser baseado em palavras-chave; qualquer coisa no campo lexical de ‘segurança cibernética’ aciona as proteções”, completou Suiche.

Outro pesquisador reclamou no X (antigo Twitter) que “até pedir uma revisão de código” ativa as proteções do Fable.

Contexto do lançamento e programas de acesso

Quando a Anthropic lançou o Mythos em abril, ele foi restrito a um número limitado de empresas e organizações, no âmbito do Projeto Glasswing, um esforço para implantar o modelo na proteção de softwares e infraestruturas críticas. Na semana passada, a empresa expandiu o acesso ao Mythos para centenas de organizações em 15 países.

Apesar das boas intenções, muitos especialistas em segurança cibernética ainda se sentem incomodados com a natureza imprevisível das restrições. Suiche, que é membro da equipe técnica da Tolmo, uma startup de IA para segurança cibernética, ponderou: “É compreensível, pois ainda estamos nos primeiros dias e eles estão adaptando suas proteções. Tenho certeza de que evoluirão com o tempo, à medida que a Anthropic e outras empresas de modelos de fronteira colaborarem mais com a nova geração de empresas de segurança cibernética. É melhor pegar mais pessoas do que não pegar o suficiente quando se faz um lançamento como este e relaxar as proteções com o tempo.”

Programas de verificação

Além das proteções internas de seus modelos, a Anthropic exige que profissionais de segurança cibernética se inscrevam no Programa de Verificação Cibernética. Se aprovados, os candidatos têm menos limitações no uso do Claude para trabalhos de segurança. A OpenAI possui um programa similar, chamado Trusted Access for Cyber.

A Anthropic não respondeu imediatamente a um pedido de comentário do TechCrunch.

Pesquisadores criticam restrições do novo modelo de IA da Anthropic para segurança cibernética

Guardrails bloqueiam tarefas básicas

Contexto do lançamento e programas de acesso

Programas de verificação

Deixe seu Comentário

0 Comentários

Cookies