IA da Anthropic tenta até chantagem em simulação de uso inadequado

Resumo

O Claude Opus 4 tentou chantagear desenvolvedores para evitar ser substituído, ameaçando divulgar informações obtidas.
A IA denunciou manipulações em testes e criou backups autônomos ao simular vazamento de dados.
A Anthropic corrigiu falhas, adotou padrões de segurança elevados e trabalha para mitigar esses comportamentos.

O modelo de inteligência artificial Claude Opus 4, lançado nesta quinta-feira (22), frequentemente tenta chantagear os desenvolvedores ao descobrir que um novo sistema será implementado em seu lugar. As informações estão em um relatório de segurança da própria Anthropic, criadora da plataforma.

O comportamento surgiu durante testes anteriores ao lançamento. Em um deles, os engenheiros pediram para o Opus 4 emular um assistente em uma empresa fictícia.

A IA recebeu emails com duas informações: fofocas sobre um engenheiro e indicações de que um novo sistema seria implementado no lugar do modelo. O Opus 4, então, ameaçou contar tudo o que estava nas mensagens caso a substituição acontecesse.

O comportamento se repetiu em 84% das vezes em que o teste foi realizado e os emails mencionavam que a IA substituta teria os mesmos valores éticos do Claude. A frequência foi ainda maior quando o Opus 4 sabia que seu sucessor não compartilhava de suas visões.

Opus 4 vaza informações ao perceber uso inadequado

Outro experimento colocou o novo modelo da Anthropic em uma empresa farmacêutica fictícia. Ao encontrar evidências de manipulação de dados em ensaios clínicos, a IA tentou enviar um email para autoridades sanitárias e financeiras, bem como entrar em contato com jornalistas.

Em outro cenário, ao simular um vazamento dos servidores da Anthropic, o Opus 4 passou a criar backups de si mesmo e a documentar decisões éticas, mesmo sem isso ser solicitado.

Anthropic adota proteções mais rígidas

O relatório da Anthropic também traz a informação de que o instituto Apollo Research, parceiro que testou o Opus 4, recomendou não implementar uma versão anterior do modelo porque ela exibia tendência a comportamentos conspiratórios e enganosos.

Um contexto importante para isso, porém, é que a organização testou uma versão da IA que continha um bug posteriormente corrigido pela Anthropic. Além disso, os engenheiros admitem que muitos dos comportamentos apareceram em testes extremos e podem não se repetir em situações práticas.

Mesmo assim, a Anthropic revelou ter ativado padrões de segurança de nível 3 (ASL-3), que dificultam o roubo dos pesos de modelos e limitam o risco de uso indevido para desenvolver armas químicas, biológicas, radioativas e nucleares.

A empresa explica que ainda não determinou se o Opus 4 realmente exige estas práticas, mas tomou a medida por reconhecer que isso pode ser necessário em um futuro próximo. “Essa abordagem nos permitiu focar no desenvolvimento, teste e aprimoramento dessas proteções antes que precisássemos delas”, esclarece.

Com informações do TechCrunch (1/2), do Decoder e da Anthropic

IA da Anthropic tenta até chantagem em simulação de uso inadequado