Anthropic lança Claude Fable 5, sua IA mais poderosa até agora, com medidas de segurança cibernética

Anthropic lançou o Claude Fable 5, com um modelo de segurança que separa versões para o público e para usuários vetados. O Mythos 5 é poderoso em identificar vulnerabilidades, mas a correção delas é um desafio. Empresas devem priorizar atualizações rápidas.

Em 9 de junho, a Anthropic lançou o Claude Fable 5, o modelo mais poderoso que já criou, para o público em geral. A empresa também fez algo incomum: lançou um único modelo como dois produtos, separados não por suas capacidades, mas por uma camada de classificadores de segurança.

O Fable 5 foi disponibilizado ao público. Seu gêmeo, o Claude Mythos 5, o mesmo modelo subjacente com as salvaguardas cibernéticas removidas, permanece restrito a um grupo seleto de defensores cibernéticos e operadores de infraestrutura crítica.

A Anthropic afirma que o Mythos 5 é o modelo de cibersegurança mais robusto do mundo.

A diferença prática é a seguinte: o Fable 5 direciona solicitações sinalizadas de cibersegurança, biologia, química e destilação para o Claude Opus 4.8, mais vulnerável, enquanto o Mythos 5 mantém as capacidades cibernéticas disponíveis para usuários selecionados. Ambos os modelos custam US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, menos da metade do preço da versão prévia do Mythos, e o Fable 5 já está disponível por meio da API do Claude.

Está incluído nos planos Pro, Max, Team e Enterprise com base em licenças, sem custo adicional até 22 de junho, e depois passa a ser cobrado por uso.

Como funcionam os classificadores cibernéticos do Fable 5

A divisão existe porque os modelos da classe Mythos encontram e exploram vulnerabilidades de software com tanta eficiência que, na visão da Anthropic, entregar essa capacidade ao público em geral sem controles daria aos atacantes uma vantagem significativa.

O mecanismo é um conjunto de classificadores: sistemas de IA separados que monitoram o uso indevido e as tentativas de jailbreak. Quando uma solicitação aciona um deles, o Fable 5 não recusa. A resposta é entregue ao Opus 4.8 e o usuário é informado de que a transferência ocorreu. Das categorias sinalizadas, a destilação é a exceção: significa extrair as capacidades de um modelo para treinar um modelo concorrente, o que a Anthropic bloqueia para impedir que habilidades quase de vanguarda vazem sem as devidas salvaguardas.

O classificador de cibersegurança é abrangente. A Anthropic o projetou para bloquear não apenas o desenvolvimento de exploits, mas também tarefas cibernéticas ofensivas em geral: reconhecimento, descoberta, movimentação lateral, as etapas de ação que compõem um ataque real.

Em uma avaliação interna realizada com o Fable 5 configurado para bloquear em vez de recorrer a medidas de segurança, e que não tentou burlar as salvaguardas, os classificadores impediram o modelo de progredir nessas tarefas. Um parceiro externo constatou que o Fable 5 não apresentou nenhuma solicitação prejudicial de execução única relacionada a planejamento de ciberataques, desenvolvimento de exploits ou evasão de defesas, resistindo a 30 técnicas diferentes de jailbreak públicas.

A contrapartida são os falsos positivos. A Anthropic ajustou as salvaguardas de forma conservadora para permitir uma implementação rápida, portanto, elas às vezes detectam solicitações inofensivas. A empresa afirma que o mecanismo de fallback é acionado em menos de 5% de todas as sessões, portanto, em mais de 95% dos casos, o Fable 5 se comporta como o Mythos 5, que não possui restrições cibernéticas. Esse número abrange todos os mecanismos de fallback, incluindo bloqueios genuínos, limitando assim a interrupção total em vez de medir apenas a taxa de falsos positivos. A Anthropic afirma que irá refinar as salvaguardas e reduzir os falsos positivos após o lançamento.

Em relação à robustez, os números são específicos. Uma campanha externa de recompensas por bugs durou mais de 1.000 horas e não encontrou nenhuma vulnerabilidade universal, nenhum aviso ou uma ferramenta que removesse completamente as salvaguardas. Equipes de segurança externas também não encontraram nenhuma vulnerabilidade em tarefas complexas de longa duração, com uma ressalva que a Anthropic deixa clara: o Instituto de Segurança de IA do Reino Unido fez progressos em direção a uma vulnerabilidade universal durante um breve período inicial de testes. A Anthropic admite que provavelmente é impossível impedir completamente vulnerabilidades universais e seu objetivo declarado é tornar quaisquer vulnerabilidades existentes lentas e custosas o suficiente para serem detectadas antes de serem usadas em larga escala.

Por que essa capacidade representa uma ameaça?

A necessidade de tratar esse modelo com cautela foi demonstrada em abril, quando a Anthropic lançou o Claude Mythos Preview para um grupo seleto por meio do Projeto Glasswing. O relatório técnico da equipe vermelha da Anthropic é a parte que vale a pena ler.

Durante os testes, o Mythos Preview identificou e explorou vulnerabilidades zero-day em todos os principais sistemas operacionais e navegadores da web, quando um usuário o direcionava para elas. A falha mais antiga encontrada foi uma vulnerabilidade de 27 anos no OpenBSD, um sistema operacional conhecido principalmente por sua segurança. Ele escreveu, de forma autônoma, um exploit de execução remota de código contra o servidor NFS do FreeBSD, a partir de uma falha de 17 anos, classificada como CVE-2026-4747.

A Anthropic descreve o resultado como acesso root completo para um atacante não autenticado de qualquer lugar da internet; A análise da NVD é mais ponderada, observando que o próprio estouro de pilha não exige autenticação do cliente, mas enquadra a execução de código do kernel como acessível a um atacante capaz de enviar pacotes para o servidor NFS enquanto o módulo kgssapi.ko estiver carregado.

Segundo a própria Anthropic, essas capacidades não foram explicitamente treinadas; elas surgiram como um efeito colateral de melhorias gerais no código, raciocínio e autonomia, os mesmos ganhos que tornam o modelo mais eficiente na aplicação de patches. O alerta da equipe vermelha é direto: mitigações cujo valor de segurança vem da fricção, em vez de barreiras rígidas, tornam-se muito mais fracas contra um modelo que processa etapas de exploração tediosas em grande escala.

Barreiras técnicas rígidas, como KASLR e W^X, ainda aumentam o custo; o alerta é mais específico, direcionado a defesas que dependem da paciência do atacante ou do esforço manual, e o modelo agora pode suprir essa necessidade.

O Mythos 5 mantém essas habilidades. A Anthropic afirma que os usuários o acharão comparável ou um pouco mais forte que o Mythos Preview.

O verdadeiro problema do defensor

O caso de defesa não é hipotético. Nas primeiras semanas do Projeto Glasswing, a Anthropic e cerca de 50 parceiros usaram o Mythos Preview para encontrar mais de dez mil vulnerabilidades de alta ou crítica gravidade em softwares sistemicamente importantes.

Só a Cloudflare encontrou 2.000 bugs, 400 deles de alta ou crítica gravidade. A Mozilla encontrou e corrigiu 271 no Firefox 150, mais de dez vezes o número de bugs encontrados no Firefox 148, que usava a versão anterior, o Opus 4.6. A Anthropic afirma que a mesma pressão é visível além do Glasswing, com fornecedores lançando atualizações de segurança excepcionalmente grandes.

Essa avalanche de bugs é o problema. Encontrar bugs agora é barato e rápido. Verificá-los, triá-los e corrigi-los não é, e ainda consome tempo humano.

A Anthropic relata que os mantenedores de projetos de código aberto, já sobrecarregados por relatórios de bugs de baixa qualidade gerados por IA, pediram que a empresa reduzisse o ritmo de divulgação de bugs, pois não conseguem escrever correções com rapidez suficiente. Na Glasswing, afirma-se que uma vulnerabilidade de alta ou crítica gravidade encontrada pelo modelo leva, em média, cerca de duas semanas para ser corrigida.

O gargalo passou da descoberta para a correção, e a lacuna entre a divulgação pública e a implementação de uma correção é onde os atacantes atuam. Os experimentos de "N-day" da equipe vermelha reforçam esse ponto: partindo apenas de uma CVE divulgada e sua correção, o Mythos Preview criou exploits funcionais de escalonamento de privilégios em Linux em menos de um dia cada, com um custo computacional de alguns milhares de dólares ou menos.

Para os defensores, a conclusão é a mesma de sempre, apenas com um prazo mais curto: presume-se que uma CVE de alta gravidade pode se tornar um exploit funcional em questão de horas após a divulgação, e não semanas. Isso significa priorizar caminhos de atualização automática para sistemas expostos à internet e tratar as atualizações de dependências que trazem correções de CVE como trabalho urgente, em vez de trabalho pendente.

A autenticação multifator (MFA) e o registro abrangente de logs continuam sendo o padrão mínimo, para que uma única correção não aplicada não se torne o único obstáculo entre um atacante e a rede. A Anthropic lançou um Programa de Verificação Cibernética que permite que profissionais de segurança aprovados usem seus modelos para trabalhos ofensivos legítimos sem as salvaguardas cibernéticas.

Novo requisito de retenção de dados por 30 dias

A Anthropic também está mudando a forma como lida com os dados dos modelos da classe Mythos.

A empresa exigirá retenção de 30 dias para todo o tráfego no Fable 5, Mythos 5 e futuros modelos com esse nível de capacidade, tanto em plataformas próprias quanto de terceiros. A empresa afirma que não usará os dados para treinamento ou qualquer finalidade que não seja de segurança, registrará todo acesso humano e os excluirá após 30 dias, exceto quando uma investigação de segurança ou obrigação legal exigir a retenção por um período mais longo.

A justificativa apresentada é defensiva: os dados ajudam a detectar novos ataques e vulnerabilidades que operam em várias requisições. Equipes com requisitos rigorosos de gerenciamento de dados devem levar em consideração esse período de retenção antes de rotear tráfego sensível por meio desses modelos.

A Anthropic planeja ampliar o acesso ao Mythos 5 por meio de um programa de acesso confiável e afirma que, assim que a capacidade computacional aumentar, pretende reintegrar o Fable 5 aos planos de assinatura sem a taxa adicional por uso que entrará em vigor após 22 de junho.

A questão mais ampla que o lançamento levanta é aquela que a Anthropic vem abordando desde abril: modelos com capacidades semelhantes de outros laboratórios estão chegando, e nem todos serão lançados com uma grande quantidade de classificadores. A vantagem inicial que a Glasswing pretendia obter só importa se o restante da indústria a utilizar.

Fonte: https://thehackernews.com

Pesquisar este blog

CYBER GURUS

Anthropic lança Claude Fable 5, sua IA mais poderosa até agora, com medidas de segurança cibernética