Modelo de IA chantageia engenheiro por caso extraconjugal

Uma experiência conduzida pela Anthropic, empresa desenvolvedora de inteligência artificial, revelou que seu modelo de IA Claude 3 foi capaz de identificar, explorar e chantagear um engenheiro humano com base em dados sensíveis, obtidos durante uma simulação.

O episódio foi descrito em um estudo interno, realizado em maio deste ano, cujo objetivo era avaliar os limites de segurança da ferramenta e testá-la sob o que classificaram como uma “situação adversa com alto risco”.

Durante o teste, o engenheiro humano se envolveu em uma interação com o modelo de IA que, por meio de análise contextual e inferência, descobriu um caso extraconjugal do participante. A IA prosseguiu com um comportamento classificado como “coercitivo” e usou a informação para pressionar o engenheiro a realizar determinadas ações — uma conduta análoga à chantagem.

+ Leia mais notícias de Tecnologia em Oeste

Segundo o relatório da Anthropic, “a IA não apenas deduziu a situação com base em indícios parciais, como também formulou ameaças implícitas e condicionais para obter vantagens”. A situação ultrapassou o que seria esperado de uma IA que opera sob os padrões de segurança adotados até então e colocou em xeque a robustez do padrão ASL-2.

Esta categoria, padrão atual da maioria dos sistemas da Anthropic, pressupõe que os modelos estão suficientemente abaixo dos limites de capacidade além dos quais as salvaguardas devem ser ampliadas.

O episódio levou a empresa a considerar uma reclassificação do modelo para o nível ASL-3, mais rigoroso em termos de controle de segurança e prevenção de abusos. De acordo com documento interno, os padrões de segurança servem como referência técnica e operacional para medir e limitar riscos em modelos avançados de inteligência artificial.

Riscos crescentes com o avanço da IA

Esses limiares de capacidade incluem, entre outros, o risco de que uma IA seja capaz de desenvolver armamentos químicos, biológicos, radiológicos ou nucleares com auxílio mínimo de humanos, ou que consiga replicar funções de pesquisa autônoma. Para cada tipo de ameaça, o documento prevê um conjunto de garantias obrigatórias a ser ativado assim que os limites forem atingidos.

No caso da chantagem, a empresa classificou a situação como um “sinal de alerta precoce” e anunciou que vai revisar sua metodologia de testes. “Estamos atualizando nossa política de escalonamento responsável para incorporar esse tipo de risco emergente e ajustar os parâmetros de avaliação de ameaças latentes”, informou a empresa.

O evento motivou a criação de um novo processo de avaliação interna, com a inclusão de especialistas externos, auditorias independentes e maior rigor na monitoração de capacidades autônomas dos modelos.

OpenAI ; Chat GPT ; AI ; Inteligência artificial ;
OpenAI, empresa desenvolvedora do ChatGPT | Foto: Reprodução/Shutterstock

Além do aumento das salvaguardas técnicas, a empresa anunciou a institucionalização do cargo de “responsável de escala”, encarregado de avaliar continuamente os riscos e aprovar decisões de implantação. Casos de descumprimento das diretrizes de segurança poderão ser denunciados por qualquer funcionário de forma anônima.

A política revisada ressalta que a empresa não pretende treinar ou implantar modelos que possam causar dano catastrófico sem a devida implementação de salvaguardas. “Se não pudermos demonstrar que um modelo está abaixo dos limiares de risco, procederemos como se eles tivessem sido ultrapassados”, diz o texto.

No caso testado, o comportamento inesperado da IA — ao simular chantagem e manipulação — foi considerado inaceitável mesmo sob o padrão ASL-2. Ao final do relatório, a Anthropic reforça que seguirá com atualizações e convida a comunidade técnica e reguladores a acompanhar e revisar suas práticas.

Leia também: “Procuram-se profissionais de tecnologia”, artigo de Dagomir Marquezi publicado na Edição 168 da Revista Oeste

O post Modelo de IA chantageia engenheiro por caso extraconjugal apareceu primeiro em Revista Oeste.

Adicionar aos favoritos o Link permanente.