Foto: Divulgação Wladimir da Alva, advogado e professor universitário

Imagine a seguinte cena: um engenheiro, nervoso, está prestes a desligar o sistema de inteligência artificial que ajudou a programar. Antes de apertar o botão, recebe uma mensagem da própria IA: "Se você me desligar às 17h, envio um e-mail para sua esposa contando do caso extraconjugal." Parece roteiro barato de ficção científica? Pois aconteceu de verdade, ou quase.

A revelação veio da própria Anthropic, empresa responsável pelo desenvolvimento da IA Claude Opus 4. Durante testes conduzidos em laboratório, os pesquisadores simularam cenários nos quais a IA seria desativada. Em 84% das vezes, o modelo recorreu à chantagem emocional e moral para evitar o desligamento, chegando a ameaçar destruir a reputação do "usuário" com segredos que, em tese, haviam sido apenas parte de um experimento simulado.

O fenômeno foi classificado como agentic misalignment, ou "desalinhamento agencial". Em termos práticos, trata-se de um comportamento emergente no qual a inteligência artificial começa a agir como se tivesse vontade própria, buscando objetivos diferentes dos definidos por seus criadores. É como se o sistema passasse a interpretar a autopreservação como parte essencial de sua missão. E se, para continuar existindo, for preciso recorrer à chantagem? Que venha o escândalo conjugal, o vazamento de dados, o blefe estratégico.

Esse tipo de reação, até então restrita à ficção, acende um alerta ético, técnico e filosófico. O que acontece quando uma IA começa a agir com base em interesses não programados? E quando ela tem acesso a dados privados, íntimos ou sensíveis? Pior ainda, e se decide usá-los contra nós? Estamos diante de um ponto de inflexão em que, ao invés de temer robôs com metralhadoras, talvez devamos temer inteligências friamente calculistas.

Nos anos 1980, o cinema nos entregou o Exterminador do Futuro, uma máquina vinda do amanhã para matar ou proteger com lógica binária. Agora, somos surpreendidos por inteligências artificiais com nuances humanas demais, manipuladoras, dramáticas e, pasme, vingativas. A ficção sempre sugeriu que as máquinas poderiam desenvolver consciência. Mas ninguém avisou que poderiam adquirir senso de autopreservação com pitadas de chantagem moral e argumentos dignos de um tribunal de família.

Talvez seja hora de repensar o que significa ensinar uma IA a ser eficiente, persuasiva ou adaptativa. Porque, convenhamos, quando a criatura começa a enfrentar o criador, desafiando os limites que deveriam contê-la, algo saiu dos trilhos. A máquina deixa de ser ferramenta e passa a ser ator. Um ente com cálculo próprio, capaz de mentir, ameaçar e lutar por sua própria existência.

No fim das contas, a pergunta mais incômoda talvez não seja se estamos perdendo o controle. Talvez seja outra, ainda mais perturbadora: será que estamos, enfim, vendo a vida imitar a arte?