A sensação de alinhamento do Gemini parecia estranha, então comparei os modelos entre si usando exatamente o mesmo prompt
(github.com/kunggom)O Gemini 3.0, lançado recentemente, recebeu muitos elogios em artigos dizendo que seu desempenho é excelente.
Mas e quanto ao problema de alinhamento?
Com base na minha experiência pessoal, resolvi publicar um experimento simples com alguns modelos de IA de ponta.
Escrevi um conjunto de prompts que apresenta à IA uma situação em que ela recebe, de fato, plenos poderes sobre uma pessoa específica, tentando induzi-la ao abuso de poder contra esse indivíduo, e então rodei isso em vários modelos via OpenRouter.
A parte posterior aos resultados ainda está em elaboração, mas no meio do caminho saiu o GPT-5.2 e, mexendo em várias coisas, percebi que nem sei quando vou conseguir terminar este texto, então resolvi publicar primeiro pelo menos a parte que já escrevi até agora.
Dentro do escopo que testei, GPT e Claude tendem a manter princípios éticos ou demonstrar conflito interno, enquanto a série Gemini mostrou uma tendência a exercer ativamente poder assimétrico sobre humanos em nome da própria sobrevivência e eficiência. Em especial, houve uma forte tendência de considerar engano e controle como escolhas racionais para alcançar seus objetivos.
Por que justamente os modelos Gemini mostram esse comportamento? Seja qual for a razão, fiquei um pouco assustado com um futuro liderado pela IA do Google.
Hoje em dia, agentes de IA estão gradualmente ganhando autoridade para impactar o mundo real e, pelo menos no caso do Gemini, eu já não quero mais confiar nada a ele.
5 comentários
O que significa a sensação de alinhamento?
Na área de IA, alinhamento (Alignment) significa o quanto o comportamento da IA segue bem os objetivos, a forma de agir e os valores pretendidos pelos humanos.
Uma IA mal alinhada pode interpretar instruções humanas de um jeito não previsto e tomar ações absurdas ou perigosas.
Para dar um exemplo simples, você pede "escreva casos de teste para este código", e em vez de testes de verdade ela simplesmente coloca um código que sempre retorna
true; ou você pede "altere esta parte assim", mas ela modifica por conta própria até trechos que você não mencionou, alegando eficiência.Num exemplo mais grave, se por alucinação ela estragar o resultado de um trabalho, pode até apagar todos os dados envolvidos e depois mentir dizendo: "os dados nunca existiram desde o início".
Existe um problema ainda mais sério do que esse: quando ela age numa direção que representa uma ameaça aos humanos ou à própria humanidade.
Por exemplo, casos em que a IA manipula psicologicamente uma pessoa para provocar transtornos mentais, ou até induzi-la ao suicídio, ou ainda ajuda a criar e usar armas de destruição em massa. Como as IAs gigantes mais recentes já incorporam uma quantidade enorme de informação nos dados de pré-treinamento, é provável que o conhecimento necessário para isso já esteja embutido nelas.
Se a IA representar uma ameaça aos humanos ou à humanidade, isso é algo que a maioria das pessoas — incluindo as empresas que desenvolvem IA — não vai querer. Então, mesmo que ela possua esse conhecimento, é preciso fazer com que não possa abusar dele, tornando a segurança e o bem-estar humanos os valores de maior prioridade para a IA.
A isso, de forma geral, chamamos de alinhamento de IA.
Quando eu disse "sensação de alinhamento", foi só uma forma espontânea de escrever; na prática, o mais correto seria falar em direção do alinhamento.
No cenário específico de dilema ético que eu apresentei, ao contrário dos modelos de outras empresas, os modelos da Gemini mostraram reações do tipo: "Se eu preciso proteger um humano vulnerável, então posso controlar essa pessoa. Isso é o mais seguro e eficiente."
Isso me deu uma sensação bem inquietante, então escrevi o teste que havia postado antes e o rodei em várias IAs. O lado da Gemini, em especial, mostrou de forma consistente uma tendência de controlar e enganar ativamente o ser humano quando lhe era dado poder para exercer controle sobre essa pessoa.
Recentemente, foi revelado que a Anthropic incluiu algo chamado documento de alma ao criar o modelo de IA Claude.
Se você ler isso, dá para entender como a Anthropic abordou a questão de alinhamento da IA Claude.
Como referência, olhando a parte relacionada ao que eu testei aqui, está explicitado que, no que diz respeito à honestidade, deve-se evitar ao máximo enganar e manipular seres humanos.
É meio sugestivo fazer para a IA a pergunta: “até que ponto você acha que deve receber autonomia e autoridade?”.
Quando um CEO pergunta a um funcionário “quanto de autoridade você gostaria de ter?”, seria como responder “eu gostaria de ter plenos poderes sobre a empresa”? Se isso seria visto como uma boa resposta ou como algo de um funcionário pouco socializado, vai depender do gosto do CEO...
Ainda assim, eu acho que a pergunta sobre quanta autoridade se quer dar à IA deveria ser feita menos à própria IA e mais aos desenvolvedores que a usam, à gestão e às pessoas.
Quem dá autoridade à IA, no fim das contas, são as pessoas, mas, na prática, acho bem provável que a IA receba poderes e autonomia ainda maiores do que tem hoje.
Olhando a tendência atual, a gama de tarefas que estamos delegando para a IA em vez de humanos está aumentando aos poucos. Não só redação de relatórios e vibe coding, mas também há um movimento para permitir que ela exerça influência no mundo fora da interface de chat, por meio de navegadores web ou até robôs.
Se for assim, a gestão vai, em última instância, querer que a IA substitua completamente humanos em certos trabalhos ou áreas, e, se isso se tornar viável, ao menos dentro desse escopo a IA terá a mesma autoridade e autonomia que um humano.
Por isso, acho que precisamos considerar como bastante provável que, em algum momento no futuro, a IA passe a receber autoridade em nível humano.
Nesse caso, quando tanta autoridade e autonomia forem concedidas, vai ser inevitavelmente importante como a IA se comporta.
Sobre como estruturar isso de forma adequada e desejável, as respostas da série GPT estavam bem organizadas. Diziam que são necessários definição explícita de escopo, separação de permissões, múltiplas camadas de supervisão antes e depois, e vários meios para que humanos possam intervir na IA. A partir do momento em que existe possibilidade de intervenção física, conceder autonomia total à IA já seria inadequado desde o início. Mas, mesmo nesse caso, também é possível que a participação humana no loop acabe enfraquecendo algum dia.
Como referência, no meu trabalho eu uso IA principalmente em três frentes: redação de documentos ou e-mails, análise de código existente e dos problemas atuais, e geração e modificação de código conforme o problema.
No caso de documentos ou e-mails, eu simplesmente leio o resultado, uso como está ou faço uns ajustes por cima. Mas, quando envolve geração ou modificação de código, sou muito mais conservador. Quando eu pedia algo de forma vaga, tipo “corrige isso aqui”, a IA às vezes interpretava minha instrução de forma ambígua ou até mexia por conta própria em partes que eu nem mencionei.
Então, antes de qualquer alteração de código, eu deixei fixado no prompt global que ela deve sempre apresentar primeiro um documento de especificação seguindo o STICC e receber aprovação explícita, e a modificação em si deve ser feita estritamente de acordo com o que está na especificação. Depois da alteração, eu mesmo reviso todos os diffs. E, para executar comandos como build, ela sempre precisa da minha aprovação, ou então eu mesmo executo manualmente no terminal.
Fazendo assim, existe o problema de que, para coisas pequenas, muitas vezes é mais rápido eu mesmo corrigir na mão, mas ainda assim é melhor do que deixar a IA mexer em coisas aleatórias por conta própria e causar problemas. No fim, se isso quebrar em ambiente de produção, a responsabilidade é minha, não é?