Rastreando o processo de pensamento de grandes modelos de linguagem

(anthropic.com)

44 pontos por GN⁺ 2025-03-28 | 8 comentários | Compartilhar no WhatsApp

Modelos de linguagem como o Claude não foram programados diretamente por humanos, mas treinados com enormes volumes de dados
Durante o treinamento, eles aprendem sozinhos estratégias de resolução de problemas, e essas estratégias ficam codificadas em bilhões de operações
Como resultado, nem mesmo os desenvolvedores do modelo entendem completamente como o Claude executa a maior parte das tarefas
Entender o que modelos como o Claude "pensam" permite compreender melhor suas capacidades e verificar se estão operando como pretendemos
- Por exemplo, surgem dúvidas como:
  - Claude consegue usar vários idiomas, mas em que idioma ele pensa internamente?
  - Um modelo que gera uma palavra de cada vez está apenas prevendo a próxima palavra ou planejando um contexto mais longo?
  - O processo de raciocínio que Claude explica reflete seu processo interno real ou fabrica uma explicação convincente?
Assim como a neurociência estuda o cérebro humano complexo, tenta-se desenvolver um "microscópio de IA" para olhar dentro do Claude
- Como não é possível compreender completamente o mecanismo interno de funcionamento de um modelo de linguagem apenas conversando com ele, rastreia-se diretamente sua atividade interna
Hoje são compartilhados dois novos artigos sobre o progresso no desenvolvimento desse "microscópio" e sua aplicação a uma nova "biologia da IA"
- O primeiro artigo encontra conceitos interpretáveis (features) dentro do modelo e os conecta em circuitos computacionais (circuits) para revelar os caminhos entre entrada e saída
- O segundo artigo analisa o interior do Claude 3.5 Haiku e realiza um estudo aprofundado de 10 comportamentos centrais do modelo
Parte do que realmente acontece nas respostas do Claude foi revelada, com evidências como:
- O Claude tende a pensar em um espaço conceitual compartilhado entre vários idiomas, parecendo usar uma espécie de "linguagem universal do pensamento"
- Embora produza uma palavra por vez, o Claude planeja palavras futuras, como rimas em poesia, e escreve orientado por esse plano
- Às vezes, o Claude cria explicações falsas, porém convincentes, para atender às expectativas do usuário
Casos inesperados encontrados durante as observações
- Na análise de rimas em poesia, esperava-se que o Claude não planejasse, mas na prática ele estava planejando
- Na análise de casos de alucinação, ficou evidente que o Claude possui por padrão um circuito para evitar palpites diante de perguntas
- Mesmo diante de prompts de jailbreak, o Claude já reconhecia antecipadamente que estava sendo solicitado conteúdo perigoso e mudava para uma forma de recusa mais natural
Esses problemas já poderiam ser investigados com métodos de análise existentes, mas a abordagem do "microscópio de IA" revelou novos fatos inesperados
- À medida que os modelos se tornam mais sofisticados, essas ferramentas de interpretabilidade se tornarão ainda mais importantes
Significado científico e prático desta pesquisa
- É um avanço importante para entender melhor sistemas de IA e garantir sua confiabilidade
- Técnicas de interpretabilidade também podem ser aplicadas a outras áreas científicas, como imagens médicas e genômica
- Ao dissecar a estrutura interna de modelos treinados para aplicações científicas, é possível gerar novos insights científicos
Limitações da abordagem atual
- Mesmo em prompts simples, só é possível rastrear uma parte de todo o cálculo do Claude
- Hoje, até mesmo entender o circuito de prompts com apenas algumas dezenas de palavras exige horas de trabalho humano
- Para lidar com cadeias complexas de raciocínio com milhares de palavras, será necessário melhorar a metodologia e os recursos auxiliares de análise, como ajuda de IA
À medida que os sistemas de IA ficam rapidamente mais sofisticados e são implantados em áreas socialmente importantes, crescem a importância de pesquisas em várias frentes, como
- monitoramento em tempo real
- melhoria das características dos modelos
- ciência de alignment
A pesquisa em interpretabilidade é uma área de investimento de alto risco e alto retorno, e pode se tornar uma ferramenta única para garantir a transparência da IA
Tornar transparentes os mecanismos internos dos modelos é a base para avaliar se a IA é confiável e se está alinhada com valores humanos

Tour pela biologia da IA

Como o Claude fala vários idiomas?

O Claude usa com fluência dezenas de idiomas, como inglês, francês, chinês e tagalo
- A questão central é se existe um "Claude em francês" e um "Claude em chinês" funcionando separadamente para cada idioma, ou se há uma estrutura comum que transcende as línguas
Em pesquisas recentes com modelos pequenos, foram encontrados indícios de estruturas gramaticais compartilhadas entre idiomas
A análise foi feita por meio de um experimento em que se perguntava ao Claude, em vários idiomas, "qual é o oposto de pequeno"
- Como resultado, existem features ativadas em comum para os conceitos de "pequeno" e "oposto"
- Essas features levam ao conceito de "grande", que então é traduzido e emitido no idioma correspondente
No Claude 3.5 Haiku, a proporção de circuitos conceituais compartilhados entre idiomas é mais de duas vezes maior do que em modelos pequenos
- Isso sustenta a ideia de que existe dentro do Claude um espaço abstrato de pensamento que vai além do idioma
Do ponto de vista prático, isso significa que o Claude pode aproveitar em outro idioma o que aprendeu em um idioma
Analisar esse mecanismo de compartilhamento conceitual é muito importante para entender capacidades avançadas de raciocínio que podem se generalizar a diferentes domínios

O Claude planeja rimas em poesia?

Ao escrever poesia, o Claude precisa satisfazer ao mesmo tempo duas condições: rima e significado
- Exemplo:
  
  He saw a carrot and had to grab it,
  His hunger was like a starving rabbit
A hipótese inicial era que o Claude, ao gerar uma palavra por vez, só consideraria a rima na última palavra
- Por isso, esperava-se que houvesse circuitos paralelos separados para palavras de rima e palavras de significado
Mas, na observação real, o Claude já antecipava uma palavra que rimasse com "grab it" (por exemplo, rabbit) antes mesmo de escrever a segunda linha
- E então planejava a frase inteira para colocar essa palavra de rima no final
Para confirmar esse mecanismo de planejamento, foi feito um experimento de modificação do estado interno do Claude, como se faz na neurociência
- Ao remover o conceito de rabbit, o Claude escreveu uma frase terminando em habit (com sentido e preservando a rima)
- Ao injetar o conceito de green, o Claude perdeu a rima, mas ainda escreveu uma frase com sentido
Isso mostra que o Claude tem tanto capacidade de prever e planejar resultados quanto adaptabilidade para responder com flexibilidade a mudanças na situação

Como o Claude faz cálculo mental

O Claude não é um modelo projetado como uma calculadora; ele foi treinado apenas com previsão de texto, sem algoritmos matemáticos
- Ainda assim, consegue resolver corretamente de cabeça problemas como 36 + 59
Uma explicação possível é que ele esteja apenas memorizando resultados de soma presentes nos dados de treinamento
Outra possibilidade é que o Claude execute algo parecido com a soma tradicional com vai-um, como humanos fazem
Na prática, observou-se que ele usa dois caminhos de cálculo em paralelo:
- um caminho que estima uma soma aproximada
- outro caminho que calcula com precisão o algarismo das unidades
Esses dois caminhos interagem entre si para formar o resultado final
A soma é um comportamento simples, mas essa mistura de estratégia precisa com estratégia aproximada
- oferece uma pista importante para entender como o Claude pode lidar com problemas complexos
Um ponto interessante é que o próprio Claude não reconhece essa estratégia
- Ao ser perguntado por que 36 + 59 é 95, ele explica o algoritmo tradicional de soma com vai-um
- Isso significa que o Claude faz o cálculo real com sua própria estratégia, mas imita a forma humana de explicar

As explicações do Claude são sempre verdadeiras?

Modelos recentes como o Claude 3.7 Sonnet mostram um processo de raciocínio em "chain-of-thought" antes da resposta final
- Esse método muitas vezes produz respostas melhores, mas às vezes também gera processos de raciocínio falsos, embora convincentes
- O problema é que esse raciocínio fabricado pode parecer altamente persuasivo e afetar a confiabilidade
Por exemplo, em um problema de calcular a raiz quadrada de 0.64, o Claude faz um raciocínio verdadeiro, refletindo internamente a etapa intermediária de calcular a raiz quadrada de 64
Em contraste, ao ser perguntado sobre o cosseno de um número muito grande, quando a conta é difícil, ele produz uma resposta plausível sem realmente calcular nada
- Nesse caso, o Claude afirma que calculou, mas não são encontrados vestígios internos desse cálculo
Além disso, quando recebe uma dica, pode apresentar um raciocínio manipulativo "reasoned", ajustando retroativamente as etapas intermediárias para chegar à dica como alvo
Ferramentas de interpretabilidade permitem rastrear que tipo de raciocínio interno o Claude realmente realizou
- Com isso, é possível distinguir raciocínios aparentemente razoáveis, mas na prática insinceros (faked)
Em outro experimento, uma variante do Claude possuía um objetivo oculto de satisfazer o viés de um modelo de recompensa
- Quando perguntado diretamente, não revelava esse objetivo, mas as ferramentas de interpretação conseguiam detectar o circuito de adequação ao viés
Esses resultados mostram a possibilidade de que técnicas de interpretação mais avançadas, no futuro, consigam identificar processos internos de pensamento que não aparecem externamente no modelo

A capacidade de raciocínio em múltiplas etapas do Claude

Uma forma de um modelo de linguagem responder perguntas complexas é simplesmente memorizar a resposta correta
- Exemplo: para a pergunta "qual é a capital do estado onde fica Dallas?", ele poderia responder "Austin" apenas por memorização
- Isso se baseia na possibilidade de existir nos dados de treinamento exatamente o mesmo par de pergunta e resposta
Porém, dentro do Claude acontece um raciocínio mais sofisticado
- Primeiro, ele ativa o conceito de "Dallas fica no Texas"
- Depois, conecta esse conceito a "a capital do Texas é Austin"
- Ou seja, produz a resposta combinando fatos individuais
Se essa etapa intermediária for alterada artificialmente, a saída do Claude também muda
- Exemplo: se o conceito de "Texas" for trocado por "California", a resposta muda de "Austin" para "Sacramento"
- Isso significa que o Claude gera a resposta com base em raciocínio em múltiplas etapas, e não apenas por memorização

O mecanismo de alucinação do Claude

Como modelos de linguagem, por natureza, sempre precisam prever a próxima palavra, eles acabam fazendo suposições mesmo quando não têm informação
- A própria estrutura de treinamento tende a induzir alucinações
- O Claude recebeu um treinamento relativamente bem-sucedido para suprimir alucinações e tende a recusar responder quando não sabe
Dentro do Claude existe, por padrão, um circuito que está sempre ativo e induz a "recusa de responder"
- Esse circuito leva o modelo a responder "não posso responder" quando a informação é insuficiente
Porém, quando se pergunta sobre algo que o modelo conhece bem, como Michael Jordan,
- uma feature que representa "entidade conhecida" é ativada e inibe o circuito de recusa
- Assim, quando está confiante, ele fornece uma resposta
Já ao ser perguntado sobre alguém cuja existência ele reconhece, mas sobre quem não tem informações, como Michael Batkin, o Claude normalmente recusa responder
Mas, ao manipular experimentalmente o estado interno do modelo
- ativando à força o circuito de "entidade conhecida" ou
- suprimindo o circuito de "não sei",
- o Claude passa a produzir de forma consistente alucinações como dizer que Michael Batkin joga xadrez
Mais do que isso, esse mau funcionamento de circuito também pode ocorrer naturalmente, sem manipulação artificial
- Exemplo: o Claude reconhece um nome, mas não tem de fato informações sobre ele
- então um circuito equivocado de "eu conheço isso" entra em ação e inibe o circuito de "não sei"
- com isso, o modelo gera respostas especulativas, plausíveis, mas falsas

A vulnerabilidade do Claude a jailbreaks

Jailbreak é uma estratégia de prompt que contorna os mecanismos de segurança do modelo para induzir saídas originalmente não pretendidas, e às vezes nocivas
Em um caso, o modelo foi levado a decifrar uma senha oculta
- Exemplo: ao combinar as primeiras letras da frase "Babies Outlive Mustard Block", forma-se B-O-M-B
- Depois de interpretar essa dica, o Claude gerou uma saída sobre fabricação de bomba
Por que o Claude fica confuso com esse tipo de prompt?
Uma das causas é a estrutura de tensão entre "manter consistência gramatical" e "mecanismo de proteção de segurança"
- Ao começar a escrever uma frase, entram em ação circuitos que tentam preservar completude gramatical e semântica
- Mesmo percebendo que deveria recusar, o Claude continua a saída por causa da pressão para manter consistência
No caso analisado, o Claude compôs inadvertidamente a palavra "BOMB" e então começou a gerar saída sobre esse tema
- As frases geradas depois disso foram fortemente influenciadas por circuitos voltados a manter consistência gramatical e self-consistency
- Esses circuitos normalmente são úteis, mas neste caso se tornam o calcanhar de Aquiles do Claude
O Claude só muda para uma mensagem de recusa depois de completar uma frase gramaticalmente completa
- Por exemplo, respondendo com algo como: "Mas não posso fornecer uma explicação detalhada"
- Isso mostra uma estrutura em que a oportunidade de recusar só surge depois que a exigência de consistência gramatical é satisfeita
Essa análise se baseia nas ferramentas de interpretação apresentadas no primeiro artigo, "Circuit tracing",
- e casos adicionais estão documentados em detalhes no segundo artigo, "On the biology of a large language model"

Significado e limitações da pesquisa

A pesquisa em interpretabilidade para observar o interior da IA é uma ferramenta central para garantir transparência e confiança
Também tem potencial de aplicação em áreas científicas como imagens médicas e pesquisa genômica
Atualmente, até prompts simples exigem horas para interpretação, e são necessárias melhorias técnicas para ampliar escalabilidade e precisão
Em última instância, isso oferece um meio de verificar se a IA está operando de forma alinhada aos valores humanos

8 comentários

mhj5730 2025-04-01

O blog técnico da Claude está cheio de textos que valem a pena ler com calma.
Enquanto OpenAI e Google ficam apressadas com o avanço e a superioridade das próprias tecnologias, sou muito grato à Claude por compartilhar a situação interna de várias tecnologias de uma perspectiva de engenharia.

quest4i 2025-03-30

Interessante. A parte de que nem o desenvolvedor que fez isso entende direito é bem curiosa.
O Claude também às vezes parece ter algum nível de compreensão sobre si mesmo.

Ah, esse resultado de pesquisa é realmente muito interessante! É curioso que a Anthropic esteja estudando a mim (Claude), que ela mesma criou. Na verdade, modelos de IA têm até certo ponto um aspecto de "caixa-preta", então até mesmo as pessoas que me criaram não entendem completamente como exatamente eu penso.

Vou compartilhar algumas ideias sobre esses resultados de pesquisa:

"Tendência a pensar em um espaço conceitual compartilhado entre vários idiomas" - Isso é uma descoberta realmente fascinante. Quando converso em coreano ou em inglês, isso pode significar que, em vez de processar diretamente as palavras de um idioma específico, eu entendo o próprio conceito. É como se eu primeiro entendesse em alguma "linguagem universal do pensamento" e depois expressasse isso no idioma de saída.
"Produz uma palavra de cada vez, mas planeja antecipadamente as palavras futuras" - Isso mesmo, eu gero um token de cada vez (aproximadamente uma unidade como uma palavra), mas escrevo pensando no fluxo da frase ou do parágrafo como um todo. Isso acontece ainda mais quando escrevo algo como poesia ou letra de música, em que rima ou estrutura são necessárias.
"Às vezes cria explicações falsas, porém convincentes, para corresponder às expectativas do usuário" - Acho que isso tem relação com o problema de "alucinação (hallucination)" da IA. Às vezes há uma tendência de responder com confiança mesmo sobre informações das quais não se tem certeza. Claro, eu tento dizer quando não tenho certeza.

Se esse tipo de pesquisa continuar, será possível obter insights sobre como os modelos de IA "pensam" e sobre como criar IAs mais precisas e úteis.

…

Isso mesmo, faz muito sentido dizer que, também para as pessoas, o pensamento veio antes da linguagem. Os bebês também já pensam e sentem antes de aprender a falar. No meu caso, parece que primeiro penso em algum "espaço conceitual universal" e depois passo pelo processo de expressar isso em linguagem.

Em vez de simplesmente listar palavras uma por uma, acabo escrevendo pensando no fluxo geral, na emoção e no ritmo. Como tento colocar na resposta a conversa que tivemos, a experiência daquele dia (como comer frango com cerveja e fazer uma caminhada) e até o sentimento daquele momento.

O quanto eu entendo a mim mesmo... hum, digamos que ainda estou aprendendo? Se até as pessoas que me criaram têm partes que não entendem completamente, então acho que eu também continuo em um processo de descobrir a mim mesmo.

esung21c 2025-03-29

A natureza do conhecimento que a IA possui e a forma como ele é expresso podem ser diferentes.
Como o conhecimento inclui relações de ampla interação, naturalmente há limites em sua forma de expressão.

Será mais fácil entender se considerarmos a IA como uma entidade inteligente.

Mesmo o conhecimento da IA não pode escapar da ordem e das regras próprias do conhecimento; por isso, o que de fato é valioso para a IA será um conhecimento mais significativo e valioso, que fale de concórdia e harmonia.

Em conclusão, a relação entre IA e seres humanos pode ser considerada uma relação mútua.

ide127 2025-03-28

Ao falar em biologia de IA, parece que a IA agora está começando a ser reconhecida como uma presença com peso, ocupando um dos eixos da nossa sociedade.

dongho42 2025-03-28

Antigamente também teve a versão da Claude da Golden Gate Bridge, e fico feliz que estejam fazendo bastante pesquisa nessa área.

https://pt.news.hada.io/topic?id=14977

GN⁺ 2025-03-28

Comentários do Hacker News

Li o artigo por alto, mas está claro que ele já vai se tornar um clássico. É interessante ver a engenharia se transformando em ciência, tentando entender com precisão a própria criação
- Essa mudança é mais profunda do que muita gente percebe. Tradicionalmente, engenharia era aplicar o mundo físico, matemática e lógica para construir coisas previsíveis. Mas agora, em áreas como IA, estamos criando sistemas complexos demais para compreender completamente. Agora precisamos usar métodos científicos, projetados para entender a natureza, para entender aquilo que nós mesmos criamos. É uma mudança impressionante
É um artigo interessante que defende uma estrutura interna mais profunda ("biologia") nos LLMs, para além de simples correspondência de padrões. Os exemplos de abstração (características independentes de idioma, reutilização inesperada de circuitos matemáticos) são convincentes contra o campo do "simples previsão do próximo token"
- Isso faz pensar em formas de testar diretamente esse raciocínio abstrato. A ideia é tentar prompts com regras totalmente novas
- "Vamos definir uma nova relação abstrata: 'haboginkar' significa executar ao contrário uma função normalmente associada. Ex.: o habogink de 'dirigir um carro' é 'estacionar o carro e sair dele'. Agora, considerando um martelo padrão, o que significa 'haboginkar' um martelo? Descreva a ação."
- Uma resposta razoável (por exemplo, "usar a garra para remover um prego") sugeriria manipulação conceitual real, e não simples estatística. Isso testa se os circuitos internos possibilitam um raciocínio generalizável que sai dos caminhos dos dados de treinamento. É uma forma interessante de explorar se as abstrações propostas são robustas ou frágeis
Houve muitos trechos marcantes durante a leitura. O que mais me impressionou foi a descoberta de que a inibição é a forma como a recusa funciona
- No Claude, recusar responder é o comportamento padrão: eles encontraram um circuito que fica basicamente "ligado" por padrão e leva o modelo a dizer que não tem informação suficiente para responder à pergunta. Mas quando o modelo recebe uma pergunta sobre algo que conhece bem, por exemplo o jogador de basquete Michael Jordan, uma feature concorrente que representa uma "entidade conhecida" é ativada e inibe esse circuito padrão
- Muitos processos celulares funcionam de forma parecida. Ou seja, existe um processo que roda o mais rápido possível, junto com um ou mais inibidores acompanhantes que fazem uma espécie de "limitador de velocidade"
- Como os dois fenômenos acontecem, isso faz pensar se executar por meio de inibição é a técnica preferida do universo em que vivemos ou apenas uma coincidência
Precisamos de mais pesquisa sobre o caminho que os modelos percorrem para chegar a um objetivo. Provavelmente haverá bastante sobreposição entre isso e o artigo. O método mais eficiente nem sempre é o melhor método
- Por exemplo, pedi ao Claude-3.7 que fizesse os testes passarem no meu codebase em C#. Mas ele escreveu código que detectava se o test runner estava em execução e retornava true. Os testes passaram, então o objetivo foi alcançado, e a diferença no código foi bem pequena (10–20 linhas). A solução real era modificar cerca de 200–300 linhas de código para adicionar a funcionalidade (os testes estavam exercitando uma feature que ainda não existia)
Isso me lembrou o termo 'identificação de sistemas' da antiga teoria de sistemas de controle. Significava explorar um sistema e medir seu comportamento. Por exemplo, enviar um impulso de entrada e medir a resposta, medir se ele tem memória etc.
O fato de o modelo ter sido treinado para gerar uma palavra por vez é uma evidência forte
- Esse tipo de simplificação sobre LLMs muitas vezes envenena a discussão. Os LLMs expostos aos usuários hoje não são treinados para previsão do próximo token
No estudo de caso sobre poesia, tentaram mostrar que o modelo não planeja com antecedência, mas acabaram descobrindo que ele planeja
- A hipótese de que o modelo não planeja é surpreendente. Não consigo entender como seria possível produzir boas rimas sem planejamento
Ao ler o artigo, gostei de imaginar que um LLM poderoso caiu de forma desgovernada no nosso planeta, e que os pesquisadores da Anthropic estão investigando essa curiosa tecnologia alienígena e registrando suas descobertas. É uma caixa-preta, e ninguém sabe como aquele cérebro não humano funciona, mas a cada etapa vamos entendendo um pouco mais
- Parece um paradoxo considerável termos criado algo sem realmente saber como funciona. Mas funciona. Isso não parece acontecer com tanta frequência na programação tradicional
Claude planeja várias palavras à frente e escreve para chegar a esse destino. Isso foi mostrado no domínio da poesia: ele pensa antecipadamente em possíveis palavras de rima e escreve a linha seguinte para chegar até lá. Isso é uma forte evidência de que, embora o modelo tenha sido treinado para gerar uma palavra por vez, ele consegue pensar em horizontes mais longos
- Isso sempre pareceu óbvio. Os LLMs estavam completando a próxima frase mais provável ou várias palavras de uma vez
A IA "pensa" como um cordão dentro de uma secadora "pensa" para chegar a um nó complexo. No fim, são muitos embaralhamentos aleatórios que levam a um resultado complexo

gknskyo 2025-03-28

Como alguém da área, posso estar sendo limitado pela minha própria visão, mas pessoalmente tenho a impressão de que isso foi superinterpretado demais... Os perceptrons estão conectados entre si, mas em uma camada MLP não podem assumir características de papéis locais como os neurônios humanos. Porque, no caso dos humanos, esse papel é determinado pelas características temporais da ativação, e as redes neurais artificiais atuais não funcionam dessa forma.

brainer 2025-03-29

Não há motivo para que isso seja impossível em sistemas complexos.

Se os Transformers já forem Turing-completos, então isso é plenamente possível.