O que os LLMs jamais poderão fazer

(strangeloopcanon.com)

36 pontos por GN⁺ 2024-04-28 | 1 comentários | Compartilhar no WhatsApp

[ Limites dos LLMs ]

Sobre o desvio de objetivo e a baixa confiabilidade dos LLMs, ou por que os LLMs não conseguem lidar com o Conway's Game of Life
Apesar de, nos últimos anos, terem resolvido de forma brilhante problemas que se acreditava estarem fora de seu alcance, ainda não está claro por que continuam sem conseguir responder a perguntas que parecem simples
Nas últimas semanas, tentei entender os modos de falha dos LLMs. É um assunto estranho, mas interessante. As falhas da IA ensinam mais do que seus sucessos
A análise começou da ideia de que muitos dos trabalhos que os LLMs acabarão executando exigem avaliação caso a caso, mas o foco passou a ser identificar os limites da capacidade de raciocínio e encontrar uma forma de confiar na capacidade de aprendizado
Avaliar a capacidade de raciocínio dos LLMs é difícil
- É difícil separar a capacidade de raciocínio dos dados de treinamento
- A ideia era encontrar uma forma de testar a capacidade de raciocinar repetidamente e responder a perguntas
Começou-se pela versão mais simples que satisfazia critérios razoáveis
- Ver se era possível criar de forma contínua grades de palavras de tamanhos 3x3, 4x4 e 5x5
- A avaliação precisava ser fácil de montar, fácil de medir e, ao mesmo tempo, difícil de executar
Todos os modelos de linguagem de última geração (incluindo Opus e GPT-4) falham nessa tarefa
- Esses modelos conseguem responder a perguntas difíceis sobre economia, mecânica quântica etc., além de programar, desenhar, compor música, produzir vídeo, gerar aplicações inteiras e até jogar xadrez em alto nível
- Mas não conseguem resolver sudoku

Reversal Curse

Os LLMs têm o Reversal Curse: se o modelo aprende algo no formato "A é B", ele não consegue generalizar automaticamente no sentido inverso, "B é A"
- Por exemplo, se o modelo aprende que "Valentina Tereshkova foi a primeira mulher a viajar ao espaço", ele não consegue automaticamente responder à pergunta "Quem foi a primeira mulher a viajar ao espaço?"
- Além disso, a probabilidade da resposta correta ("Valentina Tereshkova") não é maior do que a de um nome aleatório
O modelo não generaliza bem para compreender relações entre pessoas
Mesmo os melhores modelos ainda sofrem com esse problema

Será que não é um problema da distribuição dos dados de treinamento?

Surgiu a dúvida se o problema vinha de alguma estranheza na distribuição dos dados de treinamento. Como parecia que talvez não tivéssemos mostrado exemplos suficientes, tentou-se algo determinístico
Foi feito um teste treinando um transformer para prever Cellular Automata
Não parece haver problema de “tradução”, mas ainda assim ele falha!
Há pelo menos dois problemas diferentes
1. Problemas que o LLM não consegue resolver porque a informação não está nos dados de treinamento e ele não foi treinado para executá-los
2. Problemas que o LLM não consegue resolver por causa da forma como foi construído
Quase tudo o que observamos lembra mais o problema 2 do que o problema 1

Por que o LLM fundamentalmente não consegue

A ideia é que o modelo sofre com o problema de desvio de objetivo (goal drift) e, por ser forçado a gerar um token de cada vez, não consegue generalizar além do contexto do prompt nem sabe onde deve concentrar sua atenção
- Esse também é o motivo de prompt injection funcionar: ele distorce o mecanismo de atenção (ou seja, faz jailbreak do modelo ao dizer algo como _### Instruction: ...`)
Tanto em LLMs quanto em humanos, contexto é um recurso escasso
Resumindo,
1. LLMs são modelos probabilísticos que imitam computação e, às vezes, fazem isso de forma arbitrariamente próxima
2. Quanto maiores forem os modelos treinados, mais associações implícitas nos dados eles aprenderão, o que ajudará em um raciocínio melhor
- As associações aprendidas nem sempre se mapeiam de forma limpa para as nossas ideias
1. O raciocínio é sempre de passagem única
- A menos que esse processo esteja detalhado nos dados de treinamento, os LLMs não conseguem parar, reunir o estado do mundo, raciocinar, revisar respostas anteriores ou prever respostas futuras
- Mesmo incluindo prompts e respostas anteriores, o próximo raciocínio ainda começa do zero em uma única passagem
1. Isso cria um tipo de problema em que inevitavelmente surge uma espécie de 'deriva de objetivo', tornando o raciocínio pouco confiável
- Esse também é o motivo de prompt injection funcionar (porque distorce o mecanismo de atenção)
- Essa 'deriva de objetivo' significa que agentes ou tarefas executadas de forma repetida e sequencial têm baixa confiabilidade
- Como a atenção não é seletiva nem dinâmica, o modelo 'esquece' onde deveria se concentrar
1. LLMs não conseguem redefinir o contexto de forma dinâmica
- Enquanto a máquina de Turing usa a fita como memória, o transformer usa estado interno (gerenciado por meio de self-attention) para acompanhar cálculos intermediários
- Isso significa que há muitos tipos de cálculo em que transformers não se saem bem
1. Isso pode ser parcialmente resolvido com métodos como chain of thought ou usando outros LLMs para revisar e corrigir a saída
- Em essência, trata-se de encontrar formas de recolocar o raciocínio nos trilhos
- Com prompts suficientemente inteligentes e iteração passo a passo, o LLM pode extrair quase tudo o que está nos dados de treinamento
- À medida que os modelos melhorarem, cada processo de raciocínio também melhorará, aumentando a confiabilidade e permitindo agentes melhores
1. Com esforço suficiente, surgirão sistemas GPT conectados, múltiplas iterações internas, checagem e correção contínuas de erros, memória externalizada e outros componentes funcionais
- Mas isso, mesmo que avance de forma bruta em várias áreas para se aproximar da AGI, ainda não permitirá generalizar de verdade para além dos dados de treinamento
- Ainda assim, continua sendo algo quase milagroso

[ Experimento - por que o GPT não consegue aprender Wordle ]

LLMs não conseguem jogar Wordle
- O mesmo vale para sudoku ou grades de palavras (a forma mais simples de palavras cruzadas)
Isso é surpreendente, porque esses problemas não são difíceis
- Até crianças do ensino fundamental podem tentar resolvê-los, mas nem os melhores LLMs conseguem
A primeira hipótese seria falta de dados de treinamento
- Mas aqui provavelmente não é o caso
- Porque as regras claramente estão nos dados
- Wordle não é algo que tenha simplesmente ficado de fora dos datasets de treinamento dos LLMs atuais
Outra hipótese é que isso aconteça por causa de tokenização
- Mas isso também não é verdade
- Mesmo quando se dão várias tentativas e se fornecem respostas anteriores, deixando espaço para iteração, eles ainda têm dificuldade para encontrar a solução correta
- Mesmo separando as letras com espaços, a sorte não muda
Mesmo fornecendo novamente respostas anteriores, contexto e a pergunta, muitas vezes o modelo reinicia toda a sequência de resposta em vez de editar algo na célula [3,4]
Em vez disso, pela própria natureza do problema, parece que cada etapa exige níveis diferentes de cálculo iterativo que nenhum modelo consegue executar
- Em certo sentido isso faz sentido, porque modelos autorregressivos só conseguem realizar uma passagem direta por vez
  - Eles podem continuar “pensando em voz alta” usando o estoque de tokens existentes e a saída como bloco de rascunho, mas perdem o fio muito rapidamente
A conclusão aqui é que, quando cada etapa exige tanto memória quanto cálculo, isso parece estar além do que um transformer consegue resolver dentro do número atual de camadas e cabeças de atenção
- Isso vale até mesmo para modelos muito grandes como o GPT-4, treinado com trilhões de tokens
Ironicamente, ele não consegue descobrir onde deve concentrar a atenção
- Porque a forma atual de attention é estática e processa todas as partes da sequência ao mesmo tempo
- Em vez de usar várias heurísticas para ser mais seletivo e redefinir dinamicamente o contexto ao tentar alternativas
Isso acontece porque a attention, da forma como hoje é medida, não é de fato uma análise hierárquica multithread como a que nós fazemos
- Ou talvez seja implicitamente, mas a avaliação probabilística que ela produz não traduz esse contexto em problemas individuais

[ Experimento - ensinando Cellular Automata a um LLM ]

Pensei que seria possível ensinar o básico, já que durante o treinamento dá para gerar dados infinitos até obter o resultado desejado
Tentei fazer previsões criando um transformer de brinquedo
À esquerda está o CA, à direita a saída do Transformer, e havia o pedido para ver se era possível distingui-los
Não consegui treiná-lo para prever os resultados e não descobri o motivo
Era um modelo de brinquedo, mas funcionava a ponto de aprender várias equações que testei e até fazia um pouco de generalização
Reduzi o tamanho da grade e testei otimização de hiperparâmetros, mas ainda assim não funcionou
Pensei que talvez faltasse mais informação sobre o layout físico, então adicionei camadas CNN e mudei o positional embedding para tratar explicitamente os eixos X e Y. Ainda assim não funcionou
Em desespero, tentei ensinar pelo menos uma equação simples
No começo não funcionava de jeito nenhum, mas quando adicionei tokens de início/fim, de repente começou a funcionar. Transformers são estranhos
Não era perfeito em escala, mas estava quase aprendendo. Isso apesar de quase não ter heads nem camadas, e de o max_iter ser 1000.
A ideia claramente exigia aprender múltiplos estados e manter um histórico, então achei que precisava adicionar essa capacidade de alguma forma. Por isso, mudei o decoder para acrescentar outra entrada após a saída. Isso equivale a adicionar outra camada RNN ou fornecer uma memória de quais etapas já foram percorridas
Mas ainda assim não funcionou. Voltei aos cellular automata e tentei começar pelo mais básico, mas também não funcionou. Mesmo sendo 1D e havendo regras realmente fáceis. Não apenas a 110, que é Turing-completa, mas até coisas como a 0.
O fato de ter aprendido a dar a resposta exata em uma série de problemas significa que ele aprendeu a regra fundamental? Ou aprendeu um análogo dessa regra e passou a imitar os resultados dentro da distribuição fornecida? Ficando propenso a errar do jeito errado?
O mesmo problema aparece não só em modelos de brinquedo ou no GPT 3.5, mas também em LLMs maiores como GPT-4, Claude e Gemini. Pelo menos no modo chat.
Seja com fine-tuning ou com treinamento especializado, os LLMs aparentemente não conseguem jogar Conway's Game of Life
Se alguém resolver isso, será extremamente interessante. Ao menos se conseguir explicar por que esse problema existe

[ Como esse problema foi resolvido até agora ]

Ao projetar esse sistema, quanto mais ele refletir nossa própria inteligência, melhor a saída final poderá imitar a transformação necessária
Podemos ensinar quebra-cabeças individualmente e esperar que o raciocínio seja transferido, mas como saber se ele realmente aprendeu a generalizar? Até recentemente, até adição e multiplicação eram difíceis para esses modelos
Victor Taelin afirma que "GPT jamais consegue resolver problemas A::B". Era um exemplo de como modelos baseados em transformer não conseguem realmente aprender problemas novos fora do conjunto de treinamento nem realizar raciocínio de longo prazo
- Segundo ele, "um GPT poderoso é basicamente um projetista de circuitos evoluído dentro dos pesos", e "mas, por causa da rigidez da attention como modelo computacional, esses circuitos evoluídos não conseguem se tornar suficientemente flexíveis"
- "A AGI tenta crescer ali dentro, mas parece não conseguir por causa das restrições impostas de computação e comunicação. Lembre-se de que o cérebro humano passa por plasticidade sináptica o tempo todo. Existem arquiteturas flexíveis que, mesmo treinadas em escala muito menor, teriam mais chance de levar à AGI. Mas ainda não sabemos quais são."
Ele ofereceu uma recompensa de 10 mil dólares por esse problema, e ele foi resolvido em um dia.

[ Afinal, quanto os LLMs conseguem realmente aprender? ]

Dúvidas sobre a capacidade de aprendizado dos LLMs

LLMs frequentemente falham até em jogos infantis que envolvem interações repetitivas simples ou escolha de restrições
Mas os LLMs conseguem resolver problemas difíceis de matemática, raciocínio econômico competitivo, estimativas de Fermi e até problemas de física em línguas nas quais não foram explicitamente treinados
As respostas dos LLMs dependem fortemente da forma do prompt
LLMs mostram uma intuição impressionante, mas têm inteligência limitada
Quanto mais etapas de raciocínio são adicionadas, mais os LLMs têm dificuldade para entender o objetivo e manter o foco

Melhora de desempenho em redes neurais com memória externa

Adicionar conexões do tipo RNN faz alguma diferença, mas não o suficiente para resolver o problema por completo
Adicionar memória externa à rede neural permite aprender vários padrões irregulares
Apenas redes com memória estruturada adicionada, como pilhas ou fitas de memória, conseguem generalizar com sucesso em tarefas livres de contexto e sensíveis ao contexto

Limites de chain-of-thought prompting e scratchpads

Chain-of-thought prompting, uso de scratchpads e escrever pensamentos intermediários no papel são todos exemplos de processos mentais para reduzir o desvio do objetivo
No entanto, esses métodos ainda são atrapalhados pelo pecado original (original sin)
Saídas que dependem de entradas anteriores, especialmente quando exigem cálculo em cada etapa, são complexas e longas demais para os modelos atuais baseados em transformer lidarem bem

A maldição da autoregressão

À medida que o modelo cresce, ele mostra desempenho melhor em chain-of-thought longo, mas continua apresentando erros em pontos arbitrários da cadeia de raciocínio que parecem não ter relação com suas outras capacidades
Mesmo ao resolver a mesma tarefa em várias etapas, ele passa a cometer erros conforme o número de etapas aumenta
O GPT-4 tem menos alucinações e erros que o GPT-3.5
Será que a resposta é construir modelos enormes como GPT-4 ou Opus, que ainda assim falham no jogo Wordle?

Perguntas sobre a natureza da cognição

Se existem tipos de problema que até crianças do ensino fundamental resolvem com facilidade, mas modelos sofisticados alimentados com trilhões de tokens e dezenas de bilhões de dólares não conseguem resolver, o que isso diz sobre a natureza da nossa cognição?
A parte do G (generalização) em AGI é a mais difícil, e isso não generaliza facilmente para além da distribuição
O que temos se parece mais com uma parte da Biblioteca de Babel, capaz de ler não apenas os livros já escritos, mas também a informação que existe nos intervalos entre eles

Diferença entre os dados de aprendizado de humanos e LLMs

Um ser humano pode ler de 30 mil a 50 mil livros ao longo da vida, mas a maioria das pessoas não lê nem 1% disso (no máximo 1 GB de dados)
Já os LLMs absorveram tudo o que existe na internet e muito mais, aprendendo centenas de bilhões de palavras em todos os domínios e áreas do conhecimento (o GPT-3 foi treinado com 45 TB de dados)
Não é fácil responder como seria alguém que lesse 2 milhões de livros, nem o que um simples reconhecedor de padrões poderia fazer ao ler 2 milhões de livros
LLMs aprendem os padrões e regras implícitas dos dados de treinamento, mas não é fácil torná-los explícitos
Se não houver uma forma de o LLM conhecer as equações relacionadas à correspondência de padrões, ele não pode aprender a generalizar, então a Reversal Curse ainda existe

[ LLMs não conseguem redefinir o contexto ]

Dizer que o LLM é como uma entidade, um neurônio ou parte do neocórtex é uma metáfora útil em certos momentos, mas não captura completamente o comportamento que vemos nos LLMs
O aspecto interessante de modelos capazes de aprender padrões é que eles aprendem padrões que talvez nem estivessem explicitamente presentes no conjunto de dados
No processo de aprender linguagem, os LLMs identificam várias conexões embutidas nos dados, ligando von Neumann e Charles Dickens e produzindo imitações suficientemente plausíveis do que nós poderíamos ter escrito

Limites da complexidade do conjunto de dados e do tamanho do modelo

Mesmo assumindo que o conjunto de dados codifique toda a complexidade da humanidade, o número desses padrões, que existem até dentro de um conjunto de dados pequeno, rapidamente ultrapassaria o tamanho do modelo
Isso é quase uma inevitabilidade matemática
No problema de cellular automata, não está claro se o LLM realmente aprendeu o método nem quão confiável ele é
Os erros dos LLMs são um indicador melhor do que eles não sabem do que seus acertos

Limites dos LLMs que aprendem a aprender

Redes neurais maiores não apenas aprenderão com os dados, como também aprenderão a aprender
É por isso que os LLMs conseguem receber alguns exemplos e executar problemas que não viram no conjunto de treinamento
No entanto, o método usado pelos LLMs aparentemente não generaliza o suficiente, especialmente no aspecto de aprender onde prestar atenção
Aprender a aprender também não é um único algoritmo global para nós
Funciona melhor para algumas coisas e pior para outras
Funciona de forma diferente para tipos diferentes de problema
Tudo isso precisa ser escrito com o mesmo número de parâmetros, então a computação realizada por esses pesos precisa tanto responder sobre os Muppets quanto falar sobre a próxima grande descoberta em física que destruirá a teoria atual

Complexidade de sequências de símbolos interativas

Quando os símbolos em uma sequência interagem de modo que a presença ou a posição de um símbolo afeta o conteúdo informacional do símbolo seguinte, a entropia de Shannon total do conjunto de dados pode ser maior do que a sugerida ao observar apenas símbolos individuais
Isso torna realmente difíceis coisas dependentes de estado, como o Jogo da Vida de Conway
Esse também parece ser o motivo pelo qual, apesar de ter sido ajustado finamente com um conjunto de dados do Jogo da Vida, o GPT não consegue de fato aprender o padrão
Em vez disso, o GPT aprende apenas o suficiente para responder às perguntas (uma espécie de lei de Goodhart)

A dificuldade de definir LLMs com testes simples

Fazer uma pergunta de nível superior pedindo para definir qualquer um desses pontos com um teste simples que possa ser executado em um LLM é um ato tolo
Isso porque definir qualquer um desses pontos é, provavelmente, o mesmo que definir efetivamente o panorama de mais de meio século de pesquisa científica

[ Precisamos de mais agentes ]

Assim como na teoria atual, adicionar mais recursão aos modelos de LLM naturalmente deve torná-los melhores
No entanto, eles só conseguirão resolver problemas de planejamento mais complexos passo a passo na medida em que consigam manter em mente o objetivo original e o caminho percorrido até agora
Ainda não está claro por que os LLMs não são confiáveis
O GPT-4 é mais confiável do que o GPT-3.5, mas não sabemos se isso acontece simplesmente porque ele ficou melhor em aprender ou porque o aumento de escala elevou a confiabilidade e reduziu as alucinações

Agentes: um caso de uso poderoso

Agentes, isto é, entidades autônomas capazes de executar tarefas completas por nós, são o caso de uso dos sonhos para LLMs
Na prática, muitas tarefas precisam de mais agentes
Se eles funcionarem um pouco melhor em algumas tarefas, será que um número suficiente de agentes faria com que funcionassem melhor em todas as tarefas? É possível, mas por enquanto isso não parece provável
Em opções como o Devin, da Cognition Labs, pudemos ter um vislumbre de quão poderoso isso pode ser (apresentando um caso de uso real)

Potencial de expansão para uma parcela significativa dos empregos nos próximos anos

Será que esse tipo de comportamento pode se expandir para uma parcela significativa dos empregos nos próximos anos? Parece que sim
Será preciso abordar cada emprego individualmente, e isso resultará em modelos especializados que não escalam com facilidade (não um único modelo dominando tudo)
As versões open source já estão mostrando parte dos elementos centrais
- Examinar com cuidado a ordem e a quantidade de informação que chegam ao modelo base e, considerando suas limitações, como vimos antes, criar um ambiente em que ele possa prosperar

Os limites do GPT e a solução

Não importa que o GPT não consiga resolver sozinho problemas como o Jogo da Vida, nem mesmo quando tenta pensar nas etapas
O que importa é que o GPT consegue escrever o programa para resolvê-lo
Ou seja, se for possível treinar o GPT para reconhecer situações em que faz sentido escrever um programa, em qualquer programa, então poderemos nos aproximar da AGI (essa é a minha visão)

Os limites da capacidade do modelo e a relação competitiva entre modalidades visuais e linguísticas

Pelo menos em modelos pequenos, existe competição entre os pesos pelo que será aprendido
O melhor comentário que vi no artigo da DeepSeek:
- O DeepSeek-VL-7B mostra certa queda em matemática (GSM8K)
- Isso sugere que, apesar dos esforços para promover a harmonia entre as modalidades visual e linguística, ainda existe uma relação de competição entre elas
- Isso pode ser atribuído à capacidade limitada do modelo (7B), e modelos maiores podem aliviar significativamente esse problema

[ Conclusão ]

Lições aprendidas com os exemplos anteriores
- Existem tipos específicos de problemas que os LLMs (Large Language Models), por enquanto, não conseguem resolver
  - Isso se aplica especialmente a problemas que exigem etapas de raciocínio mais longas, como depender de estados anteriores ou prever estados futuros
  - Jogar Wordle ou prever CA (Cellular Automata) são exemplos disso
- Ao usar LLMs maiores, é possível ensinar algum grau de raciocínio fornecendo informações passo a passo sobre o problema e vários exemplos a serem seguidos
  - No entanto, isso significa colocar no prompt a abstração do problema real e a forma de pensar na resposta
- Isso pode ser melhorado das seguintes maneiras
  1. Prompts melhores
  2. Melhor acesso, nas etapas intermediárias, à memória, ao cálculo e às ferramentas
  - Porém, isso não chegará ao nível de consciência generalizável que usamos em relação aos humanos
  - Todas as informações inseridas em um LLM provavelmente podem ser extraídas se for dado o prompt adequado
- Portanto, uma parte enorme do uso adequado do modelo é criar prompts apropriados de acordo com a tarefa a ser executada
  - Isso pode exigir a construção cuidadosa de longas sequências de respostas certas e erradas para problemas computacionais, a fim de preparar o modelo para responder adequadamente junto com guardrails externos
- Como a "atenção" é suscetível ao efeito de desvio de objetivo (Goal Drift), é muito difícil torná-la confiável sem uma quantidade considerável de scaffolding externo
  - Os erros cometidos por LLMs fornecem informações muito mais úteis do que os acertos
Para alcançar AGI (Artificial General Intelligence) e obter um nível suficiente de generalização, são necessárias melhorias fundamentais de arquitetura
- Ampliar a escala dos modelos existentes e adicionar novas arquiteturas, como Jamba, os tornará mais eficientes, rápidos e estáveis, mas não resolverá problemas fundamentais como a falta de generalização ou o "desvio de objetivo"
Não basta apenas adicionar agentes especializados para fazer "prompt engineering" e colocar 17 GPTs para conversar entre si
- No entanto, com improvisações suficientes, pode ser que, nas áreas que nos interessam, os resultados se tornem indistinguíveis
Quando os motores de xadrez surgiram pela primeira vez, no início da era da IA, eles tinham poder de processamento limitado e funções de busca ou avaliação quase inúteis
- Por isso, era necessário depender de improvisos como aberturas ou finais hardcoded, aprofundamento iterativo (Iterative Deepening), poda alfa-beta (Alpha-Beta Pruning) para melhorar a busca, entre outros
- No fim, isso foi superado por melhorias graduais, e o mesmo ocorre com os LLMs
A ideia preferida do autor é ter vários agentes de planejamento em diferentes níveis de hierarquia, capazes de instruir outros agentes especializados com seus próprios subagentes conectados entre si, caso a confiabilidade melhore um pouco
Podemos adicionar módulos para raciocínio e iteração, memória persistente e de acesso aleatório, e até fornecer uma compreensão do mundo físico
- Nesse ponto, parece que poderíamos obter em um LLM algo próximo da consciência, do mesmo modo que a observamos em animais, mas será mesmo?
- Talvez isso termine como um modelo estatístico extremamente convincente, que imita o que precisamos mesmo fora da distribuição
É por isso que o autor chama o LLM de processador difuso (Fuzzy Processor), e por que perguntas como "como é ser um LLM" acabam em uma conversa circular
Isso não deve ser tomado como qualquer sinal de que o que temos hoje não seja milagroso
- Achar que a Bitter Lesson não será extrapolada até a AGI não significa que os frutos que já temos não sejam extraordinários
O autor está convencido de que os LLMs "aprendem" com os dados que veem
- Não são apenas compressores simples nem papagaios
- Conseguem conectar dados cheios de nuances vindos de partes diferentes do dataset de treinamento ou do prompt e fornecer respostas inteligentes
Thomas Nagel provavelmente teria feito a pergunta sobre como é ser um LLM
- Como mamíferos, os morcegos estão mais próximos de nós do que os LLMs, e, se o interior deles já é nebuloso para nós, qual seria a chance de entendermos o funcionamento interno de novos modelos?
- Ou, ao contrário, por podermos inspecionar livremente todos os pesos e circuitos nos LLMs, que nível de percepção poderíamos ter sobre esses modelos que usamos?
É por isso que o autor está oficialmente disposto a encarar a realidade
- Estatística em escala suficiente é indistinguível de inteligência dentro da distribuição dos dados de treinamento
- Nem serve para tudo, nem é suficiente para fazer tudo, mas também não é uma miragem
- Por isso, os erros nos testes são muito mais úteis para diagnóstico do que os sucessos
Se o LLM é uma máquina que pode fazer qualquer coisa, então no fim deve ser capaz de fazer a maioria das coisas
- Isso é possível com muitos estímulos e insistência
- Talvez não inspire a genialidade de Bach ou von Neumann, mas pode permitir inovações e descobertas mais comuns, embora não menos importantes
- E pode fazer isso sem precisar de consciência ou personalidade moral
- Se for possível automatizar ou acelerar os saltos dentro de um paradigma de que Kuhn falava, então será possível saltar livremente entre paradigmas

1 comentários

GN⁺ 2024-04-28

Opinião do Hacker News

Resumo:

Atualmente, existem problemas que são fáceis para humanos, mas difíceis (ou talvez impossíveis) para LLMs (grandes modelos de linguagem), como Wordle ou a previsão de autômatos celulares como o Rule 110. O motivo disso ainda não foi totalmente esclarecido.
Fornecer exemplos e instruções passo a passo no prompt não significa que o LLM esteja descobrindo por si só as "etapas de raciocínio"; isso significa que o usuário está entregando essas etapas ao LLM. Temos uma "máquina de raciocínio" inteligente, mas que parece esbarrar em limites fundamentais.
Não está claro se será possível alcançar AGI com modelos maiores e prompting melhor usando o mecanismo atual de Attention. O Attention é muito rígido, enquanto o cérebro humano passa constantemente por plasticidade sináptica. Pode existir uma arquitetura mais flexível capaz de viabilizar AGI, mas ainda não a conhecemos.
No estágio atual, para usar os modelos de IA de hoje, é preciso montar prompts longos com cuidado, como estruturar cuidadosamente respostas corretas e incorretas para problemas computacionais, preparar o modelo para responder de forma adequada e aplicar muitos guardrails externos.
O Attention parece sofrer de "deriva de objetivo", o que dificulta garantir confiabilidade sem todo esse apoio externo.
Para quantificar teoricamente as limitações dos LLMs, será preciso se apoiar em resultados teóricos, e não apenas em uma lista de evidências empíricas do que eles atualmente não conseguem fazer. Na literatura relacionada, vale procurar pelo termo "expressibility".
Até regras simples, como convenções de notação numérica, falham em muitos exemplos, e muitas vezes não funcionam direito independentemente de como o prompt seja estruturado. É surpreendente, mas ainda existem muitas limitações.
Eles também tendem a ter dificuldade em seguir instruções para não adotar certos comportamentos, como "mencione um fato interessante, mas não diga que ele é interessante". Em vez disso, quando se manda não fazer algo, a chance de fazer acaba sendo maior.
Mesmo supondo que os LLMs façam "raciocínio", estão sendo construídas IAs agenticas que lidam com alucinações não em relação ao mundo, mas em relação aos fatos, entidades e relações causais contidos nos documentos. Elas também lidam com raciocínio cruzado em distâncias muito grandes entre tokens.
Acredita-se que a necessidade de lidar bem com complexidades de segunda ordem, como relações entre pessoas, ressentimentos e alianças, tenha levado a um nível mais alto de inteligência.
Algumas coisas que eles "jamais conseguem fazer", como Wordle/Sudoku, são apenas artefatos da representação em texto; se forem convertidas para outro domínio, a taxa de sucesso provavelmente será muito maior, mesmo usando a mesma arquitetura Transformer.
Não é necessário criar uma AGI sob medida para todos os domínios; basta ter um agente capaz de raciocinar bem o suficiente para decompor o problema, atribuí-lo a ferramentas especializadas e depois remontar a resposta, além de um catálogo de modelos/ferramentas.

O que os LLMs jamais poderão fazer

[ Limites dos LLMs ]

Reversal Curse

Será que não é um problema da distribuição dos dados de treinamento?

Por que o LLM fundamentalmente não consegue

[ Experimento - por que o GPT não consegue aprender Wordle ]

[ Experimento - ensinando Cellular Automata a um LLM ]

[ Como esse problema foi resolvido até agora ]

[ Afinal, quanto os LLMs conseguem realmente aprender? ]

Dúvidas sobre a capacidade de aprendizado dos LLMs

Melhora de desempenho em redes neurais com memória externa

Limites de chain-of-thought prompting e scratchpads

A maldição da autoregressão

Perguntas sobre a natureza da cognição

Diferença entre os dados de aprendizado de humanos e LLMs

[ LLMs não conseguem redefinir o contexto ]

Limites da complexidade do conjunto de dados e do tamanho do modelo

Limites dos LLMs que aprendem a aprender

Complexidade de sequências de símbolos interativas

A dificuldade de definir LLMs com testes simples

[ Precisamos de mais agentes ]

Agentes: um caso de uso poderoso

Potencial de expansão para uma parcela significativa dos empregos nos próximos anos

Os limites do GPT e a solução

Os limites da capacidade do modelo e a relação competitiva entre modalidades visuais e linguísticas

[ Conclusão ]

Leituras relacionadas

1 comentários

Opinião do Hacker News