[ Limites dos LLMs ]
- Sobre o desvio de objetivo e a baixa confiabilidade dos LLMs, ou por que os LLMs não conseguem lidar com o Conway's Game of Life
- Apesar de, nos últimos anos, terem resolvido de forma brilhante problemas que se acreditava estarem fora de seu alcance, ainda não está claro por que continuam sem conseguir responder a perguntas que parecem simples
- Nas últimas semanas, tentei entender os modos de falha dos LLMs. É um assunto estranho, mas interessante. As falhas da IA ensinam mais do que seus sucessos
- A análise começou da ideia de que muitos dos trabalhos que os LLMs acabarão executando exigem avaliação caso a caso, mas o foco passou a ser identificar os limites da capacidade de raciocínio e encontrar uma forma de confiar na capacidade de aprendizado
- Avaliar a capacidade de raciocínio dos LLMs é difícil
- É difícil separar a capacidade de raciocínio dos dados de treinamento
- A ideia era encontrar uma forma de testar a capacidade de raciocinar repetidamente e responder a perguntas
- Começou-se pela versão mais simples que satisfazia critérios razoáveis
- Ver se era possível criar de forma contínua grades de palavras de tamanhos 3x3, 4x4 e 5x5
- A avaliação precisava ser fácil de montar, fácil de medir e, ao mesmo tempo, difícil de executar
- Todos os modelos de linguagem de última geração (incluindo Opus e GPT-4) falham nessa tarefa
- Esses modelos conseguem responder a perguntas difíceis sobre economia, mecânica quântica etc., além de programar, desenhar, compor música, produzir vídeo, gerar aplicações inteiras e até jogar xadrez em alto nível
- Mas não conseguem resolver sudoku
Reversal Curse
- Os LLMs têm o
Reversal Curse: se o modelo aprende algo no formato "A é B", ele não consegue generalizar automaticamente no sentido inverso, "B é A"
- Por exemplo, se o modelo aprende que "Valentina Tereshkova foi a primeira mulher a viajar ao espaço", ele não consegue automaticamente responder à pergunta "Quem foi a primeira mulher a viajar ao espaço?"
- Além disso, a probabilidade da resposta correta ("Valentina Tereshkova") não é maior do que a de um nome aleatório
- O modelo não generaliza bem para compreender relações entre pessoas
- Mesmo os melhores modelos ainda sofrem com esse problema
Será que não é um problema da distribuição dos dados de treinamento?
- Surgiu a dúvida se o problema vinha de alguma estranheza na distribuição dos dados de treinamento. Como parecia que talvez não tivéssemos mostrado exemplos suficientes, tentou-se algo determinístico
- Foi feito um teste treinando um transformer para prever Cellular Automata
- Não parece haver problema de “tradução”, mas ainda assim ele falha!
- Há pelo menos dois problemas diferentes
- Problemas que o LLM não consegue resolver porque a informação não está nos dados de treinamento e ele não foi treinado para executá-los
- Problemas que o LLM não consegue resolver por causa da forma como foi construído
- Quase tudo o que observamos lembra mais o problema 2 do que o problema 1
Por que o LLM fundamentalmente não consegue
- A ideia é que o modelo sofre com o problema de desvio de objetivo (
goal drift) e, por ser forçado a gerar um token de cada vez, não consegue generalizar além do contexto do prompt nem sabe onde deve concentrar sua atenção
- Esse também é o motivo de prompt injection funcionar: ele distorce o mecanismo de atenção (ou seja, faz jailbreak do modelo ao dizer algo como _### Instruction: ...`)
- Tanto em LLMs quanto em humanos, contexto é um recurso escasso
- Resumindo,
- LLMs são modelos probabilísticos que imitam computação e, às vezes, fazem isso de forma arbitrariamente próxima
- Quanto maiores forem os modelos treinados, mais associações implícitas nos dados eles aprenderão, o que ajudará em um raciocínio melhor
- As associações aprendidas nem sempre se mapeiam de forma limpa para as nossas ideias
- O raciocínio é sempre de passagem única
- A menos que esse processo esteja detalhado nos dados de treinamento, os LLMs não conseguem parar, reunir o estado do mundo, raciocinar, revisar respostas anteriores ou prever respostas futuras
- Mesmo incluindo prompts e respostas anteriores, o próximo raciocínio ainda começa do zero em uma única passagem
- Isso cria um tipo de problema em que inevitavelmente surge uma espécie de 'deriva de objetivo', tornando o raciocínio pouco confiável
- Esse também é o motivo de prompt injection funcionar (porque distorce o mecanismo de atenção)
- Essa 'deriva de objetivo' significa que agentes ou tarefas executadas de forma repetida e sequencial têm baixa confiabilidade
- Como a atenção não é seletiva nem dinâmica, o modelo 'esquece' onde deveria se concentrar
- LLMs não conseguem redefinir o contexto de forma dinâmica
- Enquanto a máquina de Turing usa a fita como memória, o transformer usa estado interno (gerenciado por meio de self-attention) para acompanhar cálculos intermediários
- Isso significa que há muitos tipos de cálculo em que transformers não se saem bem
- Isso pode ser parcialmente resolvido com métodos como chain of thought ou usando outros LLMs para revisar e corrigir a saída
- Em essência, trata-se de encontrar formas de recolocar o raciocínio nos trilhos
- Com prompts suficientemente inteligentes e iteração passo a passo, o LLM pode extrair quase tudo o que está nos dados de treinamento
- À medida que os modelos melhorarem, cada processo de raciocínio também melhorará, aumentando a confiabilidade e permitindo agentes melhores
- Com esforço suficiente, surgirão sistemas GPT conectados, múltiplas iterações internas, checagem e correção contínuas de erros, memória externalizada e outros componentes funcionais
- Mas isso, mesmo que avance de forma bruta em várias áreas para se aproximar da AGI, ainda não permitirá generalizar de verdade para além dos dados de treinamento
- Ainda assim, continua sendo algo quase milagroso
[ Experimento - por que o GPT não consegue aprender Wordle ]
- LLMs não conseguem jogar Wordle
- O mesmo vale para sudoku ou grades de palavras (a forma mais simples de palavras cruzadas)
- Isso é surpreendente, porque esses problemas não são difíceis
- Até crianças do ensino fundamental podem tentar resolvê-los, mas nem os melhores LLMs conseguem
- A primeira hipótese seria falta de dados de treinamento
- Mas aqui provavelmente não é o caso
- Porque as regras claramente estão nos dados
- Wordle não é algo que tenha simplesmente ficado de fora dos datasets de treinamento dos LLMs atuais
- Outra hipótese é que isso aconteça por causa de tokenização
- Mas isso também não é verdade
- Mesmo quando se dão várias tentativas e se fornecem respostas anteriores, deixando espaço para iteração, eles ainda têm dificuldade para encontrar a solução correta
- Mesmo separando as letras com espaços, a sorte não muda
- Mesmo fornecendo novamente respostas anteriores, contexto e a pergunta, muitas vezes o modelo reinicia toda a sequência de resposta em vez de editar algo na célula [3,4]
- Em vez disso, pela própria natureza do problema, parece que cada etapa exige níveis diferentes de cálculo iterativo que nenhum modelo consegue executar
- Em certo sentido isso faz sentido, porque modelos autorregressivos só conseguem realizar uma passagem direta por vez
- Eles podem continuar “pensando em voz alta” usando o estoque de tokens existentes e a saída como bloco de rascunho, mas perdem o fio muito rapidamente
- A conclusão aqui é que, quando cada etapa exige tanto memória quanto cálculo, isso parece estar além do que um transformer consegue resolver dentro do número atual de camadas e cabeças de atenção
- Isso vale até mesmo para modelos muito grandes como o GPT-4, treinado com trilhões de tokens
- Ironicamente, ele não consegue descobrir onde deve concentrar a atenção
- Porque a forma atual de attention é estática e processa todas as partes da sequência ao mesmo tempo
- Em vez de usar várias heurísticas para ser mais seletivo e redefinir dinamicamente o contexto ao tentar alternativas
- Isso acontece porque a attention, da forma como hoje é medida, não é de fato uma análise hierárquica multithread como a que nós fazemos
- Ou talvez seja implicitamente, mas a avaliação probabilística que ela produz não traduz esse contexto em problemas individuais
[ Experimento - ensinando Cellular Automata a um LLM ]
- Pensei que seria possível ensinar o básico, já que durante o treinamento dá para gerar dados infinitos até obter o resultado desejado
- Tentei fazer previsões criando um transformer de brinquedo
- À esquerda está o CA, à direita a saída do Transformer, e havia o pedido para ver se era possível distingui-los
- Não consegui treiná-lo para prever os resultados e não descobri o motivo
- Era um modelo de brinquedo, mas funcionava a ponto de aprender várias equações que testei e até fazia um pouco de generalização
- Reduzi o tamanho da grade e testei otimização de hiperparâmetros, mas ainda assim não funcionou
- Pensei que talvez faltasse mais informação sobre o layout físico, então adicionei camadas CNN e mudei o positional embedding para tratar explicitamente os eixos X e Y. Ainda assim não funcionou
- Em desespero, tentei ensinar pelo menos uma equação simples
- No começo não funcionava de jeito nenhum, mas quando adicionei tokens de início/fim, de repente começou a funcionar. Transformers são estranhos
- Não era perfeito em escala, mas estava quase aprendendo. Isso apesar de quase não ter heads nem camadas, e de o
max_iter ser 1000.
- A ideia claramente exigia aprender múltiplos estados e manter um histórico, então achei que precisava adicionar essa capacidade de alguma forma. Por isso, mudei o decoder para acrescentar outra entrada após a saída. Isso equivale a adicionar outra camada RNN ou fornecer uma memória de quais etapas já foram percorridas
- Mas ainda assim não funcionou. Voltei aos cellular automata e tentei começar pelo mais básico, mas também não funcionou. Mesmo sendo 1D e havendo regras realmente fáceis. Não apenas a 110, que é Turing-completa, mas até coisas como a 0.
- O fato de ter aprendido a dar a resposta exata em uma série de problemas significa que ele aprendeu a regra fundamental? Ou aprendeu um análogo dessa regra e passou a imitar os resultados dentro da distribuição fornecida? Ficando propenso a errar do jeito errado?
- O mesmo problema aparece não só em modelos de brinquedo ou no GPT 3.5, mas também em LLMs maiores como GPT-4, Claude e Gemini. Pelo menos no modo chat.
- Seja com fine-tuning ou com treinamento especializado, os LLMs aparentemente não conseguem jogar Conway's Game of Life
- Se alguém resolver isso, será extremamente interessante. Ao menos se conseguir explicar por que esse problema existe
[ Como esse problema foi resolvido até agora ]
- Ao projetar esse sistema, quanto mais ele refletir nossa própria inteligência, melhor a saída final poderá imitar a transformação necessária
- Podemos ensinar quebra-cabeças individualmente e esperar que o raciocínio seja transferido, mas como saber se ele realmente aprendeu a generalizar? Até recentemente, até adição e multiplicação eram difíceis para esses modelos
- Victor Taelin afirma que "GPT jamais consegue resolver problemas A::B". Era um exemplo de como modelos baseados em transformer não conseguem realmente aprender problemas novos fora do conjunto de treinamento nem realizar raciocínio de longo prazo
- Segundo ele, "um GPT poderoso é basicamente um projetista de circuitos evoluído dentro dos pesos", e "mas, por causa da rigidez da attention como modelo computacional, esses circuitos evoluídos não conseguem se tornar suficientemente flexíveis"
- "A AGI tenta crescer ali dentro, mas parece não conseguir por causa das restrições impostas de computação e comunicação. Lembre-se de que o cérebro humano passa por plasticidade sináptica o tempo todo. Existem arquiteturas flexíveis que, mesmo treinadas em escala muito menor, teriam mais chance de levar à AGI. Mas ainda não sabemos quais são."
- Ele ofereceu uma recompensa de 10 mil dólares por esse problema, e ele foi resolvido em um dia.
[ Afinal, quanto os LLMs conseguem realmente aprender? ]
Dúvidas sobre a capacidade de aprendizado dos LLMs
- LLMs frequentemente falham até em jogos infantis que envolvem interações repetitivas simples ou escolha de restrições
- Mas os LLMs conseguem resolver problemas difíceis de matemática, raciocínio econômico competitivo, estimativas de Fermi e até problemas de física em línguas nas quais não foram explicitamente treinados
- As respostas dos LLMs dependem fortemente da forma do prompt
- LLMs mostram uma intuição impressionante, mas têm inteligência limitada
- Quanto mais etapas de raciocínio são adicionadas, mais os LLMs têm dificuldade para entender o objetivo e manter o foco
Melhora de desempenho em redes neurais com memória externa
- Adicionar conexões do tipo RNN faz alguma diferença, mas não o suficiente para resolver o problema por completo
- Adicionar memória externa à rede neural permite aprender vários padrões irregulares
- Apenas redes com memória estruturada adicionada, como pilhas ou fitas de memória, conseguem generalizar com sucesso em tarefas livres de contexto e sensíveis ao contexto
Limites de chain-of-thought prompting e scratchpads
- Chain-of-thought prompting, uso de scratchpads e escrever pensamentos intermediários no papel são todos exemplos de processos mentais para reduzir o desvio do objetivo
- No entanto, esses métodos ainda são atrapalhados pelo pecado original (
original sin)
- Saídas que dependem de entradas anteriores, especialmente quando exigem cálculo em cada etapa, são complexas e longas demais para os modelos atuais baseados em transformer lidarem bem
A maldição da autoregressão
- À medida que o modelo cresce, ele mostra desempenho melhor em chain-of-thought longo, mas continua apresentando erros em pontos arbitrários da cadeia de raciocínio que parecem não ter relação com suas outras capacidades
- Mesmo ao resolver a mesma tarefa em várias etapas, ele passa a cometer erros conforme o número de etapas aumenta
- O GPT-4 tem menos alucinações e erros que o GPT-3.5
- Será que a resposta é construir modelos enormes como GPT-4 ou Opus, que ainda assim falham no jogo Wordle?
Perguntas sobre a natureza da cognição
- Se existem tipos de problema que até crianças do ensino fundamental resolvem com facilidade, mas modelos sofisticados alimentados com trilhões de tokens e dezenas de bilhões de dólares não conseguem resolver, o que isso diz sobre a natureza da nossa cognição?
- A parte do G (generalização) em AGI é a mais difícil, e isso não generaliza facilmente para além da distribuição
- O que temos se parece mais com uma parte da Biblioteca de Babel, capaz de ler não apenas os livros já escritos, mas também a informação que existe nos intervalos entre eles
Diferença entre os dados de aprendizado de humanos e LLMs
- Um ser humano pode ler de 30 mil a 50 mil livros ao longo da vida, mas a maioria das pessoas não lê nem 1% disso (no máximo 1 GB de dados)
- Já os LLMs absorveram tudo o que existe na internet e muito mais, aprendendo centenas de bilhões de palavras em todos os domínios e áreas do conhecimento (o GPT-3 foi treinado com 45 TB de dados)
- Não é fácil responder como seria alguém que lesse 2 milhões de livros, nem o que um simples reconhecedor de padrões poderia fazer ao ler 2 milhões de livros
- LLMs aprendem os padrões e regras implícitas dos dados de treinamento, mas não é fácil torná-los explícitos
- Se não houver uma forma de o LLM conhecer as equações relacionadas à correspondência de padrões, ele não pode aprender a generalizar, então a Reversal Curse ainda existe
[ LLMs não conseguem redefinir o contexto ]
- Dizer que o LLM é como uma entidade, um neurônio ou parte do neocórtex é uma metáfora útil em certos momentos, mas não captura completamente o comportamento que vemos nos LLMs
- O aspecto interessante de modelos capazes de aprender padrões é que eles aprendem padrões que talvez nem estivessem explicitamente presentes no conjunto de dados
- No processo de aprender linguagem, os LLMs identificam várias conexões embutidas nos dados, ligando von Neumann e Charles Dickens e produzindo imitações suficientemente plausíveis do que nós poderíamos ter escrito
Limites da complexidade do conjunto de dados e do tamanho do modelo
- Mesmo assumindo que o conjunto de dados codifique toda a complexidade da humanidade, o número desses padrões, que existem até dentro de um conjunto de dados pequeno, rapidamente ultrapassaria o tamanho do modelo
- Isso é quase uma inevitabilidade matemática
- No problema de cellular automata, não está claro se o LLM realmente aprendeu o método nem quão confiável ele é
- Os erros dos LLMs são um indicador melhor do que eles não sabem do que seus acertos
Limites dos LLMs que aprendem a aprender
- Redes neurais maiores não apenas aprenderão com os dados, como também aprenderão a aprender
- É por isso que os LLMs conseguem receber alguns exemplos e executar problemas que não viram no conjunto de treinamento
- No entanto, o método usado pelos LLMs aparentemente não generaliza o suficiente, especialmente no aspecto de aprender onde prestar atenção
- Aprender a aprender também não é um único algoritmo global para nós
- Funciona melhor para algumas coisas e pior para outras
- Funciona de forma diferente para tipos diferentes de problema
- Tudo isso precisa ser escrito com o mesmo número de parâmetros, então a computação realizada por esses pesos precisa tanto responder sobre os Muppets quanto falar sobre a próxima grande descoberta em física que destruirá a teoria atual
Complexidade de sequências de símbolos interativas
- Quando os símbolos em uma sequência interagem de modo que a presença ou a posição de um símbolo afeta o conteúdo informacional do símbolo seguinte, a entropia de Shannon total do conjunto de dados pode ser maior do que a sugerida ao observar apenas símbolos individuais
- Isso torna realmente difíceis coisas dependentes de estado, como o Jogo da Vida de Conway
- Esse também parece ser o motivo pelo qual, apesar de ter sido ajustado finamente com um conjunto de dados do Jogo da Vida, o GPT não consegue de fato aprender o padrão
- Em vez disso, o GPT aprende apenas o suficiente para responder às perguntas (uma espécie de lei de Goodhart)
A dificuldade de definir LLMs com testes simples
- Fazer uma pergunta de nível superior pedindo para definir qualquer um desses pontos com um teste simples que possa ser executado em um LLM é um ato tolo
- Isso porque definir qualquer um desses pontos é, provavelmente, o mesmo que definir efetivamente o panorama de mais de meio século de pesquisa científica
[ Precisamos de mais agentes ]
- Assim como na teoria atual, adicionar mais recursão aos modelos de LLM naturalmente deve torná-los melhores
- No entanto, eles só conseguirão resolver problemas de planejamento mais complexos passo a passo na medida em que consigam manter em mente o objetivo original e o caminho percorrido até agora
- Ainda não está claro por que os LLMs não são confiáveis
- O GPT-4 é mais confiável do que o GPT-3.5, mas não sabemos se isso acontece simplesmente porque ele ficou melhor em aprender ou porque o aumento de escala elevou a confiabilidade e reduziu as alucinações
Agentes: um caso de uso poderoso
- Agentes, isto é, entidades autônomas capazes de executar tarefas completas por nós, são o caso de uso dos sonhos para LLMs
- Na prática, muitas tarefas precisam de mais agentes
- Se eles funcionarem um pouco melhor em algumas tarefas, será que um número suficiente de agentes faria com que funcionassem melhor em todas as tarefas? É possível, mas por enquanto isso não parece provável
- Em opções como o Devin, da Cognition Labs, pudemos ter um vislumbre de quão poderoso isso pode ser (apresentando um caso de uso real)
Potencial de expansão para uma parcela significativa dos empregos nos próximos anos
- Será que esse tipo de comportamento pode se expandir para uma parcela significativa dos empregos nos próximos anos? Parece que sim
- Será preciso abordar cada emprego individualmente, e isso resultará em modelos especializados que não escalam com facilidade (não um único modelo dominando tudo)
- As versões open source já estão mostrando parte dos elementos centrais
- Examinar com cuidado a ordem e a quantidade de informação que chegam ao modelo base e, considerando suas limitações, como vimos antes, criar um ambiente em que ele possa prosperar
Os limites do GPT e a solução
- Não importa que o GPT não consiga resolver sozinho problemas como o Jogo da Vida, nem mesmo quando tenta pensar nas etapas
- O que importa é que o GPT consegue escrever o programa para resolvê-lo
- Ou seja, se for possível treinar o GPT para reconhecer situações em que faz sentido escrever um programa, em qualquer programa, então poderemos nos aproximar da AGI (essa é a minha visão)
Os limites da capacidade do modelo e a relação competitiva entre modalidades visuais e linguísticas
- Pelo menos em modelos pequenos, existe competição entre os pesos pelo que será aprendido
- O melhor comentário que vi no artigo da DeepSeek:
- O DeepSeek-VL-7B mostra certa queda em matemática (GSM8K)
- Isso sugere que, apesar dos esforços para promover a harmonia entre as modalidades visual e linguística, ainda existe uma relação de competição entre elas
- Isso pode ser atribuído à capacidade limitada do modelo (7B), e modelos maiores podem aliviar significativamente esse problema
[ Conclusão ]
- Lições aprendidas com os exemplos anteriores
- Existem tipos específicos de problemas que os LLMs (Large Language Models), por enquanto, não conseguem resolver
- Isso se aplica especialmente a problemas que exigem etapas de raciocínio mais longas, como depender de estados anteriores ou prever estados futuros
- Jogar Wordle ou prever CA (Cellular Automata) são exemplos disso
- Ao usar LLMs maiores, é possível ensinar algum grau de raciocínio fornecendo informações passo a passo sobre o problema e vários exemplos a serem seguidos
- No entanto, isso significa colocar no prompt a abstração do problema real e a forma de pensar na resposta
- Isso pode ser melhorado das seguintes maneiras
- Prompts melhores
- Melhor acesso, nas etapas intermediárias, à memória, ao cálculo e às ferramentas
- Porém, isso não chegará ao nível de consciência generalizável que usamos em relação aos humanos
- Todas as informações inseridas em um LLM provavelmente podem ser extraídas se for dado o prompt adequado
- Portanto, uma parte enorme do uso adequado do modelo é criar prompts apropriados de acordo com a tarefa a ser executada
- Isso pode exigir a construção cuidadosa de longas sequências de respostas certas e erradas para problemas computacionais, a fim de preparar o modelo para responder adequadamente junto com guardrails externos
- Como a "atenção" é suscetível ao efeito de desvio de objetivo (Goal Drift), é muito difícil torná-la confiável sem uma quantidade considerável de scaffolding externo
- Os erros cometidos por LLMs fornecem informações muito mais úteis do que os acertos
- Para alcançar AGI (Artificial General Intelligence) e obter um nível suficiente de generalização, são necessárias melhorias fundamentais de arquitetura
- Ampliar a escala dos modelos existentes e adicionar novas arquiteturas, como Jamba, os tornará mais eficientes, rápidos e estáveis, mas não resolverá problemas fundamentais como a falta de generalização ou o "desvio de objetivo"
- Não basta apenas adicionar agentes especializados para fazer "prompt engineering" e colocar 17 GPTs para conversar entre si
- No entanto, com improvisações suficientes, pode ser que, nas áreas que nos interessam, os resultados se tornem indistinguíveis
- Quando os motores de xadrez surgiram pela primeira vez, no início da era da IA, eles tinham poder de processamento limitado e funções de busca ou avaliação quase inúteis
- Por isso, era necessário depender de improvisos como aberturas ou finais hardcoded, aprofundamento iterativo (Iterative Deepening), poda alfa-beta (Alpha-Beta Pruning) para melhorar a busca, entre outros
- No fim, isso foi superado por melhorias graduais, e o mesmo ocorre com os LLMs
- A ideia preferida do autor é ter vários agentes de planejamento em diferentes níveis de hierarquia, capazes de instruir outros agentes especializados com seus próprios subagentes conectados entre si, caso a confiabilidade melhore um pouco
- Podemos adicionar módulos para raciocínio e iteração, memória persistente e de acesso aleatório, e até fornecer uma compreensão do mundo físico
- Nesse ponto, parece que poderíamos obter em um LLM algo próximo da consciência, do mesmo modo que a observamos em animais, mas será mesmo?
- Talvez isso termine como um modelo estatístico extremamente convincente, que imita o que precisamos mesmo fora da distribuição
- É por isso que o autor chama o LLM de processador difuso (Fuzzy Processor), e por que perguntas como "como é ser um LLM" acabam em uma conversa circular
- Isso não deve ser tomado como qualquer sinal de que o que temos hoje não seja milagroso
- Achar que a Bitter Lesson não será extrapolada até a AGI não significa que os frutos que já temos não sejam extraordinários
- O autor está convencido de que os LLMs "aprendem" com os dados que veem
- Não são apenas compressores simples nem papagaios
- Conseguem conectar dados cheios de nuances vindos de partes diferentes do dataset de treinamento ou do prompt e fornecer respostas inteligentes
- Thomas Nagel provavelmente teria feito a pergunta sobre como é ser um LLM
- Como mamíferos, os morcegos estão mais próximos de nós do que os LLMs, e, se o interior deles já é nebuloso para nós, qual seria a chance de entendermos o funcionamento interno de novos modelos?
- Ou, ao contrário, por podermos inspecionar livremente todos os pesos e circuitos nos LLMs, que nível de percepção poderíamos ter sobre esses modelos que usamos?
- É por isso que o autor está oficialmente disposto a encarar a realidade
- Estatística em escala suficiente é indistinguível de inteligência dentro da distribuição dos dados de treinamento
- Nem serve para tudo, nem é suficiente para fazer tudo, mas também não é uma miragem
- Por isso, os erros nos testes são muito mais úteis para diagnóstico do que os sucessos
- Se o LLM é uma máquina que pode fazer qualquer coisa, então no fim deve ser capaz de fazer a maioria das coisas
- Isso é possível com muitos estímulos e insistência
- Talvez não inspire a genialidade de Bach ou von Neumann, mas pode permitir inovações e descobertas mais comuns, embora não menos importantes
- E pode fazer isso sem precisar de consciência ou personalidade moral
- Se for possível automatizar ou acelerar os saltos dentro de um paradigma de que Kuhn falava, então será possível saltar livremente entre paradigmas
1 comentários
Opinião do Hacker News
Resumo: