Busca em IA: a lição mais amarga

(yellow-apartment-148.notion.site)

1 pontos por GN⁺ 2024-06-16 | 1 comentários | Compartilhar no WhatsApp

Adicionar a modelos de base a capacidade de busca (search), usando mais tempo de inferência, pode abrir um caminho de avanço da IA diferente de simplesmente esperar pelo lançamento de modelos maiores
O Leela Chess Zero derrotou o Stockfish com autojogo e deep learning, mas o Stockfish recuperou a vantagem ao combinar uma rede neural menor com um pipeline de busca forte
Aqui, busca é a capacidade de aumentar o desempenho na resolução de problemas usando mais computação de inferência, não computação de treinamento, e não significa apenas MCTS ou AlphaBeta no estilo do xadrez
A busca permite concentrar computação apenas nas áreas necessárias, dando a empresas como a Pfizer a opção de pagar diretamente por custos de inferência em vez de esperar por um modelo maior da OpenAI
Se a busca for aplicada primeiro à pesquisa em IA, ela pode ser usada para encontrar algoritmos de busca e arquiteturas de modelo mais eficientes, tornando uma IA autoaprimorável talvez mais próxima do que se imagina

A “lição mais amarga” mostrada por Leela e Stockfish

O Leela Chess Zero é um motor de xadrez que começou conhecendo apenas as regras e aprendeu por meio de dezenas de bilhões de partidas contra si mesmo
- Sem codificar diretamente conhecimento humano de xadrez, ele fez lances aprendidos por conta própria que desafiaram a sabedoria convencional humana no xadrez
- Demonstrou sacrifícios de longo prazo e lances criativos, e venceu o campeonato mundial
A força do Leela estava no deep learning, ilustrando bem o poder da computação e do aprendizado em larga escala descrito em The Bitter Lesson
- Isso se alinha à tendência de representações aprendidas por conta própria poderem se tornar mais fortes do que conhecimento projetado por humanos
Em 2018, a equipe do Leela observou que redes maiores eram consistentemente mais fortes que redes menores
- Redes maiores exibiam propriedades emergentes, como se conseguissem enxergar alguns lances à frente mesmo sem busca explícita
Em 2020, a equipe do Leela reuniu computação de doadores corporativos e de GTX 1070 de conhecidos para treinar uma rede maior e preparou seu maior modelo pouco antes do campeonato mundial, mas perdeu

A virada do Stockfish: modelo pequeno e busca forte

O Stockfish foi o programa de xadrez dominante nos anos 2010 e, em 2019, era próximo de uma IA à moda antiga, na qual humanos incorporavam conhecimento do jogo ao código por meio de técnicas matemáticas
O Leela derrotou o Stockfish em 2019 com deep learning e uma abordagem tabula rasa, mas depois o Stockfish adotou as técnicas de deep learning do Leela e treinou um modelo muito menor
- Esse modelo era centenas de vezes menor que os melhores modelos do Leela
- O Stockfish colocou esse modelo pequeno em seu pipeline de busca existente e logo passou a dominar o Leela
Essa vitória parece contrariar as leis de escala que favorecem modelos maiores
- Porque, embora o modelo fosse menor, o algoritmo de busca era mais eficiente, aproveitava melhor o hardware e conseguia olhar mais longe
A “lição mais amarga” é que, mesmo na era vistosa do deep learning, não se deve subestimar o poder da busca em IA

Definição de busca em modelos de base e limites atuais

Modelos de base como o GPT-4 carecem de busca no sentido usado neste texto
- Atualmente, não é possível pedir ao GPT-4 que pense em um problema por um mês esperando uma resposta melhor
- Pedir para “pensar passo a passo” pode melhorar o desempenho, mas os retornos diminuem rapidamente
Busca em modelos de base é a capacidade de resolver melhor problemas usando mais computação de inferência, não computação de treinamento
- Não se refere apenas a buscas no estilo MCTS ou AlphaBeta do xadrez
- O pensamento introspectivo humano e a colaboração também entram nessa definição
Pesquisadores de IA, economistas e CEOs podem estar subestimando o quão próxima e importante é a tarefa de dotar modelos de base de busca
A importância da busca pode ser resumida em três pontos
- Sua implementação pode não exigir necessariamente modelos em escala maior
- Ela permite concentrar computação apenas onde é necessário
- Pode acelerar a automação da pesquisa em IA

Escala pode não ser pré-requisito para busca

Uma suposição comum é que modelos maiores são necessários para viabilizar busca em LLMs
- Sholto Douglas disse que, para lidar com pensamento de longo prazo, é preciso muito mais “nines” de confiabilidade em LLMs
- Leopold Aschenbrenner considera que o pré-treinamento talvez já contenha os ingredientes necessários para a busca, exigindo “um pouco mais de escala” e tokens adicionais
Mas o caso do xadrez abala a ideia de que escala seja pré-requisito para busca
- A DeepMind estudou, em algoritmos de xadrez sem busca, como comportamentos de antecipação surgem naturalmente sem scaffolding externo
- Como no xadrez já existem algoritmos de busca, o argumento é que há pouco motivo para esperar que capacidades ineficientes de previsão apareçam por acaso em modelos grandes
Scaling Scaling Laws with Board Games mostrou que, a cada aumento de 10 vezes na computação durante o treinamento, é possível reduzir a computação em teste em cerca de 15 vezes
- Esse resultado é observado até em modelos de um único neurônio
- Isso se conecta ao caso em que o Stockfish venceu o Leela com um modelo três ordens de grandeza menor
Os modelos atuais podem já ser grandes o suficiente para permitir busca — e talvez até maiores do que o necessário

Economia da busca e possibilidade de automatizar a pesquisa em IA

A busca permite uma troca entre computação no momento do treinamento e no momento da inferência, fazendo com que os custos sejam aplicados apenas a domínios específicos
O exemplo da Pfizer mostra como a busca pode levar a gastos de computação por domínio
- Se a Pfizer quiser pesquisar novos medicamentos, pode esperar até 2030 para a OpenAI lançar um modelo quatro ordens de grandeza maior
- Ou pode tentar obter capacidades semelhantes agora usando quatro ordens de grandeza mais computação de inferência
Supondo que a Pfizer gaste US$ 100 mil por ano com o GPT-4, para acessar capacidades de nível ASI em 2030 ela teria de aumentar seu orçamento de IA em quatro ordens de grandeza, para US$ 1 bilhão por ano
- O orçamento de P&D da Pfizer já é de US$ 12 bilhões
- Treinar um modelo com a mesma capacidade poderia custar trilhões de dólares à OpenAI, segundo essa visão
O caminho de Leopold Aschenbrenner para uma ASI em 2030 passa por grandes clusters, aumento de receita, grandes empréstimos corporativos e a construção de clusters ainda maiores pelo governo, até que o modelo se torne grande o suficiente para realizar pesquisa em IA por conta própria
- Em um mundo sem busca, esse caminho parece plausível
Em um mundo em que a busca funciona, outro caminho se torna possível
- A busca funciona em modelos existentes
- Grandes laboratórios e governos aplicam imediatamente a busca à pesquisa em IA ou à inteligência externa
- A computação de inferência é limitada, então governos ou grandes laboratórios restringem seu uso a segurança ou pesquisa em IA
- O avanço da IA baseado em busca descobre algoritmos de busca e arquiteturas de modelo mais eficientes
- Como a busca não exige mais dados de treinamento, o problema da barreira de dados se enfraquece
- Isso leva à perspectiva de que uma explosão de inteligência poderia começar no ano seguinte, não em 2030
Usar busca na pesquisa em IA, diferentemente da descoberta de novos medicamentos, pode contribuir diretamente para criar IAs melhores
- Modelos iniciais reforçados por busca talvez não tenham uma agência de tipo humano para usar ferramentas ou executar testes
- Ainda assim, eles poderiam impulsionar avanços algorítmicos como “teóricos de poltrona” sobre-humanos
- Se o GPT-4 gastar 1 trilhão de tokens e US$ 15 milhões para encontrar um algoritmo que reduza o custo de treinamento em 3% ou aumente a eficiência da busca em 10%, o investimento poderia se pagar
Essa previsão se apoia em duas premissas
- Existem algoritmos de busca para modelos de base capazes de produzir melhorias de desempenho semelhantes às observadas em sistemas de RL
- A busca converte capital existente em inteligência de forma mais eficiente do que o escalonamento de modelos
Diferentemente das leis de escala dos anos 2020, ainda há poucas boas evidências sobre o desempenho e a economia da busca; resta uma extrapolação a partir da experiência com aprendizado por reforço em jogos

1 comentários

GN⁺ 2024-06-16

Opiniões no Hacker News

O efeito da busca anda junto com a qualidade da função de valor. Mas as funções de valor atuais são muito específicas de cada domínio, e vejo pouca ou nenhuma evidência de que possamos criar uma função de valor que generalize bem para novos domínios
Este texto, na prática, dá um salto conceitual de “existe uma boa função de valor para xadrez” para “podemos criar uma boa função de valor que viabilize busca para pesquisa em IA”
Claro que, se isso acontecesse, seria excelente, algo como um santo graal, mas questiono se é realmente possível. Além disso, se executar um LLM adicionar um custo de tempo de inferência 1000x ou 10000x maior, o custo sobe para um nível absurdo
- Acho que funções de valor generalizadas, isto é, benchmarks de LLM, existem em alguma medida. O problema é que não há uma aproximação barata o suficiente para fazer busca em árvore no momento da inferência
  No xadrez isso funciona porque a vantagem material é uma aproximação razoavelmente boa da vitória e é muito fácil de calcular
- Fico curioso se você acredita que virá um avanço em “IA de propósito geral”. O ponto que você mencionou expressa bem por que sou cético em relação a pesquisadores de IA que acreditam que “chegaremos lá em breve”
  Para começo de conversa, IA de propósito geral nem parece ser algo bem definido
- Em alguns domínios, apenas a autoavaliação pode ser suficiente. Nesse caso, a IA tenta várias vezes e se avalia repetidamente para encontrar uma resposta que receba uma pontuação mais alta segundo seus próprios critérios
- Tudo de que uma boa função de valor precisa é uma simulação de alta qualidade da tarefa em questão
  Em alguns domínios isso funciona melhor. Por exemplo, provadores de teoremas em matemática informam com precisão se houve sucesso ou não
  Como efeito colateral, seria possível colocar no Lean algo parecido com busca para ajudar pesquisadores humanos, o que também poderia contribuir para o progresso da IA em matemática
- Mesmo com um número limitado de lances legais em uma posição dada e com a possibilidade de podar cedo e de forma agressiva os ramos perdedores, o Stockfish provavelmente avalia milhões de posições ao olhar 40 lances à frente
  É difícil até imaginar o custo de avaliar milhões de continuações de frases de um LLM para escolher uma resposta ótima
  O ponto em que busca em árvore faz mais sentido para LLMs talvez não seja explorar alternativas palavra por palavra, mas sim raciocinar explorando caminhos em unidades mais grossas, do tipo “se eu pensar assim”. Ainda assim, o custo de gerar, avaliar e podar pode facilmente se tornar inviável, e essa abordagem enviesada parece até contrariar frontalmente a lição amarga, em vez de estar alinhada a ela
Este é um problema realmente difícil de resolver de forma geral, e pesquisadores inteligentes como Yann LeCun também estão tentando descobrir qual é o papel da busca na criação de AGI
A aposta atual de Yann parece ser usar Joint Embedding Predictive Architectures, ou JEPA, para aprendizado de representações, criando modelos de mundo robustos e permitindo que agentes testem teorias tentando ações diferentes
Este artigo [0] resume bem a possível visão dele, mas, claro, isso é muito mais difícil do que simplesmente busca + transformers
Há a suposição de que a linguagem representa o mundo bem o bastante para que um agente possa explorar esse espaço de forma eficaz e produzir ideias novas e úteis. Parece uma questão em aberto. O que os LLMs sabem? Eles realmente sabem alguma coisa? Os pesquisadores precisam descobrir
Se os LLMs atuais conseguem simular um modelo de mundo suficientemente rico, então a busca pode de fato se tornar útil; mas, se estão apenas imitando, isso seria apenas buscar sobre crenças não confiáveis
É por isso que vídeo é importante. Porque é uma evidência de que humanos conseguem extrair modelos de mundo úteis a partir de sequências de imagens
Linguagem e xadrez têm espaços de ação essencialmente discretos, então é possível treinar modelos generativos que reconstroem a entrada inteira para calcular a perda. Quando passamos para vídeo, os transformers precisam escalar sobre distribuições contínuas, o que torna muito mais difícil criar modelos de mundo preditivos úteis
[0]: https://arxiv.org/abs/2306.02572
- Sinto que a própria ideia de que AGI é possível vem de uma imaginação profunda e disseminada que vê o cérebro humano como um computador. Mas o cérebro humano não é um computador
  Por mais complexo que seja o programa escrito, ele continua sendo uma máquina de Turing, e humanos fundamentalmente não são isso
  https://aeon.co/essays/your-brain-does-not-process-informati...
  A metáfora do processamento de informação para a inteligência humana hoje domina o pensamento humano tanto no cotidiano quanto na ciência. Mas, no fim das contas, ela é apenas mais uma metáfora que criamos para entender algo que na verdade não compreendemos, e um dia será substituída por outra metáfora ou por conhecimento real
  Mesmo que duas pessoas ouçam a 5ª Sinfonia de Beethoven no mesmo concerto, as mudanças que ocorrem no meu cérebro e no cérebro de outra pessoa quase certamente serão completamente diferentes. Isso porque as mudanças ocorrem sobre estruturas neurais moldadas pelas experiências únicas de cada um
  Por isso, quando duas pessoas ouvem a mesma história, elas não a repetem de forma idêntica, e, com o tempo, essas repetições ficam ainda mais diferentes. Não se cria uma “cópia” da história; cada indivíduo que ouviu a história é transformado em certa medida
- Para “eles realmente sabem alguma coisa?”, minha resposta é sim. Só que acho que eles também sabem coisas completamente falsas
  A maior característica que observei nos LLMs é que eles não lidam bem com lógica e matemática. Mesmo quando seria melhor responder “não sei”, eles fornecem com confiança informações claramente falsas. Acho muito improvável que isso tenha sido uma escolha de projeto intencional
O texto começa com uma premissa interessante, mas fica insuficiente porque não define o que é busca no contexto de LLMs, nem explica a afirmação de que “a Pfizer pode se aproximar hoje das capacidades do GPT-8 com mais computação de inferência”
Mesmo trabalhando com IA, achei difícil acompanhar. Seria preciso alguém capaz de explicar melhor o que o texto original quer dizer
A busca em motores de xadrez, isto é, olhar alguns lances à frente, parece possível porque existe uma função objetivo capaz de ranquear os resultados. Há uma métrica para julgar qual jogada potencial é “melhor”, e isso geralmente se aproxima de uma característica própria do aprendizado por reforço. Fico em dúvida se LLMs têm uma métrica assim
- Esse ponto também me deixa muito confuso
  Arriscando um palpite, talvez signifique executar alguns tokens à frente para cada um dos principais tokens previstos pelo modelo, acompanhar qual ramificação se sai melhor em relação aos dados de treinamento e então usar essa informação no treinamento
  Mas a busca deveria aumentar a eficiência no momento da inferência, e esse método não faz isso
- Provavelmente é isso mesmo, e acho que uma métrica assim não existe. As pessoas vão tentar avaliação adversarial, mas no fim parece provável que tudo convirja para uma previsão média
  Além disso, inferência com LLM não é barata. A troca entre custo de inferência e custo de treinamento varia muito conforme a aplicação. Pode haver domínios em que faça sentido aceitar um custo de inferência 100 ou 1000 vezes maior em troca de reduzir o custo de treinamento em 10 vezes
Charlie Steiner já tinha apontado isso no Less Wrong há 5 anos
Se você treinar o GPT-3 com um conjunto de livros-texto de medicina e pedir que ele diga uma cura para Alzheimer, ele não vai dizer uma cura; vai dizer o que humanos disseram sobre o tratamento de Alzheimer
A ideia é que ele se torna menos um oráculo lógico e mais um oráculo intuitivo que conta histórias plausíveis com base em associações nos dados de treinamento
O fato de a cura do Alzheimer ser difícil significa que há algo ausente nesse projeto, e esse algo é busca. Isso não quer dizer que seja impossível uma rede neural produzir diretamente uma cura, mas parece exigir que já exista dentro do modelo treinado uma dimensão de “cura para Alzheimer”
Se ainda não sabemos a cura, o método realista é passar por várias etapas lógicas, mover-se lentamente pelo espaço lógico e ir estreitando as possibilidades até finalmente encontrar algo que satisfaça as condições. Ou seja, resolver um problema de busca
Se uma IA consegue dizer uma cura para Alzheimer, é bem provável que ela esteja buscando explicitamente a cura ou que seus estados internos estejam realizando uma busca implicitamente
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Fico pensando se daria para generalizar isso sem limitar ao GPT, dizendo algo assim
  “Se você treinar uma máquina lógica com um conjunto de livros-texto de medicina e pedir que ela diga uma cura para Alzheimer, ela não dirá a cura, mas o que aqueles livros disseram sobre o tratamento de Alzheimer”
  Provavelmente não. O GPT parece em geral limitado a repetir e recombinar o que leu, mas outro algoritmo com lógica melhor poderia, na prática, fazer metapesquisa. Ou seja, poderia pegar todos os resultados de experimentos sobre Alzheimer até agora e reduzir o espaço de soluções a algo mais estreito do que os humanos conseguiram alcançar
  Humanos talvez não consigam manter todos os resultados relevantes ao mesmo tempo, mas computadores talvez consigam
  Quando se pede ao GPT para “pensar passo a passo”, o desempenho melhora, então ele claramente tem alguma forma do raciocínio necessário. Ele também executa bem pedidos do tipo “aqui estão dados, transforme-os”
  O limite está na qualidade do raciocínio e no tamanho da janela capaz de executar essa transformação. Ainda assim, os dados memorizados durante o treinamento podem ser muito maiores que a janela de tokens de entrada, então isso pode ser uma forma parcial de contornar o problema
  Se ele tiver as duas capacidades, é difícil dizer que escalar seja impossível. Não sei se dá para descartar a possibilidade de uma evolução do GPT encontrar uma cura para Alzheimer dentro dos dados existentes; e, se o sistema for mais adequado a essa tarefa, talvez nem seja necessária uma AGI
  Claro, os componentes necessários para a solução precisam estar nos dados. Mas a citação parece descartar a própria possibilidade de identificar a cura mesmo que todos os dados contenham todas as informações necessárias e só falte a solução finalizada
Busca é quase certamente necessária, e quem defende clusters de trilhões de dólares agora precisa conversar com as pessoas que criaram motores de xadrez super-humanos que hoje rodam até em smartphones
Porque alguém pode descobrir uma forma de vencer um cluster de um trilhão de dólares com um cluster de um milhão de dólares, ou com 500 mil clusters de um milhão de dólares
Minha conclusão sobre xadrez é que o fator de ramificação do xadrez não fica grande o suficiente para inviabilizar uma abordagem em largura. O fator de ramificação mediano, isto é, o número de lances legais, chega no máximo a cerca de 40 e normalmente fica perto de 30
O maior número de lances que já vi em uma posição de partida real foi 147, mas naquele ponto quase todos os lances eram xeque-mate
O motivo pelo qual foi difícil por tanto tempo tornar motores de Go super-humanos é que o fator de ramificação era muito maior que o do xadrez
Como MCTS é menos exaustivo, faz sentido que uma busca completa consiga encontrar e explorar suas fraquezas. A questão é se uma abordagem em largura pode ser aplicada a jogos e situações maiores, e acho que a resposta é claramente não
O fator de ramificação das situações do mundo real é vários ordens de grandeza maior que o do xadrez
Por outro lado, diferentemente do xadrez, no mundo real a maioria das pequenas decisões não importa muito. Ao ir de Nova York a LA, é muito importante decidir se você vai dirigir, voar ou caminhar. Mas, ao sair pela porta, se você dá o primeiro passo com o pé esquerdo ou com o direito, ou se pisca agora ou daqui a 2 segundos, em geral não faz muita diferença
- Acho que o fator de ramificação de um LLM, considerando o número de próximos tokens possíveis, fica por volta de 50 mil
O texto parece bastante intangível e confiante demais nas previsões sobre o futuro, mas parece valer a tentativa
“Busca” é uma generalização de “gerar e testar” e de amostragem por rejeição. É IA clássica
Quando fiz uma disciplina introdutória de IA antes da era pontocom, aprendi a escrever programas de busca em Prolog
A velocidade depende do tempo para gerar um candidato, do tempo para testá-lo e de quantos candidatos é preciso tentar. Se esses fatores forem lentos, o todo também será
Um exemplo de amostragem por rejeição com humanos no loop é usar um gerador de imagens e continuar tentando prompts diferentes até sair uma imagem de que você goste. Mas gerar uma nova imagem demora, então o loop é lento
Se a geração de imagens funcionasse tão rápido quanto a busca de imagens do Google, poderia se tornar algo realmente significativo
Prova de teoremas e fuzzing de programas parecem bons casos para combinar LLMs com busca, porque são automatizados, rápidos e têm boas funções de avaliação
Parece que o Google lançou um fuzzer [1] que pode ser conectado ao LLM que você quiser; fico curioso se alguém já usou
[1] https://github.com/google/oss-fuzz-gen
- Em áreas como prova de teoremas ou planejamento, os procedimentos de busca e as “funções de avaliação” conhecidos já estão teoricamente perto dos limites ótimos
  Portanto, o necessário não é uma nova avaliação nem um novo procedimento de busca, mas nova matemática que garanta que há motivo para tentar em primeiro lugar
  Tomando prova de teoremas como exemplo, SLD-Resolution é um procedimento automático de prova de teoremas sólido e completo para raciocínio indutivo. Uma implementação eficiente em espaço pode usar busca em profundidade, mas pode entrar em loop com recursão à esquerda; uma implementação eficiente em tempo pode usar busca em largura com memoização, mas a complexidade espacial cresce exponencialmente
  Aqui não se aplica uma “função de avaliação”. A própria Resolution é uma espécie de função que avalia a verdade, ou a certeza do valor de verdade, de sentenças de lógica formal
  E ela é sólida, completa e semidecidível para lógicas bem definidas. Enquanto não se violar Church-Turing, isso é o melhor possível
  É possível melhorar a eficiência com busca heurística. Por exemplo, houve tentativas nesse sentido para evitar a NP-dificuldade das relações de inclusão, uma parte importante da SLD-Resolution na prática, e aí entra uma função de custo heurística em sentido mais amplo
  Mas há dois problemas. a) usar busca heurística significa sacrificar a completude, e b) em planejamento já existem métodos bastante sólidos para derivar funções heurísticas relaxando o problema de planejamento
  A lição é escolher apenas dois entre solidez, completude e eficiência. Abordagens estatísticas de machine learning, como LLMs, só conseguem escolher dois diferentes dos das técnicas existentes
  Basicamente, chegamos ao ponto em que, no limite geral de desempenho da IA baseada em busca, só há ganhos marginais a obter. E ficaremos aí até que alguém apresente uma matemática melhor
- Terence Tao, matemático famoso e forte defensor da prova de teoremas assistida por computador, acredita que o machine learning abrirá novos caminhos no domínio dos provadores de teoremas
Acho que entendo o espaço de jogo que Leela e o Stockfish atual exploram. Mas não sei que espaço de possibilidades o autor imagina que um LLM explore
Não fica claro se seriam 1) as palavras escritas, 2) modelos de matemática, aprendizado por reforço e ciência de materiais, 3) espaços menores e formalizados como o espaço de jogo do xadrez, tudo isso, ou outra coisa. Talvez ele tenha esclarecido em algum lugar e eu tenha deixado passar
- Parece que ele quer que o próprio algoritmo de busca faça uma busca por algoritmos de busca melhores. Ou seja, autoaperfeiçoamento. Nesse caso, algumas restrições de domínio mais estreitas poderiam desaparecer
Antes de um LLM descobrir a cura do câncer, sugiro fazê-lo descobrir primeiro um problema mais tratável: o “cheesecake de Deus”
Um cheesecake tão delicioso que 100 chefs imparciais o julgariam o mais gostoso que já provaram
O LLM só precisa explorar de forma inteligente o “espaço dos cheesecakes”, muito mais limitado combinatoriamente, para encontrar a receita de cheesecake mais deliciosa possível
Mas um LLM não consegue assar um cheesecake e, mesmo que assasse, não conseguiria avaliar seu sabor
Até a IA resolver o problema do “cheesecake de Deus”, seria bom todo mundo se acalmar um pouco em relação à AGI
- Estes cookies eram muito gostosos, mas não chegavam ao nível divino. Com algum investimento e técnicas mais modernas, acho que seria possível criar uma receita bem boa, talvez até melhor do que qualquer humano
  Acho que uma IA poderia criar uma receita capaz de vencer uma competição de confeitaria muito competitiva. Mas derrotar todos os 100 jurados é impossível para qualquer um
  https://static.googleusercontent.com/media/research.google.c...
- Fico curioso sobre como veríamos a situação se a resposta fosse “para dar uma resposta significativa, preciso de 2 semanas e 5000 dólares”
- Mesmo dentro dos limites de um LLM executado puramente em um computador, se ele conseguir escrever contos realmente excelentes ou bons textos publicitários, isso já mudaria o mundo
- O TikTok é a versão digital desse problema
- Fico pensando se há alguém que realmente ache que fazer tentativa e erro com receitas de cheesecake usando um programa auxiliado por LLM e submetê-las à avaliação de um painel de jurados não produziria o melhor cheesecake da história
  A parte de assar é robótica, então a comparação fica menos justa, mas isso já é possível em certa medida
O maior problema que o autor não percebeu é o tamanho do compute necessário para isso
Este texto é como dizer que, se dermos tempo a um macaco, ele escreverá Shakespeare. Claro que está certo, mas o espaço de busca é grande demais para ser tratável e, mesmo que a resposta esteja em algum lugar, não a encontraremos no meio desse caos
Há mais de um ano trabalho em tempo integral criando sistemas de LLM com poda e evolução
Já desenvolvi vários algoritmos de “busca” ou “exploração”. O problema é que, depois de várias etapas, um agente que originalmente recebeu a tarefa de estudar ou executar biologia acaba falando sobre navios de guerra. É um exemplo vindo de um trabalho anterior real
Uma única etapa é praticamente a única situação em que a função de busca realmente funciona. Em agentes de múltiplas etapas, as possibilidades explodem muito rapidamente para o infinito
Mesmo uma única etapa tem problemas. Por exemplo, executar 1000 vezes uma pergunta zero-shot pedindo para resolver um problema de programação pode ajudar a encontrar uma solução melhor, mas isso só é possível porque o espaço de busca é limitado. Essa limitação é algo bom
Recentemente, fiz um teste em vários modelos de LLM inferindo 10 mil vezes um único prompt de entrada, mudando apenas as configurações de entrada. Um prompt individual não tem possibilidades infinitas de resposta. Ele é limitado. É por isso que os LLMs conseguem funcionar hoje
O fato de agentes não funcionarem bem é um exemplo desse problema. O espaço de busca de uma única etapa já é enorme, mas, a cada movimento de um agente, ele cresce exponencialmente
Estou criando ferramentas e sistemas para resolver esse problema, mas busca em larga escala parece tão distante quanto dizer que “aumentar o tamanho do modelo de IA em 100 vezes resolverá tudo”
Autonomia não é o mesmo que inteligência ou raciocínio
A frase “Leela Chess Zero foi chamado de zero porque começou sabendo apenas as regras” é comum, mas está errada
Leela e sua família têm outro conhecimento específico de xadrez que é essencial para o desempenho: um modelo de mundo do jogo que representa uma partida de xadrez como uma árvore de jogo. É uma estrutura dividida em um ply a cada turno de cada jogador
Essa árvore de jogo é explorada por algoritmos de busca adversarial, como minimax ou Monte Carlo Tree Search. Pelo que entendo, Leela escolheu MCTS
Modelar um jogo com mais precisão como uma árvore de jogo se aplica não só ao xadrez, mas a muitos jogos. Porém, a árvore de jogo específica usada em engines de xadrez tem uma forma adequada a jogos de tabuleiro de informação perfeita, soma zero e dois jogadores, semelhantes ao xadrez
Outros tipos de jogos exigem outros modelos e outros algoritmos de busca. Por exemplo, veja Poker e Libratus [1]
Essas árvores de jogo, isto é, modelos de mundo do jogo, no momento não podem ser eliminadas se o objetivo for alto desempenho. O texto menciona algoritmos sem busca e toca brevemente em sua principal limitação, ou seja, o “por quê?”
Essa também é a preocupação em relação à lição amarga. Porque se escolhe, por conveniência, o que considerar conhecimento de domínio, isto é, um “modelo” como teoria
Como Rodney Brooks [2] e outros também disseram, redes neurais convolucionais dominaram a classificação de imagens graças ao uso de camadas convolucionais para estabelecer invariância à posição. Isso é um modelo de visão de máquina inventado por humanos
É o mesmo que árvores de jogo serem modelos de jogos inventados por humanos, e o mesmo vale para a maior parte do que foi feito até agora em IA e aprendizado de máquina. Humanos criam modelos do mundo, do ambiente, do domínio e do processo; computadores calculam com esses modelos e, às vezes, como no xadrez e no go, superam humanos ou pelo menos produzem resultados impossíveis de igualar com soluções feitas à mão
A lição a aprender é outra. Modelos humanos + computação por máquinas resolveram todos os problemas difíceis de IA nos últimos 80 anos. E não sabemos absolutamente nada sobre como fazer algo minimamente diferente disso
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Ainda não vi um algoritmo que crie um modelo de mundo apenas por observação. Já vi indícios, mas nada no nível humano
  Isso chegará algum dia. Vivemos tempos interessantes

Busca em IA: a lição mais amarga

A “lição mais amarga” mostrada por Leela e Stockfish

A virada do Stockfish: modelo pequeno e busca forte

Definição de busca em modelos de base e limites atuais

Escala pode não ser pré-requisito para busca

Economia da busca e possibilidade de automatizar a pesquisa em IA

Leituras relacionadas

1 comentários

Opiniões no Hacker News