As capacidades “emergentes” dos LLMs podem ser graduais e previsíveis

(quantamagazine.org)

1 pontos por GN⁺ 2024-03-26 | 1 comentários | Compartilhar no WhatsApp

Pesquisadores de Stanford avaliam que algumas capacidades emergentes dos LLMs talvez não tenham surgido de repente, mas possam ter parecido um salto abrupto por causa da forma de medição usada para avaliar o desempenho
O BIG-bench avalia LLMs com 204 tarefas e observou, em algumas delas, uma melhora descontínua em que o desempenho ficava perto de zero e depois disparava após certo tamanho
Uma métrica de acurácia que considera apenas certo/errado, como em somas de três dígitos, trata respostas parcialmente corretas como falhas e pode ocultar o processo real de melhoria
Ao usar pontuações parciais por dígito, aparece uma melhora gradual em que mais números são acertados à medida que os parâmetros aumentam, enfraquecendo a interpretação de emergência na adição
Ainda restam questões sobre como prever quais métricas mostrarão melhorias abruptas e como avaliar tarefas em que a resposta correta de fato importa, o que exige uma ciência preditiva para a próxima geração de modelos

O salto repentino de desempenho visto pelo BIG-bench

O Beyond the Imitation Game benchmark, ou BIG-bench, avalia as capacidades de grandes modelos de linguagem com 204 tarefas criadas por 450 pesquisadores
Em muitas tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos cresciam, mas em algumas o desempenho, que por um tempo ficou quase em zero, subiu de repente
O artigo de agosto de 2022 considerou esse comportamento surpreendente e difícil de prever, e defendeu que ele deveria ser levado em conta nas discussões sobre segurança, potencial e riscos da IA
Essa capacidade passou a ser chamada de emergência (emergence), termo que se refere a comportamentos coletivos que aparecem apenas quando um sistema atinge alta complexidade

A contestação de Stanford: pode ser uma ilusão criada pela métrica, não pelo modelo

Sanmi Koyejo, Rylan Schaeffer e Brando Miranda, da Stanford University, contestam em um novo artigo que o surgimento repentino de capacidades possa decorrer da forma como o desempenho dos LLMs é medido
O ponto central é que a capacidade não surge de forma imprevisível; dependendo da métrica de medição, uma melhora suave e previsível pode parecer um salto abrupto
Os pesquisadores reconhecem o fato de que LLMs se tornam mais eficazes à medida que aumentam de escala
Porém, se a curva de melhoria parecerá suave ou irregular e abrupta pode depender não só do funcionamento interno do modelo, mas também da escolha da métrica ou da falta de exemplos de teste

Tamanho dos modelos e objeto de avaliação

LLMs são treinados analisando enormes conjuntos de dados de texto de fontes online, como livros, buscas na web e Wikipedia, para encontrar conexões entre palavras que aparecem juntas com frequência
O tamanho do modelo é medido pelo número de parâmetros, que correspondem aproximadamente às maneiras pelas quais as palavras podem se conectar
Os principais tamanhos de modelos são os seguintes
- GPT-2: 1,5 bilhão de parâmetros
- GPT-3.5: 350 bilhões de parâmetros
- GPT-4: lançado em março de 2023, base do Microsoft Copilot, é conhecido por usar 1,75 trilhão de parâmetros
O fato de LLMs grandes conseguirem executar tarefas que modelos menores não conseguem não é o ponto central da controvérsia
Os pesquisadores de Stanford também reconhecem que a complexidade adicional de modelos maiores pode melhorar o desempenho em problemas mais difíceis e variados

O limite da métrica de acurácia revelado pela soma de três dígitos

No estudo BIG-bench de 2022, GPT-3 e LAMDA foram avaliados como incapazes de resolver corretamente problemas de adição quando tinham poucos parâmetros
O GPT-3 pareceu de repente conseguir fazer adições quando treinado com 13 bilhões de parâmetros, e o LAMDA mostrou uma mudança semelhante com 68 bilhões de parâmetros
Esse resultado levou à interpretação de que a capacidade de adição emerge em um determinado limiar
Os pesquisadores de Stanford apontam que essa avaliação considerava apenas a acurácia, portanto qualquer resposta que não estivesse totalmente correta era tratada como falha
- Por exemplo, se para 100+278 a resposta fosse 376, ela estaria muito mais perto da resposta real do que −9,34, mas na métrica de certo/errado ambas são falhas
Os pesquisadores usaram uma métrica de pontuação parcial que observa quão bem o primeiro, o segundo e o terceiro dígitos foram previstos separadamente
Nessa métrica, à medida que os parâmetros aumentam, os LLMs passam a prever a sequência de dígitos do resultado da adição cada vez com mais precisão
Assim, a capacidade de adição pode ser interpretada não como um salto repentino e imprevisível, mas como uma melhora gradual e previsível

O debate que ainda permanece

Tianshi Li, da Northeastern University, avalia que o artigo de Stanford não chega a explicar como prever quais métricas mostrarão melhorias abruptas dos LLMs e quando isso ocorrerá
Nesse ponto, ainda há espaço para considerar que algumas capacidades permanecem imprevisíveis
Jason Wei, da OpenAI, argumenta que, em capacidades como aritmética, nas quais a resposta correta é importante, a resposta exata em si importa, portanto os relatos anteriores de emergência também são válidos
Alex Tamkin, da Anthropic, avalia que o novo artigo levou a decompor tarefas de múltiplas etapas em partes menores e a reconhecer a contribuição de cada componente
Ao mesmo tempo, Tamkin considera que não é possível dizer que todos os saltos sejam ilusões, e que há literatura mostrando descontinuidades mesmo usando previsão de etapa única ou métricas contínuas

O desafio de prever modelos maiores

Xia “Ben” Hu, da Rice University, avalia que, mesmo que a emergência nos LLMs atuais possa ser explicada por outras ferramentas de medição, a mesma explicação pode não se aplicar a LLMs futuros, maiores e mais complexos
Hu afirma que, quando LLMs crescerem para o próximo nível, eles vão tomar conhecimento emprestado de outras tarefas e outros modelos
Para Tamkin, a discussão sobre emergência está diretamente ligada ao esforço de prever como os LLMs vão se comportar
Como a tecnologia de LLMs tem amplo escopo de aplicação, torna-se importante criar uma ciência preditiva para não sermos surpreendidos pela próxima geração de modelos

1 comentários

GN⁺ 2024-03-26

Opiniões no Hacker News

Há alguns problemas com este estudo: 1) trocar uma métrica de acerto no estilo aprovado/reprovado por um indicador mais suave, como distância de edição de tokens, pode ser uma péssima proxy de competência, dependendo da tarefa
2) mesmo pelos indicadores dos autores, ainda foram encontradas algumas capacidades potencialmente emergentes
3) depois que passa, tudo parece fácil. Dá para voltar aos dados e mexer neles até encontrar uma transformação em que a emergência desapareça, mas, na época, usaram métricas comuns de acurácia em testes, e o fato de os resultados terem sido imprevisíveis e surpreendentes é o fenômeno realmente digno de nota
O artigo tem valor, mas não se deve levar suas conclusões longe demais
- Como também aparece mais adiante no texto, em adição, “quase certo” não significa muita coisa. Ou está certo, ou está errado
  Ainda assim, mesmo depois de mudar a forma de avaliação, algumas capacidades emergentes permaneceram, então vejo o esforço com bons olhos
Acho que “a emergência desaparece quando se usa outra régua” não se aplica também à maior parte dos comportamentos emergentes?
Se mudarmos a escala e olharmos para cada molécula de água, veremos as moléculas se ligando uma a uma à estrutura cristalina, e não um bloco de gelo surgindo de repente
- Não necessariamente. O problema é que a definição em aprendizado de máquina é particularmente frouxa
  Escrevi mais detalhes aqui[0]. O que você descreveu explica emergência, mas é diferente do que foi alegado quando se disse que LLMs têm capacidades emergentes. Essa distinção também é explicada no texto
  [0] https://news.ycombinator.com/item?id=39812315
- Mas conhecer a estrutura molecular a 50 °C e a 75 °C diz muito pouco sobre o ponto de congelamento
  Como outro exemplo, se você mede o número de casos de infecção de um vírus, ele pode se espalhar pelo mundo (R0 > 1, por exemplo, COVID-19) ou não conseguir se disseminar amplamente (R0 < 1, por exemplo, Ebola). Mesmo que não seja totalmente binário, na aparência parece binário, então é um comportamento emergente
  Por outro lado, se você mede R0 diretamente, vê um aumento gradual e consegue prever com muito mais facilidade variantes futuras, eficácia de vacinas etc.
  Vejo “emergente” como algo que aponta, por exemplo, para uma sigmoide, e “gradual” para uma função linear ou logarítmica
- Ninguém confunde gelo com uma emergência súbita. Mesmo a olho nu, é claro que é algo que se forma gradualmente
Artigo: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Depois que o futuro chega, é sempre mais fácil prevê-lo
Na prática, pode haver propriedades emergentes como transições de fase, que são difíceis de prever mesmo em retrospecto, mas acho que isso não é comum. Também me pergunto se existe sequer um caso convincente em LLMs
Acho que o caso mais geral é o de uma capacidade de nível superior depender de várias capacidades de nível inferior, e essa relação ser difícil de prever. Pode ter havido uma melhora suave nos componentes, mas é preciso saber para onde olhar, ou seja, quais são os componentes-chave
Para prever uma capacidade emergente, seria preciso identificar antecipadamente os componentes necessários e também simular, em alguma medida, em que nível cada elemento precisa estar para sustentar o comportamento esperado
Claro que não é só uma questão de tamanho do modelo ou escala dos dados; o tipo e a qualidade dos dados também importam, e pode haver mudanças bruscas entre versões do modelo. É muito difícil analisar de antemão quais novos padrões ou manipulações — isto é, capacidades componentes — o modelo aprenderá em um conjunto de treinamento atualizado
Também fico curioso sobre com que frequência ocorre o sentido inverso: casos em que os projetistas do modelo identificaram com sucesso algo como “para fazer X, são necessárias as capacidades A, B e C; para obter A, B e C, são necessários os novos datasets P e Q”. Nessa situação hipotética, teria sido possível medir o progresso rumo à capacidade X
- Até onde sei, antes dos Transformers isso simplesmente não acontecia. Os modelos não conseguiam conter tantas habilidades individuais sem que elas interferissem umas nas outras
  A própria existência de um modelo com várias capacidades de alta qualidade ainda é um fenômeno bastante novo
  Ainda assim, acho que essa abordagem é necessária, e é bem provável que os melhores LLMs de hoje já estejam fazendo algo parecido. Só que ninguém divulgou o que está fazendo, então é apenas especulação
“Mas, em outras tarefas, a melhora de capacidade não foi suave. O desempenho ficou por um tempo perto de zero e então disparou de repente. Outros estudos encontraram saltos semelhantes de capacidade.”
Uau, o título do envio não está bem impreciso?
- Esse parágrafo resume resultados de estudos anteriores, e este artigo é justamente uma contestação desses resultados
- Neste contexto, parece significar que essas capacidades foram pesquisadas e criadas de propósito, e não que surgiram de repente do nada
  Boa parte do mundo foi pega de surpresa pelo surgimento repentino da “IA”, mas havia pessoas que sabiam que essas coisas estavam por vir
A abordagem de dar pontuação parcial é boa, mas, se a intenção é treinar o modelo para chegar à resposta correta, então acertar ou errar importa.
Ao treinar aritmética com modelos pequenos, vi que, mesmo quando a curva de perda chegava a um estado estável, alguns números estavam certos, mas a resposta ainda estava errada. Dá para treinar mais, mas o número de épocas de treinamento necessário parece diminuir exponencialmente com o tamanho do modelo.
Assim, um modelo com x parâmetros acaba levando n² vezes mais tempo do que um modelo com 2x parâmetros.
A partir de certa quantidade de parâmetros, torna-se praticamente quase impossível obter a resposta correta por treinamento via descida de gradiente.
Quanto mais parâmetros, mais fácil empurrar o modelo para a convergência, e isso é de fato uma métrica importante.
A partir de certo ponto, o tempo esperado para essa capacidade aparecer espontaneamente fica maior que a vida humana, ou até que a vida de toda a humanidade. No sentido de que aumentar o tamanho do modelo torna isso viável, acho válido dizer que essa capacidade emerge de forma suficientemente súbita.
- O ponto central é que, mesmo que você queira um modelo que dê a resposta correta, deve usar pontuação parcial, em vez de acurácia binária, para ver o quanto ele está distante do objetivo.
  Se você usa uma métrica em que a melhora aparece de forma repentina e imprevisível, a capacidade pode simplesmente surgir espontaneamente, e você nem consegue estimar quanto treinamento ainda falta.
  Por outro lado, se uma métrica de pontuação parcial melhora de forma suave e previsível, passa a haver a possibilidade de extrapolar o progresso do treinamento para estimar quando a acurácia-alvo será atingida, em vez de extrapolar diretamente a própria acurácia.
  Se o tempo esperado for longo demais e você decidir treinar um modelo maior, também dá para tentar estimar, por extrapolação entre tamanhos de modelo, quão grande o modelo precisaria ser.
- O treinamento de modelos parece otimizado demais para continuidade. Por exemplo, variáveis contínuas podem ser subdivididas infinitamente, mas lógica e algoritmos não são algo nebuloso desse tipo; são estruturas rígidas.
  Para que um agente de aprendizagem aprenda lógica e algoritmos adequadamente, parece que ele precisa conseguir generalizar de conceitos nebulosos para conceitos rígidos. Não está claro se isso surgirá automaticamente com simples escalonamento ou se exigirá uma mudança fundamental.
- Você viu este envio? https://news.ycombinator.com/item?id=39575264
  Parece uma discussão relacionada.
É um bom artigo. Ainda assim, emergência não exige necessariamente um salto súbito na métrica nem imprevisibilidade. Uma nova capacidade também pode surgir gradualmente.
- Em aprendizado de máquina, quando se fala em “emergência”, trata-se de métricas com saltos súbitos, como explicado no artigo que introduziu o termo: https://arxiv.org/abs/2206.07682
O modelo pode estar ficando mais inteligente mesmo sem saltos descontínuos. Talvez, por medir de uma forma que não dá pontos para respostas parciais, tenham apenas deixado passar os sinais de que ele vinha ficando cada vez mais afiado.
Isso parece estar, em alguma medida, alinhado com o que parece ser a visão de Sam Altman. A OpenAI parece sentir que consegue prever muito bem a capacidade de raciocínio dos modelos apenas com a quantidade de computação de treinamento e o tamanho dos dados.
- Sam Altman é mais próximo de um vendedor; isso não é exatamente o pensamento dele, mas sim algo que ele repete a partir do pensamento de vários especialistas que trabalham na OpenAI.
Até um relógio parado está certo duas vezes por dia.
LLMs são motores de plausibilidade. A hipótese fundamental sendo testada aqui é a de que, quando a plausibilidade aumenta, a correção também aumenta.
Essa hipótese é facilmente refutada só olhando para o conteúdo escrito por humanos usado no treinamento de LLMs; portanto, todos os fenômenos que dependem dela passam a ter um teto. Logo, simplesmente aumentar LLMs não produzirá AGI.
- “LLMs são motores de plausibilidade” é uma forma de enxergar LLMs, mas isso por si só não impõe automaticamente um teto às suas capacidades.
  Também é verdade dizer que humanos são seres vivos que se reproduzem. À primeira vista, como humanos são selecionados apenas pela capacidade de reprodução, poderia parecer que não poderiam evoluir para ter inteligência, mas na prática não é assim. Mesmo uma classificação verdadeira não determina o teto das capacidades humanas.
  LLMs evoluem para preservar conhecimento da forma mais eficiente possível.
  Uma estratégia simples para preservar conhecimento é a memorização, e redes neurais certamente conseguem memorizar.
  Outra estratégia é usar algoritmos. Redes neurais também podem evoluir para preservar conhecimento por meio de algoritmos. Por exemplo, observou-se que uma pequena rede neural evoluiu uma estrutura semelhante à FFT para realizar adição. No começo ela partiu da memorização e não era perfeita, mas na fase final do treinamento mudou para um algoritmo de adição que usava FFT e passou a produzir resultados perfeitos.
  Acredito que LLMs melhores preservam conhecimento por meio de compressão sofisticada. Isso inclui criar modelos de mundo e conectar o texto de entrada a esse modelo.
  Vejo isso como um componente de uma máquina de raciocínio. É imperfeito, tem bugs e a estrutura atual pode chegar em breve ao seu limite, mas é algo completamente diferente de pura memorização.
- Você está assumindo que humanos buscam de forma estável a correção, e não a plausibilidade.
  O fato de todo o sistema científico ser projetado para reprimir afirmações que parecem plausíveis, mas são falsas, mostra justamente o contrário.
- Em sentido filosófico, isso está certo, mas, na prática, a IA está no caminho de superar humanos em muitas tarefas e profissões que antes se acreditava exigirem inteligência.
- A conclusão de que “todos os fenômenos que dependem disso passam a ter um teto” é plausível, mas é facilmente derrubada por contraexemplos. Um bom aluno pode superar o mestre, e mesmo um aluno mediano, ao aprender com vários mestres, pode superar todos eles.
  Como observação lateral, é por isso que acho que o sistema medieval de mestre-aprendiz era muito eficiente.
  De forma mais abstrata, essa conclusão parece pressupor que aprendizado por transferência não existe.
As métricas usadas pelos autores me confundem.
Distância de edição parece uma forma estranha de testar se o modelo entende aritmética ([1], Figura 3). 1+3=3 provavelmente seria tratado como tão correto quanto 1+1=9.
Fico curioso por que eles não olham para o quanto a saída do modelo se desvia do valor real usando abs(actual-expected). Também fico curioso se haveria um ponto de inflexão nessa métrica.
https://arxiv.org/abs/2206.07682
- Depende de como a aritmética é feita. Se uma pessoa faz conta armada, 12345+35791=58136 é um erro tão grande quanto 48146. O resultado real é 48136, e em ambos os casos apenas uma coluna de dígitos está errada. Um meio-somador binário funciona da mesma maneira.
  Não sabemos como LLMs fazem aritmética. A distância de edição de tokens pode ser interessante, mas, de todo modo, isso não muda muito a tese do artigo.
  Separadamente, o link está errado. O artigo de que você está falando é este: https://arxiv.org/pdf/2304.15004.pdf

As capacidades “emergentes” dos LLMs podem ser graduais e previsíveis

O salto repentino de desempenho visto pelo BIG-bench

A contestação de Stanford: pode ser uma ilusão criada pela métrica, não pelo modelo

Tamanho dos modelos e objeto de avaliação

O limite da métrica de acurácia revelado pela soma de três dígitos

O debate que ainda permanece

O desafio de prever modelos maiores

Leituras relacionadas

1 comentários

Opiniões no Hacker News