1 pontos por GN⁺ 2024-03-26 | 1 comentários | Compartilhar no WhatsApp

Quão rápido os grandes modelos de linguagem aprendem habilidades inesperadas?

  • Um novo estudo sobre as capacidades dos grandes modelos de linguagem (Large Language Models, LLMs) sugere que as chamadas "habilidades de arrancada súbita" na realidade se desenvolvem de forma gradual e previsível.
  • Pesquisadores descreveram essas capacidades como um comportamento de "emergência súbita", comparando-o a uma transição de fase na física, semelhante à transformação de um líquido em gelo.
  • No entanto, pesquisadores da Universidade Stanford argumentam que esse surgimento repentino dessas habilidades é apenas resultado da forma como os pesquisadores medem o desempenho dos LLMs.

Medindo o desempenho de grandes modelos de linguagem

  • Grandes modelos de linguagem analisam enormes conjuntos de dados de texto para encontrar conexões entre palavras que frequentemente aparecem juntas.
  • O tamanho do modelo é medido pelo número de parâmetros, e quanto mais parâmetros houver, mais conexões o LLM consegue encontrar.
  • O GPT-2 tinha 1,5 bilhão de parâmetros, o GPT-3.5, 350 bilhões, e o GPT-4 usa 1,75 trilhão de parâmetros.

Desenvolvimento gradual de habilidades inesperadas

  • Pesquisadores da Universidade Stanford afirmam que as capacidades dos LLMs não surgem de forma súbita e imprevisível, mas sim de maneira gradual e previsível.
  • Por exemplo, em soma de números de três dígitos, GPT-3 e LaMDA falhavam em calcular corretamente quando tinham menos parâmetros, mas passaram a conseguir fazer adições quando o número de parâmetros aumentou.
  • Em vez de avaliar os LLMs apenas pela exatidão, os pesquisadores usaram uma forma de medição que atribui pontuação parcial e descobriram que os LLMs gradualmente passam a prever a ordem correta dos números.

Visões de outros cientistas

  • Outros cientistas apontam que este estudo não elimina completamente o conceito de "arrancada súbita".
  • Ainda não está claro quais critérios de medição usar nem como prever quando o desempenho dos LLMs vai melhorar de forma acentuada.
  • Alguns cientistas afirmam que os relatos anteriores de "arrancada súbita" estavam corretos e enfatizam que, em habilidades como aritmética, só a resposta certa importa.

Opinião do GN⁺

  • Este estudo pode ter implicações importantes para o debate sobre a segurança da inteligência artificial e seus riscos potenciais. Se as capacidades dos LLMs se desenvolvem de forma previsível, isso pode se tornar um indicador importante para o desenvolvimento e a gestão seguros da IA.
  • Quando os resultados da pesquisa forem aplicados ao desenvolvimento real de IA, os desenvolvedores precisarão reconhecer a importância da forma de medir desempenho e criar métodos de avaliação mais sofisticados.
  • Este artigo pode ajudar a entender as mudanças e avanços que estão ocorrendo na linha de frente da pesquisa em IA, especialmente ao oferecer uma nova perspectiva sobre como o desempenho de modelos de IA é avaliado.
  • De um ponto de vista crítico, é preciso reconhecer que os resultados não explicam toda melhora de desempenho em todos os LLMs e que, em modelos maiores e mais complexos, o fenômeno de "arrancada súbita" ainda pode ocorrer.
  • Em relação a essa tecnologia, a série GPT da OpenAI já é amplamente usada no mercado, e este estudo pode inspirar o desenvolvimento de outros LLMs semelhantes ao GPT.

1 comentários

 
GN⁺ 2024-03-26
Comentários do Hacker News
  • Alguns problemas relacionados ao estudo

    • O método de avaliação usado no estudo pode não refletir adequadamente a capacidade técnica.
    • Apesar dos critérios de medição dos autores, algumas capacidades potenciais aparecem.
    • É fácil prever resultados com base em dados passados, mas o fenômeno importante é que, na prática, surgiram resultados inesperados.
    • Este artigo tem valor, mas suas conclusões não devem ser extrapoladas em excesso.
  • A dificuldade de prever o futuro

    • Prever o futuro só fica fácil depois que ele já aconteceu.
    • Capacidades de nível mais alto dependem de várias subcapacidades e são difíceis de prever.
    • Para prever, seria preciso identificar antecipadamente os elementos básicos necessários e simular a que nível eles precisam chegar.
    • O tipo e a qualidade dos dados também importam, e pode haver mudanças bruscas entre versões do modelo.
  • Mudanças nos resultados conforme o critério de medição

    • Se forem usados outros critérios de medição, o fenômeno observado pode desaparecer.
    • Se observarmos moléculas de água individualmente, em vez de um bloco de gelo surgindo de repente, veremos uma formação gradual da estrutura cristalina.
  • Título do artigo: "Are Emergent Abilities of Large Language Models a Mirage?"

  • Observações sobre mudanças bruscas de capacidade

    • Outros estudos também encontraram saltos bruscos nas capacidades.
    • O modelo pode estar ficando mais inteligente de forma gradual, e esse progresso pode passar despercebido por métricas que não atribuem pontuação a respostas parciais.
  • Abordagem de pontuação parcial e treinamento do modelo

    • Dar pontuação parcial é bom, mas o treinamento para obter a resposta correta é importante.
    • Quanto maior o modelo, mais fácil é alcançar a convergência.
    • À medida que o tamanho do modelo aumenta, pode parecer que certas capacidades surgem de repente.
  • Surgimento gradual das capacidades

    • O aparecimento de capacidades não exige saltos bruscos nem imprevisibilidade.
    • Novas capacidades podem surgir gradualmente.
  • Limitações dos Large Language Models (LLMs)

    • LLMs são motores de avaliação de possibilidades.
    • Apenas ampliar a escala dos LLMs não produzirá Artificial General Intelligence (AGI).
  • Confusão em torno dos critérios de medição

    • O método de medição com edit distance pode não ser adequado.
    • Parece uma forma estranha de testar se o modelo entende aritmética.
    • Pode ser melhor considerar a diferença entre o valor real e o valor esperado.
    • Link do artigo: arXiv:2206.07682