Quão rápido os grandes modelos de linguagem aprendem habilidades inesperadas?
- Um novo estudo sobre as capacidades dos grandes modelos de linguagem (Large Language Models, LLMs) sugere que as chamadas "habilidades de arrancada súbita" na realidade se desenvolvem de forma gradual e previsível.
- Pesquisadores descreveram essas capacidades como um comportamento de "emergência súbita", comparando-o a uma transição de fase na física, semelhante à transformação de um líquido em gelo.
- No entanto, pesquisadores da Universidade Stanford argumentam que esse surgimento repentino dessas habilidades é apenas resultado da forma como os pesquisadores medem o desempenho dos LLMs.
Medindo o desempenho de grandes modelos de linguagem
- Grandes modelos de linguagem analisam enormes conjuntos de dados de texto para encontrar conexões entre palavras que frequentemente aparecem juntas.
- O tamanho do modelo é medido pelo número de parâmetros, e quanto mais parâmetros houver, mais conexões o LLM consegue encontrar.
- O GPT-2 tinha 1,5 bilhão de parâmetros, o GPT-3.5, 350 bilhões, e o GPT-4 usa 1,75 trilhão de parâmetros.
Desenvolvimento gradual de habilidades inesperadas
- Pesquisadores da Universidade Stanford afirmam que as capacidades dos LLMs não surgem de forma súbita e imprevisível, mas sim de maneira gradual e previsível.
- Por exemplo, em soma de números de três dígitos, GPT-3 e LaMDA falhavam em calcular corretamente quando tinham menos parâmetros, mas passaram a conseguir fazer adições quando o número de parâmetros aumentou.
- Em vez de avaliar os LLMs apenas pela exatidão, os pesquisadores usaram uma forma de medição que atribui pontuação parcial e descobriram que os LLMs gradualmente passam a prever a ordem correta dos números.
Visões de outros cientistas
- Outros cientistas apontam que este estudo não elimina completamente o conceito de "arrancada súbita".
- Ainda não está claro quais critérios de medição usar nem como prever quando o desempenho dos LLMs vai melhorar de forma acentuada.
- Alguns cientistas afirmam que os relatos anteriores de "arrancada súbita" estavam corretos e enfatizam que, em habilidades como aritmética, só a resposta certa importa.
Opinião do GN⁺
- Este estudo pode ter implicações importantes para o debate sobre a segurança da inteligência artificial e seus riscos potenciais. Se as capacidades dos LLMs se desenvolvem de forma previsível, isso pode se tornar um indicador importante para o desenvolvimento e a gestão seguros da IA.
- Quando os resultados da pesquisa forem aplicados ao desenvolvimento real de IA, os desenvolvedores precisarão reconhecer a importância da forma de medir desempenho e criar métodos de avaliação mais sofisticados.
- Este artigo pode ajudar a entender as mudanças e avanços que estão ocorrendo na linha de frente da pesquisa em IA, especialmente ao oferecer uma nova perspectiva sobre como o desempenho de modelos de IA é avaliado.
- De um ponto de vista crítico, é preciso reconhecer que os resultados não explicam toda melhora de desempenho em todos os LLMs e que, em modelos maiores e mais complexos, o fenômeno de "arrancada súbita" ainda pode ocorrer.
- Em relação a essa tecnologia, a série GPT da OpenAI já é amplamente usada no mercado, e este estudo pode inspirar o desenvolvimento de outros LLMs semelhantes ao GPT.
1 comentários
Comentários do Hacker News
Alguns problemas relacionados ao estudo
A dificuldade de prever o futuro
Mudanças nos resultados conforme o critério de medição
Título do artigo: "Are Emergent Abilities of Large Language Models a Mirage?"
Observações sobre mudanças bruscas de capacidade
Abordagem de pontuação parcial e treinamento do modelo
Surgimento gradual das capacidades
Limitações dos Large Language Models (LLMs)
Confusão em torno dos critérios de medição