1º aniversário do lançamento do ChatGPT: a corrida dos grandes modelos de linguagem de código aberto
- Lançado no fim de 2022, o ChatGPT trouxe grandes mudanças para todo o campo da IA.
- Ao ajustar grandes modelos de linguagem (LLMs) com aprendizado supervisionado e aprendizado por reforço a partir de feedback humano, ele demonstrou a capacidade de responder a perguntas humanas e seguir instruções em diversas tarefas.
- Após esse sucesso, o interesse por LLMs aumentou tanto na academia quanto na indústria, muitas startups passaram a focar em LLMs, e os LLMs de código aberto evoluíram rapidamente, com alegações de desempenho equivalente ou superior ao do ChatGPT em tarefas específicas.
Impacto na pesquisa e nos negócios
- Embora os LLMs de código fechado (por exemplo, GPT da OpenAI e Claude da Anthropic) geralmente apresentem desempenho superior ao dos modelos de código aberto, há alegações de que o avanço dos LLMs de código aberto é rápido e que eles já alcançaram desempenho equivalente ou até melhor em algumas tarefas.
- Esse avanço tem implicações importantes não apenas para a pesquisa, mas também para os negócios.
Opinião do GN⁺
- No 1º aniversário do lançamento do ChatGPT, é importante notar que os grandes modelos de linguagem de código aberto estão evoluindo rapidamente e, em tarefas específicas, apresentam desempenho semelhante ou até melhor que o ChatGPT.
- Isso tem impacto significativo tanto na pesquisa quanto nos negócios e pode contribuir para promover a democratização e a inovação da tecnologia de IA.
- Este texto oferece conteúdo interessante para quem se interessa pelo avanço da tecnologia de IA e por seus impactos na sociedade.
1 comentários
Opinião do Hacker News
Modelos grandes e poderosos divulgados nos últimos dias:
Demonstração das capacidades de um llama2 de 1,3 bilhão de parâmetros ajustado com qlora:
Parece que vai se tornar necessário colocar um roteador de prompts na frente de vários modelos especializados (código, chat, matemática, SQL, saúde etc.):
Atualmente, os modelos em torno de 70B estão em nível equivalente ao ChatGPT 3.5, e modelos menores podem parecer semelhantes no início, mas alucinam com taxa maior e têm menos conhecimento sobre o mundo
O GPT 4 "entende" em um nível mais profundo, e os modelos open source ainda não se comparam
A tecnologia open source tem recursos de controle de saída que a OpenAI não implementa (por exemplo, gramática do llama.cpp ou ControlNet), então nesse aspecto o open source está à frente da OpenAI
Compartilhamento de experiência usando o modelo DeepSeek 67B:
Mistral OpenOrca é quase equivalente ao GPT4-turbo em escrita criativa/análise e tende a produzir textos parecidos
No longo prazo, é quase inevitável que os LLMs open source alcancem os fechados, e a comunidade open source, mesmo com recursos muito mais limitados, acelerou bastante o desenvolvimento de modelos com menos de 30B parâmetros
Pela experiência pessoal, os LLMs open source ainda não chegaram à qualidade do GPT 3.5, mas já são úteis hoje e podem rodar em máquinas locais
Usa o plugin gen.nvim do Neovim para tarefas simples e economiza muito tempo
Expressa expectativa em relação ao futuro
Está convencido de que os modelos open source estão alcançando os fechados, já que o GPT4 tem regredido continuamente ao longo do último mês