O que aprendi sobre LLMs em 2024

(simonwillison.net)

22 pontos por GN⁺ 2025-01-01 | 1 comentários | Compartilhar no WhatsApp

Resumo de Simon Willison sobre todas as mudanças relacionadas a LLM em 2024

Superando completamente os limites do GPT-4
Alguns modelos de nível GPT-4 rodam no meu notebook
Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência
A expansão da visão multimodal, com áudio e vídeo surgindo com força
Voz e modo de câmera ao vivo, ficção científica tornando-se realidade
Geração de apps baseada em prompts, uma tecnologia que já virou rotina
Acesso gratuito aos melhores modelos, encerrado em poucos meses
"Agentes", um conceito que ainda não se concretizou
A importância das avaliações (Evals)
Apple Intelligence decepciona, mas a biblioteca MLX é excelente
Escalonamento de raciocínio e a ascensão dos modelos de "Reasoning"
O melhor LLM do momento foi treinado na China por menos de US$ 6 milhões?
Melhora no impacto ambiental
O impacto ambiental ficou ainda pior
2024, o ano do "Slop"
Os efeitos surpreendentes dos dados sintéticos de treinamento
2024 foi um ano em que usar LLM ficou mais difícil
A distribuição desigual do conhecimento
Precisamos de críticas melhores aos LLMs

# Superando completamente os limites do GPT-4

Situação em 2023: o GPT-4 era considerado o melhor modelo de linguagem, e outros laboratórios de IA não conseguiam superá-lo. Os segredos técnicos da OpenAI chamavam muita atenção.
Mudança em 2024: 18 organizações anunciaram modelos que superam o GPT-4. No momento, há 70 modelos no ranking do Chatbot Arena acima do GPT-4-0314, lançado em março de 2023.
Principais modelos e avanços técnicos
- Google Gemini 1.5 Pro: lançado em fevereiro de 2024
  - Ofereceu saída em nível GPT-4 e novos recursos
  - Suporte a contexto de entrada de 1 milhão de tokens, depois ampliado para 2 milhões
  - Introduziu entrada de vídeo
  - Capaz de resolver problemas de programação e analisar livros inteiros com entradas longas
  - Foi tratado como um anúncio importante na keynote do Google I/O 2024
- Série Anthropic Claude 3:
  - Claude 3 Opus: lançado em março de 2024, chamou atenção pelo alto desempenho
  - Claude 3.5 Sonnet: lançado em junho, com versão atualizada anunciada em 22 de outubro
  - Mesmo após a atualização, o número da versão continuou 3.5, e os fãs passaram a chamá-lo de Claude 3.6
Expansão do tamanho de contexto
- 2023: a maioria dos modelos suportava de 4.096 a 8.192 tokens. O Claude 2.1 era uma exceção com 200 mil tokens
- 2024: os principais modelos passaram a suportar mais de 100 mil tokens, e a série Google Gemini chega a até 2 milhões
- Isso permite resolver diversos problemas processando grandes volumes de entrada
- É vantajoso para analisar livros inteiros ou resolver problemas com base em código de exemplo
Modelos e organizações que superaram o GPT-4
- Segundo o ranking do Chatbot Arena, as organizações com modelos de desempenho superior ao GPT-4-0314 incluem:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI e outras 18 organizações
- No ranking, o GPT-4-0314 está atualmente na faixa da 70ª posição

# Alguns modelos de nível GPT-4 rodam no meu notebook

Equipamento usado: um M2 MacBook Pro com 64 GB de RAM lançado em 2023. Um equipamento com cerca de dois anos, o mesmo notebook no qual ele rodou LLM pela primeira vez em março de 2023.
Mudança de desempenho: no início, mal conseguia rodar modelos no nível do GPT-3, mas agora já consegue rodar modelos de nível GPT-4.
- Qwen2.5-Coder-32B: modelo especializado em programação lançado em novembro de 2024, sob licença Apache 2.0.
- Meta Llama 3.3 70B: modelo de nível GPT-4 lançado em dezembro de 2024.
Importância: é surpreendente que modelos de nível GPT-4 possam rodar em um notebook, e não apenas em servidores de datacenter com GPUs de mais de US$ 40 mil.
- Como usa quase toda a RAM de 64 GB, fica difícil fazer outras tarefas ao mesmo tempo.
- Isso foi possível graças a melhorias na eficiência dos modelos. Ao que tudo indica, é resultado das otimizações do último ano.
- Ainda se espera que haja bastante espaço para melhorar ainda mais essa eficiência.
Modelos Meta Llama 3.2: não são de nível GPT-4, mas os modelos de 1B e 3B apresentam ótimo desempenho apesar do tamanho pequeno.
- Llama 3.2 3B: pode ser executado com o app gratuito MLC Chat para iOS.
- Com menos de 2 GB, roda em iPhone e gera 20 tokens por segundo.
- Exemplo: ao pedir um "enredo de filme de Natal da Netflix em que uma jornalista de dados se apaixona por um ceramista local", ele gera uma resposta simples, mas adequada.
  - Título: "Love in the Clay"
  - Enredo: a história acompanha Jessica voltando para sua cidade natal, Willow Creek, para investigar a história local e os impactos da gentrificação.
- O resultado é comum, mas ainda assim é interessante que algo assim seja possível até mesmo em um iPhone.

# Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência

Preços no fim de 2023: os principais modelos da OpenAI tinham os seguintes preços.
- GPT-4: US$ 30/milhão de tokens de entrada
- GPT-4 Turbo: US$ 10/mTok
- GPT-3.5 Turbo: US$ 1/mTok
Mudanças de preço em 2024:
- OpenAI o1: US$ 30/mTok, o modelo mais caro
- GPT-4o: US$ 2,50/mTok (12 vezes mais barato que o GPT-4)
- GPT-4o Mini: US$ 0,15/mTok (cerca de 7 vezes mais barato que o GPT-3.5 e com desempenho melhor)
- Anthropic Claude 3 Haiku: US$ 0,25/mTok (lançado em março, o modelo mais barato da Anthropic)
- Google Gemini 1.5 Flash: US$ 0,075/mTok
- Google Gemini 1.5 Flash 8B: US$ 0,0375/mTok (27 vezes mais barato que o GPT-3.5 Turbo)
Fatores da queda de preços:
- Aumento da concorrência: muitos fornecedores de modelos entraram no mercado, intensificando a disputa por preços.
- Melhora de eficiência: a otimização no treinamento e na inferência reduziu o consumo de energia.
  - Isso diminuiu a preocupação com o custo energético de executar prompts individuais.
Eficiência e custo ambiental:
- O aumento da eficiência energética reduziu as preocupações ambientais.
- Mas o impacto ambiental da construção de datacenters continua sendo um problema.
Cálculo de custo em uso real:
- Cálculo do custo para gerar descrições para uma biblioteca pessoal de fotos com 68.000 imagens usando o Google Gemini 1.5 Flash 8B.
  - São necessários 260 tokens de entrada e 100 tokens de saída por foto.
  - Total de 17.680.000 tokens de entrada * US$ 0,0375/milhão = US$ 0,66
  - Total de 6.800.000 tokens de saída * US$ 0,15/milhão = US$ 1,02
  - Custo total: é possível processar 68.000 fotos por US$ 1,68.
Exemplo de descrição:
- Foto: duas borboletas se alimentando em uma bandeja vermelha na California Academy of Sciences.
- Descrição gerada:
  - Foto de duas borboletas comendo frutas em uma bandeja vermelha.
  - Descreve em detalhe até as cores e os padrões das borboletas.
- Custo: cerca de 0,0024 centavo, menos de 1/400 de centavo.
Uma das maiores mudanças de 2024:
- A queda de preços e a redução do custo energético estão maximizando a utilidade dos LLMs.

# A expansão da visão multimodal, com áudio e vídeo surgindo com força

Principais tendências de 2024: os LLMs multimodais (capazes de processar diferentes tipos de entrada além de texto, como imagem, áudio e vídeo) se tornaram algo comum.
- Casos de 2023:
  - OpenAI GPT-4 Vision: lançado no DevDay de novembro de 2023.
  - Google Gemini 1.0: anunciado em 7 de dezembro de 2023.
- Principais lançamentos de 2024:
  - Série Anthropic Claude 3: lançada em março.
  - Google Gemini 1.5 Pro: lançado em abril (com suporte a processamento de imagem, áudio e vídeo).
  - Qwen2-VL: lançado em setembro.
  - Mistral Pixtral 12B: lançado em setembro.
  - Meta Llama 3.2: lançado em setembro (modelos de visão 11B e 90B).
  - Recursos de entrada e saída de áudio da OpenAI: adicionados em outubro.
  - Hugging Face SmolVLM: lançado em novembro.
  - Modelos de imagem e vídeo Amazon Nova: lançados em dezembro.
Ferramentas e suporte multimodal:
- Em outubro de 2024, a ferramenta de CLI para LLM que uso pessoalmente foi atualizada para oferecer suporte a modelos multimodais.
- Também foram adicionados plugins capazes de processar anexos como imagens, áudio e vídeo.
Importância dos modelos multimodais:
- As críticas de que a evolução dos LLMs desacelerou parecem ignorar os avanços dos modelos multimodais.
- Executar prompts usando imagens, áudio e vídeo é um avanço empolgante que abre novas possibilidades de uso.

# Modo de voz e câmera ao vivo, ficção científica que virou realidade

Surgimento dos primeiros modos de voz:
- Em setembro de 2023, o app móvel do ChatGPT ganhou uma função de conversa por voz.
- Ele usava os modelos Whisper (Speech-to-Text) e tts-1 (Text-to-Speech), mas o modelo em si ainda processava apenas texto.
Modo de voz do GPT-4o:
- No novo modo de voz anunciado em 13 de maio de 2024, o modelo GPT-4o passou a ser verdadeiramente multimodal, com suporte a entrada de áudio e saída de voz natural.
- A demo usou uma voz semelhante à de Scarlett Johansson, mas após a controvérsia essa voz não foi incluída no produto comercial.
- O atraso no lançamento do modo de voz gerou confusão, mas ele foi liberado gradualmente em agosto e setembro como ChatGPT Advanced Voice.
  - Experiência de uso: conversar no modo de voz durante caminhadas melhorou bastante a qualidade do conteúdo.
  - Experimentos com a API de áudio da OpenAI mostraram vários recursos de voz diferentes.
Características do modo de voz:
- O Advanced Voice permite reproduzir uma grande variedade de sotaques.
- Exemplo: pedir que ele converse em espanhol com o forte sotaque russo de um pelicano-pardo-da-Califórnia.
Modelos de voz multimodais de outras empresas:
- Google Gemini: suporta entrada de áudio e permite conversas por voz semelhantes às do ChatGPT.
- Amazon Nova: modo de voz anunciado antecipadamente (lançamento previsto para o 1º trimestre de 2025).
- Google NotebookLM (lançado em setembro de 2024): gera uma conversa entre dois “apresentadores de podcast” com base no conteúdo de entrada. Também aceita instruções personalizadas.
Surgimento do modo de vídeo ao vivo:
- Em dezembro de 2024, o modo de voz do ChatGPT ganhou um recurso de compartilhamento do feed da câmera.
- Isso permite conversar em tempo real sobre o que a câmera está mostrando.
- O Google Gemini também ofereceu um recurso semelhante em preview no mesmo período.
Acessibilidade via API:
- Tanto a OpenAI quanto o Google oferecem APIs para esses recursos.
- Em dezembro, a OpenAI anunciou a WebRTC API, simplificando o desenvolvimento de apps web baseados em voz.

# Geração de apps por prompt, uma tecnologia que já virou rotina

Possibilidades do GPT-4 em 2023:
- Já era possível usar o GPT-4 para gerar apps interativos completos em HTML, CSS e JavaScript.
- Ferramentas como React também podiam ser integradas por meio de mecanismos adicionais de build.
Chegada do Claude Artifacts em 2024:
- Um novo recurso apresentado no meio do anúncio do Anthropic Claude 3.5 Sonnet.
- Ele permite criar apps sob demanda que podem ser executados diretamente dentro da interface do Claude.
- Exemplo: uma ferramenta de extração de URLs criada com o Claude.
  - Ao inserir uma URL, a lista extraída é exibida imediatamente.
- Foi compartilhada a experiência de ter criado 14 pequenas ferramentas em uma semana com o Claude Artifacts.
Adoção de recursos semelhantes por concorrentes:
- GitHub Spark: anunciado em outubro de 2024.
- Mistral Chat Canvas: adicionado em novembro de 2024.
- Steve Krause, da Val Town: implementou edição de apps em tempo real usando modelos da Cerebras com velocidade de processamento de 2.000 tokens por segundo.
- Equipe do Chatbot Arena: em dezembro, introduziu um novo leaderboard em que dois modelos geram o mesmo app e os usuários votam.
Meus próprios projetos:
- No projeto Datasette, estou desenvolvendo formas de usar prompts para gerar widgets personalizados e visualizações de dados, além de permitir iteração sobre eles.
- Também implementei um padrão semelhante para escrever um único programa Python usando uv.
Perspectiva para 2025:
- Depois que os problemas de sandboxing do navegador forem resolvidos, é bem provável que esse recurso passe a vir embutido por padrão em diversos produtos.

# Acesso gratuito aos melhores modelos, encerrado em poucos meses

Oferta gratuita no início de 2024:
- GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro — os três melhores modelos da época — foram oferecidos gratuitamente para a maioria dos usuários.
- A OpenAI liberou o GPT-4o de graça em maio de 2024.
- O Claude 3.5 Sonnet ficou disponível gratuitamente já no lançamento, em junho.
- Antes disso, usuários gratuitos em geral só tinham acesso a modelos no nível do GPT-3.5, mas nesse período puderam experimentar de fato a capacidade real dos LLMs de alto desempenho.
Fim do acesso gratuito:
- A OpenAI encerrou esse acesso gratuito ao lançar o ChatGPT Pro.
- O ChatGPT Pro exige uma assinatura de US$ 200 por mês e dá acesso ao o1 Pro, seu modelo mais poderoso.
Perspectiva futura:
- A principal característica da série o1 é usar mais recursos computacionais para entregar resultados melhores.
- Por causa dessa estrutura de custos, parece improvável que a era de acesso gratuito aos melhores modelos volte tão cedo.

# “Agentes”, um conceito que ainda não se concretizou

Ambiguidade do termo:
- O termo “agente” ainda carece de uma definição única e clara, e seu significado varia de pessoa para pessoa.
- Em geral, ele se divide em duas categorias:
  - agentes no estilo de uma agência de viagens, que executam tarefas em nome do usuário;
  - agentes baseados em LLM, que acessam ferramentas, executam tarefas iterativas e resolvem problemas.
- O termo “autonomia” também é usado com frequência, mas sem uma definição clara, o que aumenta a confusão.
Limitações conceituais:
- “Agente” continua sendo um conceito que parece sempre estar “para chegar”.
- Foram coletadas 211 definições (em uma pesquisa no Twitter) e resumidas com o modelo Gemini-exp-1206, mas ainda assim não se chegou a um consenso claro.
Ceticismo quanto à utilidade:
- A utilidade prática dos agentes é limitada por um problema derivado da tendência dos LLMs de serem “facilmente enganados” (gullibility).
- Se eles não conseguem distinguir verdade de ficção, fica difícil tomar decisões significativas como agência de viagens, assistente digital ou ferramenta de pesquisa.
- Exemplo: o caso em que a busca do Google resumiu incorretamente um filme inexistente chamado “Encanto 2” a partir de uma wiki fictícia de fanfic.
Prompt injection:
- Esse também é um problema que decorre dessa facilidade em ser enganado; ele vem sendo discutido desde setembro de 2022, mas não houve grande avanço em 2024.
Conclusão:
- A ideia popular de agentes parece, na prática, depender da própria AGI (inteligência artificial geral).
- Desenvolver modelos com confiabilidade garantida continua sendo um desafio extremamente difícil.

# A importância de Evals

Avaliações se tornaram a habilidade central:
- Em 2024, escrever boas avaliações automáticas (Evals) para sistemas baseados em LLM surgiu como a habilidade mais importante.
- Com ferramentas de avaliação robustas, torna-se possível adotar novos modelos rapidamente, iterar melhor e desenvolver funcionalidades confiáveis.
A abordagem da Anthropic:
- Amanda Askell: o segredo de um bom system prompt é desenvolvimento orientado a testes.
  - "Não se trata de escrever um system prompt e depois procurar testes, mas de escrever os testes e encontrar um system prompt que passe por eles."
- Essa abordagem teve um papel central no desenvolvimento do Claude.
O caso da Vercel:
- Malte Ubl: no início, usaram métodos complexos de pré-processamento e pós-processamento para proteger o prompt.
  - Depois perceberam que a simplicidade do prompt, as avaliações, o modelo e a UX eram mais importantes, e mudaram de direção.
  - "Um prompt sem avaliações é como uma máquina quebrada sem manual de instruções."
Exploração pessoal:
- Estou pesquisando para encontrar os melhores padrões de implementação de avaliações eficazes.
- Até agora, embora a importância das avaliações seja bastante enfatizada, faltam bons guias sobre como implementá-las de forma concreta.
- Pessoalmente, usei o benchmark do "pelicano SVG andando de bicicleta", mas isso não substitui uma ferramenta de avaliação de verdade.

# Apple Intelligence decepciona, mas a biblioteca MLX é excelente

Melhora na experiência de usar ML no Mac:
- Um Mac com 64GB de RAM é teoricamente adequado para executar modelos, já que CPU e GPU podem compartilhar memória.
- No entanto, usuários de Mac enfrentavam muitas limitações por causa de modelos e bibliotecas priorizando NVIDIA CUDA.
A inovação da biblioteca MLX:
- O MLX da Apple (framework de arrays para Apple Silicon) permite rodar vários modelos compatíveis com MLX com excelente desempenho no Mac.
- mlx-lm em Python: suporta modelos compatíveis com MLX e tem ótimo desempenho.
- mlx-community da Hugging Face: oferece mais de 1.000 modelos convertidos para o formato necessário.
- Projeto mlx-vlm de Prince Canuma: permite executar vision LLMs no Apple Silicon.
  - Foi usado recentemente para rodar o Qwen QvQ.
A decepção com Apple Intelligence:
- Quando foi anunciado em junho de 2024, gerou expectativa por focar em aplicações de LLM com ênfase em privacidade do usuário.
- Mas os recursos realmente lançados são fracos e ficam aquém das capacidades dos LLMs de ponta.
  - Exemplos:
    - Resumos de notificações que resumem manchetes de notícias de forma errada.
    - Ferramentas de auxílio à escrita com pouca utilidade.
  - Ainda assim, o Genmoji foi visto como um recurso um pouco divertido.
Mudança de perspectiva dos usuários de Mac:
- Graças a ferramentas como MLX, a satisfação com a escolha da plataforma Mac aumentou bastante.
- Especialmente porque o ambiente para rodar LLMs no Apple Silicon melhorou.

# Escalonamento de inferência e a ascensão dos modelos de "Reasoning"

O surgimento de uma nova forma de LLM:
- No quarto trimestre de 2024, o modelo o1 da OpenAI (o1-preview, o1-mini) foi anunciado pela primeira vez em 12 de setembro.
- Trata-se de uma evolução da técnica de chain-of-thought, projetada para que o modelo resolva problemas "pensando" sobre eles.
Características do modelo o1:
- Ele usa "reasoning tokens" para raciocinar sobre um problema; esse processo não é mostrado diretamente ao usuário, mas pode ser visto de forma resumida na interface do ChatGPT.
- O desempenho pode melhorar não apenas com mais capacidade computacional no treinamento, mas também com mais computação usada no momento da inferência.
A escalabilidade do modelo:
- Ele usa recursos computacionais adicionais no momento da inferência para lidar com problemas mais difíceis.
- Isso representa uma nova forma de escalar a arquitetura tradicional dos modelos LLM.
O modelo seguinte, o3:
- Anunciado em 20 de dezembro de 2024, registrou resultados impressionantes no benchmark ARC-AGI.
- Pode ter exigido mais de $1,000,000 em custo computacional.
- Está previsto para ser lançado em janeiro de 2025. Por causa do custo computacional extremamente alto, seu uso real provavelmente será limitado.
Outros anúncios importantes de modelos:
- Google: em 19 de dezembro, lançou gemini-2.0-flash-thinking-exp.
- Alibaba: em 28 de novembro, anunciou o modelo QwQ (licença Apache 2.0), executável localmente.
  - Em 24 de dezembro, anunciou o modelo de raciocínio visual QvQ, que também roda localmente.
- DeepSeek: em 20 de novembro, disponibilizou o modelo DeepSeek-R1-Lite-Preview por meio de uma interface de chat.
Pesquisas relacionadas e previsões:
- Anthropic e Meta ainda não anunciaram modelos oficiais, mas é muito provável que estejam desenvolvendo modelos semelhantes de escalonamento de inferência.
- Em dezembro, a Meta publicou o artigo relacionado "Training Large Language Models to Reason in a Continuous Latent Space".
- Para mais informações, fica a recomendação de Is AI progress slowing down?, de Arvind Narayanan e Sayash Kapoor.

# O melhor LLM atual foi treinado na China por menos de US$ 6 milhões?

Principais notícias:
- No Natal de 2024, o DeepSeek v3 foi publicado no Hugging Face (sem arquivo README no início; documentação e artigo foram adicionados no dia seguinte).
- É um modelo enorme de 685B parâmetros, muito maior que o Llama 3.1 405B da Meta.
- É o maior modelo disponível sob licença aberta.
Desempenho:
- Tem desempenho em benchmarks semelhante ao do Claude 3.5 Sonnet.
- Ficou em 7º lugar no Chatbot Arena, logo atrás dos modelos Gemini 2.0 e OpenAI 4o/o1.
- É o modelo sob licença aberta mais bem colocado.
Custo de treinamento:
- DeepSeek v3: 2,788,000 horas de GPU H800, com custo de cerca de $5,576,000.
- Meta Llama 3.1 405B: 30,840,000 horas de GPU, 11 vezes mais custo que o DeepSeek v3, mas com desempenho de benchmark ligeiramente inferior.
Impacto das restrições de exportação de GPUs para a China:
- As restrições dos EUA à exportação de GPUs parecem ter estimulado fortemente a otimização do treinamento.
- O treinamento eficiente em custo do DeepSeek v3 é visto como resultado dessas otimizações.

# Melhoras no impacto ambiental

Menor consumo de energia graças ao aumento de eficiência:
- Como a eficiência dos modelos aumentou muito, o uso de energia e o impacto ambiental por execução de prompt caíram drasticamente nos últimos anos.
- A OpenAI reduziu o custo por prompt em 100 vezes em relação à era do GPT-3.
- Provedores de modelos de baixo custo, como Google Gemini e Amazon Nova, também conseguem operar prompts sem prejuízo.
Do ponto de vista do usuário individual:
- Na maioria dos casos, o consumo de energia causado pela execução de prompts é, na prática, mínimo.
- O impacto ambiental provavelmente é menor do que dirigir uma curta distância de carro ou assistir a um vídeo no YouTube.
Queda no custo de treinamento:
- O custo de treinamento abaixo de $6 milhões do DeepSeek v3 mostra que os custos de treinamento podem continuar caindo.
- Tornou-se possível treinar com mais eficiência usando menos recursos.
Comparação com modelos ineficientes:
- O custo energético de treinar o maior modelo do Llama 3 é comparável ao custo de energia de alguns voos comerciais lotados entre Nova York e Londres.
- Mas, depois que o treinamento é concluído, milhões de pessoas podem usá-lo sem custo adicional, o que o torna eficiente no longo prazo.

# O impacto ambiental está piorando ainda mais

Corrida pela construção de grandes data centers:
- Grandes empresas como Google, Meta, Microsoft e Amazon estão construindo data centers com investimentos de bilhões de dólares para atender à demanda de modelos futuros.
- Essa expansão de infraestrutura tem grande impacto sobre a rede elétrica e o meio ambiente.
- Também há discussões sobre a construção de novas usinas nucleares, mas isso pode levar décadas.
Controvérsia sobre a necessidade de infraestrutura:
- O custo de treinamento de US$ 6 milhões do DeepSeek v3 e a queda nos preços dos LLMs sugerem que essa expansão pode não ser necessariamente indispensável.
- No entanto, quase não há executivos dispostos a correr o risco de "não construir infraestrutura e depois descobrir que foi uma decisão errada".
Semelhança histórica:
- É possível comparar isso ao período em que as redes ferroviárias foram construídas no mundo todo no século XIX.
- Houve investimentos enormes e impactos ambientais, e muitas linhas foram duplicadas, gerando resultados desnecessários.
- Como resultado, isso provocou várias crises financeiras:
  - Pânico de 1873, Pânico de 1893, Pânico de 1901, Railway Mania no Reino Unido.
- A infraestrutura permaneceu, mas também vieram grandes falências e danos ambientais.
Lição para o presente:
- A corrida pelos data centers pode deixar uma infraestrutura útil, mas traz o risco de expansão desnecessária e danos ambientais.

# 2024, o ano do "Slop"

Definição de "Slop":
- O termo se consolidou para se referir a conteúdo gerado por IA não desejado e não revisado.
- Assim como "spam" passou a significar e-mail indesejado, "slop" também se tornou tão usado que chegou aos dicionários.
Origem do termo:
- A discussão começou com um tweet de @deepfates:
  - "Estamos vendo em tempo real 'slop' virar um termo estabelecido."
- Em maio de 2024, o conceito foi expandido e definido como "conteúdo gerado por IA não solicitado e não revisado".
Reação da mídia:
- Citações de entrevistas sobre "slop" no NY Times e no Guardian:
  - "Precisamos de um termo simples para falar sobre a IA moderna. 'Ignore esse e-mail, é spam.' e 'Ignore esse artigo, é slop.' são lições úteis."
Importância do slop:
- É útil para expressar de forma concisa os usos equivocados da IA generativa.
- Também ajuda a fazer com que a IA seja usada de forma eficiente e responsável.
Impacto cultural em 2024:
- "Slop" foi finalista da Palavra do Ano de Oxford, mas perdeu para "brain rot".

# O efeito surpreendente dos dados sintéticos de treinamento

Conceito de "colapso do modelo":
- Mencionado pela primeira vez em maio de 2023 no artigo The Curse of Recursion, e recebeu mais atenção em julho de 2024 na Nature.
- A tese era: se o conteúdo gerado por IA inundasse a internet, os modelos passariam a treinar repetidamente em suas próprias saídas e perderiam desempenho.
- Realidade: esse colapso não aconteceu; em vez disso, o treinamento de modelos com dados sintéticos está se tornando cada vez mais comum.
Vantagens dos dados sintéticos:
- Como explicado no Phi-4 Technical Report:
  - Dados sintéticos não são apenas substitutos de dados orgânicos; eles oferecem benefícios diretos como:
    - Aprendizado estruturado e gradual:
      - Dados orgânicos são difíceis de aprender porque as relações entre tokens são complexas e indiretas.
      - Já os dados sintéticos, por serem gerados por modelos de linguagem com base em tokens anteriores, permitem aprender padrões de raciocínio com mais facilidade.
    - O processo de aprendizado se torna mais sistemático e previsível.
Casos em que modelos grandes ajudam modelos menores:
- Modelos de grande porte geram dados sintéticos para modelos menores:
  - DeepSeek v3: uso de dados de "raciocínio" gerados pelo DeepSeek-R1.
  - Meta Llama 3.3 70B: fine-tuning com mais de 25 milhões de exemplos sintéticos.
Importância do design de dados:
- O design dos dados emergiu como o fator mais importante no treinamento de LLMs.
- Já não se usa mais a abordagem de simplesmente raspar indiscriminadamente todos os dados da internet para treinar modelos, como no passado.

# Em 2024, usar LLMs ficou mais difícil

LLMs são ferramentas complexas:
- Por fora parecem simples, mas na prática são "ferramentas para usuários avançados" que exigem entendimento profundo e experiência.
- Isso é descrito com a metáfora de "uma motosserra disfarçada para parecer uma faca de cozinha".
Agravamento do problema em 2024:
- Os modelos ficaram mais poderosos, mas ainda mantêm limitações e restrições antigas.
- Vários sistemas foram introduzidos, cada um oferecendo ferramentas diferentes (Python, JavaScript, busca na web, geração de imagens etc.).
- Para usar isso bem, o usuário precisa entender as possibilidades e os limites de cada ferramenta.
Aumento da complexidade entre sistemas:
- Ex.: no ChatGPT é possível executar Python de duas formas diferentes.
- Para criar um Claude Artifact que se comunique com APIs externas, é preciso entender cabeçalhos HTTP de CSP e CORS.
- O o1 da OpenAI roda com recursos limitados, enquanto o GPT-4o oferece busca na web e interpretador de código.
  - É preciso entender a diferença de recursos entre os dois modelos dentro da mesma interface do ChatGPT.
Limites da experiência do usuário:
- A interface básica de chat dos LLMs oferece uma experiência comparável a jogar um iniciante em um terminal Linux.
- Muitos usuários desenvolvem modelos mentais errados sobre como LLMs funcionam e o que podem fazer.
  - Ex.: aumento de casos irracionais em que screenshots do ChatGPT são usadas como prova em discussões.
Problema duplo:
- Uso indevido: usuários que, apesar das imperfeições dos LLMs, os tratam como ferramentas universais.
- Rejeição: até mesmo pessoas bem informadas acabam abandonando totalmente o uso dos LLMs por causa de seus defeitos.
- Para usar LLMs com eficácia, é essencial saber colaborar com uma tecnologia poderosa, porém imperfeita.
Necessidade de conteúdo educacional:
- A educação do usuário é importante, mas ainda é insuficiente.
- Em vez de depender de threads exageradas no Twitter sobre IA, é preciso desenvolver materiais educacionais mais confiáveis.

# A distribuição desigual do conhecimento

O que é conhecido e o que é desconhecido:
- A maioria das pessoas conhece o ChatGPT, mas pouquíssimas já ouviram falar do Claude.
- A diferença de conhecimento entre quem acompanha ativamente essa área e os outros 99% é enorme.
Velocidade das mudanças:
- O ritmo das mudanças tecnológicas aprofunda ainda mais essa lacuna de conhecimento.
- No último mês, foram introduzidas interfaces ao vivo:
  - É possível apontar a câmera do celular para algo e conversar por voz sobre isso.
  - Também é possível escolher um recurso que faz o sistema imitar o Papai Noel.
- Até mesmo autoproclamados entusiastas de tecnologia muitas vezes ainda não testaram esses recursos.
Impacto social e necessidade:
- Considerando o impacto que essa tecnologia terá na sociedade atual e futura, uma lacuna de conhecimento tão grande não é saudável.
- São necessários mais esforços para melhorar isso.

# Precisamos de críticas melhores aos LLMs

Resistência à tecnologia:
- Em algumas comunidades como Mastodon, Bluesky, Lobste.rs e Hacker News, até mesmo a opinião de que “LLMs são úteis” gera debate.
- Motivos para a resistência à tecnologia:
  - Impacto ambiental.
  - Questões éticas dos dados de treinamento.
  - Falta de confiabilidade.
  - Casos de uso negativos.
  - Potencial impacto sobre empregos.
Necessidade de crítica:
- Os LLMs merecem ser criticados, e é importante discutir os problemas, buscar soluções e educar sobre formas de uso responsável.
- O objetivo é ajudar a fazer com que os usos positivos superem os impactos negativos.
Valor de uma visão cética:
- O hype excessivo agravou os problemas nos últimos dois anos:
  - Desinformação e expectativas exageradas se espalharam.
  - Decisões equivocadas foram tomadas com frequência.
- O pensamento crítico é essencial para compreender e usar essa tecnologia corretamente.
Conversa com tomadores de decisão:
- É preciso reconhecer bons casos de uso da ferramenta e, ao mesmo tempo, explicar como evitar armadilhas pouco intuitivas.
- Afirmar que não existem bons casos de uso ignora o valor potencial da tecnologia.
Transmitir a mensagem certa:
- A crítica simplista de que é uma “máquina de plágio destrutiva para o meio ambiente e que mente o tempo todo” não ajuda a resolver os problemas.
- Para descobrir e concretizar o verdadeiro valor dos LLMs, são necessários orientação e ensino que não são intuitivos.
Papel responsável:
- As pessoas que entendem essa tecnologia têm a responsabilidade de ajudar outras a usá-la corretamente.

1 comentários

GN⁺ 2025-01-01

Comentários do Hacker News

Muitas pessoas tendem a achar que LLMs são inúteis depois de usar o ChatGPT 4. No entanto, o Claude Sonnet 3.5 ainda pode ser útil
- A utilidade dos LLMs depende muito da capacidade de comunicação do usuário
- É possível maximizar o desempenho dos LLMs com perguntas precisas e explicações de contexto
- Eles são úteis para processar rapidamente tarefas tediosas
O termo "agente" não tem um significado claro, o que causa confusão
- A palavra da moda "agentic" pode causar incômodo
Há preocupações sobre a queda de preços dos LLMs
- O nível gratuito do Gemini ainda é atraente, mas é difícil confiar nele
- Há preocupação com a possibilidade de os preços voltarem a subir no primeiro semestre de 2025
O conceito de "agente" ainda não está claramente definido
- Acredita-se que um verdadeiro "agente" deve incluir autonomia
Não concorda com a afirmação de que usar LLMs ficou mais difícil
- Há mais opções, mas o uso em si não ficou mais difícil
- Iniciantes ainda recebem essencialmente as mesmas orientações
Ficou mais difícil julgar o que é "bom"
- Há muita manipulação de benchmarks, o que gera confusão
- Há a intenção de montar pessoalmente um framework de testes
Algumas pessoas desistiram de usar LLMs por causa de seus defeitos
- Para aproveitar os LLMs ao máximo, é preciso aprender a trabalhar com uma tecnologia instável, mas poderosa
Alguns modelos do GPT-4 podem rodar até em notebooks
- Isso significa que grandes data centers não são necessariamente exigidos
- O valor da OpenAI pode ter sido superestimado
Não entende por que o uso de 64GB de DRAM pela Apple seria algo especial
- Fica a dúvida de como a Apple consegue suprir DRAM, apesar de os data centers consumirem a maior parte da capacidade de fabricação de RAM
Há confusão sobre a estrutura de custos do Google Gemini e do Amazon Nova
- Existem afirmações de que eles são oferecidos abaixo do custo de energia, e também afirmações em contrário
Há a opinião de que os LLMs não são úteis para tarefas do dia a dia
- Afirma-se que os novos modelos de LLM são apenas melhorias superestimadas
Percebeu-se que os padrões de moralidade e excelência desta indústria são baixos
Há questionamentos sobre o estado atual de empurrar o "raciocínio" para o espaço latente/neural
- O fato de o modelo "conversar consigo mesmo" tem pouca relação com a saída final e é ineficiente

O que aprendi sobre LLMs em 2024

# Superando completamente os limites do GPT-4

# Alguns modelos de nível GPT-4 rodam no meu notebook

# Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência

# A expansão da visão multimodal, com áudio e vídeo surgindo com força

# Modo de voz e câmera ao vivo, ficção científica que virou realidade

# Geração de apps por prompt, uma tecnologia que já virou rotina

# Acesso gratuito aos melhores modelos, encerrado em poucos meses

# “Agentes”, um conceito que ainda não se concretizou

# A importância de Evals

# Apple Intelligence decepciona, mas a biblioteca MLX é excelente

# Escalonamento de inferência e a ascensão dos modelos de "Reasoning"

# O melhor LLM atual foi treinado na China por menos de US$ 6 milhões?

# Melhoras no impacto ambiental

# O impacto ambiental está piorando ainda mais

# 2024, o ano do "Slop"

# O efeito surpreendente dos dados sintéticos de treinamento

# Em 2024, usar LLMs ficou mais difícil

# A distribuição desigual do conhecimento

# Precisamos de críticas melhores aos LLMs

Leituras relacionadas

1 comentários

Comentários do Hacker News