O que aprendi sobre LLMs em 2024
(simonwillison.net)Resumo de Simon Willison sobre todas as mudanças relacionadas a LLM em 2024
- Superando completamente os limites do GPT-4
- Alguns modelos de nível GPT-4 rodam no meu notebook
- Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência
- A expansão da visão multimodal, com áudio e vídeo surgindo com força
- Voz e modo de câmera ao vivo, ficção científica tornando-se realidade
- Geração de apps baseada em prompts, uma tecnologia que já virou rotina
- Acesso gratuito aos melhores modelos, encerrado em poucos meses
- "Agentes", um conceito que ainda não se concretizou
- A importância das avaliações (Evals)
- Apple Intelligence decepciona, mas a biblioteca MLX é excelente
- Escalonamento de raciocínio e a ascensão dos modelos de "Reasoning"
- O melhor LLM do momento foi treinado na China por menos de US$ 6 milhões?
- Melhora no impacto ambiental
- O impacto ambiental ficou ainda pior
- 2024, o ano do "Slop"
- Os efeitos surpreendentes dos dados sintéticos de treinamento
- 2024 foi um ano em que usar LLM ficou mais difícil
- A distribuição desigual do conhecimento
- Precisamos de críticas melhores aos LLMs
# Superando completamente os limites do GPT-4
- Situação em 2023: o GPT-4 era considerado o melhor modelo de linguagem, e outros laboratórios de IA não conseguiam superá-lo. Os segredos técnicos da OpenAI chamavam muita atenção.
- Mudança em 2024: 18 organizações anunciaram modelos que superam o GPT-4. No momento, há 70 modelos no ranking do Chatbot Arena acima do GPT-4-0314, lançado em março de 2023.
- Principais modelos e avanços técnicos
- Google Gemini 1.5 Pro: lançado em fevereiro de 2024
- Ofereceu saída em nível GPT-4 e novos recursos
- Suporte a contexto de entrada de 1 milhão de tokens, depois ampliado para 2 milhões
- Introduziu entrada de vídeo
- Capaz de resolver problemas de programação e analisar livros inteiros com entradas longas
- Foi tratado como um anúncio importante na keynote do Google I/O 2024
- Série Anthropic Claude 3:
- Claude 3 Opus: lançado em março de 2024, chamou atenção pelo alto desempenho
- Claude 3.5 Sonnet: lançado em junho, com versão atualizada anunciada em 22 de outubro
- Mesmo após a atualização, o número da versão continuou 3.5, e os fãs passaram a chamá-lo de Claude 3.6
- Google Gemini 1.5 Pro: lançado em fevereiro de 2024
- Expansão do tamanho de contexto
- 2023: a maioria dos modelos suportava de 4.096 a 8.192 tokens. O Claude 2.1 era uma exceção com 200 mil tokens
- 2024: os principais modelos passaram a suportar mais de 100 mil tokens, e a série Google Gemini chega a até 2 milhões
- Isso permite resolver diversos problemas processando grandes volumes de entrada
- É vantajoso para analisar livros inteiros ou resolver problemas com base em código de exemplo
- Modelos e organizações que superaram o GPT-4
- Segundo o ranking do Chatbot Arena, as organizações com modelos de desempenho superior ao GPT-4-0314 incluem:
- Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI e outras 18 organizações
- No ranking, o GPT-4-0314 está atualmente na faixa da 70ª posição
- Segundo o ranking do Chatbot Arena, as organizações com modelos de desempenho superior ao GPT-4-0314 incluem:
# Alguns modelos de nível GPT-4 rodam no meu notebook
- Equipamento usado: um M2 MacBook Pro com 64 GB de RAM lançado em 2023. Um equipamento com cerca de dois anos, o mesmo notebook no qual ele rodou LLM pela primeira vez em março de 2023.
- Mudança de desempenho: no início, mal conseguia rodar modelos no nível do GPT-3, mas agora já consegue rodar modelos de nível GPT-4.
- Qwen2.5-Coder-32B: modelo especializado em programação lançado em novembro de 2024, sob licença Apache 2.0.
- Meta Llama 3.3 70B: modelo de nível GPT-4 lançado em dezembro de 2024.
- Importância: é surpreendente que modelos de nível GPT-4 possam rodar em um notebook, e não apenas em servidores de datacenter com GPUs de mais de US$ 40 mil.
- Como usa quase toda a RAM de 64 GB, fica difícil fazer outras tarefas ao mesmo tempo.
- Isso foi possível graças a melhorias na eficiência dos modelos. Ao que tudo indica, é resultado das otimizações do último ano.
- Ainda se espera que haja bastante espaço para melhorar ainda mais essa eficiência.
- Modelos Meta Llama 3.2: não são de nível GPT-4, mas os modelos de 1B e 3B apresentam ótimo desempenho apesar do tamanho pequeno.
- Llama 3.2 3B: pode ser executado com o app gratuito MLC Chat para iOS.
- Com menos de 2 GB, roda em iPhone e gera 20 tokens por segundo.
- Exemplo: ao pedir um "enredo de filme de Natal da Netflix em que uma jornalista de dados se apaixona por um ceramista local", ele gera uma resposta simples, mas adequada.
- Título: "Love in the Clay"
- Enredo: a história acompanha Jessica voltando para sua cidade natal, Willow Creek, para investigar a história local e os impactos da gentrificação.
- O resultado é comum, mas ainda assim é interessante que algo assim seja possível até mesmo em um iPhone.
# Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência
- Preços no fim de 2023: os principais modelos da OpenAI tinham os seguintes preços.
- GPT-4: US$ 30/milhão de tokens de entrada
- GPT-4 Turbo: US$ 10/mTok
- GPT-3.5 Turbo: US$ 1/mTok
- Mudanças de preço em 2024:
- OpenAI o1: US$ 30/mTok, o modelo mais caro
- GPT-4o: US$ 2,50/mTok (12 vezes mais barato que o GPT-4)
- GPT-4o Mini: US$ 0,15/mTok (cerca de 7 vezes mais barato que o GPT-3.5 e com desempenho melhor)
- Anthropic Claude 3 Haiku: US$ 0,25/mTok (lançado em março, o modelo mais barato da Anthropic)
- Google Gemini 1.5 Flash: US$ 0,075/mTok
- Google Gemini 1.5 Flash 8B: US$ 0,0375/mTok (27 vezes mais barato que o GPT-3.5 Turbo)
- Fatores da queda de preços:
- Aumento da concorrência: muitos fornecedores de modelos entraram no mercado, intensificando a disputa por preços.
- Melhora de eficiência: a otimização no treinamento e na inferência reduziu o consumo de energia.
- Isso diminuiu a preocupação com o custo energético de executar prompts individuais.
- Eficiência e custo ambiental:
- O aumento da eficiência energética reduziu as preocupações ambientais.
- Mas o impacto ambiental da construção de datacenters continua sendo um problema.
- Cálculo de custo em uso real:
- Cálculo do custo para gerar descrições para uma biblioteca pessoal de fotos com 68.000 imagens usando o Google Gemini 1.5 Flash 8B.
- São necessários 260 tokens de entrada e 100 tokens de saída por foto.
- Total de 17.680.000 tokens de entrada * US$ 0,0375/milhão = US$ 0,66
- Total de 6.800.000 tokens de saída * US$ 0,15/milhão = US$ 1,02
- Custo total: é possível processar 68.000 fotos por US$ 1,68.
- Cálculo do custo para gerar descrições para uma biblioteca pessoal de fotos com 68.000 imagens usando o Google Gemini 1.5 Flash 8B.
- Exemplo de descrição:
- Foto: duas borboletas se alimentando em uma bandeja vermelha na California Academy of Sciences.
- Descrição gerada:
- Foto de duas borboletas comendo frutas em uma bandeja vermelha.
- Descreve em detalhe até as cores e os padrões das borboletas.
- Custo: cerca de 0,0024 centavo, menos de 1/400 de centavo.
- Uma das maiores mudanças de 2024:
- A queda de preços e a redução do custo energético estão maximizando a utilidade dos LLMs.
# A expansão da visão multimodal, com áudio e vídeo surgindo com força
- Principais tendências de 2024: os LLMs multimodais (capazes de processar diferentes tipos de entrada além de texto, como imagem, áudio e vídeo) se tornaram algo comum.
- Casos de 2023:
- OpenAI GPT-4 Vision: lançado no DevDay de novembro de 2023.
- Google Gemini 1.0: anunciado em 7 de dezembro de 2023.
- Principais lançamentos de 2024:
- Série Anthropic Claude 3: lançada em março.
- Google Gemini 1.5 Pro: lançado em abril (com suporte a processamento de imagem, áudio e vídeo).
- Qwen2-VL: lançado em setembro.
- Mistral Pixtral 12B: lançado em setembro.
- Meta Llama 3.2: lançado em setembro (modelos de visão 11B e 90B).
- Recursos de entrada e saída de áudio da OpenAI: adicionados em outubro.
- Hugging Face SmolVLM: lançado em novembro.
- Modelos de imagem e vídeo Amazon Nova: lançados em dezembro.
- Casos de 2023:
- Ferramentas e suporte multimodal:
- Em outubro de 2024, a ferramenta de CLI para LLM que uso pessoalmente foi atualizada para oferecer suporte a modelos multimodais.
- Também foram adicionados plugins capazes de processar anexos como imagens, áudio e vídeo.
- Importância dos modelos multimodais:
- As críticas de que a evolução dos LLMs desacelerou parecem ignorar os avanços dos modelos multimodais.
- Executar prompts usando imagens, áudio e vídeo é um avanço empolgante que abre novas possibilidades de uso.
# Modo de voz e câmera ao vivo, ficção científica que virou realidade
- Surgimento dos primeiros modos de voz:
- Em setembro de 2023, o app móvel do ChatGPT ganhou uma função de conversa por voz.
- Ele usava os modelos Whisper (Speech-to-Text) e tts-1 (Text-to-Speech), mas o modelo em si ainda processava apenas texto.
- Modo de voz do GPT-4o:
- No novo modo de voz anunciado em 13 de maio de 2024, o modelo GPT-4o passou a ser verdadeiramente multimodal, com suporte a entrada de áudio e saída de voz natural.
- A demo usou uma voz semelhante à de Scarlett Johansson, mas após a controvérsia essa voz não foi incluída no produto comercial.
- O atraso no lançamento do modo de voz gerou confusão, mas ele foi liberado gradualmente em agosto e setembro como ChatGPT Advanced Voice.
- Experiência de uso: conversar no modo de voz durante caminhadas melhorou bastante a qualidade do conteúdo.
- Experimentos com a API de áudio da OpenAI mostraram vários recursos de voz diferentes.
- Características do modo de voz:
- O Advanced Voice permite reproduzir uma grande variedade de sotaques.
- Exemplo: pedir que ele converse em espanhol com o forte sotaque russo de um pelicano-pardo-da-Califórnia.
- Modelos de voz multimodais de outras empresas:
- Google Gemini: suporta entrada de áudio e permite conversas por voz semelhantes às do ChatGPT.
- Amazon Nova: modo de voz anunciado antecipadamente (lançamento previsto para o 1º trimestre de 2025).
- Google NotebookLM (lançado em setembro de 2024): gera uma conversa entre dois “apresentadores de podcast” com base no conteúdo de entrada. Também aceita instruções personalizadas.
- Surgimento do modo de vídeo ao vivo:
- Em dezembro de 2024, o modo de voz do ChatGPT ganhou um recurso de compartilhamento do feed da câmera.
- Isso permite conversar em tempo real sobre o que a câmera está mostrando.
- O Google Gemini também ofereceu um recurso semelhante em preview no mesmo período.
- Acessibilidade via API:
- Tanto a OpenAI quanto o Google oferecem APIs para esses recursos.
- Em dezembro, a OpenAI anunciou a WebRTC API, simplificando o desenvolvimento de apps web baseados em voz.
# Geração de apps por prompt, uma tecnologia que já virou rotina
- Possibilidades do GPT-4 em 2023:
- Já era possível usar o GPT-4 para gerar apps interativos completos em HTML, CSS e JavaScript.
- Ferramentas como React também podiam ser integradas por meio de mecanismos adicionais de build.
- Chegada do Claude Artifacts em 2024:
- Um novo recurso apresentado no meio do anúncio do Anthropic Claude 3.5 Sonnet.
- Ele permite criar apps sob demanda que podem ser executados diretamente dentro da interface do Claude.
- Exemplo: uma ferramenta de extração de URLs criada com o Claude.
- Ao inserir uma URL, a lista extraída é exibida imediatamente.
- Foi compartilhada a experiência de ter criado 14 pequenas ferramentas em uma semana com o Claude Artifacts.
- Adoção de recursos semelhantes por concorrentes:
- GitHub Spark: anunciado em outubro de 2024.
- Mistral Chat Canvas: adicionado em novembro de 2024.
- Steve Krause, da Val Town: implementou edição de apps em tempo real usando modelos da Cerebras com velocidade de processamento de 2.000 tokens por segundo.
- Equipe do Chatbot Arena: em dezembro, introduziu um novo leaderboard em que dois modelos geram o mesmo app e os usuários votam.
- Meus próprios projetos:
- No projeto Datasette, estou desenvolvendo formas de usar prompts para gerar widgets personalizados e visualizações de dados, além de permitir iteração sobre eles.
- Também implementei um padrão semelhante para escrever um único programa Python usando uv.
- Perspectiva para 2025:
- Depois que os problemas de sandboxing do navegador forem resolvidos, é bem provável que esse recurso passe a vir embutido por padrão em diversos produtos.
# Acesso gratuito aos melhores modelos, encerrado em poucos meses
- Oferta gratuita no início de 2024:
- GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro — os três melhores modelos da época — foram oferecidos gratuitamente para a maioria dos usuários.
- A OpenAI liberou o GPT-4o de graça em maio de 2024.
- O Claude 3.5 Sonnet ficou disponível gratuitamente já no lançamento, em junho.
- Antes disso, usuários gratuitos em geral só tinham acesso a modelos no nível do GPT-3.5, mas nesse período puderam experimentar de fato a capacidade real dos LLMs de alto desempenho.
- Fim do acesso gratuito:
- A OpenAI encerrou esse acesso gratuito ao lançar o ChatGPT Pro.
- O ChatGPT Pro exige uma assinatura de US$ 200 por mês e dá acesso ao o1 Pro, seu modelo mais poderoso.
- Perspectiva futura:
- A principal característica da série o1 é usar mais recursos computacionais para entregar resultados melhores.
- Por causa dessa estrutura de custos, parece improvável que a era de acesso gratuito aos melhores modelos volte tão cedo.
# “Agentes”, um conceito que ainda não se concretizou
- Ambiguidade do termo:
- O termo “agente” ainda carece de uma definição única e clara, e seu significado varia de pessoa para pessoa.
- Em geral, ele se divide em duas categorias:
- agentes no estilo de uma agência de viagens, que executam tarefas em nome do usuário;
- agentes baseados em LLM, que acessam ferramentas, executam tarefas iterativas e resolvem problemas.
- O termo “autonomia” também é usado com frequência, mas sem uma definição clara, o que aumenta a confusão.
- Limitações conceituais:
- “Agente” continua sendo um conceito que parece sempre estar “para chegar”.
- Foram coletadas 211 definições (em uma pesquisa no Twitter) e resumidas com o modelo Gemini-exp-1206, mas ainda assim não se chegou a um consenso claro.
- Ceticismo quanto à utilidade:
- A utilidade prática dos agentes é limitada por um problema derivado da tendência dos LLMs de serem “facilmente enganados” (
gullibility). - Se eles não conseguem distinguir verdade de ficção, fica difícil tomar decisões significativas como agência de viagens, assistente digital ou ferramenta de pesquisa.
- Exemplo: o caso em que a busca do Google resumiu incorretamente um filme inexistente chamado “Encanto 2” a partir de uma wiki fictícia de fanfic.
- A utilidade prática dos agentes é limitada por um problema derivado da tendência dos LLMs de serem “facilmente enganados” (
- Prompt injection:
- Esse também é um problema que decorre dessa facilidade em ser enganado; ele vem sendo discutido desde setembro de 2022, mas não houve grande avanço em 2024.
- Conclusão:
- A ideia popular de agentes parece, na prática, depender da própria AGI (inteligência artificial geral).
- Desenvolver modelos com confiabilidade garantida continua sendo um desafio extremamente difícil.
# A importância de Evals
- Avaliações se tornaram a habilidade central:
- Em 2024, escrever boas avaliações automáticas (Evals) para sistemas baseados em LLM surgiu como a habilidade mais importante.
- Com ferramentas de avaliação robustas, torna-se possível adotar novos modelos rapidamente, iterar melhor e desenvolver funcionalidades confiáveis.
- A abordagem da Anthropic:
- Amanda Askell: o segredo de um bom system prompt é desenvolvimento orientado a testes.
- "Não se trata de escrever um system prompt e depois procurar testes, mas de escrever os testes e encontrar um system prompt que passe por eles."
- Essa abordagem teve um papel central no desenvolvimento do Claude.
- Amanda Askell: o segredo de um bom system prompt é desenvolvimento orientado a testes.
- O caso da Vercel:
- Malte Ubl: no início, usaram métodos complexos de pré-processamento e pós-processamento para proteger o prompt.
- Depois perceberam que a simplicidade do prompt, as avaliações, o modelo e a UX eram mais importantes, e mudaram de direção.
- "Um prompt sem avaliações é como uma máquina quebrada sem manual de instruções."
- Malte Ubl: no início, usaram métodos complexos de pré-processamento e pós-processamento para proteger o prompt.
- Exploração pessoal:
- Estou pesquisando para encontrar os melhores padrões de implementação de avaliações eficazes.
- Até agora, embora a importância das avaliações seja bastante enfatizada, faltam bons guias sobre como implementá-las de forma concreta.
- Pessoalmente, usei o benchmark do "pelicano SVG andando de bicicleta", mas isso não substitui uma ferramenta de avaliação de verdade.
# Apple Intelligence decepciona, mas a biblioteca MLX é excelente
- Melhora na experiência de usar ML no Mac:
- Um Mac com 64GB de RAM é teoricamente adequado para executar modelos, já que CPU e GPU podem compartilhar memória.
- No entanto, usuários de Mac enfrentavam muitas limitações por causa de modelos e bibliotecas priorizando NVIDIA CUDA.
- A inovação da biblioteca MLX:
- O MLX da Apple (framework de arrays para Apple Silicon) permite rodar vários modelos compatíveis com MLX com excelente desempenho no Mac.
mlx-lmem Python: suporta modelos compatíveis com MLX e tem ótimo desempenho.mlx-communityda Hugging Face: oferece mais de 1.000 modelos convertidos para o formato necessário.- Projeto
mlx-vlmde Prince Canuma: permite executar vision LLMs no Apple Silicon.- Foi usado recentemente para rodar o Qwen QvQ.
- A decepção com Apple Intelligence:
- Quando foi anunciado em junho de 2024, gerou expectativa por focar em aplicações de LLM com ênfase em privacidade do usuário.
- Mas os recursos realmente lançados são fracos e ficam aquém das capacidades dos LLMs de ponta.
- Exemplos:
- Resumos de notificações que resumem manchetes de notícias de forma errada.
- Ferramentas de auxílio à escrita com pouca utilidade.
- Ainda assim, o Genmoji foi visto como um recurso um pouco divertido.
- Exemplos:
- Mudança de perspectiva dos usuários de Mac:
- Graças a ferramentas como MLX, a satisfação com a escolha da plataforma Mac aumentou bastante.
- Especialmente porque o ambiente para rodar LLMs no Apple Silicon melhorou.
# Escalonamento de inferência e a ascensão dos modelos de "Reasoning"
- O surgimento de uma nova forma de LLM:
- No quarto trimestre de 2024, o modelo o1 da OpenAI (
o1-preview,o1-mini) foi anunciado pela primeira vez em 12 de setembro. - Trata-se de uma evolução da técnica de chain-of-thought, projetada para que o modelo resolva problemas "pensando" sobre eles.
- No quarto trimestre de 2024, o modelo o1 da OpenAI (
- Características do modelo o1:
- Ele usa "reasoning tokens" para raciocinar sobre um problema; esse processo não é mostrado diretamente ao usuário, mas pode ser visto de forma resumida na interface do ChatGPT.
- O desempenho pode melhorar não apenas com mais capacidade computacional no treinamento, mas também com mais computação usada no momento da inferência.
- A escalabilidade do modelo:
- Ele usa recursos computacionais adicionais no momento da inferência para lidar com problemas mais difíceis.
- Isso representa uma nova forma de escalar a arquitetura tradicional dos modelos LLM.
- O modelo seguinte, o3:
- Anunciado em 20 de dezembro de 2024, registrou resultados impressionantes no benchmark ARC-AGI.
- Pode ter exigido mais de $1,000,000 em custo computacional.
- Está previsto para ser lançado em janeiro de 2025. Por causa do custo computacional extremamente alto, seu uso real provavelmente será limitado.
- Outros anúncios importantes de modelos:
- Google: em 19 de dezembro, lançou
gemini-2.0-flash-thinking-exp. - Alibaba: em 28 de novembro, anunciou o modelo QwQ (licença Apache 2.0), executável localmente.
- Em 24 de dezembro, anunciou o modelo de raciocínio visual QvQ, que também roda localmente.
- DeepSeek: em 20 de novembro, disponibilizou o modelo
DeepSeek-R1-Lite-Previewpor meio de uma interface de chat.
- Google: em 19 de dezembro, lançou
- Pesquisas relacionadas e previsões:
- Anthropic e Meta ainda não anunciaram modelos oficiais, mas é muito provável que estejam desenvolvendo modelos semelhantes de escalonamento de inferência.
- Em dezembro, a Meta publicou o artigo relacionado "Training Large Language Models to Reason in a Continuous Latent Space".
- Para mais informações, fica a recomendação de Is AI progress slowing down?, de Arvind Narayanan e Sayash Kapoor.
# O melhor LLM atual foi treinado na China por menos de US$ 6 milhões?
- Principais notícias:
- No Natal de 2024, o DeepSeek v3 foi publicado no Hugging Face (sem arquivo README no início; documentação e artigo foram adicionados no dia seguinte).
- É um modelo enorme de 685B parâmetros, muito maior que o Llama 3.1 405B da Meta.
- É o maior modelo disponível sob licença aberta.
- Desempenho:
- Tem desempenho em benchmarks semelhante ao do Claude 3.5 Sonnet.
- Ficou em 7º lugar no Chatbot Arena, logo atrás dos modelos Gemini 2.0 e OpenAI 4o/o1.
- É o modelo sob licença aberta mais bem colocado.
- Custo de treinamento:
- DeepSeek v3: 2,788,000 horas de GPU H800, com custo de cerca de $5,576,000.
- Meta Llama 3.1 405B: 30,840,000 horas de GPU, 11 vezes mais custo que o DeepSeek v3, mas com desempenho de benchmark ligeiramente inferior.
- Impacto das restrições de exportação de GPUs para a China:
- As restrições dos EUA à exportação de GPUs parecem ter estimulado fortemente a otimização do treinamento.
- O treinamento eficiente em custo do DeepSeek v3 é visto como resultado dessas otimizações.
# Melhoras no impacto ambiental
- Menor consumo de energia graças ao aumento de eficiência:
- Como a eficiência dos modelos aumentou muito, o uso de energia e o impacto ambiental por execução de prompt caíram drasticamente nos últimos anos.
- A OpenAI reduziu o custo por prompt em 100 vezes em relação à era do GPT-3.
- Provedores de modelos de baixo custo, como Google Gemini e Amazon Nova, também conseguem operar prompts sem prejuízo.
- Do ponto de vista do usuário individual:
- Na maioria dos casos, o consumo de energia causado pela execução de prompts é, na prática, mínimo.
- O impacto ambiental provavelmente é menor do que dirigir uma curta distância de carro ou assistir a um vídeo no YouTube.
- Queda no custo de treinamento:
- O custo de treinamento abaixo de $6 milhões do DeepSeek v3 mostra que os custos de treinamento podem continuar caindo.
- Tornou-se possível treinar com mais eficiência usando menos recursos.
- Comparação com modelos ineficientes:
- O custo energético de treinar o maior modelo do Llama 3 é comparável ao custo de energia de alguns voos comerciais lotados entre Nova York e Londres.
- Mas, depois que o treinamento é concluído, milhões de pessoas podem usá-lo sem custo adicional, o que o torna eficiente no longo prazo.
# O impacto ambiental está piorando ainda mais
- Corrida pela construção de grandes data centers:
- Grandes empresas como Google, Meta, Microsoft e Amazon estão construindo data centers com investimentos de bilhões de dólares para atender à demanda de modelos futuros.
- Essa expansão de infraestrutura tem grande impacto sobre a rede elétrica e o meio ambiente.
- Também há discussões sobre a construção de novas usinas nucleares, mas isso pode levar décadas.
- Controvérsia sobre a necessidade de infraestrutura:
- O custo de treinamento de US$ 6 milhões do DeepSeek v3 e a queda nos preços dos LLMs sugerem que essa expansão pode não ser necessariamente indispensável.
- No entanto, quase não há executivos dispostos a correr o risco de "não construir infraestrutura e depois descobrir que foi uma decisão errada".
- Semelhança histórica:
- É possível comparar isso ao período em que as redes ferroviárias foram construídas no mundo todo no século XIX.
- Houve investimentos enormes e impactos ambientais, e muitas linhas foram duplicadas, gerando resultados desnecessários.
- Como resultado, isso provocou várias crises financeiras:
- Pânico de 1873, Pânico de 1893, Pânico de 1901, Railway Mania no Reino Unido.
- A infraestrutura permaneceu, mas também vieram grandes falências e danos ambientais.
- Lição para o presente:
- A corrida pelos data centers pode deixar uma infraestrutura útil, mas traz o risco de expansão desnecessária e danos ambientais.
# 2024, o ano do "Slop"
- Definição de "Slop":
- O termo se consolidou para se referir a conteúdo gerado por IA não desejado e não revisado.
- Assim como "spam" passou a significar e-mail indesejado, "slop" também se tornou tão usado que chegou aos dicionários.
- Origem do termo:
- A discussão começou com um tweet de @deepfates:
- "Estamos vendo em tempo real 'slop' virar um termo estabelecido."
- Em maio de 2024, o conceito foi expandido e definido como "conteúdo gerado por IA não solicitado e não revisado".
- A discussão começou com um tweet de @deepfates:
- Reação da mídia:
- Citações de entrevistas sobre "slop" no NY Times e no Guardian:
- "Precisamos de um termo simples para falar sobre a IA moderna. 'Ignore esse e-mail, é spam.' e 'Ignore esse artigo, é slop.' são lições úteis."
- Citações de entrevistas sobre "slop" no NY Times e no Guardian:
- Importância do slop:
- É útil para expressar de forma concisa os usos equivocados da IA generativa.
- Também ajuda a fazer com que a IA seja usada de forma eficiente e responsável.
- Impacto cultural em 2024:
- "Slop" foi finalista da Palavra do Ano de Oxford, mas perdeu para "brain rot".
# O efeito surpreendente dos dados sintéticos de treinamento
- Conceito de "colapso do modelo":
- Mencionado pela primeira vez em maio de 2023 no artigo The Curse of Recursion, e recebeu mais atenção em julho de 2024 na Nature.
- A tese era: se o conteúdo gerado por IA inundasse a internet, os modelos passariam a treinar repetidamente em suas próprias saídas e perderiam desempenho.
- Realidade: esse colapso não aconteceu; em vez disso, o treinamento de modelos com dados sintéticos está se tornando cada vez mais comum.
- Vantagens dos dados sintéticos:
- Como explicado no Phi-4 Technical Report:
- Dados sintéticos não são apenas substitutos de dados orgânicos; eles oferecem benefícios diretos como:
- Aprendizado estruturado e gradual:
- Dados orgânicos são difíceis de aprender porque as relações entre tokens são complexas e indiretas.
- Já os dados sintéticos, por serem gerados por modelos de linguagem com base em tokens anteriores, permitem aprender padrões de raciocínio com mais facilidade.
- O processo de aprendizado se torna mais sistemático e previsível.
- Aprendizado estruturado e gradual:
- Dados sintéticos não são apenas substitutos de dados orgânicos; eles oferecem benefícios diretos como:
- Como explicado no Phi-4 Technical Report:
- Casos em que modelos grandes ajudam modelos menores:
- Modelos de grande porte geram dados sintéticos para modelos menores:
- DeepSeek v3: uso de dados de "raciocínio" gerados pelo DeepSeek-R1.
- Meta Llama 3.3 70B: fine-tuning com mais de 25 milhões de exemplos sintéticos.
- Modelos de grande porte geram dados sintéticos para modelos menores:
- Importância do design de dados:
- O design dos dados emergiu como o fator mais importante no treinamento de LLMs.
- Já não se usa mais a abordagem de simplesmente raspar indiscriminadamente todos os dados da internet para treinar modelos, como no passado.
# Em 2024, usar LLMs ficou mais difícil
- LLMs são ferramentas complexas:
- Por fora parecem simples, mas na prática são "ferramentas para usuários avançados" que exigem entendimento profundo e experiência.
- Isso é descrito com a metáfora de "uma motosserra disfarçada para parecer uma faca de cozinha".
- Agravamento do problema em 2024:
- Os modelos ficaram mais poderosos, mas ainda mantêm limitações e restrições antigas.
- Vários sistemas foram introduzidos, cada um oferecendo ferramentas diferentes (Python, JavaScript, busca na web, geração de imagens etc.).
- Para usar isso bem, o usuário precisa entender as possibilidades e os limites de cada ferramenta.
- Aumento da complexidade entre sistemas:
- Ex.: no ChatGPT é possível executar Python de duas formas diferentes.
- Para criar um Claude Artifact que se comunique com APIs externas, é preciso entender cabeçalhos HTTP de CSP e CORS.
- O o1 da OpenAI roda com recursos limitados, enquanto o GPT-4o oferece busca na web e interpretador de código.
- É preciso entender a diferença de recursos entre os dois modelos dentro da mesma interface do ChatGPT.
- Limites da experiência do usuário:
- A interface básica de chat dos LLMs oferece uma experiência comparável a jogar um iniciante em um terminal Linux.
- Muitos usuários desenvolvem modelos mentais errados sobre como LLMs funcionam e o que podem fazer.
- Ex.: aumento de casos irracionais em que screenshots do ChatGPT são usadas como prova em discussões.
- Problema duplo:
- Uso indevido: usuários que, apesar das imperfeições dos LLMs, os tratam como ferramentas universais.
- Rejeição: até mesmo pessoas bem informadas acabam abandonando totalmente o uso dos LLMs por causa de seus defeitos.
- Para usar LLMs com eficácia, é essencial saber colaborar com uma tecnologia poderosa, porém imperfeita.
- Necessidade de conteúdo educacional:
- A educação do usuário é importante, mas ainda é insuficiente.
- Em vez de depender de threads exageradas no Twitter sobre IA, é preciso desenvolver materiais educacionais mais confiáveis.
# A distribuição desigual do conhecimento
- O que é conhecido e o que é desconhecido:
- A maioria das pessoas conhece o ChatGPT, mas pouquíssimas já ouviram falar do Claude.
- A diferença de conhecimento entre quem acompanha ativamente essa área e os outros 99% é enorme.
- Velocidade das mudanças:
- O ritmo das mudanças tecnológicas aprofunda ainda mais essa lacuna de conhecimento.
- No último mês, foram introduzidas interfaces ao vivo:
- É possível apontar a câmera do celular para algo e conversar por voz sobre isso.
- Também é possível escolher um recurso que faz o sistema imitar o Papai Noel.
- Até mesmo autoproclamados entusiastas de tecnologia muitas vezes ainda não testaram esses recursos.
- Impacto social e necessidade:
- Considerando o impacto que essa tecnologia terá na sociedade atual e futura, uma lacuna de conhecimento tão grande não é saudável.
- São necessários mais esforços para melhorar isso.
# Precisamos de críticas melhores aos LLMs
- Resistência à tecnologia:
- Em algumas comunidades como Mastodon, Bluesky, Lobste.rs e Hacker News, até mesmo a opinião de que “LLMs são úteis” gera debate.
- Motivos para a resistência à tecnologia:
- Impacto ambiental.
- Questões éticas dos dados de treinamento.
- Falta de confiabilidade.
- Casos de uso negativos.
- Potencial impacto sobre empregos.
- Necessidade de crítica:
- Os LLMs merecem ser criticados, e é importante discutir os problemas, buscar soluções e educar sobre formas de uso responsável.
- O objetivo é ajudar a fazer com que os usos positivos superem os impactos negativos.
- Valor de uma visão cética:
- O hype excessivo agravou os problemas nos últimos dois anos:
- Desinformação e expectativas exageradas se espalharam.
- Decisões equivocadas foram tomadas com frequência.
- O pensamento crítico é essencial para compreender e usar essa tecnologia corretamente.
- O hype excessivo agravou os problemas nos últimos dois anos:
- Conversa com tomadores de decisão:
- É preciso reconhecer bons casos de uso da ferramenta e, ao mesmo tempo, explicar como evitar armadilhas pouco intuitivas.
- Afirmar que não existem bons casos de uso ignora o valor potencial da tecnologia.
- Transmitir a mensagem certa:
- A crítica simplista de que é uma “máquina de plágio destrutiva para o meio ambiente e que mente o tempo todo” não ajuda a resolver os problemas.
- Para descobrir e concretizar o verdadeiro valor dos LLMs, são necessários orientação e ensino que não são intuitivos.
- Papel responsável:
- As pessoas que entendem essa tecnologia têm a responsabilidade de ajudar outras a usá-la corretamente.
1 comentários
Comentários do Hacker News
Muitas pessoas tendem a achar que LLMs são inúteis depois de usar o ChatGPT 4. No entanto, o Claude Sonnet 3.5 ainda pode ser útil
O termo "agente" não tem um significado claro, o que causa confusão
Há preocupações sobre a queda de preços dos LLMs
O conceito de "agente" ainda não está claramente definido
Não concorda com a afirmação de que usar LLMs ficou mais difícil
Ficou mais difícil julgar o que é "bom"
Algumas pessoas desistiram de usar LLMs por causa de seus defeitos
Alguns modelos do GPT-4 podem rodar até em notebooks
Não entende por que o uso de 64GB de DRAM pela Apple seria algo especial
Há confusão sobre a estrutura de custos do Google Gemini e do Amazon Nova
Há a opinião de que os LLMs não são úteis para tarefas do dia a dia
Percebeu-se que os padrões de moralidade e excelência desta indústria são baixos
Há questionamentos sobre o estado atual de empurrar o "raciocínio" para o espaço latente/neural