22 pontos por GN⁺ 2025-01-01 | 1 comentários | Compartilhar no WhatsApp

Resumo de Simon Willison sobre todas as mudanças relacionadas a LLM em 2024

  • Superando completamente os limites do GPT-4
  • Alguns modelos de nível GPT-4 rodam no meu notebook
  • Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência
  • A expansão da visão multimodal, com áudio e vídeo surgindo com força
  • Voz e modo de câmera ao vivo, ficção científica tornando-se realidade
  • Geração de apps baseada em prompts, uma tecnologia que já virou rotina
  • Acesso gratuito aos melhores modelos, encerrado em poucos meses
  • "Agentes", um conceito que ainda não se concretizou
  • A importância das avaliações (Evals)
  • Apple Intelligence decepciona, mas a biblioteca MLX é excelente
  • Escalonamento de raciocínio e a ascensão dos modelos de "Reasoning"
  • O melhor LLM do momento foi treinado na China por menos de US$ 6 milhões?
  • Melhora no impacto ambiental
  • O impacto ambiental ficou ainda pior
  • 2024, o ano do "Slop"
  • Os efeitos surpreendentes dos dados sintéticos de treinamento
  • 2024 foi um ano em que usar LLM ficou mais difícil
  • A distribuição desigual do conhecimento
  • Precisamos de críticas melhores aos LLMs

# Superando completamente os limites do GPT-4

  • Situação em 2023: o GPT-4 era considerado o melhor modelo de linguagem, e outros laboratórios de IA não conseguiam superá-lo. Os segredos técnicos da OpenAI chamavam muita atenção.
  • Mudança em 2024: 18 organizações anunciaram modelos que superam o GPT-4. No momento, há 70 modelos no ranking do Chatbot Arena acima do GPT-4-0314, lançado em março de 2023.
  • Principais modelos e avanços técnicos
    • Google Gemini 1.5 Pro: lançado em fevereiro de 2024
      • Ofereceu saída em nível GPT-4 e novos recursos
      • Suporte a contexto de entrada de 1 milhão de tokens, depois ampliado para 2 milhões
      • Introduziu entrada de vídeo
      • Capaz de resolver problemas de programação e analisar livros inteiros com entradas longas
      • Foi tratado como um anúncio importante na keynote do Google I/O 2024
    • Série Anthropic Claude 3:
      • Claude 3 Opus: lançado em março de 2024, chamou atenção pelo alto desempenho
      • Claude 3.5 Sonnet: lançado em junho, com versão atualizada anunciada em 22 de outubro
      • Mesmo após a atualização, o número da versão continuou 3.5, e os fãs passaram a chamá-lo de Claude 3.6
  • Expansão do tamanho de contexto
    • 2023: a maioria dos modelos suportava de 4.096 a 8.192 tokens. O Claude 2.1 era uma exceção com 200 mil tokens
    • 2024: os principais modelos passaram a suportar mais de 100 mil tokens, e a série Google Gemini chega a até 2 milhões
    • Isso permite resolver diversos problemas processando grandes volumes de entrada
    • É vantajoso para analisar livros inteiros ou resolver problemas com base em código de exemplo
  • Modelos e organizações que superaram o GPT-4
    • Segundo o ranking do Chatbot Arena, as organizações com modelos de desempenho superior ao GPT-4-0314 incluem:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI e outras 18 organizações
    • No ranking, o GPT-4-0314 está atualmente na faixa da 70ª posição

# Alguns modelos de nível GPT-4 rodam no meu notebook

  • Equipamento usado: um M2 MacBook Pro com 64 GB de RAM lançado em 2023. Um equipamento com cerca de dois anos, o mesmo notebook no qual ele rodou LLM pela primeira vez em março de 2023.
  • Mudança de desempenho: no início, mal conseguia rodar modelos no nível do GPT-3, mas agora já consegue rodar modelos de nível GPT-4.
    • Qwen2.5-Coder-32B: modelo especializado em programação lançado em novembro de 2024, sob licença Apache 2.0.
    • Meta Llama 3.3 70B: modelo de nível GPT-4 lançado em dezembro de 2024.
  • Importância: é surpreendente que modelos de nível GPT-4 possam rodar em um notebook, e não apenas em servidores de datacenter com GPUs de mais de US$ 40 mil.
    • Como usa quase toda a RAM de 64 GB, fica difícil fazer outras tarefas ao mesmo tempo.
    • Isso foi possível graças a melhorias na eficiência dos modelos. Ao que tudo indica, é resultado das otimizações do último ano.
    • Ainda se espera que haja bastante espaço para melhorar ainda mais essa eficiência.
  • Modelos Meta Llama 3.2: não são de nível GPT-4, mas os modelos de 1B e 3B apresentam ótimo desempenho apesar do tamanho pequeno.
    • Llama 3.2 3B: pode ser executado com o app gratuito MLC Chat para iOS.
    • Com menos de 2 GB, roda em iPhone e gera 20 tokens por segundo.
    • Exemplo: ao pedir um "enredo de filme de Natal da Netflix em que uma jornalista de dados se apaixona por um ceramista local", ele gera uma resposta simples, mas adequada.
      • Título: "Love in the Clay"
      • Enredo: a história acompanha Jessica voltando para sua cidade natal, Willow Creek, para investigar a história local e os impactos da gentrificação.
    • O resultado é comum, mas ainda assim é interessante que algo assim seja possível até mesmo em um iPhone.

# Queda brusca nos preços de LLM, uma mudança criada por concorrência e eficiência

  • Preços no fim de 2023: os principais modelos da OpenAI tinham os seguintes preços.
    • GPT-4: US$ 30/milhão de tokens de entrada
    • GPT-4 Turbo: US$ 10/mTok
    • GPT-3.5 Turbo: US$ 1/mTok
  • Mudanças de preço em 2024:
    • OpenAI o1: US$ 30/mTok, o modelo mais caro
    • GPT-4o: US$ 2,50/mTok (12 vezes mais barato que o GPT-4)
    • GPT-4o Mini: US$ 0,15/mTok (cerca de 7 vezes mais barato que o GPT-3.5 e com desempenho melhor)
    • Anthropic Claude 3 Haiku: US$ 0,25/mTok (lançado em março, o modelo mais barato da Anthropic)
    • Google Gemini 1.5 Flash: US$ 0,075/mTok
    • Google Gemini 1.5 Flash 8B: US$ 0,0375/mTok (27 vezes mais barato que o GPT-3.5 Turbo)
  • Fatores da queda de preços:
    • Aumento da concorrência: muitos fornecedores de modelos entraram no mercado, intensificando a disputa por preços.
    • Melhora de eficiência: a otimização no treinamento e na inferência reduziu o consumo de energia.
      • Isso diminuiu a preocupação com o custo energético de executar prompts individuais.
  • Eficiência e custo ambiental:
    • O aumento da eficiência energética reduziu as preocupações ambientais.
    • Mas o impacto ambiental da construção de datacenters continua sendo um problema.
  • Cálculo de custo em uso real:
    • Cálculo do custo para gerar descrições para uma biblioteca pessoal de fotos com 68.000 imagens usando o Google Gemini 1.5 Flash 8B.
      • São necessários 260 tokens de entrada e 100 tokens de saída por foto.
      • Total de 17.680.000 tokens de entrada * US$ 0,0375/milhão = US$ 0,66
      • Total de 6.800.000 tokens de saída * US$ 0,15/milhão = US$ 1,02
      • Custo total: é possível processar 68.000 fotos por US$ 1,68.
  • Exemplo de descrição:
    • Foto: duas borboletas se alimentando em uma bandeja vermelha na California Academy of Sciences.
    • Descrição gerada:
      • Foto de duas borboletas comendo frutas em uma bandeja vermelha.
      • Descreve em detalhe até as cores e os padrões das borboletas.
    • Custo: cerca de 0,0024 centavo, menos de 1/400 de centavo.
  • Uma das maiores mudanças de 2024:
    • A queda de preços e a redução do custo energético estão maximizando a utilidade dos LLMs.

# A expansão da visão multimodal, com áudio e vídeo surgindo com força

  • Principais tendências de 2024: os LLMs multimodais (capazes de processar diferentes tipos de entrada além de texto, como imagem, áudio e vídeo) se tornaram algo comum.
    • Casos de 2023:
      • OpenAI GPT-4 Vision: lançado no DevDay de novembro de 2023.
      • Google Gemini 1.0: anunciado em 7 de dezembro de 2023.
    • Principais lançamentos de 2024:
      • Série Anthropic Claude 3: lançada em março.
      • Google Gemini 1.5 Pro: lançado em abril (com suporte a processamento de imagem, áudio e vídeo).
      • Qwen2-VL: lançado em setembro.
      • Mistral Pixtral 12B: lançado em setembro.
      • Meta Llama 3.2: lançado em setembro (modelos de visão 11B e 90B).
      • Recursos de entrada e saída de áudio da OpenAI: adicionados em outubro.
      • Hugging Face SmolVLM: lançado em novembro.
      • Modelos de imagem e vídeo Amazon Nova: lançados em dezembro.
  • Ferramentas e suporte multimodal:
    • Em outubro de 2024, a ferramenta de CLI para LLM que uso pessoalmente foi atualizada para oferecer suporte a modelos multimodais.
    • Também foram adicionados plugins capazes de processar anexos como imagens, áudio e vídeo.
  • Importância dos modelos multimodais:
    • As críticas de que a evolução dos LLMs desacelerou parecem ignorar os avanços dos modelos multimodais.
    • Executar prompts usando imagens, áudio e vídeo é um avanço empolgante que abre novas possibilidades de uso.

# Modo de voz e câmera ao vivo, ficção científica que virou realidade

  • Surgimento dos primeiros modos de voz:
    • Em setembro de 2023, o app móvel do ChatGPT ganhou uma função de conversa por voz.
    • Ele usava os modelos Whisper (Speech-to-Text) e tts-1 (Text-to-Speech), mas o modelo em si ainda processava apenas texto.
  • Modo de voz do GPT-4o:
    • No novo modo de voz anunciado em 13 de maio de 2024, o modelo GPT-4o passou a ser verdadeiramente multimodal, com suporte a entrada de áudio e saída de voz natural.
    • A demo usou uma voz semelhante à de Scarlett Johansson, mas após a controvérsia essa voz não foi incluída no produto comercial.
    • O atraso no lançamento do modo de voz gerou confusão, mas ele foi liberado gradualmente em agosto e setembro como ChatGPT Advanced Voice.
      • Experiência de uso: conversar no modo de voz durante caminhadas melhorou bastante a qualidade do conteúdo.
      • Experimentos com a API de áudio da OpenAI mostraram vários recursos de voz diferentes.
  • Características do modo de voz:
    • O Advanced Voice permite reproduzir uma grande variedade de sotaques.
    • Exemplo: pedir que ele converse em espanhol com o forte sotaque russo de um pelicano-pardo-da-Califórnia.
  • Modelos de voz multimodais de outras empresas:
    • Google Gemini: suporta entrada de áudio e permite conversas por voz semelhantes às do ChatGPT.
    • Amazon Nova: modo de voz anunciado antecipadamente (lançamento previsto para o 1º trimestre de 2025).
    • Google NotebookLM (lançado em setembro de 2024): gera uma conversa entre dois “apresentadores de podcast” com base no conteúdo de entrada. Também aceita instruções personalizadas.
  • Surgimento do modo de vídeo ao vivo:
    • Em dezembro de 2024, o modo de voz do ChatGPT ganhou um recurso de compartilhamento do feed da câmera.
    • Isso permite conversar em tempo real sobre o que a câmera está mostrando.
    • O Google Gemini também ofereceu um recurso semelhante em preview no mesmo período.
  • Acessibilidade via API:
    • Tanto a OpenAI quanto o Google oferecem APIs para esses recursos.
    • Em dezembro, a OpenAI anunciou a WebRTC API, simplificando o desenvolvimento de apps web baseados em voz.

# Geração de apps por prompt, uma tecnologia que já virou rotina

  • Possibilidades do GPT-4 em 2023:
    • Já era possível usar o GPT-4 para gerar apps interativos completos em HTML, CSS e JavaScript.
    • Ferramentas como React também podiam ser integradas por meio de mecanismos adicionais de build.
  • Chegada do Claude Artifacts em 2024:
    • Um novo recurso apresentado no meio do anúncio do Anthropic Claude 3.5 Sonnet.
    • Ele permite criar apps sob demanda que podem ser executados diretamente dentro da interface do Claude.
    • Exemplo: uma ferramenta de extração de URLs criada com o Claude.
      • Ao inserir uma URL, a lista extraída é exibida imediatamente.
    • Foi compartilhada a experiência de ter criado 14 pequenas ferramentas em uma semana com o Claude Artifacts.
  • Adoção de recursos semelhantes por concorrentes:
    • GitHub Spark: anunciado em outubro de 2024.
    • Mistral Chat Canvas: adicionado em novembro de 2024.
    • Steve Krause, da Val Town: implementou edição de apps em tempo real usando modelos da Cerebras com velocidade de processamento de 2.000 tokens por segundo.
    • Equipe do Chatbot Arena: em dezembro, introduziu um novo leaderboard em que dois modelos geram o mesmo app e os usuários votam.
  • Meus próprios projetos:
    • No projeto Datasette, estou desenvolvendo formas de usar prompts para gerar widgets personalizados e visualizações de dados, além de permitir iteração sobre eles.
    • Também implementei um padrão semelhante para escrever um único programa Python usando uv.
  • Perspectiva para 2025:
    • Depois que os problemas de sandboxing do navegador forem resolvidos, é bem provável que esse recurso passe a vir embutido por padrão em diversos produtos.

# Acesso gratuito aos melhores modelos, encerrado em poucos meses

  • Oferta gratuita no início de 2024:
    • GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro — os três melhores modelos da época — foram oferecidos gratuitamente para a maioria dos usuários.
    • A OpenAI liberou o GPT-4o de graça em maio de 2024.
    • O Claude 3.5 Sonnet ficou disponível gratuitamente já no lançamento, em junho.
    • Antes disso, usuários gratuitos em geral só tinham acesso a modelos no nível do GPT-3.5, mas nesse período puderam experimentar de fato a capacidade real dos LLMs de alto desempenho.
  • Fim do acesso gratuito:
    • A OpenAI encerrou esse acesso gratuito ao lançar o ChatGPT Pro.
    • O ChatGPT Pro exige uma assinatura de US$ 200 por mês e dá acesso ao o1 Pro, seu modelo mais poderoso.
  • Perspectiva futura:
    • A principal característica da série o1 é usar mais recursos computacionais para entregar resultados melhores.
    • Por causa dessa estrutura de custos, parece improvável que a era de acesso gratuito aos melhores modelos volte tão cedo.

# “Agentes”, um conceito que ainda não se concretizou

  • Ambiguidade do termo:
    • O termo “agente” ainda carece de uma definição única e clara, e seu significado varia de pessoa para pessoa.
    • Em geral, ele se divide em duas categorias:
      • agentes no estilo de uma agência de viagens, que executam tarefas em nome do usuário;
      • agentes baseados em LLM, que acessam ferramentas, executam tarefas iterativas e resolvem problemas.
    • O termo “autonomia” também é usado com frequência, mas sem uma definição clara, o que aumenta a confusão.
  • Limitações conceituais:
    • “Agente” continua sendo um conceito que parece sempre estar “para chegar”.
    • Foram coletadas 211 definições (em uma pesquisa no Twitter) e resumidas com o modelo Gemini-exp-1206, mas ainda assim não se chegou a um consenso claro.
  • Ceticismo quanto à utilidade:
    • A utilidade prática dos agentes é limitada por um problema derivado da tendência dos LLMs de serem “facilmente enganados” (gullibility).
    • Se eles não conseguem distinguir verdade de ficção, fica difícil tomar decisões significativas como agência de viagens, assistente digital ou ferramenta de pesquisa.
    • Exemplo: o caso em que a busca do Google resumiu incorretamente um filme inexistente chamado “Encanto 2” a partir de uma wiki fictícia de fanfic.
  • Prompt injection:
    • Esse também é um problema que decorre dessa facilidade em ser enganado; ele vem sendo discutido desde setembro de 2022, mas não houve grande avanço em 2024.
  • Conclusão:
    • A ideia popular de agentes parece, na prática, depender da própria AGI (inteligência artificial geral).
    • Desenvolver modelos com confiabilidade garantida continua sendo um desafio extremamente difícil.

# A importância de Evals

  • Avaliações se tornaram a habilidade central:
    • Em 2024, escrever boas avaliações automáticas (Evals) para sistemas baseados em LLM surgiu como a habilidade mais importante.
    • Com ferramentas de avaliação robustas, torna-se possível adotar novos modelos rapidamente, iterar melhor e desenvolver funcionalidades confiáveis.
  • A abordagem da Anthropic:
    • Amanda Askell: o segredo de um bom system prompt é desenvolvimento orientado a testes.
      • "Não se trata de escrever um system prompt e depois procurar testes, mas de escrever os testes e encontrar um system prompt que passe por eles."
    • Essa abordagem teve um papel central no desenvolvimento do Claude.
  • O caso da Vercel:
    • Malte Ubl: no início, usaram métodos complexos de pré-processamento e pós-processamento para proteger o prompt.
      • Depois perceberam que a simplicidade do prompt, as avaliações, o modelo e a UX eram mais importantes, e mudaram de direção.
      • "Um prompt sem avaliações é como uma máquina quebrada sem manual de instruções."
  • Exploração pessoal:
    • Estou pesquisando para encontrar os melhores padrões de implementação de avaliações eficazes.
    • Até agora, embora a importância das avaliações seja bastante enfatizada, faltam bons guias sobre como implementá-las de forma concreta.
    • Pessoalmente, usei o benchmark do "pelicano SVG andando de bicicleta", mas isso não substitui uma ferramenta de avaliação de verdade.

# Apple Intelligence decepciona, mas a biblioteca MLX é excelente

  • Melhora na experiência de usar ML no Mac:
    • Um Mac com 64GB de RAM é teoricamente adequado para executar modelos, já que CPU e GPU podem compartilhar memória.
    • No entanto, usuários de Mac enfrentavam muitas limitações por causa de modelos e bibliotecas priorizando NVIDIA CUDA.
  • A inovação da biblioteca MLX:
    • O MLX da Apple (framework de arrays para Apple Silicon) permite rodar vários modelos compatíveis com MLX com excelente desempenho no Mac.
    • mlx-lm em Python: suporta modelos compatíveis com MLX e tem ótimo desempenho.
    • mlx-community da Hugging Face: oferece mais de 1.000 modelos convertidos para o formato necessário.
    • Projeto mlx-vlm de Prince Canuma: permite executar vision LLMs no Apple Silicon.
      • Foi usado recentemente para rodar o Qwen QvQ.
  • A decepção com Apple Intelligence:
    • Quando foi anunciado em junho de 2024, gerou expectativa por focar em aplicações de LLM com ênfase em privacidade do usuário.
    • Mas os recursos realmente lançados são fracos e ficam aquém das capacidades dos LLMs de ponta.
      • Exemplos:
        • Resumos de notificações que resumem manchetes de notícias de forma errada.
        • Ferramentas de auxílio à escrita com pouca utilidade.
      • Ainda assim, o Genmoji foi visto como um recurso um pouco divertido.
  • Mudança de perspectiva dos usuários de Mac:
    • Graças a ferramentas como MLX, a satisfação com a escolha da plataforma Mac aumentou bastante.
    • Especialmente porque o ambiente para rodar LLMs no Apple Silicon melhorou.

# Escalonamento de inferência e a ascensão dos modelos de "Reasoning"

  • O surgimento de uma nova forma de LLM:
    • No quarto trimestre de 2024, o modelo o1 da OpenAI (o1-preview, o1-mini) foi anunciado pela primeira vez em 12 de setembro.
    • Trata-se de uma evolução da técnica de chain-of-thought, projetada para que o modelo resolva problemas "pensando" sobre eles.
  • Características do modelo o1:
    • Ele usa "reasoning tokens" para raciocinar sobre um problema; esse processo não é mostrado diretamente ao usuário, mas pode ser visto de forma resumida na interface do ChatGPT.
    • O desempenho pode melhorar não apenas com mais capacidade computacional no treinamento, mas também com mais computação usada no momento da inferência.
  • A escalabilidade do modelo:
    • Ele usa recursos computacionais adicionais no momento da inferência para lidar com problemas mais difíceis.
    • Isso representa uma nova forma de escalar a arquitetura tradicional dos modelos LLM.
  • O modelo seguinte, o3:
    • Anunciado em 20 de dezembro de 2024, registrou resultados impressionantes no benchmark ARC-AGI.
    • Pode ter exigido mais de $1,000,000 em custo computacional.
    • Está previsto para ser lançado em janeiro de 2025. Por causa do custo computacional extremamente alto, seu uso real provavelmente será limitado.
  • Outros anúncios importantes de modelos:
    • Google: em 19 de dezembro, lançou gemini-2.0-flash-thinking-exp.
    • Alibaba: em 28 de novembro, anunciou o modelo QwQ (licença Apache 2.0), executável localmente.
      • Em 24 de dezembro, anunciou o modelo de raciocínio visual QvQ, que também roda localmente.
    • DeepSeek: em 20 de novembro, disponibilizou o modelo DeepSeek-R1-Lite-Preview por meio de uma interface de chat.
  • Pesquisas relacionadas e previsões:
    • Anthropic e Meta ainda não anunciaram modelos oficiais, mas é muito provável que estejam desenvolvendo modelos semelhantes de escalonamento de inferência.
    • Em dezembro, a Meta publicou o artigo relacionado "Training Large Language Models to Reason in a Continuous Latent Space".
    • Para mais informações, fica a recomendação de Is AI progress slowing down?, de Arvind Narayanan e Sayash Kapoor.

# O melhor LLM atual foi treinado na China por menos de US$ 6 milhões?

  • Principais notícias:
    • No Natal de 2024, o DeepSeek v3 foi publicado no Hugging Face (sem arquivo README no início; documentação e artigo foram adicionados no dia seguinte).
    • É um modelo enorme de 685B parâmetros, muito maior que o Llama 3.1 405B da Meta.
    • É o maior modelo disponível sob licença aberta.
  • Desempenho:
    • Tem desempenho em benchmarks semelhante ao do Claude 3.5 Sonnet.
    • Ficou em 7º lugar no Chatbot Arena, logo atrás dos modelos Gemini 2.0 e OpenAI 4o/o1.
    • É o modelo sob licença aberta mais bem colocado.
  • Custo de treinamento:
    • DeepSeek v3: 2,788,000 horas de GPU H800, com custo de cerca de $5,576,000.
    • Meta Llama 3.1 405B: 30,840,000 horas de GPU, 11 vezes mais custo que o DeepSeek v3, mas com desempenho de benchmark ligeiramente inferior.
  • Impacto das restrições de exportação de GPUs para a China:
    • As restrições dos EUA à exportação de GPUs parecem ter estimulado fortemente a otimização do treinamento.
    • O treinamento eficiente em custo do DeepSeek v3 é visto como resultado dessas otimizações.

# Melhoras no impacto ambiental

  • Menor consumo de energia graças ao aumento de eficiência:
    • Como a eficiência dos modelos aumentou muito, o uso de energia e o impacto ambiental por execução de prompt caíram drasticamente nos últimos anos.
    • A OpenAI reduziu o custo por prompt em 100 vezes em relação à era do GPT-3.
    • Provedores de modelos de baixo custo, como Google Gemini e Amazon Nova, também conseguem operar prompts sem prejuízo.
  • Do ponto de vista do usuário individual:
    • Na maioria dos casos, o consumo de energia causado pela execução de prompts é, na prática, mínimo.
    • O impacto ambiental provavelmente é menor do que dirigir uma curta distância de carro ou assistir a um vídeo no YouTube.
  • Queda no custo de treinamento:
    • O custo de treinamento abaixo de $6 milhões do DeepSeek v3 mostra que os custos de treinamento podem continuar caindo.
    • Tornou-se possível treinar com mais eficiência usando menos recursos.
  • Comparação com modelos ineficientes:
    • O custo energético de treinar o maior modelo do Llama 3 é comparável ao custo de energia de alguns voos comerciais lotados entre Nova York e Londres.
    • Mas, depois que o treinamento é concluído, milhões de pessoas podem usá-lo sem custo adicional, o que o torna eficiente no longo prazo.

# O impacto ambiental está piorando ainda mais

  • Corrida pela construção de grandes data centers:
    • Grandes empresas como Google, Meta, Microsoft e Amazon estão construindo data centers com investimentos de bilhões de dólares para atender à demanda de modelos futuros.
    • Essa expansão de infraestrutura tem grande impacto sobre a rede elétrica e o meio ambiente.
    • Também há discussões sobre a construção de novas usinas nucleares, mas isso pode levar décadas.
  • Controvérsia sobre a necessidade de infraestrutura:
    • O custo de treinamento de US$ 6 milhões do DeepSeek v3 e a queda nos preços dos LLMs sugerem que essa expansão pode não ser necessariamente indispensável.
    • No entanto, quase não há executivos dispostos a correr o risco de "não construir infraestrutura e depois descobrir que foi uma decisão errada".
  • Semelhança histórica:
    • É possível comparar isso ao período em que as redes ferroviárias foram construídas no mundo todo no século XIX.
    • Houve investimentos enormes e impactos ambientais, e muitas linhas foram duplicadas, gerando resultados desnecessários.
    • Como resultado, isso provocou várias crises financeiras:
      • Pânico de 1873, Pânico de 1893, Pânico de 1901, Railway Mania no Reino Unido.
    • A infraestrutura permaneceu, mas também vieram grandes falências e danos ambientais.
  • Lição para o presente:
    • A corrida pelos data centers pode deixar uma infraestrutura útil, mas traz o risco de expansão desnecessária e danos ambientais.

# 2024, o ano do "Slop"

  • Definição de "Slop":
    • O termo se consolidou para se referir a conteúdo gerado por IA não desejado e não revisado.
    • Assim como "spam" passou a significar e-mail indesejado, "slop" também se tornou tão usado que chegou aos dicionários.
  • Origem do termo:
    • A discussão começou com um tweet de @deepfates:
      • "Estamos vendo em tempo real 'slop' virar um termo estabelecido."
    • Em maio de 2024, o conceito foi expandido e definido como "conteúdo gerado por IA não solicitado e não revisado".
  • Reação da mídia:
    • Citações de entrevistas sobre "slop" no NY Times e no Guardian:
      • "Precisamos de um termo simples para falar sobre a IA moderna. 'Ignore esse e-mail, é spam.' e 'Ignore esse artigo, é slop.' são lições úteis."
  • Importância do slop:
    • É útil para expressar de forma concisa os usos equivocados da IA generativa.
    • Também ajuda a fazer com que a IA seja usada de forma eficiente e responsável.
  • Impacto cultural em 2024:
    • "Slop" foi finalista da Palavra do Ano de Oxford, mas perdeu para "brain rot".

# O efeito surpreendente dos dados sintéticos de treinamento

  • Conceito de "colapso do modelo":
    • Mencionado pela primeira vez em maio de 2023 no artigo The Curse of Recursion, e recebeu mais atenção em julho de 2024 na Nature.
    • A tese era: se o conteúdo gerado por IA inundasse a internet, os modelos passariam a treinar repetidamente em suas próprias saídas e perderiam desempenho.
    • Realidade: esse colapso não aconteceu; em vez disso, o treinamento de modelos com dados sintéticos está se tornando cada vez mais comum.
  • Vantagens dos dados sintéticos:
    • Como explicado no Phi-4 Technical Report:
      • Dados sintéticos não são apenas substitutos de dados orgânicos; eles oferecem benefícios diretos como:
        • Aprendizado estruturado e gradual:
          • Dados orgânicos são difíceis de aprender porque as relações entre tokens são complexas e indiretas.
          • Já os dados sintéticos, por serem gerados por modelos de linguagem com base em tokens anteriores, permitem aprender padrões de raciocínio com mais facilidade.
        • O processo de aprendizado se torna mais sistemático e previsível.
  • Casos em que modelos grandes ajudam modelos menores:
    • Modelos de grande porte geram dados sintéticos para modelos menores:
      • DeepSeek v3: uso de dados de "raciocínio" gerados pelo DeepSeek-R1.
      • Meta Llama 3.3 70B: fine-tuning com mais de 25 milhões de exemplos sintéticos.
  • Importância do design de dados:
    • O design dos dados emergiu como o fator mais importante no treinamento de LLMs.
    • Já não se usa mais a abordagem de simplesmente raspar indiscriminadamente todos os dados da internet para treinar modelos, como no passado.

# Em 2024, usar LLMs ficou mais difícil

  • LLMs são ferramentas complexas:
    • Por fora parecem simples, mas na prática são "ferramentas para usuários avançados" que exigem entendimento profundo e experiência.
    • Isso é descrito com a metáfora de "uma motosserra disfarçada para parecer uma faca de cozinha".
  • Agravamento do problema em 2024:
    • Os modelos ficaram mais poderosos, mas ainda mantêm limitações e restrições antigas.
    • Vários sistemas foram introduzidos, cada um oferecendo ferramentas diferentes (Python, JavaScript, busca na web, geração de imagens etc.).
    • Para usar isso bem, o usuário precisa entender as possibilidades e os limites de cada ferramenta.
  • Aumento da complexidade entre sistemas:
    • Ex.: no ChatGPT é possível executar Python de duas formas diferentes.
    • Para criar um Claude Artifact que se comunique com APIs externas, é preciso entender cabeçalhos HTTP de CSP e CORS.
    • O o1 da OpenAI roda com recursos limitados, enquanto o GPT-4o oferece busca na web e interpretador de código.
      • É preciso entender a diferença de recursos entre os dois modelos dentro da mesma interface do ChatGPT.
  • Limites da experiência do usuário:
    • A interface básica de chat dos LLMs oferece uma experiência comparável a jogar um iniciante em um terminal Linux.
    • Muitos usuários desenvolvem modelos mentais errados sobre como LLMs funcionam e o que podem fazer.
      • Ex.: aumento de casos irracionais em que screenshots do ChatGPT são usadas como prova em discussões.
  • Problema duplo:
    • Uso indevido: usuários que, apesar das imperfeições dos LLMs, os tratam como ferramentas universais.
    • Rejeição: até mesmo pessoas bem informadas acabam abandonando totalmente o uso dos LLMs por causa de seus defeitos.
    • Para usar LLMs com eficácia, é essencial saber colaborar com uma tecnologia poderosa, porém imperfeita.
  • Necessidade de conteúdo educacional:
    • A educação do usuário é importante, mas ainda é insuficiente.
    • Em vez de depender de threads exageradas no Twitter sobre IA, é preciso desenvolver materiais educacionais mais confiáveis.

# A distribuição desigual do conhecimento

  • O que é conhecido e o que é desconhecido:
    • A maioria das pessoas conhece o ChatGPT, mas pouquíssimas já ouviram falar do Claude.
    • A diferença de conhecimento entre quem acompanha ativamente essa área e os outros 99% é enorme.
  • Velocidade das mudanças:
    • O ritmo das mudanças tecnológicas aprofunda ainda mais essa lacuna de conhecimento.
    • No último mês, foram introduzidas interfaces ao vivo:
      • É possível apontar a câmera do celular para algo e conversar por voz sobre isso.
      • Também é possível escolher um recurso que faz o sistema imitar o Papai Noel.
    • Até mesmo autoproclamados entusiastas de tecnologia muitas vezes ainda não testaram esses recursos.
  • Impacto social e necessidade:
    • Considerando o impacto que essa tecnologia terá na sociedade atual e futura, uma lacuna de conhecimento tão grande não é saudável.
    • São necessários mais esforços para melhorar isso.

# Precisamos de críticas melhores aos LLMs

  • Resistência à tecnologia:
    • Em algumas comunidades como Mastodon, Bluesky, Lobste.rs e Hacker News, até mesmo a opinião de que “LLMs são úteis” gera debate.
    • Motivos para a resistência à tecnologia:
      • Impacto ambiental.
      • Questões éticas dos dados de treinamento.
      • Falta de confiabilidade.
      • Casos de uso negativos.
      • Potencial impacto sobre empregos.
  • Necessidade de crítica:
    • Os LLMs merecem ser criticados, e é importante discutir os problemas, buscar soluções e educar sobre formas de uso responsável.
    • O objetivo é ajudar a fazer com que os usos positivos superem os impactos negativos.
  • Valor de uma visão cética:
    • O hype excessivo agravou os problemas nos últimos dois anos:
      • Desinformação e expectativas exageradas se espalharam.
      • Decisões equivocadas foram tomadas com frequência.
    • O pensamento crítico é essencial para compreender e usar essa tecnologia corretamente.
  • Conversa com tomadores de decisão:
    • É preciso reconhecer bons casos de uso da ferramenta e, ao mesmo tempo, explicar como evitar armadilhas pouco intuitivas.
    • Afirmar que não existem bons casos de uso ignora o valor potencial da tecnologia.
  • Transmitir a mensagem certa:
    • A crítica simplista de que é uma “máquina de plágio destrutiva para o meio ambiente e que mente o tempo todo” não ajuda a resolver os problemas.
    • Para descobrir e concretizar o verdadeiro valor dos LLMs, são necessários orientação e ensino que não são intuitivos.
  • Papel responsável:
    • As pessoas que entendem essa tecnologia têm a responsabilidade de ajudar outras a usá-la corretamente.

1 comentários

 
GN⁺ 2025-01-01
Comentários do Hacker News
  • Muitas pessoas tendem a achar que LLMs são inúteis depois de usar o ChatGPT 4. No entanto, o Claude Sonnet 3.5 ainda pode ser útil

    • A utilidade dos LLMs depende muito da capacidade de comunicação do usuário
    • É possível maximizar o desempenho dos LLMs com perguntas precisas e explicações de contexto
    • Eles são úteis para processar rapidamente tarefas tediosas
  • O termo "agente" não tem um significado claro, o que causa confusão

    • A palavra da moda "agentic" pode causar incômodo
  • Há preocupações sobre a queda de preços dos LLMs

    • O nível gratuito do Gemini ainda é atraente, mas é difícil confiar nele
    • Há preocupação com a possibilidade de os preços voltarem a subir no primeiro semestre de 2025
  • O conceito de "agente" ainda não está claramente definido

    • Acredita-se que um verdadeiro "agente" deve incluir autonomia
  • Não concorda com a afirmação de que usar LLMs ficou mais difícil

    • Há mais opções, mas o uso em si não ficou mais difícil
    • Iniciantes ainda recebem essencialmente as mesmas orientações
  • Ficou mais difícil julgar o que é "bom"

    • Há muita manipulação de benchmarks, o que gera confusão
    • Há a intenção de montar pessoalmente um framework de testes
  • Algumas pessoas desistiram de usar LLMs por causa de seus defeitos

    • Para aproveitar os LLMs ao máximo, é preciso aprender a trabalhar com uma tecnologia instável, mas poderosa
  • Alguns modelos do GPT-4 podem rodar até em notebooks

    • Isso significa que grandes data centers não são necessariamente exigidos
    • O valor da OpenAI pode ter sido superestimado
  • Não entende por que o uso de 64GB de DRAM pela Apple seria algo especial

    • Fica a dúvida de como a Apple consegue suprir DRAM, apesar de os data centers consumirem a maior parte da capacidade de fabricação de RAM
  • Há confusão sobre a estrutura de custos do Google Gemini e do Amazon Nova

    • Existem afirmações de que eles são oferecidos abaixo do custo de energia, e também afirmações em contrário
  • Há a opinião de que os LLMs não são úteis para tarefas do dia a dia

    • Afirma-se que os novos modelos de LLM são apenas melhorias superestimadas
  • Percebeu-se que os padrões de moralidade e excelência desta indústria são baixos

  • Há questionamentos sobre o estado atual de empurrar o "raciocínio" para o espaço latente/neural

    • O fato de o modelo "conversar consigo mesmo" tem pouca relação com a saída final e é ineficiente