Tudo em torno dos LLMs ainda parece mágico e baseado em pensamento desejoso

(dmitriid.com)

1 pontos por GN⁺ 2025-07-06 | 1 comentários | Compartilhar no WhatsApp

Histórias de sucesso com ferramentas de LLM muitas vezes deixam de fora critérios de comparação como condições do projeto, expertise do usuário e volume de trabalho posterior, o que dificulta avaliar sua utilidade real
Em discussões sobre MCP, uso de ferramentas e agentes, a atitude de tratar críticos como “pessoas que não olharam a fundo” lembra antigos debates sobre crypto
LLMs e agentes são não determinísticos, então é difícil assumir que uma abordagem que funcionou agora para o mesmo problema continuará funcionando do mesmo jeito um minuto depois
A famosa afirmação de que o Claude Code “lida com bugs legados” também recebeu 1,8 mil curtidas e 204 reposts sem informar o tamanho da base de código, o tipo de bug ou a forma de gerenciamento
Mesmo da perspectiva de quem já usou várias ferramentas na prática, LLMs estão mais próximos de máquinas estatísticas não determinísticas; mesmo que pareçam mágicos quando funcionam, é difícil defini-los categoricamente como magia ou engenharia

Por que é difícil comparar relatos de experiência com LLMs

Experiências favoráveis e contrárias sobre ferramentas de LLM costumam ser compartilhadas como fragmentos isolados, dificultando verificar se todos estão falando das mesmas condições
Muitas vezes falta o caráter do projeto e da base de código
- Não fica claro se é greenfield, uma base de código madura ou uma base de código proprietária
A expertise do usuário também é difícil de comparar de forma simples
- Não dá para saber se a expertise foi aplicada ao mesmo domínio, à mesma base de código e à mesma linguagem
A quantidade de trabalho adicional necessário, como revisão, correção, deploy e finalização, também influencia muito a avaliação
Mesmo que uma pessoa forneça todas essas informações, se não soubermos as condições das outras pessoas, a comparação entre experiências continua limitada
Soma-se a isso o não determinismo dos sistemas de LLM e dos agentes
- Mesmo para o mesmo problema, não se pode presumir que uma abordagem que funcionou agora também funcionará um minuto depois
- A experiência de um engenheiro sênior em um projeto React greenfield e a de um designer não desenvolvedor em uma base de código proprietária em OCaml ficam ainda mais difíceis de comparar quando o modelo e o agente mudam
- Mesmo com o mesmo modelo e o mesmo agente, os resultados podem variar a cada execução, o que dificulta comparações simples

A lacuna entre o discurso superaquecido e o uso real das ferramentas

Reações que tratam críticos de LLMs como “pessoas que não olharam o suficiente para MCP e ferramentas” mostram o superaquecimento do debate sobre IA
Como exemplo de “industry leaders”, aparece uma fala de Steve Yegge sobre o Claude Code
- O conteúdo afirma que o Claude Code lidou intensamente, por vários dias, com bugs legados em uma base de código antiga
- Inclui uma formulação de que o Claude Code avança mesmo sem que o contexto seja selecionado diretamente
- Também inclui a ideia de que, enquanto as aprovações bancárias continuarem, as correções de bugs seguem até o deploy em produção e a verificação dos logs de usuários
Mesmo nesse caso, faltam as informações necessárias para avaliação
- O tamanho da base de código não é informado
- Não se sabe que tipo de bug era
- Não fica claro se houve gerenciamento adicional
- A linguagem de programação e o framework também não são revelados
Ainda assim, essa fala recebeu 1,8 mil curtidas e 204 reposts
Céticos e críticos também não deixam de usar as ferramentas
- Há um projeto paralelo projetado inteiramente com o v0 da Vercel
- Sem conhecer Swift, foi criado um app de monitoramento em SwiftUI com o Claude Code
- Cartazes de eventos foram feitos com o Midjourney
- Um MCP server foi vibe-coded em Elixir, mas phoenix.new não foi usado
A experiência real de uso é resumida como “funciona só 50% em 50% do tempo”
LLMs são máquinas estatísticas não determinísticas e, embora possam parecer mágicos quando funcionam, não são magia nem engenharia em si
O discurso sobre LLMs tende a tratá-los apenas como uma coisa ou outra: magia ou engenharia

1 comentários

GN⁺ 2025-07-06

Opiniões no Hacker News

É frustrante ver a diretoria onde trabalho falando coisas como aumento de produtividade de 10 vezes. Parte dessas afirmações também vem de early adopters internos
Mas as expectativas ficaram altas demais. Um dos motivos é a lei de Amdahl: na prática, passo muito mais tempo pensando e me comunicando com outras pessoas, que são clientes do meu código, do que programando. Mesmo que programar fique 10 vezes mais rápido, a maior parte do trabalho não fica, e a produtividade total melhora algo em torno de 10% a 15%. Não é algo desprezível, mas não é 10 vezes
- Talvez seja porque meu trabalho atual tenha um caráter forte de pesquisa e desenvolvimento, mas, no meu caso, LLMs aumentam minha produtividade também na parte de pensar, tanto quanto na programação. A comunicação ainda consigo lidar bem por conta própria
  A sensação de usar LLMs para tarefas de pensamento é parecida com quando aprendi a usar buscas na web, mais de 20 anos atrás. Os mecanismos de busca permitiam acessar informações quando você sabia o que estava procurando; agora, os LLMs ajudam a descobrir o que procurar em primeiro lugar e ainda fazem a busca. Tarefas que antes eu classificava como difíceis por causa do esforço e da incerteza se tornaram triviais
  Hoje faço cerca de 1/3 das minhas buscas na web com o ChatGPT o3, e agora seria difícil abrir mão disso
  Também há um efeito psicológico de organizar ideias ainda imaturas e recebê-las de volta como um rubber duck; isso faz muitas tarefas parecerem bem menos pesadas, e só isso já faz uma grande diferença
- Na nossa empresa é parecido: até agora, todas as alegações de produtividade que vi de early adopters internos se baseiam em formas muito estreitas de medir produtividade e em cálculos que, para dizer o mínimo, são suspeitos
- Isso pode ser porque LLMs são aceleradores muito maiores para desenvolvedores sêniores do que para desenvolvedores juniores. Juniores não sabem muito bem o que é bom ou ruim
  Se você der a um sênior um fluxo de trabalho com LLM bem ajustado, não me surpreenderia se ele fosse tão produtivo quanto 10 juniores de antes dos LLMs. Além disso, um desenvolvedor ruim pode consumir o tempo de um sênior e tornar a produtividade negativa; nesse caso, o multiplicador chega perto do infinito
  Mesmo juniores razoáveis geralmente ficam presos a tarefas repetitivas de baixo nível, e os LLMs já conseguem fazer esse tipo de coisa melhor
  Por isso dá para entender a ideia de que empregos podem de fato desaparecer
- Se os custos das ferramentas de LLM aumentarem o custo de contratação em 10% a 15%, então um ganho de produtividade de 10% a 15% não é algo que se possa ignorar; é uma questão que precisa ser avaliada. É preciso olhar sempre para o custo total de produção, não apenas para o throughput
- É só mais uma onda de hype tecnológico. A realidade provavelmente estará em algum ponto entre a ruína completa e a utopia infinita, mas provavelmente não será nenhuma das duas
  A onda de IA me lembra o movimento do início dos anos 2000 de terceirizar em massa engenheiros de software para o exterior. Havia enormes expectativas entre executivos e, no papel, parecia plausível, mas a maior parte acabou em grandes fracassos, e quase todos os empregos voltaram para os EUA
  Muita gente ignora que engenheiros de software fazem inúmeras pequenas tarefas que mantêm o todo coeso. Falta muito disso na IA. Não estou dizendo que estrangeiros não tenham isso, mas barreiras de idioma, diferenças de fuso horário, diferenças culturais etc. criaram problemas parecidos. A qualidade do código e a manutenibilidade despencaram, e muitos resultados produzidos por empresas de outsourcing tiveram de ser descartados
  Já está se acumulando resíduo de IA nas codebases com que trabalho. É muito difícil detectar essas coisas que passam em code review, porque no diff parecem razoáveis. O problema são as duplicações de código invisíveis e abstrações estranhas que, vistas em alto nível, não fazem sentido algum
Eu me encaixo exatamente no tipo de pessoa de que o autor está reclamando. Desde a época em que só existia o ChatGPT e o desempenho nem era lá essas coisas, venho lançando produtos greenfield nada triviais. No começo, eu usava Claude e ficava copiando e colando entre o chat na web e o XCode; depois descobri o Cursor
O Cursor deixava muitos erros de build irritantes, mas a produtividade ainda assim era pelo menos 3 vezes maior. Agora que os agentes melhoraram e o Claude 4 saiu, quase não escrevo código diretamente, e nem desgosto disso. Passei a tender mais para o papel de arquiteto/gerente e, quando necessário, uso meu conhecimento especializado para orientar o agente
Já faz alguns meses que entrei numa startup exigente, mas ainda não escrevi uma linha de código à mão. Antes de criar um PR, eu mesmo audito tudo e testo minuciosamente, mas Cursor + Sonnet é absurdamente poderoso naquela base de código. Não estou falando de métricas sem sentido, como número de linhas de código; tenho certeza de que sou o funcionário mais produtivo porque, mesmo quando especialistas naquela base de código trazem bugs peculiares, eu, recém-chegado ao domínio, consigo estreitar o problema em 5 a 30 minutos
Graças ao Claude, acabei até me envolvendo em trabalho de desenvolvedor front-end, algo que evitei durante toda a carreira, para corrigir pequenos problemas visíveis, até precisar me afastar. Isso não é vibe coding; há um processo de investigação, planejamento e exploração cuidadosa, e de preparar o terreno para que o agente tenha sucesso. Também é preciso conhecimento de domínio. Ainda assim, fico realmente surpreso que haja pessoas que não consigam extrair a mesma utilidade, e parece que aparecem dois textos assim toda semana
- Mas você acabou de confirmar tudo que o post do blog alegou
  Você contou uma história difícil de acreditar sem compartilhar nenhuma prova. Até criou uma conta descartável para impossibilitar a verificação de identidade e a validação das alegações
  Por isso soa como piada
- Tive uma experiência parecida, embora meu modo de trabalhar provavelmente seja um pouco diferente. Sou doutorando. Eu era extremamente cético em relação a LLMs, mas o Claude Code mudou completamente minha forma de trabalhar
  Isso não significa que a necessidade de curadoria desapareça. Ela continua sendo minha responsabilidade, e também é parte do que um doutorado deve ensinar. Tratar de forma precisa e reflexiva por que se faz X, o que se quer demonstrar com Y, e a capacidade de decompor cada etapa e explicá-la a outra pessoa são soft skills enormes. Como os agentes não têm um modelo de mundo persistente e, mesmo usando compressão inteligente, esquecem rapidamente o objetivo da interação, isso se tornou ainda mais importante agora
  Quando estou me comunicando com precisão, consigo usar o Claude Code para organizar trabalhos computacionais de maneiras que antes eram impossíveis
  Se você se importa com qualidade, não é mais fácil do que programar, mas é diferente e exige outros idiomatismos
- Acho que a qualidade do código produzido por LLMs é bem ruim. Depois de várias iterações para corrigir, muitas vezes eu mesmo teria feito mais rápido
  O ponto em que agentes são de fato úteis é em refatorações mecânicas de grande escala. Em vez de ficar pensando na macro perfeita do vim ou num script de reescrita de AST, deixo isso para o agente
- Você disse que audita tudo e testa minuciosamente antes de criar um PR, mas LLMs não mantêm o projeto inteiro na cabeça e também alucinam bastante. Como você consegue auditar tão rápido código vindo de uma fonte não confiável?
  Em média, qual é o tamanho dos prompts, e os testes unitários também são escritos pelo LLM?
- Uso Claude Code por várias horas por dia, e ele é um mentiroso. Quem usa confiando nele assume o risco por conta própria
  Pessoalmente, acho que estão enfeitando demais a experiência
Pessoalmente, não entendo muito bem isso
Uma quantidade enorme de trabalho no setor de serviços no mundo todo é, na prática, algo próximo de movimentação manual de dados feita por pessoas de uma planilha Excel para outra, ou de um CRM/e-mail para o Excel. Quase toda grande empresa tem de centenas a milhares de funcionários em tempo integral fazendo isso todos os dias, e muitos são terceirizados. Acho que, para cada engenheiro de software, deve haver umas 100 pessoas fazendo esse tipo de trabalho de pipeline manual de dados
Portanto, para criar um valor enorme, um LLM não precisa ser excepcionalmente bom em OCaml. Basta ser um pouco melhor que uma pessoa no Excel. O ponto em que o MCP realmente ajuda é permitir conectar esses sistemas com facilidade. Muitos erros nesse tipo de tarefa surgem ao tentar colocar o trabalho inteiro no contexto de uma só vez. Se for possível usar MCP para buscar e-mails, extrair dados e, de novo via MCP, inserir no CRM linha por linha, na minha experiência a taxa de alucinação é muito baixa. No mínimo, fica no nível de um funcionário júnior sobrecarregado
Talvez o ponto do texto fosse justamente esse, mas, nesses casos de uso, a não determinismo não é um problema. Porque as pessoas envolvidas também não são determinísticas. Dá para criar sistemas e processos que imponham qualidade a sistemas não determinísticos, por exemplo sistemas humanos
Por fim, acompanhei de perto tanto cripto quanto LLMs, e eles não parecem parecidos em termos de utilidade e adoção. O paralelo mais próximo é a adoção dos smartphones. Quando o iPhone surgiu, muitos amigos não técnicos diziam que não precisavam de um smartphone, mas em poucos anos todos tinham um. Com LLMs é parecido. Hoje, quase todos os meus amigos não técnicos os usam para finalidades muito variadas
- Comparar com cripto é uma crítica preguiçosa. Nem vale muito a pena verificar. É só tentar trazer e reciclar a atmosfera negativa das criptomoedas. As duas tecnologias não têm relação entre si e, portanto, não há um motivo claro para avaliá-las tecnicamente por comparação
  Dito isso, a reação social segue a corrente do culto à tecnologia, e muitos engenheiros que já viram isso por bastante tempo têm motivo para estar cansados. Alegações irreais são fáceis de encontrar, e as piores vêm de CEOs de empresas de IA
  Ao mesmo tempo, muita gente é, na prática, analfabeta em computação. Dá para imaginar como isso deve parecer empolgante para pessoas que mal tiveram contato até com automações básicas. O “computador falante” que nos acostumamos a ver na ficção científica está quase virando realidade
  Alguns anos atrás, antes da IA, trabalhei com aprendizado de máquina e processamento de linguagem natural, e o ponto mais marcante é que isso se tornou muito mais mainstream do que qualquer outra coisa que já aconteceu nessa área. Com isso, também há muito mais pessoas sem experiência em projetar com base em inferência estatística. Por um tempo, será um Velho Oeste em todos os sentidos: opiniões, implementações bem-sucedidas e ideias realistas de projetos
  Dá para ver assim: agora você pode dizer ao amigo que aparece com uma ideia de app que parece saída de um romance para ele mesmo criar. Isso, pelo menos, é bom para todo mundo
- Cada funcionário em tempo integral que faz esse trabalho de pipeline manual de dados está, ao mesmo tempo, validando esse trabalho. E também há responsabilidades de conformidade para fazer tudo corretamente e no prazo
  Pode haver também um investimento emocional na empresa, como o instinto de sobrevivência para não ser demitido, a ambição de fazer melhor e a ética e o discernimento para denunciar por outros canais um gerente estranho
  Um LLM não liga para outro nó da organização para confirmar quando percebe que um valor parece estranho por motivos fora do contexto. Por exemplo, uma situação em que ontem foi um feriado bancário pontual e o valor deveria ser 0. Garantir que esses números estejam corretos pode valer tanto quanto o salário anual de um funcionário em tempo integral. E também tem valor haver alguém que possa ser responsabilizado, demitido ou mandado para a cadeia quando não estiverem corretos
- Fico curioso para saber em que empresa é verdade que há 100 pessoas em pipelines manuais de dados para cada engenheiro de software. Queria que alguém fizesse um levantamento completo de 500 cargos de colarinho branco e os classificasse
  O que era realmente automatizável já foi automatizado. Acho, sim, que a IA vai causar uma grande turbulência, mas sou muito cético em relação à visão de que a maioria dos empregos de colarinho branco são “funções de e-mail” ou entrada de dados. Isso não bate com a minha experiência, e já trabalhei até em grandes empresas burocráticas que muita gente daqui diria estar presas ao passado
- Isso subestima enormemente a complexidade desse tipo de função
Sou um programador aposentado. É difícil imaginar confiar em código gerado por probabilidade em sistemas críticos de missão. Eu entenderia se ele estivesse quase certo e precisasse só de pequenos ajustes, mas não tenho experiência direta com isso.
O ponto principal é que os LLMs são incríveis em áreas que não são programação, como brainstorming, livre associação de ideias, preencher detalhes de pesquisa e fazer perguntas que me levam a refletir sobre mim mesmo. Trato o LLM como um parceiro de pensamento. Ele comete erros, mas dá para pegá-los facilmente conferindo com outras fontes ou pedindo a outro LLM que revise as conclusões.
- Não posso falar por experiências específicas de outras pessoas, mas eu sou extremamente cético em relação a tudo e, mesmo assim, ele está superando minhas expectativas de todas as formas possíveis.
  Em menos de 24 horas, construí algo que teria levado meses só para começar, e ainda mais tempo para chegar a uma versão tão polida quanto a atual. O mais impressionante é que ele faz mais rápido coisas que eu já conseguiria fazer. Mais impressionante ainda é que ele faz, com muito menos dinheiro e tempo, coisas que eu não conseguiria de jeito nenhum e para as quais teria que contratar alguém ou terceirizar, com ciclos de iteração mais rápidos do que ao me comunicar com outra pessoa.
  Não é perfeito e às vezes é incrivelmente frustrante. Ele faz hardcode de valores mesmo quando eu disse explicitamente para não fazer, ou mente dizendo que fez uma correção específica quando, na verdade, mudou outra coisa totalmente irrelevante. Mesmo assim, na minha opinião, é um game changer.
- Testei por um tempo a abordagem de “parceiro de pensamento” e, por um breve período, pareceu funcionar bem, mas em algum momento as rachaduras começaram a aparecer e reconheci o blefe. LLMs são extremamente bons em fazer parecer que sabem e conseguem raciocinar, mas não são muito bons em desenvolver uma conversa intelectual.
  Especialmente quando você está tentando extrair conhecimento em uma área nova para você, é fácil e perigoso ser induzido ao erro por um LLM. Com um mecanismo de busca comum, você vê o site de origem e pode julgar a confiabilidade; com um LLM não há isso. A saída pode ser basicamente qualquer coisa, e não concordo que os erros necessariamente sejam fáceis de detectar.
- Programo há 40 anos e comecei a usar LLMs há alguns meses; meu modo de trabalhar realmente mudou. Peço para ele escrever trechos de código, colo mensagens de erro dos logs e, em geral, recebo uma correção em menos de 1 minuto; também uso para brainstorming de arquitetura e novas soluções.
  Claro que verifico o código que ele escreve, mas fico surpreso quase todos os dias com a inteligência e a precisão. Não tem nada a ver com criptomoedas.
- Falando como cético em relação a LLMs: todo código, inclusive o escrito por desenvolvedores experientes, é inerentemente probabilístico. Por isso projetos importantes têm code review, testes unitários, pair programming, diretrizes e proteções.
  Se você usa a saída de um LLM sem crítica, está usando errado; mas, se usa a saída de humanos sem crítica, também está errado.
  Dito isso, LLMs não são magia, e me preocupa que as pessoas usem copilot ou modelos de agentes para esconder más práticas de engenharia e acabem acumulando mais boilerplate em vez de focar em eficiência, segurança e redesenho, que são importantes no longo prazo.
- Há uma área em que LLMs são extremamente bons: ciência de dados. Quando as entradas e saídas são bem definidas, é fácil verificar se o resultado está correto. Se você conhece certas propriedades dos dados, também pode pedir que ele escreva testes.
  O problema é que você precisa dar ao LLM o contexto do que está fazendo, e em chats no estilo ChatGPT esse contexto não é fornecido, ou é trabalhoso demais fornecê-lo. É aí que o Claude Code muda o jogo.
  Por exemplo, digamos que você tenha um arquivo PCAP em que cada pacote UDP contém várias mensagens. Como filtrar por IP, porta, protocolo e tempo? Use um LLM e confira a saída. Como encontrar a quantidade de pacotes com padrões A, AB, AAB, ABB etc.? Use um LLM e confira a saída. Como criar, para testes, um PCAP que contenha apenas esses pacotes? Use um LLM e confira a saída.
  Como ele também consegue ler código, francamente, seu trabalho não é tão especial assim, então ele consegue inferir muito melhor o que você está tentando fazer. De todo modo, só o fato de você poder dizer “escreva testes unitários para todas as funções acima” já ajuda a fazer sua própria verificação.
Há uma frase que diz: “Como a maioria dos céticos e críticos, eu uso essas ferramentas todos os dias. E elas funcionam mais ou menos 50% das vezes em 50% dos casos”; eu uso LLMs quase diariamente no trabalho há cerca de um ano, e eles resolvem cerca de 90% dos meus problemas.
É muito difícil decidir se devo levar a sério esse tipo de reclamação sobre IA/LLMs ou se devo enxergá-la como padrões de uso irracionais de alguns usuários. Por exemplo, eu nunca alimentei um LLM com uma base de código esperando que funcionasse magicamente. Faço perguntas diretas e específicas dentro dos limites do meu entendimento e aplico as soluções de uma forma deliberadamente testável.
Se alguém aborda de outro jeito e reclama dos LLMs, tendo a achar que está usando errado. E está perdendo uma magia real, pequena, útil e bastante consistente.
- Isso é basicamente uma citação da fala de The Weatherman: “Funciona sempre, 60% das vezes”.
  Eu também uso gpt e Claude diariamente via Cursor. O gpt o3 é bastante decente para busca de conhecimento geral. O Claude desanda com frequência, mas também vi que, enquanto desperdiça tokens se exibindo, ele muitas vezes toca em pontos relacionados ao problema real.
  Os modelos são burros; mais do que gênios idiotas, são simplesmente idiotas. Ainda assim, de vez em quando acertam algo relevante. Se você sabe mais ou menos o que deve acontecer e trata o LLM como um terrier caçador de ratos no campo de uma fazenda, consegue aproveitá-lo direito.
- Essa fala também não é melhor do que o comentário que o autor criticou.
  Esse número de 90% também parece meio suspeito.
Este texto soa como se estivesse irritado com a imprecisão do discurso, mas, sinceramente, essa imprecisão é mais disseminada entre os opositores do que entre os defensores. Os defensores geralmente precisam lidar todos os dias com os defeitos e limites.
A conclusão de que tudo em torno dos LLMs é pensamento mágico parece bastante arrogante. Nos últimos 5 anos, problemas que antes eram quase intratáveis, como tradução, transcrição e geração de código até certa escala, foram resolvidos total ou quase totalmente.
- Os opositores geralmente apontam defeitos reais. Os defensores geralmente veneram os LLMs de forma acrítica, como um milagre capaz de resolver qualquer problema de uma vez, sem detalhes concretos.
- Tradução, transcrição e geração de código até certa escala eram problemas quase intratáveis?
  Google Translate, Whisper e geradores de código já existiam há bastante tempo sem LLMs.
Sobre a afirmação de que “as criptomoedas voltaram”, cripto é uma tábua de salvação para mim. Porque, no país onde moro, não consigo abrir uma conta bancária por motivos que não posso controlar nem corrigir
Então, se cripto é inútil para você, que bom. Para mim e para milhões de pessoas como eu, é uma questão de vida ou morte
Com LLMs é a mesma coisa: para algumas pessoas são mágica; para outras, uma ferramenta determinística confiável; e, ao mesmo tempo, também são mágica. Acabei de classificar e organizar centenas de faturas. Sim, é mágica
- Esse é, na prática, o único caso de uso das criptomoedas, e também o propósito para o qual elas foram explicitamente projetadas: resistência à censura
  Por isso é difícil encontrar algo útil que cripto possa fazer na economia legal. Ela foi projetada para possibilitar transações que o governo não quer ou não consegue facilitar. Em alguns casos há aplicações humanitárias, e há muitas aplicações ilegais
- Você pode explicar melhor a situação? Em que país você está e como usa criptomoedas aí?
- Em meio àquele hype sem sentido do tipo “você é idiota se não acredita no verdadeiro significado das criptomoedas”, este é um caso de uso válido
  “Você tinha que estar lá para acreditar” https://x.com/0xbags/status/1940774543553146956
  A febre de IA está passando por um momento parecido agora. Qualquer crítica é descartada como coisa de idiota que não entende nada
- Na verdade, acho que isso não contradiz a piada do autor. Você quer usar criptomoedas como moeda, enquanto o texto original provavelmente se referia às fraudes em torno de cripto como investimento
  Se for para usar como moeda, as pessoas que querem fazer pump and dump de moedas e transformá-las em meio de ganhar dinheiro são suas inimigas. Quanto mais estável for, em vez de uma montanha-russa de disparadas e quedas, melhor para você
- É o mesmo problema que as criptomoedas enfrentam. Quase todo mundo espalha mentiras sobre a tecnologia, e muitos deles simplesmente não a entendem o suficiente para saber que estão mentindo. É a diferença entre ingenuidade e má-fé
  Acho que no lado das criptomoedas há mais mentiras deliberadas e menos valor a extrair, mas, em ambos os casos, pessoas que poderiam realmente se beneficiar acabam dando meia-volta antes mesmo de entrar, por causa da desonestidade e das distorções. E, em ambos os casos, existem exemplos de valor real sendo obtido hoje
Um assunto um pouco relacionado: me irrita a forma como o termo AGI é usado hoje em dia, e às vezes até o termo IA. Especialmente em artigos científicos, espera-se que tudo esteja bem definido, ao menos da forma como é usado naquele artigo
Por que não dá para criar uma definição do que é AGI? Assim seria possível provar logicamente quais IAs se encaixam nessa definição. Mesmo que isso pareça pouco útil na prática, em teoria é muito mais útil do que usar o termo sem significado
Hoje parece uma espécie de válvula de escape. A Wikipedia diz que é “um tipo de IA que iguala ou supera a capacidade humana em quase todas as tarefas cognitivas”. Como se mede isso? Se não é possível provar que um sistema tem essa propriedade, qual é a utilidade?
É um pouco de desabafo, mas espero que ainda faça algum sentido
- Não é que seja necessariamente preciso um consenso geral. Eu tenho meus próprios marcos, mais generosos, para o que considero AGI, mas não espero que outras pessoas os compartilhem
  É parecido com o fato de que, para mim, “crypto” ainda significa criptografia, não criptomoeda. Às vezes o mainstream simplesmente tem outra opinião
- A definição já existe
  “IA é aquilo que ainda não foi feito”[1]
  1. https://en.wikipedia.org/wiki/AI_effect
Recentemente começamos a usar LLMs na empresa, e a primeira tarefa foi transcrever 20 mil ligações de clientes e depois extrair as seguintes informações
1. com quais produtos o nosso produto costuma ser comparado
2. que problemas os usuários enfrentam no nosso software
3. quais casos de uso os usuários mencionam com mais frequência
  Uma pesquisa que antes levaria semanas terminou em poucas horas. Ajudou a definir uma nova estratégia e gerou valor de negócio real
  Vejo LLMs apenas como motores de processamento de linguagem natural, e para esse uso são excelentes. É verdade que algumas pessoas exageram, mas isso não muda o fato de que, no nosso caso, eles foram genuinamente úteis. Não entendo por que há tantos textos dizendo “LLM é ruim”. Se não serve para você, simplesmente siga em frente. Por que alguém precisa provar algo a alguém? É só uma ferramenta
- Você está subestimando os impactos negativos criados pelo hype. Ele distorce o mercado, atrai investimento excessivo, leva departamentos a serem reduzidos preventivamente e cria expectativas que nunca serão atendidas
  Textos assim são importantes para esfriar as expectativas. Quando as pessoas vendem LLMs, em geral não estão falando em resumir chamadas de suporte ao cliente; estão tentando vender a ideia de que dá para demitir a equipe de suporte
- Exatamente. Quem diz que LLMs não têm utilidade real nunca enfrentou um problema que exige processar muitos dados de uma forma razoavelmente confiável
  Durante anos, a maior parte das traduções na web não tinha contexto. Agora pode ter
Figuras confiáveis e razoáveis do mundo da tecnologia, conhecidas por opiniões cautelosas, relataram melhorias significativas em tarefas de programação usando várias formas de IA generativa
O que significa “significativas” aqui? Algo entre 5% e 100%, ou seja, um nível que não dá para ignorar
No mínimo, é seguro dizer que a IA generativa é, ou pode ser, uma ferramenta consideravelmente benéfica para um número considerável de pessoas
Para que esse julgamento seja razoável, não é preciso divulgar todos os detalhes, como número de CPUs, linhas de código ou bytes processados
- Isso não passa de dizer: “as pessoas afirmam ter ganhos de produtividade em algum ponto entre um número arbitrário que eu inventei e outro número arbitrário. Devemos acreditar nessa afirmação acriticamente”

Tudo em torno dos LLMs ainda parece mágico e baseado em pensamento desejoso

Por que é difícil comparar relatos de experiência com LLMs

A lacuna entre o discurso superaquecido e o uso real das ferramentas

Leituras relacionadas

1 comentários

Opiniões no Hacker News