11 pontos por brainer 2026-04-15 | 66 comentários | Compartilhar no WhatsApp

Há alguns meses, observando o cenário de desenvolvimento na Coreia, tenho visto circular umas afirmações estranhas do tipo "uso de tokens é sinônimo de competência".
E junto com isso, alegações absurdas de que basta um único PRD bem feito para a IA resolver tudo.

No começo achei que fosse só mais um exagero comum de comunidade, mas vendo esse tipo de afirmação aparecer repetidamente como se fosse verdade, por um momento até pensei que eu estivesse ficando para trás.
(Foi ainda mais assim quando vi coisas como Oh-my-OpenCode.)

Mas, quando fui procurar, era difícil encontrar sequer um exemplo decente, e reproduzir isso era praticamente impossível.

Na comunidade frontier dos EUA, esse tipo de afirmação simplesmente não existia, e quando o OpenClaw apareceu, fez sucesso, e a OpenAI imediatamente recrutou o fundador, fiquei ainda mais convencido.
(Especialmente ao ver que a principal filosofia do OpenClaw é HITL(Human In The Loop).)

Ah, então não era eu que estava atrasado, e sim a comunidade coreana que estava sendo tomada por exageros quase religiosos e por ilusões.)

Ontem, o fundador do OpenClaw também disse:

Dá para gerar código e deixá-lo rodando a noite toda, mas o resultado no fim acaba sendo o melhor lixo possível.
E,

o CEO da YC, Garry Tan, disse que concorda 100%.

https://x.com/garrytan/status/2043738478220062813?s=20

Depois de ver, ao longo dos últimos meses, esse tipo de discurso ilusório me causar prejuízos direta e indiretamente, agora ficou difícil continuar suportando isso.

Eu gostaria que as pessoas que fazem esse tipo de afirmação fossem combatidas.

Sou uma pessoa muito otimista em relação à IA e uso o Codex desde 5 anos atrás.

Acho que um dia esse tipo de automação completa realmente vai acontecer. Como muita gente diz por aí, talvez até já no ano que vem.

Mas, pelo menos hoje, ainda não.

66 comentários

 
choam2426 2026-04-30

Se essa afirmação fosse verdadeira, Anthropic, Google e OpenAI já teriam mais do que substituído todo o software existente.

 
winkagn 2026-04-24

Dentro da empresa também surgiu um clima estranho de que agora é preciso gastar muitos tokens
para avaliarem bem o desempenho.
Sério, queria saber de qual cabeça isso saiu...

 
mayihelpyou 2026-04-16

Toda vez que vejo aquele post coletivo, parece que vou ter urticária de verdade.

 
jyoung105 2026-04-15

Fico pensando se este texto foi escrito assim de propósito.
Mas há também este ponto.
A parte sobre a qual todos nós falávamos há 3 anos era que o custo da AI acabaria ficando mais barato.
Mas não foi isso que aconteceu. Está ficando mais caro. Até os modelos de AI chineses são assim.
Por isso, recentemente começaram a ganhar atenção métodos para reduzir custos, como trocar e usar modelos de vários tiers dentro de uma mesma tarefa, ou até rodar open source, especialmente gemma 4 (com reasoning trace bem mais curto), localmente para usar em agentes. No começo, todos eram contra essa ideia, mas agora ela parece extremamente racional e muitos movimentos relacionados estão surgindo. Da mesma forma, a AI agora está se tornando uma indústria marcada pela convicção de que é uma disputa sem resposta certa, mas em que, no fim, o vencedor levará muita coisa.

No fim, acho que é esse o sentido.

Ruído: isso também aparece de forma muito forte nas atividades de divulgação das empresas de fronteira em AI. Então vamos deixar de usar essas empresas porque elas erraram? Não. Com certeza vamos usar AI. Só que é preciso filtrar as informações com ruído. Ainda mais quando estamos cheios de insatisfação.

Ações desnecessárias: isso também vale para investimentos. As pessoas que tiveram resultado investindo provavelmente já experimentaram fracassos antes. Com a mentalidade de "jamais" vou ter prejuízo, fica difícil até começar a investir; na baixa, você só sente alívio por não ter investido e compaixão por quem investiu, e, quando o mercado sobe de verdade, sente apenas frustração. Da mesma forma, no fim, também leva vantagem com AI quem continua observando, usando e tentando várias coisas. Eu sinto isso ainda mais fortemente em pessoas não desenvolvedoras. Há várias pessoas que não tinham conhecimento de desenvolvimento, mas continuaram aplicando, explorando, aprendendo conhecimentos de desenvolvimento e criando softwares melhores. É surpreendentemente difícil vencer alguém que tem esse tipo de "vontade". Eu também sinto muito isso e acho que tento, a todo momento, não deixar essa vontade desaparecer.

No fim, ralph também não é um conceito ilusório, mas sim uma espécie de conceito de industrial engineering, uma abordagem cujo advantage do ponto de vista de test-time computing foi comprovado. Claro, pode-se dizer que é uma ilusão, mas, ainda assim, acredito que a experiência de ter se interessado por isso e tentado reproduzir será um grande ativo para você.

 
apkas 2026-04-15

É verdade que precisamos filtrar o ruído, mas acho que é preciso tomar cuidado com discursos no estilo “se está desconfortável, mude a postura”. Quando até o ato de levantar insatisfações vira problema, e a mensagem passa a ser algo como “não aja como alguém incapaz de se adaptar; adapte-se rápido e torne-se um vencedor”, isso acaba levando a um resultadismo cego como o de agora. Claro, não me parece que essa tenha sido a intenção.

Além disso, seja um looping como o Ralph, seja uma abordagem de ensemble alternando entre vários modelos, ou ainda subagent orchestration, as vantagens desses métodos de test-time computing ainda não foram comprovadas. Para começar, os LLMs atuais foram treinados com comportamento de agradar pessoas, então, se você observar bem os resultados que surgem nesse processo, muitas vezes em vez de corrigirem algo que realmente valha a pena corrigir, eles acabam inventando um problema que não existe só porque foram instruídos a corrigir alguma coisa.

Concordo que “experiência rápida se torna o maior ativo” é uma frase que define bem o nosso tempo, mas considero que usar isso não apenas como ferramenta para benefício próprio, e sim abusar disso, merece críticas. E acho que o tema do texto original também é algo como: “não gosto de ver [sempre mais rápido, em maior quantidade e antes de todo mundo] sendo exageradamente vendido como se fosse um cenário bem-sucedido de desenvolvimento baseado em IA”.

 
jyoung105 2026-04-15

Agora vi o comentário do autor.
Parece que a atualização dos comentários não funcionou direito.
Obrigado pela boa opinião.

Antes de tudo, gostaria de expor também a minha opinião.

Em vez de considerar problemático o fato de ter sido apresentada uma insatisfação (eu não considero isso uma insatisfação), gostaria que entendessem que eu também levantei uma opinião sobre esse fenômeno. Como é impossível criar uma situação que satisfaça todo mundo, respeito tanto a opinião do autor do post original quanto a de quem comentou. No entanto, penso que a minha opinião também não deveria ser respeitada?

Na minha opinião, test-time computing já é um caso comprovado por pesquisas. No entanto, entendo que a abordagem de ensemble, mais do que o conceito de test-time computing, é uma forma de contornar o limite do tamanho da context window. O problema mencionado nesta parte — 'em vez de corrigir algo que vale a pena corrigir, muitas vezes criam um problema que não existe só porque foi pedido para corrigir' — de fato está ocorrendo, então parece que o melhor no momento é bloquear isso o máximo possível com um harness.

E, por fim, sobre essa questão de ser "viral", também concordo que há bastante ruído e que muita gente pode não gostar disso. No entanto, como as pessoas que estão criando o harness são justamente as que o distribuíram como open source, fico em dúvida se há realmente algo aí que possa ser considerado interesse próprio. Inclusive, se até pessoas que não gostam disso estão criando e oferecendo gratuitamente, levando críticas ainda por cima, questiono se existe mesmo algo que se possa chamar de ganho pessoal nessa situação. Claro, se estiverem alimentando o medo para vender, isso é um comportamento errado e concordo que seja algo que merece críticas.

Mais uma vez, obrigado pela opinião, autor!

 
brainer 2026-04-15

Na prática, ficou muito mais barato do que há 3 anos.
Na época do GPT-4, mesmo pagando, eu recebia uma mensagem mandando tentar de novo poucas horas depois, mas hoje isso não acontece nem usando o plano de 22 dólares.

A capacidade intelectual por token subiu para um nível difícil de comparar.

Mas o importante é que, mais do que isso, estamos usando muito mais tokens e pagando muito mais dinheiro aos provedores de LLM (paradoxo de Jevons).

Não é que eu nunca tenha usado Ralph Loop.
Também já usei desenvolvimento orientado por sub-agents, que é ainda melhor do que isso.
Mas, no fim, a conclusão da minha experiência também foi a mesma que o fundador da OpenClaw falou.

Se houver automação realmente completa, nem vai precisar de algo forçado como Ralph Loop.

O mais importante é que, na prática, isso não consegue criar nem código decente nem um serviço decente.

 
jyoung105 2026-04-15

Concordo em parte com a opinião do autor.
Também concordo quanto à capacidade intelectual por token e ao preço em comparação com o GPT-4.

No entanto, o preço por token vinha caindo, mas voltou a subir; e, considerando tokens de raciocínio, uso de tokens por tarefa e uso de tokens por indivíduo, esse impacto está ficando bastante pesado tanto para usuários individuais quanto para operadores de serviços de IA. Esse é o motivo pelo qual Cursor, Intercom, Shopify, Chroma e outros começaram a criar modelos próprios baseados em open source. A ponto de não conseguirem mais ter competitividade de preço.

Na verdade, em vez de o tal ralph ser algo forçado, ele era um bash script baseado em while. Ou seja, era uma estrutura simples. O que precisamos entender aqui parece ser a disputa sobre se isso pode ser sistematizado. Automação também é o processo de extrair corretamente a intent, fazer a divisão de tarefas sem negligência e com precisão, executar isso corretamente e implementar tudo de forma perfeita e sem erros, ou então identificar que parte precisa ser feita quando isso não acontece.

Mas o ponto com o qual concordo é que seria ótimo se todo esse trabalho pudesse ser feito com um simples “clique”, porém provavelmente o que você sentiu é que não é nada disso; pelo contrário, o problema atual parece ser que isso dá a sensação de exigir ainda mais configuração do que o próprio trabalho de código. E, em geral, também não há nada que as pessoas percebam de forma muito concreta no serviço.

Por outro lado, algo que eu sinto com clareza é que a maioria das pessoas não faz documentation tão bem assim. Como não conseguem organizar bem as coisas, têm dificuldade para transformar algo em um sistema, e por isso vi muitas delas sofrerem bastante para tocar esse tipo de trabalho. E a IA também não é perfeita. Nesse sentido, eu vejo isso como uma oportunidade. Acho que isso vai criar uma diferença considerável entre quem continuou fazendo esse trabalho e quem não fez. Quem já tem resistência vai se adaptar rapidamente, enquanto quem, por várias circunstâncias, não conseguiu fazer isso vai acabar ficando mais para trás e sendo tomado pelo medo. Na verdade, como você disse, isso não é algo para se ter “medo”, certo? Essa é uma direção melhor.

 
brainer 2026-04-15

O meu argumento é que o while loop é algo forçado.
Em primeiro lugar, isso surgiu porque os LLMs não eram bons em tarefas agentic e encerravam cedo demais (retornando o token EOS).
Se realmente surgir um modelo equivalente a uma AGI definitiva, provavelmente nem haverá motivo para usar while loop.

Minha capacidade de escrever documentação pode ser limitada, mas a de Garry Tan ou Peter Steinberger não seria.
Se isso for mesmo um problema de o LLM não funcionar direito, então basta mostrar uma demo de best practice realmente reproduzível.
Mas eu nunca vi algo assim nem uma única vez.

 
cloverhearts 2026-04-15

Também concordo com a opinião do autor.
Parece que há uma parte da distorção que surge por causa do aspecto empírico de o LLM ser um sistema capaz de conversar e se comunicar.

 
jyoung105 2026-04-15

Agradeço pela boa opinião.
Então, que tipo de best practice demo seria necessário?
Gostaria de pedir sua opinião sobre que tipo de tarefa, e com que tipo de implementação, permitiria julgar se o Ralph loop é ou não uma ilusão.

 
brainer 2026-04-15

A ideia é fazer o Ralph Loop girar com um único PRD quase perfeito e concluir o desenvolvimento em um nível pronto para produção
de um jeito que, para qualquer pessoa, não pareça algo como AI Sloop

 
jyoung105 2026-04-15

Ah, então seria possível rodar o Ralph Loop com um único PRD quase perfeito e criar um produto em algum nível?
Seria possível criar o chat com IA do Channel Talk?

E eu também gostaria de perguntar mais uma coisa.
Será que pode prosseguir configurando algo como um harness?

 
brainer 2026-04-15

Sim, tanto faz se é harness, multi-agent ou sub-agent.

 
jyoung105 2026-04-15

Obrigado pela opinião!
Pois é. Seria bom criar um caso assim haha

 
minislively 2026-04-18

Sinceramente, senti mais falta no desenvolvimento da argumentação deste texto do que na própria problematização.

Expressões como “uso de tokens é sinônimo de competência” e “com um único PRD bem feito a IA resolve tudo” são afirmações bem fortes, mas não fica claro quem disse isso, onde, nem em que contexto. Por isso, para quem lê, parece mais uma falácia do espantalho — juntar algumas alegações extremas de representatividade duvidosa para então refutá-las — do que uma crítica a uma tendência real.

Especialmente no caso de quem realmente está criando ferramentas e refinando workflows, incluindo a linha om, eu quase nunca vi alguém dizer algo como “um PRD resolve tudo”. Pelo contrário, o que vejo é um ciclo contínuo de releases, ajustes e validação. Isso, por si só, já parte do pressuposto de que o julgamento e a intervenção humanos ainda são indispensáveis.

Por isso, o que exige mais cuidado é o fato de que esse tipo de descrição, se for mal interpretado, pode fazer parecer que certos builders ou desenvolvedores disseram coisas que na prática nunca disseram. Esse tipo de abordagem me parece menos uma crítica saudável e mais um ataque construído sobre uma moldura exagerada.

O mesmo vale para o uso de tokens. Não é um indicador absoluto de competência, mas também é difícil dizer que seja um número totalmente sem sentido. Se a diferença de uso ficar muito grande, isso pode não ser mero desperdício, mas sim uma diferença em volume de exploração, experimentação e validação — e isso pode até se traduzir em diferença real de densidade de trabalho. De fato, Jensen Huang também disse que é preciso usar mais tokens do que metade do próprio salário.
https://www.youtube.com/shorts/XBnFPuru4xA

Um bom PRD também não é uma solução mágica, e sim alavancagem. Então, no fim, o importante não é uma dicotomia simplista como “token é competência ou não”, mas sim por quais critérios vamos avaliar, daqui para frente, a capacidade de resolver problemas com o uso de IA.

 
shaun0927 2026-04-18

Concordo completamente com o que você escreveu.
Na verdade, a ideia de que “o volume de tokens usado é igual à competência” é claramente equivocada e uma forma distorcida de enquadrar a questão.

Pelo contrário, isso deve ser visto pela perspectiva de que é justamente no momento em que se percebe que a única limitação real é a escassez de recursos computacionais (incluindo os humanos) que se passa a entender a importância do uso de tokens.

 
brainer 2026-04-18

Eu sei qual é o grupo que faz esse tipo de afirmação, mas não mencionei de propósito porque, se eu especificar, pode haver problema jurídico.
Há empresas famosas que chegam até a medir o uso de tokens, e também tem gente mencionando isso anonimamente aqui embaixo.

No GeekNews também dá para ver posts de pessoas afirmando isso quase como se estivessem se gabando do próprio uso de tokens.

As pessoas que fazem esse tipo de afirmação não são maioria.
Mas, no setor de IA da Coreia, algumas figuras barulhentas defendem isso, e o fato de o Garry Tan estar criticando repetidamente o fat harness nos últimos dias provavelmente é uma evidência de que esse tipo de discurso quase religioso da Coreia chegou até os EUA.

Pegar a afirmação do Jensen Huang e defendê-la como se fosse verdade é justamente um estilo de fala tipicamente baseado em autoridade.
Jensen Huang foi um engenheiro que fazia placas de vídeo décadas atrás; hoje ele nem é engenheiro, nem especialista em IA.
Quanto à correlação, eu concordo, mas a tese do grupo de que estou falando só serve para ficar rodando um Ralph inútil.

Para falar a verdade, até no artigo original do o1 da OpenAI, que foi o primeiro a defender test-time compute, está claramente dito que aumentar isso continuamente não significa melhora contínua, ou que isso só vale em alguns casos.
E mesmo ali a discussão é sobre reasoning effort, não, obviamente, sobre ficar rodando um ralph loop.
No guia de prompts do GPT-5.4 também está explícito que um reasoning effort mais alto nem sempre é melhor.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

Além disso, no caso de design, a recomendação é justamente reduzir o reasoning effort.

https://developers.openai.com/blog/…

Estou dizendo isso porque há gente tratando PRD como se fosse uma solução universal, quando não é.

 
minislively 2026-04-19

O título claramente pergunta o que se pensa sobre a ilusão chamada Ralph loop, mas o corpo do texto, em vez de tratar esse tema de forma concreta, se espalha por histórias muito mais amplas e de outros contextos, então fiquei com a impressão de que o texto inteiro não se encaixa bem com o título.

Por isso, eu não estava discutindo se “essa pessoa realmente existe ou não”, e sim dizendo que o texto, por ter uma estrutura que reúne e rebate de uma vez várias afirmações extremas de origem e contexto pouco claros, acaba soando como uma crítica a um espantalho.

No entanto, a resposta ao meu comentário também, em vez de explicar diretamente esse ponto, foi seguindo por um caminho de trazer continuamente outras pessoas, outros discursos e outros casos, então, sinceramente, pareceu mais uma forma de embaralhar a discussão.

Em especial, embora você critique a citação de falas de pessoas famosas como uma retórica autoritária, na própria resposta acaba trazendo novamente Garry Tan, a documentação da OpenAI e guias de GPT como base, o que também me pareceu um tanto seletivo.

Acho que a cultura de se gabar excessivamente do uso de tokens pode ser incômoda. Mas, separadamente disso, colocar no mesmo enquadramento até mesmo pessoas que realmente passam por processos repetitivos de experimento, verificação e correção, refinando ferramentas e fluxos de trabalho, me parece outro exagero.

 
brainer 2026-04-19

Você julga um texto só pelo título?
Então o que você acha do artigo "Attention Is All You Need"?

Garry Tan recentemente mostrou sua capacidade de usar IA ao criar boas skills de LLM, como o GStack.
O criador do OpenClaw também é um caso parecido, e a OpenAI é o guia oficial da empresa que lidera a pesquisa e a indústria de LLMs.

Em contrapartida, e o Jensen Huang? Espero que você não vá dizer que, só por ser o CEO de uma empresa que vende picaretas, ele entende bem de ouro.
Desde o princípio, Jensen Huang também não passa de alguém repetindo o que ouviu de outros.
Se isso for desviar do ponto, então não tenho mais o que dizer.

Acho que colocar até as pessoas que refinam ferramentas e workflows dentro do mesmo enquadramento é outro exagero.

Eu sou justamente a pessoa que refina essas ferramentas e workflows; você está dizendo que eu fiz autodepreciação?

 
minislively 2026-04-19

Eu não estava julgando apenas pelo título; o que eu quis dizer foi o quanto o título e o corpo do texto se articulam de forma coerente.

E o que eu mencionei não era uma questão de Garry Tan ou a OpenAI terem mais autoridade do que Jensen Huang, mas sim que me pareceu inconsistente criticar a citação de terceiros como sendo um apelo à autoridade e, na própria resposta, recorrer novamente a outra autoridade como fundamento.

Por fim, a expressão “colocar até mesmo as pessoas que refinam ferramentas e fluxos de trabalho no mesmo enquadramento” não apontava para um indivíduo específico, mas queria dizer que a forma como o texto foi escrito poderia ser lida dessa maneira. Interpretar isso imediatamente como “você quis dizer que foi um autoataque?” me parece ter ido um pouco além do escopo do meu comentário.

 
minislively 2026-04-19

E, se você considera que o título e o corpo do texto podem ser diferentes, gostaria de saber se este texto deve ser entendido não tanto como uma análise do próprio Ralph loop, mas sim como um texto direcionado ao grupo específico mencionado de forma mais ampla.

 
brainer 2026-04-19

Você citou as falas de Jenseunghwang, que nem sequer é especialista em AI/LLM.

Sim, é um texto voltado a um grupo específico.
Entre as coisas mais representativas e estranhas que esse grupo diz, mencionei PRD + Ralph loop.

Não sei se você não sabe que esse tipo de grupo existe, ou se faz parte dele e está fingindo que não.
Há razões para que esse tipo de grupo continue sendo criticado, tanto na Coreia quanto no exterior.
Onde não há fogo, não sobe fumaça.

 
minislively 2026-04-19

E, pessoalmente, achei este texto bastante decepcionante.
Sempre gostei do GeekNews porque é um lugar onde posso encontrar textos que trazem informações que eu não conhecia, novas perspectivas e uma ampliação da forma de pensar, em vez de textos direcionados a uma pessoa ou grupo específico.
Por isso, desta vez, foi ainda mais frustrante ler uma abordagem em que a narrativa avança partindo do pressuposto de um determinado grupo.

Pelo menos para mim, o GeekNews está mais próximo de um espaço que amplia o pensamento por meio de informações e contextos mais concretos, do que de um espaço que enquadra e mira alguém dentro de um rótulo. Por isso, mais do que a própria opinião defendida neste texto, o que mais me incomodou foi a forma como essa opinião foi desenvolvida. Vou deixar meu comentário por aqui.

 
brainer 2026-04-19

Quantas vezes preciso dizer isso?

Do meu ponto de vista, não é bom mirar diretamente em um grupo ou indivíduo específico.

O CEO da YC e o criador do OpenClaw são pessoas que provaram por si mesmas que merecem ser chamadas de especialistas em IA. Não é a mesma coisa que Jensen Huang.

Eu nunca disse que PRD é uma ilusão. Vejam o contexto.

Agora que esse tipo de alegação ilusória cresceu, isso vai além da minha simples indignação pessoal; é algo relacionado ao desenvolvimento da IA na Coreia do Sul e, mais adiante, ao progresso da humanidade. Antes que essas pessoas cresçam ainda mais e passem a ter influência sobre outros lados, não deveríamos corrigir essa alquimia?

Se não for com você, é só deixar passar. Neste mesmo post, em outros comentários, já houve gente concordando, ou pessoas do grupo de quem estou falando vieram me atacar.

 
minislively 2026-04-20

E, acrescentando mais uma coisa, tive a impressão de que expressões como “a IA da Coreia do Sul”, “o progresso da humanidade” e “precisamos corrigir a alquimia” colocavam primeiro em destaque uma justificativa grandiosa demais. Acho que é possível ter esse tipo de preocupação. Ainda assim, senti que esse nível de argumentação seria muito mais convincente se, em vez de criticar alguém de forma ampla em uma comunidade, viesse acompanhado de casos reais, trabalhos concretos e critérios de validação mais específicos.

Além disso, me pareceu pouco consistente tratar as falas do CEO da YC ou do fundador da OpenClaw como fundamentos relevantes, enquanto apenas a citação de Jensen Huang era tratada como algo quase autoritário. No fim, soou como se o critério para decidir de quem a fala serve como evidência e de quem ela se torna irrelevante mudasse de acordo com o interlocutor, mais do que com a própria afirmação. A fala de Jensen Huang pode não ser uma evidência decisiva, mas ainda assim me pareceu um pouco exagerado tratar só aquela citação como se fosse uma declaração particularmente sem valor.

No fim, acho que, para que esse tipo de argumento também faça sentido para outras pessoas, seria preciso apresentar junto, em vez de apenas repetir críticas, exemplos ou trabalhos que possam ser consultados e verificados diretamente. Só assim a direção que você está propondo poderá ser lida não como uma simples antipatia, mas como um questionamento realmente convincente. Se houver esse tipo de resultado, eu também, nesse momento, vou ler com interesse e, se necessário, até experimentar usar diretamente.

 
brainer 2026-04-20

Pare com a tautologia. Você está dizendo que eu falei coisas que não falei e, sobre o que eu rebati, volta a levantar dúvidas.

 
minislively 2026-04-20

Sinceramente, quanto mais leio o texto e as respostas juntos, mais me parece que, em vez de ser um texto voltado a informar ou analisar, ele é movido antes por uma emoção de querer criticar um certo movimento.

Se a intenção fosse realmente fazer uma crítica precisa, acho que teria sido melhor trazer com mais clareza quais textos de fato existiram na comunidade e quem disse o quê, em que contexto. Mas, em vez desses casos concretos, o texto primeiro agrupa tudo com expressões amplas como “a base dos desenvolvedores coreanos”, “esse tipo de grupo” e “exagero quase religioso”, então, para quem lê, ficam mais fortes as associações e o enquadramento do que as alegações reais.

Em especial, ao usar expressões que remetem à linha om e, ainda assim, dizer que não está mirando diretamente nenhum grupo ou pessoa específica, a leitura acaba transmitindo mais fortemente a impressão de uma vontade ampla de atacar alguém do que a de um texto informativo.

Além disso, dizer a quem reage coisas como “se não é você, é só passar adiante” ou “ou concorda, ou então são pessoas do grupo de que estou falando que vieram atacar” também me soa mais como uma forma de rotular do que de discutir. Desde o início, quando o texto é aberto com um enquadramento tão forte, é natural que surjam antipatia e discordâncias; mas, se essas reações são novamente interpretadas como pertencentes a um grupo específico, qualquer contraponto acaba sendo absorvido pelo próprio enquadramento.

Eu acho que esse tipo de abordagem está muito mais próximo da lógica de criar um confronto típico de comunidade do que da lógica de um texto que compartilha informação e contexto. E, sinceramente, se o texto é desse tipo, talvez ele seja comum em espaços como X ou Threads, mas, pelo menos para mim, parece bem distante do clima que eu esperava do GeekNews, o que torna isso ainda mais lamentável.

Sempre senti que o GeekNews está mais para um espaço de compartilhar experiências diretas, informações concretas e contextos que ampliam o horizonte de pensamento do que para um lugar de agrupar pessoas de forma ampla para criticá-las. Por isso, neste texto, o que mais me deixou insatisfeito não foi a tese em si, mas a maneira como ela foi tratada.

 
minislively 2026-04-19

Nesse caso, no fim das contas, parece mais adequado entender este texto não como uma análise do Ralph loop em si, mas como um texto voltado ao conjunto mais amplo e específico que você mencionou.

Ainda assim, acho que justamente por ser esse tipo de texto, a definição do alvo deveria ser mais rigorosa. Só com expressões como “existe esse tipo de grupo” e “continua sendo criticado no país e no exterior”, fica difícil distinguir bem entre as alegações reais e um enquadramento exagerado, e no fim isso tende a ser lido como uma forma de colocar, num mesmo pacote, pessoas e contextos diferentes. O próprio critério de “grupo específico” já é um enquadramento forte, e, quando as fronteiras desse grupo estão pouco claras, responder colocando o outro dentro dele me parece tornar a discussão mais áspera, em vez de mais precisa.

Além disso, também não me pareceu muito consistente recorrer o tempo todo a falas e casos de outras pessoas como fundamento, mas tratar apenas a citação de Jensen Huang como algo autoritário. O fundador da OpenClaw e o CEO da YC também são figuras com contexto e autoridade próprios; se a citação de um lado vira fundamento legítimo e a do outro lado se torna imediatamente sem sentido, então inevitavelmente parece que o critério muda conforme quem fala, e não conforme o conteúdo da afirmação em si. Na prática, é bem possível que essas pessoas também estejam experimentando com uma quantidade considerável de computação e uso; se em um caso isso é lido como prova de capacidade e no outro como símbolo de uma ilusão, então acho que o critério dessa distinção precisa ficar mais claro antes de tudo.

O PRD também não é uma solução mágica, mas, ainda assim, se até o papel dele for descartado como se fosse uma ilusão, isso também não combina bem com o processo real de desenvolvimento, que envolve lançamentos iterativos, validação e correção. Pode haver uma cultura incômoda, mas não acho que essa antipatia, por si só, vire fundamento para uma generalização tão ampla. Vou parar por aqui.

 
apkas 2026-04-15

Acho que coisas como oh-my-whatever e rankings de tokens e afins são tudo ruído de marketing.

Em vez de sair algo útil ao criar um harness, a proporção de vezes em que aparece só um harness mais complexo e otimizado para queimar tokens é maior; como isso é o que tem mais visibilidade e chama atenção no curto prazo, parece que também tem muita gente que se empolga com isso.

Também já vi gente dizendo que não conseguir se adaptar a esse tipo de coisa é mentalidade de loser. E há quem use isso para afirmar que a Coreia é rápida e SF é lenta.

Ainda assim, acho que esse papo de Ralph Loop, harness e afins vai acabar sendo todo absorvido como funcionalidade interna dos modelos, e quando esse momento chegar, não vai ser exagero dizer que uma única PRD bem feita fará a IA resolver o problema.

Por outro lado, ficar agora se contorcendo com harness para vender a ideia de que está fazendo algo incrível e continuar requentando isso não me parece muito diferente de um viciado em jogo clicker de "number go up".

https://x.com/WillManidis/status/2021655191901155534 Já faz um tempo, mas este post tinha um contexto parecido.

 
tangokorea 2026-04-15

Será que o fato de algo ser muito popular não significa justamente que está mais próximo da média? Não de um nível alto, mas de um nível comum que seja satisfatório... Mas, se isso se intensificar, a ferramenta acaba se desgastando. Ainda tem gente discutindo acaloradamente se é C ou Java.

 
apkas 2026-04-15

Na verdade, a média está bem longe tanto do Ralph Loop quanto do Hannes, e acho que fica no nível do claude code vanilla. Sinceramente, se ampliar um pouco a população considerada, eu diria que só de ter usado o Claude Code a pessoa já está acima da média.

Se essas coisas parecem a média, acho que isso significa que o marketing de FOMO deles foi bem-sucedido.

 
tangokorea 2026-04-15

O que vocês acham da ilusão chamada Ralph Loop?

Será que devemos considerar que uma nova era dos alquimistas chegou?

 
cafedead 2026-04-15

Concordo.

 
brainer 2026-04-15

Concordo totalmente.
Pessoalmente, acho que são apenas pessoas que querem virar algo como influenciadores parecidos aqui na Coreia.

Obrigado por compartilhar um bom texto.
Codificação com IA, HITL também vicia.

Quando vejo esse tipo de coisa, dá para perceber que as pessoas realmente têm um instinto de gostar de criar algo

 
laeyoung 2026-04-16
  1. Uau, que legal ver um post que eu publiquei 5 anos atrás 🙌
  2. Naquela época havia discussões sobre direitos autorais de código, mas agora isso tudo sumiu. Não parece que desapareceu porque foi resolvido de forma clean, e sim que foi simplesmente encoberto pela quantidade 😶‍🌫️
 
click 2026-04-15

codex há 5 anos...? O próprio ChatGPT foi lançado em 2022, então ainda nem faz 5 anos...
Será que, por acaso, o texto do Ask GN também foi escrito por IA e acabou entrando uma alucinação?

 
mammal 2026-04-15

O próprio Codex já é antigo. Também me lembro de ter visto no GeekNews e me inscrito para o preview do GPT-3.

 
jyoung105 2026-04-15

Talvez alguém possa me explicar qual era a relação entre o preview do GPT-3 e o Codex?
Você está dizendo que o Codex já existia naquela época? Ou que já havia uma IA que escrevia código, e que essa IA era o Codex?

 
mammal 2026-04-15

Entre as antigas linhas de modelos descontinuadas, as famílias code-davinci-* e code-cushman-* são modelos Codex. A própria marca Codex já é bem antiga.

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
jyoung105 2026-04-15

Claro, o nome codex não é o mesmo, mas parece que existia um modelo de código.

 
jyoung105 2026-04-15

Uau, isso é meio chocante. Eu também uso desde a época do gpt-2, dall-e e gym, mas foi a primeira vez que vi o nome de modelo codex. Obrigado por avisar!

 
cafedead 2026-04-15

Só para acrescentar, o codex foi lançado em maio de 2025.

 
cafedead 2026-04-15

kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk

 
brainer 2026-04-15

Que tal pelo menos dar uma olhada na NamuWiki antes de mostrar que não sabe do assunto?

Ah, e só para constar, o ChatGPT Atlas diz que faz 1812 dias desde que me cadastrei.

 
click 2026-04-15

Ah, então o Codex atual e o Codex daquela época são produtos em formatos diferentes. Naquela época, Codex era o nome do modelo LLM focado em código da OpenAI, e agora lançaram a plataforma Codex atual usando a mesma marca.

Na época eu usei o GitHub Copilot, mas só sabia que o modelo base era o GPT-3; não sabia que usavam a marca Codex no nome do modelo.

 
brainer 2026-04-15

O Codex não é um modelo.
Coisas como GPT-5.3-Codex só passaram a ser nomeadas assim recentemente.

É o nome de uma extensão do VSCode que disponibiliza um modelo ajustado com fine-tuning para programação, baseado no GPT-3.
(ninguém usa a web)
O Github Copilot também usava o mesmo modelo e a mesma abordagem.

Na época, ele não conseguia manter uma conversa significativa, então era literalmente como prever a próxima palavra.
Só que, se você colocasse um problema do Baekjoon, ele parecia um autocompletar supremo que escrevia a função solve.
(Em outras palavras, a OpenAI fez primeiro aquilo que existia no Cursor.)

 
click 2026-04-15

Pelo que você disse, parece ser uma extensão do VS Code que usa o modelo Codex (talvez seja esta? https://github.com/Implicate-dev/codex-vscode)
Pelo artigo escrito por Mark Chen em 2021, parece que a OpenAI divulgava Codex como o nome de um modelo ajustado com fine-tuning.

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities
Fonte: https://arxiv.org/abs/2107.03374

 
brainer 2026-04-15

Parece estar certo, mas faz tanto tempo que não me lembro com precisão.

 
brainer 2026-04-15

O que vocês acham da ilusão chamada Ralph Loop?

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
runableapp 2026-04-19

Lembro de ter achado estranho quando vi, não em sites coreanos, mas em sites americanos, comentários dizendo que o uso de tokens precisava ser alto. Não é só na Coreia; nos EUA é a mesma coisa, e também estão por toda parte histórias estranhas e difíceis de aceitar, além de narrativas exageradas.

 
brainer 2026-04-19

Na Coreia, esse tipo de afirmação já surgiu há quase meio ano; recentemente, parece que o assunto está sendo levantado de forma mais intensa.
Pessoas como Garry Tan estão dizendo ativamente que não é verdade.

 
jeeeyul 2026-04-19

É uma história em um contexto um pouco diferente, mas eu tendo a achar que gastar mais tokens com verificação em hardware mais barato é melhor do que usar APIs de nuvem caras e economizar tokens.

Com o avanço dos agentes e dos harnesses, parece que arquiteturas com viabilidade econômica para permitir mais revisão e verificação, em vez de depender da precisão e do tamanho do modelo, estão sendo mais preferidas.

Acho que isso é ainda mais verdadeiro especialmente desde o surgimento do GDN e do Mamba.

 
brainer 2026-04-19

Pessoalmente, acho difícil concordar.
No caso do Opus, ele é caro demais, mas se for numa faixa de preço como a do GPT-5.4, em vários aspectos econômicos seria melhor usar o 5.4 algumas vezes do que rodar o dia inteiro um modelo chinês barato.

 
vkehfdl1 2026-04-19

Na minha visão, o motivo pelo qual até os pro gamers com a maior eficiência de aprendizado do mundo ainda falham com frequência ao aprender algo novo não é simplesmente falta de habilidade.
Acho que é justamente o contrário.
Por terem ficado otimizados por tempo demais, e em um nível alto demais, para a meta existente, muitas vezes acabam enfrentando mais dificuldade diante da mudança.
No começo, todo julgamento é feito de forma consciente.
Mas, à medida que o aprendizado repetitivo se acumula, decisões que antes eram processadas pelo cérebro vão sendo automatizadas aos poucos, e o jogador experiente chega a um ponto em que o corpo reage antes mesmo do pensamento.
Eu considero essa automação claramente uma força enorme.
Só que, no momento em que a meta muda, essa força pode acabar se transformando em uma forte inércia.
A visão, as lutas e a noção de macro que eram a resposta certa na meta antiga ficam gravadas no corpo ao longo de milhares de horas.
Por isso, mesmo quando a estrutura do jogo muda e a resposta certa de antes deixa de ser a certa, o corpo continua tentando se mover primeiro do jeito antigo.
No fim, o problema não está na falta de capacidade de aprender algo novo, mas na capacidade de abandonar a otimização anterior.
Porque a maior parte da proficiência é resultado de acúmulo, mas ao mesmo tempo também é resultado de inércia.
Por isso, eu não acho que quem foi bom necessariamente estará em vantagem na próxima meta também.
Pelo contrário, acho perfeitamente possível que essas pessoas fiquem ainda mais presas ao sucesso da era anterior.
Acho que o setor de programação de hoje não é tão diferente assim.
Muita gente ainda calcula eficiência do jeito antigo e julga produtividade com os critérios antigos.
Mas eu vejo que a meta já está mudando.
Independentemente de formação acadêmica ou carreira, quando olhamos para o que de fato está acontecendo no mundo, vale repensar se o mercado ainda está funcionando exatamente com a mesma estrutura de antes e se o desenvolvimento ainda continua oferecendo apenas um valor subordinado.
No fim, quem avança para a próxima etapa não é apenas quem acumula mais com diligência, mas quem consegue abandonar mais rápido o que já existia.
Do meu ponto de vista, nesta nova era, a capacidade de remover otimizações envelhecidas está se tornando muito mais importante do que a capacidade de acumular mais.

 
brainer 2026-04-19

Se você pensa assim, então basta fazer uma transmissão ao vivo de 24 horas e mostrar você mesmo diretamente.

 
vkehfdl1 2026-04-19

Oh
Obrigado pela ótima ideia.
Realmente, a experiência faz diferença 👍👍👍👍👍👍👍👍👍

 
brainer 2026-04-19

Ouvi bem a longa explicação de que não dá.

 
sea715 2026-04-15

Concordo, mas acho que conjuntos de harness bem feitos, como o omo, realmente ajudam no desenvolvimento (pelo que sei, o Ralph Loop não é o principal. Ele não é oferecido como uma opção? Era o ulw..?)

 
cloverhearts 2026-04-15

Para ir direto à conclusão, isso parece não ter nenhuma relação com o uso de tokens.
No caso da automação, existe entre os desenvolvedores uma cultura profundamente enraizada, a ponto de isso se firmar como uma espécie de objetivo profissional compartilhado.

Acho que é essa parte que faz surgir a fantasia de passar a noite automatizando a escrita de código ou a criação de produtos.

Na prática, porém, olhando não pela ótica do desenvolvedor, mas pela utilidade real para o negócio ou pela perspectiva da operação empresarial, em muitos casos o mais importante do que desempenho, acabamento ou resposta rápida é medir o problema e encontrar uma solução...

Parece que essas fantasias típicas de desenvolvedor, de que basta criar um bom app ou fazer um bom serviço para estourar, acabam distorcendo a situação.

Para recolher alguns fios de cabelo no chão de casa, o que eu preciso não é de 500 tipos de aspirador de alta performance, mas só de alguma coisa simples que substitua meus dedos.

Quanto ao consumo de tokens, se você gerenciar mal a sessão ou usar SDD de forma errada, até um desenvolvimento simples de servidor pode consumir US$ 100 no Claude em 2 ou 3 dias.
Como a especificação do que seria um uso incorreto não é clara, também é difícil a própria pessoa perceber sozinha que está usando errado.

Independentemente do conteúdo, usar o volume de tokens consumidos como métrica de aproveitamento de IA me parece o mesmo que dizer que alguém é competente porque come muito, ou achar difícil dizer que uma pessoa trabalhou muito só porque passou a noite na empresa copiando documentos antigos a lápis.

Por enquanto, como ainda não existe uma métrica precisa, há esse foco em consumo de tokens e automação,
mas parece que o próximo passo será começar a discutir como gerar valor real de forma concreta.

 
woung717 2026-04-15

Na verdade, não parece que os EUA sejam tão diferentes assim. Esses harnesses de coding do tipo Oh-my só têm menos marketing no exterior, incluindo os EUA, porque a equipe do projeto é da Coreia, e quando vemos o que defendem figuras representativas do maximalismo de tokens, como Steve Yegge e Karpathy, não é tão diferente do que você mencionou. Os seguidores deles também não.

 
dohyun682 2026-04-15

Estão criando um ranking interno de uso de tokens e até promovendo competição entre empresas, mas pessoalmente acho que isso é cair no marketing das empresas de IA.
Vendo o que tem viralizado ultimamente, parece que o desempenho em relação aos tokens não está sendo considerado nem um pouco.

 
brainer 2026-04-15

O engraçado é que as empresas de IA não fazem esse tipo de marketing.
Pelo contrário, elas dizem que conseguem desempenho melhor com menos tokens de raciocínio do que os modelos anteriores.

 
vndk2234 2026-04-15

5 anos atrás...? Será que você poderia recomendar algumas ações?

 
brainer 2026-04-15

Samsung Electronics.