5 pontos por GN⁺ 2026-01-17 | 5 comentários | Compartilhar no WhatsApp
  • O Cursor anunciou que realizou um experimento em que ‘agentes autônomos de programação’ operaram por várias semanas, explorando se seria possível automatizar projetos que levariam meses para uma equipe humana concluir
  • Para validar o sistema, definiu o objetivo de ‘construir um navegador web do zero’ e afirmou que os agentes escreveram mais de 1 milhão de linhas de código ao longo de cerca de uma semana
  • No entanto, o repositório público no GitHub (fastrender) apresenta diversos erros de compilação e falhas de CI, confirmando que não se trata de um navegador executável
  • O Cursor não apresentou prova de funcionamento, demo reproduzível nem um commit compilável, e também não há base concreta de sucesso nos resultados do experimento
  • Ainda assim, o Cursor afirmou que “os agentes fizeram progresso significativo em um grande projeto”, deixando uma impressão de sucesso sem verificação real de desempenho

Visão geral do experimento no blog do Cursor

  • Em 14 de janeiro de 2026, o Cursor publicou o post Scaling long-running autonomous coding
    • O objetivo era explorar “até onde é possível escalar projetos que levariam meses para uma equipe humana usando agentes autônomos de programação”
  • Depois de tentar várias abordagens, a empresa disse ter chegado a um sistema “capaz de resolver o problema de coordenação e escalar para grandes projetos sem um único agente central”
  • Para validação, realizou um experimento de ‘construir um navegador web do zero’, afirmando que os agentes escreveram mais de 1 milhão de linhas de código em 1.000 arquivos ao longo de cerca de uma semana

Falta de clareza nos resultados do experimento

  • O Cursor afirmou que “novos agentes entenderam a base de código e fizeram progresso significativo” e que “centenas de workers deram push simultaneamente para a mesma branch”
    • Porém, não deixa explícito se o navegador realmente funciona
  • O post inclui um vídeo em forma de captura de tela, mas não há demo executável nem explicação concreta dos resultados
  • Além da frase “construir um navegador do zero é muito difícil”, não foi apresentada nenhuma evidência de funcionamento

Resultado da verificação da base de código

  • Ao compilar o repositório diretamente, ocorre falha de compilação da biblioteca fastrender (34 erros, 94 avisos)
  • As execuções recentes do GitHub Actions também mostram erros de workflow e diversas falhas de compilação
    • Entre os 100 commits mais recentes, nenhum foi compilado com sucesso
  • O conteúdo interno do código é avaliado como um produto em nível de ‘AI slop’, sem intenção ou estrutura claras
    • Parece que nem mesmo os comandos cargo build ou cargo check foram executados
    • A issue relacionada #98 também continua aberta

Problemas de reprodutibilidade e confiabilidade

  • O blog do Cursor não traz nenhuma explicação sobre como executar, qual resultado esperar ou como funciona
  • Não são fornecidos demo reproduzível, instruções de build nem um commit validado (tag/release/commit)
  • Mesmo assim, a composição e a linguagem do texto fazem com que pareça um “protótipo funcional”
  • O Cursor não declara explicitamente que “funciona”, então não se trata de uma afirmação falsa, mas deixa a impressão de sucesso

Conclusão e avaliação

  • O Cursor não afirmou que se trata de um “navegador em nível de produção”, mas, ao usar expressões como ‘progresso significativo’ e ‘construção de navegador’, faz o experimento parecer bem-sucedido
  • No entanto, não há qualquer evidência de funcionamento, código compilável ou resultado reproduzível
  • A alegação de que “centenas de agentes colaboraram e avançaram em um grande projeto” é uma afirmação sem qualquer evidência
    • Não atende nem ao critério mínimo de “ser compilável e conseguir renderizar um arquivo HTML simples”
  • Em última análise, o experimento do Cursor acaba revelando não tanto o potencial de escalar programação autônoma, mas sim os limites da geração de código em larga escala

5 comentários

 
kimjoin2 2026-01-18

kkkk

 
sinbumu 2026-01-19

Na verdade, isso mostrou com sucesso que os desenvolvedores ainda não podem ser demitidos~

 
jjw9512151 2026-01-18

Resultado bem-sucedido = ei, seus executivos babacas, ainda não conseguem demitir a gente

 
GN⁺ 2026-01-17
Comentários do Hacker News
  • A crítica de que o experimento desta semana acabou sendo, no fim, só um wrapper não funcional do Servo (navegador baseado em Rust) deveria estar no topo
    O comentário relacionado está aqui

    • Fiquei curioso se alguém já tentou reescrever com IA algum projeto open source popular
      Com os LLMs mais recentes, isso talvez até fosse bem eficaz para lavar licença ou plagiar dependências. Parece um benchmark novo interessante
    • Vi um tweet de alguém dizendo que conseguiu compilar de fato
    • Resultados negativos também têm valor. Se forem divulgados de propósito, é respeitável; se aparecerem por acidente, é engraçado
      Um brinde ao Cursor por fornecer o entretenimento de hoje
    • No começo, ao ver a captura de tela, por um momento senti que meu emprego estava em risco
      Mas aí descobri que não tem nem engine e que está completamente quebrado; o Cursor é realmente uma vergonha alheia
  • O post oficial no blog do Cursor foi escrito num tom bem conservador, mas
    no Twitter passou a impressão exagerada de algo como “fizemos um navegador com GPT-5.2”
    Na realidade, eles separaram milhares de agentes para acumular commits por semanas, mas o resultado ainda não funciona

    • Dizer que “resolveram conflitos de merge” não significa muita coisa. Dá para sempre resolver usando só a estratégia ours ou theirs
    • Então será que alguém realmente conseguiu executar? De onde saiu a captura de tela? O código tem erros demais
    • Pelo conteúdo do link, parece que o navegador funcionou; então fico me perguntando em que sentido isso seria “conservador”
  • Eu mesmo tentei verificar e rodei cargo check nos últimos 100 commits
    Todos falharam. Veja o log dos resultados

    • Agora há um novo comentário dizendo que compila
    • Na verdade, a captura de tela pode até ter sido manipulada. Pela navalha de Occam, essa é a explicação mais simples
  • Esse tipo de divulgação parece, no fim, parte de uma estratégia de captação
    Antes também publicaram várias postagens vagas sobre quanto código os modelos internos escreveram
    Isso não quer dizer que não exista conteúdo real, mas é uma pena que não compartilhem os resultados publicamente

    • Diferente de outros provedores de modelos, sempre me incomodou o fato de não divulgarem benchmarks
      O Cursor já foi assunto do momento, mas agora a onda são os agentes baseados em terminal
      Na nossa empresa também estamos encerrando o contrato com o Cursor e mudando para o Claude Code
      Esse projeto de navegador provavelmente é uma tentativa de voltar aos holofotes
    • Esse tipo de exagero no fim é só inflar valor de mercado. Não dá para justificar
    • Hoje em dia, toda empresa de LLM depende mais de marketing “vibe-coded” do que de verdade
      Foi parecido no anúncio do GPT-5. O avanço real está desacelerando
    • Antes eu detestava esse tipo de exagero, mas agora passei a aceitar como a realidade do mundo
      No fim, a resposta é verificação, não confiança
  • O Cursor também está fazendo um clone do Excel com um experimento parecido
    Segundo o repositório no GitHub,
    de 160 mil workflows, só 247 tiveram sucesso, e a maioria falhou por estourar o orçamento
    Os agentes não ligam nem um pouco para esse tipo de restrição

  • O commit mais recente agora já compila e executa (pelo menos no Mac)
    Mas continua sendo um código caótico de 3 milhões de linhas
    A página mostrada no vídeo promocional do Cursor não renderiza. Provavelmente usaram outra build

    • O cargo check passa, mas olhando o git log tem algo suspeito
      Há sinais de que não foi um agente, e sim uma pessoa, que corrigiu diretamente
      Veja a análise do log de commits
  • Acho que o post original era só um título caça-cliques
    A frase “milhares de agentes de IA criaram um navegador” é chamativa demais

    • Agora, quando alguém disser “a IA criou um navegador”, já vai dar para linkar este caso
    • Projetos que na prática não funcionam estão circulando rápido demais no ciclo de notícias
      É uma pena que a expressão “fake news” tenha sido politicamente contaminada. Aqui ela serviria perfeitamente
  • O CEO do Cursor afirmou que “criaram do zero em Rust a engine de renderização e a VM de JS”, mas,
    olhando a lista de dependências,
    eles usaram diretamente bibliotecas baseadas no Servo como html5ever, cssparser e rquickjs
    No fim, está mais para um wrapper em torno do Servo, e nem compila

    • Não entendo por que insistiram em dizer que implementaram CSS e JS por conta própria
      A maioria das pessoas bateria o olho no código e perceberia na hora; provavelmente acharam que o público não iria conferir
      É assim que percepções erradas se espalham, e depois, mesmo quando são corrigidas, ninguém se importa
    • Na prática, ele é composto por parser de HTML/CSS do Servo, QuickJS, resvg, egui, wgpu e outras bibliotecas já existentes
      Dizer que isso dá 3M de linhas é engraçado
    • Também inclui selectors e taffy, e algumas partes usam dependências antigas
    • A engine de JS é só um projeto pessoal copiado para a pasta vendor
      Mais detalhes aqui
    • Fico curioso se o código de layout veio do Servo ou se foi escrito pelo próprio Cursor
      Essa é a parte mais difícil de um navegador
  • Acho que essa abordagem de marketing acaba saindo pela culatra
    O design e a UX do Cursor são excelentes, mas em trabalhos mais profundos ele tem bugs demais
    Melhorou um pouco com a adição dos modelos Claude, mas ainda é inferior ao Antigravity
    Além disso, o limite da assinatura de US$ 20 acaba rápido. Parece improvável que os modelos fiquem 10x melhores e 10x mais baratos

    • Usando apps cheios de bugs de várias empresas de IA, dá para sentir que, no trabalho real, ainda é preciso habilidade humana
      Vendo o modelo de negócios da OpenAI migrar para algo centrado em publicidade,
      dá a impressão de que o Google entendia essa tecnologia de forma mais realista
  • No fim, histórias assim servem para “vender pás na corrida do ouro”
    Um CEO que não entende muito pode cair nesse tipo de notícia e acabar demitindo gente de verdade