Comparando 4 agentes de vibe coding com o mesmo prompt (Lovable, Gemini, Rork, Flowith)

(stdy.blog)

13 pontos por spilist2 2025-05-26 | 2 comentários | Compartilhar no WhatsApp

Testei alguns serviços que conheci recentemente e experimentei fazer vibe coding com 4 agentes diferentes, cada um com pontos fortes distintos. (Antes, eu já havia comparado serviços de prototipagem com IA (v0, Lovable, Replit, Bolt, Tempo, Mocha) com deep research + uso prático de cada um; desta vez, comparei implementando com o mesmo prompt)

Lovable: um dos líderes entre os serviços de prototipagem com IA. Implementa rapidamente uma UI elegante. Permite publicação pública imediata
Gemini App Build: usado no Google AI Studio. Dá para criar apps que chamam a API do Gemini gratuitamente. Sem limite de mensagens no chat
Rork: serviço de vibe coding que foi o primeiro a embutir um simulador de app mobile. Dá para testar no celular como aplicativo
Flowith Neo: um superagente que roda 24 horas. Pode fazer várias tarefas com múltiplos agentes, incluindo programação

Em todos os casos, usei o mesmo material: o handout de um workshop de treinamento de habilidades para pedir ajuda que desenvolvi com conhecidos, e pedi que criassem “um app de simulação para treinar sozinho”.

Avaliei cada serviço, de forma totalmente subjetiva, com base nestes 7 critérios (total de 70 pontos):

Processo de implementação
- Eficiência: exige pouca intervenção minha até sair um app funcional?
- Conveniência: é fácil testar e depurar?
- Velocidade: a implementação é rápida?
- Custo: o custo para implementar é baixo?
Resultado da implementação
- Funcionalidade: os recursos atendem às expectativas e são ricos?
- Usabilidade: a UI/UX do app criado é intuitiva e bonita?
- Eficácia: realmente ajuda no treinamento de habilidades para pedir ajuda?

Resumo dos resultados da avaliação

(As imagens com a tabela-resumo e as telas detalhadas de funcionamento de cada serviço estão no blog)

No geral:

Processo de implementação: Lovable > Gemini >> Rork >>>> Flowith
Resultado da implementação: Lovable ~= Flowith > Gemini = Rork

Em quantos turnos ficou pronto:

Lovable e Gemini ficaram prontos logo no primeiro turno (o Gemini corrigiu sozinho um bug e então concluiu)
O Rork ficou pronto no 3º turno, após 2 correções de bug (colando a mensagem de erro)
O Flowith não conseguiu concluir, mesmo com várias intervenções manuais e tentativas próprias de corrigir. Ainda assim, mostrava previews contínuas no meio do processo, então dava para ver resultados parciais

Impressões

Pode haver um pouco de preferência pessoal, mas no geral o Lovable foi esmagador. Ainda assim, cada um tinha vantagens bem claras
- Gemini: a experiência de testar chamadas de LLM diretamente é especial
- Rork: testar um app mobile direto no celular dá um sabor próprio de aplicativo
- Flowith: fez pesquisa adicional de verdade. Se ao menos tivesse concluído...
O Flowith, que eu esperava bastante, teve resultados intermediários impressionantes, mas ainda acho que está longe de servir como ferramenta principal de vibe coding. Acima de tudo, como ele usa cobrança por créditos em vez de mensagens de chat, o custo fica alto demais
Vale notar que a avaliação do processo de implementação não considera só esta vez, mas a experiência como um todo. Foi minha primeira vez com Rork; com Lovable, usei várias vezes; e com Gemini e Flowith, já criei 3 apps em cada

Avaliação detalhada

🥇 1º lugar Lovable - 63 pontos (concluído no primeiro turno)

Processo de implementação

Eficiência: 9
Conveniência: 9
Velocidade: 10
Custo: 7

Simplesmente faz tudo bem. A implementação no primeiro turno foi a mais rápida e limpa. A correção automática de bugs com base em mensagens de erro é conveniente. A edição visual gratuita e a correção de bugs gratuita são ótimas. Também dá para editar o código: no plano pago, ali mesmo; no gratuito, via integração com GitHub. A publicação pública imediata também é excelente.

Resultado da implementação

Funcionalidade: 9
Usabilidade: 10
Eficácia: 9

Como esperado, a UI é bonita e praticamente sem defeitos. Os recursos não são tão numerosos, mas ele interpretou o handout de forma criativa e intuitiva, e tinha tudo o que precisava ter.

O ponto fraco é exigir sempre seguir as 3 etapas para pedir ajuda. A simulação também era simples, baseada em regras, mas apropriada. Fiquei com a sensação de que bastaria adicionar aqui apenas os pontos bons que vi nos outros serviços, incluindo LLM.

🥈 2º lugar Gemini App Build - 56 pontos (concluído no primeiro turno após corrigir sozinho um bug)

Processo de implementação

Eficiência: 7
Conveniência: 8
Velocidade: 8
Custo: 10

Tem como grande diferencial o chat gratuito e a possibilidade de chamar o Gemini gratuitamente. Já no primeiro turno ele fez algo bem competente e corrigiu sozinho os bugs que apareceram logo depois de criar.

Em múltiplos turnos, ele não vai tão bem. Também consegue fazer correção automática com base em mensagens de erro, mas no bug em questão não conseguiu resolver até o fim, então acabei intervindo manualmente. Não tem edição visual, mas é o mais confortável para editar código. A desvantagem é precisar de Cloud Run para fazer deploy.

Resultado da implementação

Funcionalidade: 8
Usabilidade: 6
Eficácia: 9

A UI é claramente mais rígida. Lembra as ferramentas do Google, e o conteúdo do handout aparece quase literalmente, sem muita interpretação criativa. Também é um pouco inconveniente ter sempre que passar pelas 3 etapas.

Ainda assim, na simulação, a experiência de conversar com a IA e receber respostas é extremamente única e eficaz, então ganhou pontos extras. Esse tipo de experiência, só ele entrega.

🥉 3º lugar Rork - 46 pontos (concluído no 3º turno)

Processo de implementação

Eficiência: 7
Conveniência: 5
Velocidade: 7
Custo: 4

O grande diferencial é virar um app mobile. Funcionou bem tanto no Android quanto no iPhone ao instalar pelo app Expo Go. Também permite escolher o modelo de implementação, incluindo Claude Sonnet 4. Tem correção automática de bugs e, de fato, corrige bem.

Não dá para editar o código, não tem edição visual e, acima de tudo, o problema é que a correção de bugs é paga. Sinceramente, pelo menos corrigir de graça o app com bug que ele mesmo criou no primeiro turno seria o mínimo, não?

Resultado da implementação

Funcionalidade: 8
Usabilidade: 7
Eficácia: 8

Foi o único que criou tudo em inglês. A UI era rígida e pouco bonita. Boa parte do conteúdo do handout apareceu praticamente como estava. Ainda assim, tinha tudo o que precisava, e era conveniente poder executar separadamente as 3 funções.

A simulação era em múltipla escolha e trazia avaliação das respostas, o que me pareceu bom para iniciantes treinarem. Mas os textos eram longos demais.

4º lugar Flowith Neo - 35 pontos (incompleto após n turnos)

Processo de implementação

Eficiência: 1
Conveniência: 3
Velocidade: 3
Custo: 1

O planejamento adicional com pesquisa na web é bom. Porém, apesar de trabalhar bastante, em 3 apps ele não conseguiu concluir nenhum uma única vez. Depois de testar sozinho, planejava de novo, tentava corrigir bugs e não conseguia resolver. Como a cobrança não é por mensagem, ele repetia ciclos de tentativa e erro por conta própria e consumia muitos créditos, o que foi frustrante.

A cada etapa intermediária, ele publicava uma versão em uma URL pública. Mas muitas vezes uma versão anterior era melhor. Se falhava no meio da implementação, era preciso reiniciar manualmente. O código só podia ser visto após download, e naturalmente também só dava para modificá-lo por prompt. Não há edição visual.

Resultado da implementação

Funcionalidade: 9
Usabilidade: 10
Eficácia: 7

O planejamento inicial e as previews intermediárias foram muito impressionantes. No fim, ele não concluiu, e as versões variavam bastante, mas havia muitos elementos que dariam para aproveitar em outros apps. Por exemplo, avaliação prévia mais rigorosa, ou treinamento com vários cenários e diferentes níveis de dificuldade. A UI também era bonita, tirando algumas coisas estranhas, e foi a mais caprichada.

2 comentários

princox 2025-05-28

Estou usando o bolt.new e queria comparar para ver como ele se sai.

spilist2 2025-05-29

Eu também acho que em junho vou usar bastante o Bolt por causa do hackathon do Bolt (premiação total de US$ 1 milhão) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ . Depois disso vou ter que comparar, haha

Comparando 4 agentes de vibe coding com o mesmo prompt (Lovable, Gemini, Rork, Flowith)

Resumo dos resultados da avaliação

Avaliação detalhada

🥇 1º lugar Lovable - 63 pontos (concluído no primeiro turno)

🥈 2º lugar Gemini App Build - 56 pontos (concluído no primeiro turno após corrigir sozinho um bug)

4º lugar Flowith Neo - 35 pontos (incompleto após n turnos)

Leituras relacionadas

2 comentários