Os dados são o único moat

(thebootstrappedfounder.com)

41 pontos por GN⁺ 2026-03-24 | 2 comentários | Compartilhar no WhatsApp

Com as ferramentas de AI reduzindo drasticamente o custo e a necessidade de mão de obra no desenvolvimento de software, a pergunta central passa a ser: qual é, afinal, a barreira de entrada dos negócios de software?
Agora que a AI pode substituir a maior parte do trabalho de transformação, apenas os dados do mundo real gerados por humanos permanecem como o único moat que a AI agente não consegue replicar
O mercado de dados está se bifurcando entre “dados gerados por humanos” e “dados gerados por AI”; os primeiros estão se valorizando, enquanto os segundos estão virando commodity
Softwares de transformação simples (fluxos como Excel → PDF → e-mail) podem ser substituídos por AI agente, mas a coleta contínua de dados em grande escala e os systems of record não podem ser substituídos
Garantir paridade de API (equivalência funcional entre UI, REST e MCP) e acumular metadados será a principal vantagem competitiva dos negócios de software daqui para frente

A mudança do moat do software na era da AI

Ferramentas baseadas em LLM tornaram o desenvolvimento de software complexo dramaticamente mais fácil, mas não o resolveram por completo
- Ainda é preciso um orquestrador (alguém que saiba o que construir), um papel que fica na interseção entre gestão de produto, customer development e engenharia, além da capacidade técnica
- O que antes exigia 10 pessoas para criar algo relevante está caminhando para 3, 2 ou até 1 pessoa
Quando produtos de software se tornam fáceis de lançar e manter, os moats tradicionais (dificuldade de desenvolvimento, transformação de conhecimento de domínio em produto etc.) passam a ser, em grande parte, substituídos pela AI

A Grande Bifurcação dos Dados

O mundo dos dados está se dividindo em dois caminhos
- Dados gerados por humanos: episódios de podcast, vídeos, posts em redes sociais, posts de blog e outros conteúdos criados diretamente por pessoas
- Dados gerados por AI: imagens criadas por AI, voz sintética por TTS, vídeos inteiramente produzidos por AI, e-mails de spam escritos por agentes etc.
Dados humanos ganham valor por sua escassez e singularidade, enquanto dados gerados por AI, à medida que os modelos ficam mais rápidos e baratos, caem para o status de commodity
Dados humanos carregam todo o conjunto de conhecimento que só o próprio criador possui, então a única entidade capaz de gerar aquele dado é aquela pessoa
Como a AI, por definição, não pode criar dados gerados por humanos, dados do mundo real gerados, verificados e refinados por humanos serão, na próxima década, o único moat confiável para fundadores de software

Caso Podscan: o moat de dados na prática

O principal valor do serviço de monitoramento de podcasts Podscan não está na velocidade de coleta de feeds RSS nem na velocidade de resposta da API
- O valor real está nos dados de transcrição e análise por AI (palavras-chave, temas, análise de sentimento) de 50 milhões de episódios de podcast
O valor agregado central está em coletar dados públicos (episódios de podcast) e transformá-los em um formato transcrito, convertido e acessível
- Isso pode ser usado para diversos fins, como rastrear menções de marca, identificar tendências em tempo real e avaliar patrocínios em podcasts
Quanto maior a fidelidade e o frescor dos dados, maior o valor percebido pelo cliente
- Mesmo que a UI seja ruim ou a API seja limitada, os clientes dão um jeito de acessar os dados — os dados em si são o que importa
Se o produto oferecesse apenas uma função que recebe uma URL, faz a transcrição e a análise, isso poderia ser substituído em 2 horas com uma skill dentro do Claude Code
Processar com agentes a coleta, transcrição e análise de 50 mil episódios por dia levaria o custo de API para algo na casa de dezenas de milhares de dólares por dia, tornando isso praticamente inviável

A vulnerabilidade do software de transformação

Softwares puramente transformacionais que recebem dados de entrada, processam e entregam uma saída são vulneráveis à AI agente
- Ex.: “ChatGPT, pegue este arquivo Excel, crie um relatório, exporte para PDF e envie por e-mail” — isso pode ser executado de forma autônoma sem serviços externos
- A própria AI pode implementar ou reutilizar implementações existentes para parsing de Excel, consultas analíticas, renderização de PDF e envio de e-mail
Negócios SaaS voltados a fluxos como Excel → relatório → e-mail deixam de ser necessários
Em contrapartida, coleta contínua de dados em grande escala é uma área difícil de substituir com agentes
- Isso se deve ao caráter temporário dos agentes, que existem apenas por sessão (como em Cursor, Claude Code ou conversas no ChatGPT)
- Agentes sempre ativos para escanear e executar tarefas consomem tantos tokens que se tornam economicamente inviáveis

Estratégia de negócio API-first

No cenário atual, uma estratégia API-first é uma das escolhas mais inteligentes para negócios de software
- MCP é apenas uma camada sobre APIs REST existentes, e acesso programático, MCP, API e webhooks compartilham a mesma essência: conexões confiáveis entre computadores
Entre fundadores, cresce a demanda por paridade funcional entre UI e API
- Quanto mais tudo o que pode ser feito na UI também puder ser feito da mesma forma pela API, maior a chance de adoção do produto pelos clientes
- Na era dos agentes, a possibilidade de automação se torna um fator central na decisão de compra
O Podscan mantém um platform parity tracking file
- Para cada funcionalidade, é mantida uma tabela indicando suporte em UI, REST API e MCP
- Um subagente do Claude Code analisa a base de código e atualiza esse arquivo periodicamente
- Isso inclui desde funções simples, como “busca de podcasts”, até fluxos complexos, como “alerta de palavra-chave para menção de marca → adicionar à lista → disparar webhook”
É preciso atender de forma equivalente os três tipos de usuário: usuário humano, usuário computador e usuário agente

Metadados são o moat

O moat de dados não se limita a dados de podcast
Os metadados coletados durante o uso da plataforma (horário de publicação, horários com maior engajamento, tipos de conteúdo que geram mais interação etc.) formam um moat de dados próprio
- Ex.: em uma ferramenta de publicação para Twitter ou Facebook, os dados de padrão de comportamento do usuário são o moat
Possuir os dados é metade do moat; torná-los acessíveis é a outra metade
A tarefa central é identificar quais fontes internas de dados com valor agregado seu produto possui e como conectá-las para torná-las acessíveis

2 comentários

minelee 2026-03-24

Assim como o treinamento do AlphaGo foi feito com dados de autojogo AlphaGo vs AlphaGo, o treinamento de LLMs está sendo feito gerando dados com os próprios LLMs. Como, com apenas algumas amostras de dados, já é fácil criar mais dados, também é difícil ver isso como um fosso defensável realmente seguro.

rlaaudgjs5638 2026-03-25

Talvez seja algo como a diferença entre aprendizado por reforço e deep learning. Em contextos em que não é possível fornecer um loop de feedback decisivo, os dados humanos ainda parecem ser o fosso defensivo.