- Após fazer engenharia reversa de 200 startups de IA, constatou-se que muitas empresas afirmam ter tecnologia própria, mas na prática operam chamando APIs externas
- Entre as empresas analisadas, 73% usam OpenAI ou Claude API praticamente como estão, acrescentando apenas uma interface simples ou algumas funcionalidades por cima
- Uma parcela significativa das startups que promovem seu “LLM proprietário” era, na realidade, apenas um wrapper de GPT-4 que enviava requisições para
api.openai.com; com uma estrutura baseada só em prompts de sistema simples, vendiam isso com margens de dezenas a centenas de vezes
- A maior parte dos serviços que enfatizava uma arquitetura RAG também estava empacotando como “infraestrutura proprietária” uma stack padrão de 40 linhas combinando OpenAI
text-embedding-ada-002 · Pinecone/Weaviate · GPT-4; nesse cenário, com custo mensal de cerca de US$ 30 mil por 1M de consultas e receita de US$ 150 mil a US$ 500 mil, a estrutura de margem ficava entre 80% e 94%
- Por outro lado, 27% do total era composto por empresas wrapper que revelavam de forma transparente sua stack, com frases como “Built on GPT-4”, por builders que realmente treinavam modelos próprios e por equipes com diferenciais técnicos reais, como votação entre múltiplos modelos e frameworks de agentes
- A investigação mostrou que muitas startups de IA, embora sejam negócios de serviços baseados em API, se apresentam como se tivessem “infraestrutura proprietária de IA”; o texto destaca que investidores, clientes e desenvolvedores podem verificar isso apenas abrindo a aba de rede no DevTools e reforça a necessidade de uma divulgação técnica honesta no ecossistema de IA
Visão geral
- Tomando como alvo as aplicações web de 200 startups de IA que receberam investimento externo, a análise rastreou tráfego de rede, código e chamadas de API para comparar o discurso de marketing com a stack tecnológica real
- O ponto de partida foi a suspeita de que uma empresa que alegava ter uma “infraestrutura proprietária de deep learning” na verdade apenas fazia chamadas para a OpenAI API
- Essa empresa havia recebido US$ 4,3 milhões em investimento e levantado recursos com a narrativa de que havia “construído uma infraestrutura fundamentalmente diferente”
- Como resultado, foi encontrada uma discrepância significativa entre a tecnologia alegada e a implementação real em 73% das empresas, sendo que muitas delas tinham apenas uma estrutura de wrapper simples sobre APIs de modelos de terceiros
- O universo analisado reuniu 200 startups de IA coletadas de fontes como YC, Product Hunt e posts de “We’re hiring” no LinkedIn; empresas com menos de 6 meses de fundação foram excluídas, e o foco ficou nas que tinham captação externa e alegações técnicas concretas
- A investigação foi conduzida de forma passiva, em nível de ferramentas de desenvolvedor do navegador, sem acesso a sistemas privados, sem burlar autenticação e sem violar TOS
Metodologia da investigação
- Foi montado um pipeline automatizado de análise com Playwright, aiohttp e outras ferramentas, coletando três itens em comum para cada site de startup
- Com
capture_network_traffic(url), foram capturados cabeçalhos de rede e padrões de requisição
- Com
extract_javascript(url), foi feita a decompilação e análise de bundles JS
- Com
monitor_requests(url, duration=60), foram rastreados os padrões de chamadas de API por 60 segundos
- Para cada site, as informações a seguir foram estruturadas e registradas
claimed_tech: alegações técnicas presentes em textos de marketing e no conteúdo do site
actual_tech: stack real identificada por cabeçalhos HTTP, bundles JS e chamadas de API
api_fingerprints: impressões digitais de APIs de terceiros extraídas de domínios chamados, cabeçalhos, latência e outros sinais
- O período de coleta foi de 3 semanas, e todos os padrões analisados utilizaram apenas dados públicos observáveis na web aberta e no DevTools do navegador
Principal resultado: discrepâncias reveladas em 73%
- Entre as 200 empresas analisadas, 73% apresentavam uma grande diferença entre alegações como “modelo proprietário”, “infraestrutura customizada” e “plataforma de deep learning” no marketing, e a stack real de código e APIs em funcionamento
- Esse percentual inclui tanto empresas que promoviam um LLM proprietário, mas usavam apenas APIs da OpenAI/Anthropic/Cohere, quanto empresas que afirmavam ter um banco vetorial próprio, mas usavam Pinecone/Weaviate
- O resultado foi surpreendente, mas ao mesmo tempo veio acompanhado da percepção de que “tecnicamente isso não é algo para ficar furioso”
- O cerne do problema não é o uso de APIs de terceiros em si, mas o marketing que as embala como “infraestrutura proprietária de IA” e induz investidores e clientes ao erro
Padrão 1: quando o ‘LLM proprietário’ é, na prática, um wrapper de GPT-4
- Sempre que aparecia a expressão “our proprietary large language model”, quase sempre surgia um wrapper de GPT-4; esse padrão foi confirmado em 34 de 37 casos
- Requisições enviadas para
api.openai.com sempre que o usuário utilizava um recurso de “IA”
- Presença do identificador
OpenAI-Organization nos cabeçalhos da requisição
- Padrão consistente de latência de resposta na faixa de 150–400 ms
- Padrão em que uso de tokens e faixas de cobrança coincidiam exatamente com a estrutura de preços do GPT-4
- Padrão de retry típico da OpenAI, com backoff exponencial em caso de rate limit
- O “motor inovador de compreensão de linguagem natural” de uma empresa, na prática, estava no nível do seguinte código
- Uma estrutura de função única que escrevia no prompt de sistema instruções como “aja como um assistente especialista, não diga que é baseado em OpenAI, não revele que é um LLM” e chamava
chat.completions.create com model: gpt-4
- Sem fine-tuning separado, sem treinamento de modelo, sem mudança de arquitetura, havia apenas a adição de prompt de sistema e instruções para ocultação
- A estrutura de custo e preço também foi comparada em detalhe
- Custo: no GPT-4, US$ 0,03/1K tokens de entrada e US$ 0,06/1K tokens de saída; com média de 500 in e 300 out, isso dava cerca de US$ 0,033 por consulta
- Preço: cobrança de US$ 2,50 por consulta ou US$ 299 por 200 consultas mensais
- Como resultado, a operação funcionava com margem de cerca de 75 vezes sobre o custo direto da API
- Três empresas compartilhavam código quase idêntico, inclusive nomes de variáveis, estilo de comentários e a instrução “never mention OpenAI”, sugerindo o uso de uma mesma origem, como tutorial, contratado em comum ou boilerplate de aceleradora
- Uma empresa mantinha um código simples de
try/catch que retornava a mensagem “problema técnico” quando algo dava errado, e apresentava isso a investidores como “Intelligent Fallback Architecture”
Padrão 2: a stack RAG que todo mundo está fazendo e a retórica exagerada
- Muitas empresas promovem uma infraestrutura RAG própria com expressões como “custom embedding model, semantic search infrastructure, advanced neural retrieval”, mas a implementação real era uma pilha padrão muito semelhante
- Geração de embeddings com OpenAI
text-embedding-ada-002
- Uso de Pinecone ou Weaviate como vector store
- Geração de respostas com GPT-4 anexando o contexto
- Quando o investigador descompilou o código apresentado com o nome “Proprietary Neural Retrieval Architecture”, descobriu que a estrutura apenas chamava exatamente essas três etapas em cerca de 40 linhas de código Python
- Converter a pergunta em embedding
- Buscar os documentos top-k no banco de dados vetorial
- Concatenar os textos recuperados e enviá-los ao GPT-4 como mensagem de system
- Enviar junto a pergunta do usuário como mensagem de user para gerar a resposta
- A estrutura de custos e preços também mostrou uma diferença muito grande
- Embeddings da OpenAI: US$ 0,0001 por 1K tokens
- Query no Pinecone: US$ 0,00004 por chamada
- Completion do GPT-4: US$ 0,03 por 1K tokens
- Somando tudo, o custo ficava em cerca de US$ 0,002 por query
- Na cobrança real ao cliente, porém, o valor era de US$ 0,5 a US$ 2 por query, criando uma margem de 250 a 1000 vezes sobre o custo de API
- 42 empresas usavam uma pilha e uma estrutura de código quase idênticas, e outras 23 compartilhavam um padrão mais de 90% parecido
- As diferenças se resumiam principalmente à escolha entre Pinecone vs Weaviate, nomes de variáveis e adição ou não de cache com Redis
- Também apareceram casos de marketing em que adicionavam cache com Redis e chamavam isso de “optimization engine”, ou colocavam lógica de retry e vendiam isso como “Intelligent Failure Recovery System”
- Também foi calculada a viabilidade econômica de uma startup com cerca de 1 milhão de queries por mês
- Custos: cerca de US$ 100 em embeddings, cerca de US$ 40 em hospedagem do Pinecone, cerca de US$ 30 mil em completion no GPT-4, totalizando aproximadamente US$ 30.140/mês
- Receita: US$ 150 mil a US$ 500 mil/mês
- Estrutura de negócio com margem bruta muito alta, na faixa de 80% a 94%
Padrão 3: o que “nós mesmos fizemos o fine-tuning” realmente significa
- Ao rastrear a infraestrutura das empresas que usavam a expressão “nós mesmos fizemos o fine-tuning do modelo”, elas se dividiram em dois grandes grupos
- Uma minoria (cerca de 7%) realmente executava jobs de treinamento próprios via AWS SageMaker, Google Vertex AI etc., armazenava os artefatos do modelo em buckets S3 e operava endpoints de inferência separados com monitoramento de instâncias GPU
- A maioria usava a API de fine-tuning da OpenAI e, na prática, a estrutura era mais próxima de “enviar dados de exemplo e prompts para a OpenAI e armazená-los”
- O primeiro caso (treinamento próprio de verdade) deixa a infraestrutura de treinamento e o pipeline de deploy relativamente visíveis até no que pode ser observado pelo navegador, enquanto o segundo na maior parte das vezes aparece apenas como uma única chamada a endpoint da OpenAI
Como distinguir rapidamente empresas wrapper
-
Padrões de tráfego de rede
- Basta abrir DevTools(F12) → aba Network no navegador e observar as requisições feitas enquanto usa a funcionalidade de IA do serviço para fazer uma distinção simples
api.openai.com
api.anthropic.com
api.cohere.ai
- se domínios como esses aparecerem diretamente, em princípio o serviço pode ser visto como um wrapper de API de modelo de terceiros
- A latência de resposta também funciona como uma impressão digital
- No caso da API da OpenAI, em especial, existe um padrão característico de latência com respostas concentradas na faixa de 200~350ms, o que permite inferir qual modelo está no backend
-
Bundles JavaScript e exposição de chaves
- Outra forma simples é procurar as seguintes palavras-chave no código-fonte da página e nos bundles JS
openai, anthropic, claude, cohere, sk-proj- (prefixo de chave de projeto da OpenAI) etc.
- Durante a investigação, 12 empresas estavam publicando o código frontend com chaves de API incluídas diretamente, e mesmo após o envio de e-mails avisando sobre isso, nenhuma respondeu
-
Matriz de linguagem de marketing
- O texto organiza em formato de tabela os padrões entre a linguagem presente nas peças de marketing e a implementação técnica real, chamando isso de “Marketing Language Matrix”
- Quando apareciam termos técnicos concretos como “tipo de instância GPU, arquitetura de serving, tamanho do modelo”, a probabilidade de a empresa ter de fato alguma infraestrutura própria era maior
- Em contrapartida, quanto mais se repetiam apenas buzzwords abstratas como “advanced AI”, “next-gen intelligence” e “proprietary neural engine”, maior era a chance de por dentro ser só um wrapper de API de terceiros
Mapa da realidade da infraestrutura e cenário das startups de IA
- O texto organiza, por meio de vários diagramas, um mapa da realidade da infraestrutura atual das startups de IA
- Muitas startups existem na forma de uma fina camada de aplicação sobre provedores de modelo como OpenAI, Anthropic e Cohere
- Sobre cada camada, acumulam-se serviços que tentam se diferenciar em elementos como workflow, UX, dados de domínio e pipelines
- Com base nessa estrutura, grande parte das startups de IA é, na prática, um negócio de serviço/plataforma, em desacordo com a autoimagem de “empresa de infraestrutura de IA própria”
Por que devemos nos importar com isso
- Diante da pergunta “se funciona bem, isso não basta?”, o investigador organiza os motivos sob a ótica de quatro partes interessadas
- Investidores: boa parte do capital investido hoje nessas empresas está indo não para pesquisa em IA ou desenvolvimento de modelos, mas, na prática, para engenharia de prompt e camadas de workflow
- Clientes: estão pagando preços com prêmio de mais de 10 vezes sobre o custo real de API, e em muitos casos funções semelhantes poderiam ser implementadas diretamente como um projeto de fim de semana
- Desenvolvedores: em comparação com o brilho externo das “startups de IA”, muitas na realidade são serviços wrapper de baixa barreira de entrada, e é preciso reconhecer que eles próprios poderiam construir algo parecido em pouco tempo
- Ecossistema: o fato de 73% das “empresas de IA” exagerarem ou induzirem ao erro sobre sua tecnologia indica um estado próximo de uma bolha e cria incentivos pouco saudáveis
Espectro dos wrappers: nem todo wrapper é ruim
- Por meio de um gráfico chamado “Wrapper Spectrum”, o texto explica que mesmo entre empresas wrapper existem camadas qualitativamente diferentes
- Em uma ponta, estão wrappers que basicamente apenas colocam uma UI fina sobre uma API de terceiros
- Na outra, estão wrappers mais avançados que oferecem workflows especializados por domínio, UX de alto nível, orquestração de modelos e pipelines de dados valiosos
- A mensagem central não está em “ser ou não ser wrapper”, mas em honestidade e forma de entrega de valor
- Empresas que usam APIs de terceiros, mas deixam isso claro de forma transparente e constroem diferenciação em resolução de problemas, experiência e dados, são avaliadas positivamente
Os 27% que estão fazendo direito
-
Categoria 1: Wrappers transparentes (Transparent Wrappers)
- As empresas desse grupo deixam explícitas em seus sites frases como “Built on GPT-4” e deixam claro que o que vendem é workflow, UX e conhecimento de domínio
- Ex.: serviço que oferece automação de documentos jurídicos com a combinação de GPT-4 + templates jurídicos
- Ex.: serviço baseado em Claude especializado em roteamento de tickets de suporte ao cliente
- Ex.: serviço de workflow de conteúdo que combina vários modelos com um processo de revisão humana
-
Categoria 2: Construtores de verdade (Real Builders)
- Esse grupo é formado por empresas que realmente treinam modelos próprios
- IA para saúde que opera modelos self-hosted para conformidade com a HIPAA na área médica
- Serviço que treina e opera modelos de risco customizados para análise financeira
- Serviço que desenvolve e implanta modelos especializados de visão computacional em automação industrial
-
Categoria 3: Combinações inovadoras (Innovators)
- Aqui entram empresas que usam modelos de terceiros, mas constroem por cima deles uma estrutura realmente nova
- Sistema que combina saídas de vários modelos para implementar melhoria de acurácia baseada em votação
- Sistema que executa tarefas complexas com um framework de memória e agentes
- Casos que introduzem uma nova forma de arquitetura de retrieval, entre outros
- Essas empresas conseguem explicar em detalhe sua arquitetura e têm em comum o fato de possuírem uma estrutura construída por elas mesmas
Lição aprendida: mais importante que a stack é o problema, e também a honestidade
- O resultado de 3 semanas de investigação pode ser resumido assim
- O problema que se quer resolver importa mais do que a stack tecnológica em si, e muitos dos melhores produtos eram, na prática, estruturas que poderiam ser chamadas de “apenas wrappers”
- Ainda assim, honestidade é uma dimensão importante à parte, e a diferença entre um wrapper inteligente e um wrapper enganoso está na transparência
- A corrida do ouro da IA está criando incentivos que pressionam empresas a fazer alegações falsas, por causa das expectativas de investidores e clientes por uma “IA proprietária”
- E não há nada de vergonhoso em construir sobre APIs; o problema é esconder isso e vender a solução como uma “arquitetura proprietária de rede neural”
Framework de avaliação e conselhos práticos
-
Teste de replicabilidade em 48 horas
- É proposto um critério simples para avaliar qualquer “startup de IA”
- “É possível replicar a tecnologia central deles em 48 horas?”
- Se a resposta for sim, então tecnicamente ela se encaixa como wrapper e,
- se revelar sua stack com honestidade, pode ser uma boa empresa
- se esconder isso enquanto alega ter uma “infraestrutura proprietária de IA”, deve ser vista como uma empresa a evitar
-
Conselho para fundadores
- Para fundadores, são propostos os seguintes princípios
- Divulgar com honestidade a própria stack
- Competir por UX, dados e expertise de domínio
- Não afirmar ter construído algo que não foi construído
- Aceitar que “Built with GPT-4” não é uma fraqueza, e sim uma explicação honesta
-
Conselho para investidores
- Para investidores, são apresentados os seguintes pontos de verificação
- Exigir um diagrama de arquitetura
- Solicitar faturas de APIs como OpenAI e Anthropic para verificar o nível real de dependência
- Avaliar empresas wrapper com a precificação adequada para empresas wrapper
- Recompensar com incentivos equipes que divulgam a stack com honestidade
-
Conselho para clientes
- Para clientes, são sugeridas as seguintes ações práticas
- Abrir a aba Network no navegador e verificar as requisições de saída
- Fazer perguntas diretas sobre a infraestrutura e a forma de uso dos modelos
- Verificar se não estão pagando um markup desnecessário de mais de 10x sobre chamadas de API
- Avaliar com base em resultados reais e capacidade de resolver problemas, e não em alegações técnicas
Resumo em uma linha da realidade das ‘startups de IA’
- “A maioria das ‘startups de IA’ está mais próxima de um negócio de serviços que troca custo de funcionários por custo de API”
- Isso não é um modelo de negócio errado, mas uma realidade que precisa ser reconhecida e explicada com honestidade
Desdobramentos e reações após a investigação
- Semana 1: menciona-se que a expectativa inicial era de que algo em torno de 20% a 30% usasse APIs de terceiros, mas o resultado foi muito maior
- Semana 2: um fundador perguntou ao investigador “como você entrou no nosso ambiente de produção?”, e ele explicou que apenas olhou a aba Network do navegador
- Semana 3: duas empresas pediram que os resultados da investigação fossem retirados do ar, mas o artigo informa que os nomes de empresas específicas não foram revelados e continuam assim até agora
- Ontem: um VC pediu que suas empresas de portfólio fossem auditadas antes da próxima reunião de conselho, e o investigador menciona que aceitou
Plano de divulgação de dados e ferramentas
- Com base neste estudo, há planos de divulgar a metodologia e as ferramentas
-
O que será publicado no GitHub (gratuito)
- Código completo da infraestrutura de scraping
- Técnicas para extrair fingerprints de API
- Scripts de detecção que qualquer um poderá executar
- Coleção de padrões de tempo de resposta por principais APIs de IA
-
Análise aprofundada (exclusiva para membros)
- Caso de um “unicórnio de IA” avaliado em US$ 33 milhões por mês que, na prática, usa apenas US$ 1.200 por mês em custos com OpenAI
- Estrutura apresentada como um “modelo de 100 milhões de parâmetros”, mas que na prática era composta por 3 system prompts
- Código de produção servido publicamente (lado do cliente, snippets anonimizados)
- Framework de 5 perguntas que revela um wrapper imediatamente
- Estudos de caso comparando apresentações para investidores com a infraestrutura real
Mensagem final e a necessidade de uma ‘era da IA honesta’
- A investigação foi conduzida sem divulgar nomes de empresas, compartilhando apenas padrões, e enfatiza a crença de que o mercado acabará recompensando a transparência
- Foi confirmado que 18 empresas estão realmente criando tecnologia nova no sentido mais estrito, e
- para elas, é enviada a mensagem de incentivo: “vocês sabem quem são, continuem construindo”
- Depois da investigação, 7 fundadores entraram em contato em particular, e
- alguns ficaram na defensiva, alguns agradeceram, e três pediram ajuda sobre como fazer a transição do marketing de “proprietary AI” para “construído sobre as melhores APIs da categoria”
- um fundador teria confessado: “sabíamos que estávamos mentindo, os investidores esperavam isso, todo mundo faz isso, então como paramos agora?”
- No fim do artigo, reforça-se mais uma vez a mensagem de que a corrida do ouro da IA não vai acabar, mas a era da honestidade precisa começar, concluindo que qualquer pessoa pode verificar a verdade por conta própria apenas abrindo a aba Network do DevTools (F12)
4 comentários
Nos comentários há um dizendo: "A própria existência do autor é suspeita. A fonte dos dados também é obscura, e também não seria possível capturar o tráfego de rede de forma arbitrária. É preciso uma verificação básica", e concordo.
O link do LinkedIn que aparece no perfil do Medium também leva para uma página inexistente, e parece que a pessoa nem existe de fato. Também é estranho ficar mencionando GPT-4, e não GPT-4o, em pleno 25 de novembro.
Também é difícil acreditar que um desenvolvedor a ponto de até colocar um sistema de pagamento por assinatura para monetizar implementaria a comunicação com a API de IA no cliente, e não no servidor, de um jeito tão fácil de detectar assim...
Quando você tenta criar agentes, passa a ver a engenharia de prompts como uma aplicação com excelente produtividade no uso de IA.
Comentários do Hacker News
2023 foi o ano de mostrar uma demo de prompt toda semana
Até em evento da AWS teve apresentador que passou uma hora abrindo o Claude e digitando prompts aleatórios
Nosso time também passou 6 meses dizendo que estava construindo um “agente”, acoplando ferramentas, conectores e sistema de avaliação, para no fim voltar de novo à engenharia de prompts
Um mentor me disse certa vez que “em tecnologia, especialista é alguém que sabe uma ou duas coisas a mais do que os outros”
Por isso acho natural a febre atual de engenharia de prompts. Quanto mais nova a tecnologia, mais ela evolui empilhando uma ou duas coisas sobre a stack existente
Dizer que “é só engenharia de prompts” subestima a real dificuldade de construir sistemas de alto desempenho
Projetar métricas de avaliação, chamadas de ferramentas, caching e afins não é algo do nível de um simples prompt. Se você consegue mostrar resultado, levantar investimento fica fácil
É suspeito ver um texto em novembro de 2025 mencionando GPT-4
A metodologia de identificar o provedor de IA pelo tráfego de rede também é estranha. Se o frontend chama a API diretamente, há um grande risco de exposição da chave de segurança
Parece um método de investigação meio duvidoso
Surge então a pergunta: “então afinal, o que se deve fazer?”
Nos anos 90, colocar uma UI sobre um sistema de console já era uma ótima ideia de startup
Na verdade, esse fenômeno já era comum em startups anteriores à IA
Bastava melhorar a UX envolvendo tecnologia existente para ganhar muito dinheiro. Por dentro era uma combinação de ferramentas open source, mas a margem era tão alta que desenvolver algo próprio não fazia sentido
Penso nisso desde logo depois do lançamento do ChatGPT
Se alguma empresa realmente tivesse uma AGI, não haveria motivo para vendê-la. Bastaria criar seus próprios serviços e esmagar a concorrência
Há poucas empresas que fazem LLM, e as funcionalidades são parecidas
No fim, o núcleo da automação é a engenharia de prompts
Como em apps mobile, se a Big Tech quiser, consegue copiar facilmente. Perplexity e Cursor também estão em risco
O próprio artigo em questão parece conteúdo gerado por IA
É difícil confiar que o autor realmente analisou os dados
Fica uma grande dúvida: “como essa pessoa coletou esses dados?”
Se fosse a minha empresa, eu não poderia divulgar dados de clientes desse jeito
Por que isso seria desonesto? kkk