Quem vai definir o preço da inteligência?
(x.com/JayaGup10)- À medida que a IA transforma a inteligência em um recurso com preço, todas as camadas do mercado disputam quem vai controlar esse preço
- Os labs de IA querem que o uso passe por eles, os aplicativos tentam provar que conseguem alocar inteligência melhor do que os labs, e os Estados querem que a inteligência fique barata o suficiente para se tornar infraestrutura nacional
- O custo da inteligência já não é mais uma variável de entrada do software, mas opera como um eixo (axis) em torno do qual empresas, mercados e geopolítica são reorganizados
- O motivo de investir em IA ser diferente de investir em software é que há mais variáveis, essas variáveis se acoplam (coupled) de forma desigual, e cada variável se decompõe em subvariáveis que se movem em suas próprias curvas
- Trata-se de analisar um sistema em que a própria equação é reescrita a cada hora, uma sequência contínua de reconfiguração em que qualquer variável, se se mover o suficiente, muda o significado das outras
Por que investir em IA é diferente de investir em software
- No software, fazer correspondência de padrões era difícil, mas funcionava, e o custo de distribuição (distribution cost) determinava a eficiência de aquisição de clientes, enquanto o custo de troca (switching cost) definia retenção e expansão
- CAC payback, NDR, magic number e Rule of 40 eram todos resultados derivados dessas duas forças
- A IA rompe isso por três motivos
- Há mais variáveis no sistema
- As variáveis se acoplam de forma desigual
- Cada variável se decompõe em subvariáveis que andam em suas próprias curvas
- Se qualquer um entre capability, cost, latency, deployment, regulation e talent se mover, o significado dos demais muda, e ao resolver uma restrição, a próxima restrição relevante também muda
O que cada variável muda
- As variáveis familiares já discutidas são capability, cost e latency
- As variáveis mais difíceis são os unlocks vindos de pesquisa e produto, cujo caráter e profundidade são difíceis de modelar de antemão, e cuja chegada continua acelerando
- Restrições que o software tratava como valores fixos tornam-se escolhas estratégicas na IA: geopolitics, deployment e talent
-
Capability
- Ela se decompõe em reasoning, context, multimodality, tool use, planning, memory e controllability, e cada uma se move violentamente em sua própria curva
- context se expandiu de 4 mil tokens para mais de 1 milhão de tokens em apenas 3 anos
- reasoning evoluiu de truques de prompting para uma classe própria de modelos
- Ela absorveu infraestruturas como retrieval pipelines, output parsers e prompt scaffolds, que eram próteses (prosthetics) usadas para compensar fraquezas dos modelos
- Um modelo capaz de conter prompts e um modelo capaz de conter uma base de código ou o histórico de um cliente são produtos diferentes; ganhos de desempenho não elevam todos os aplicativos por igual, mas deslocam o gargalo (bottleneck)
- Ela se decompõe em reasoning, context, multimodality, tool use, planning, memory e controllability, e cada uma se move violentamente em sua própria curva
-
Cost
- A queda de custos não melhora apenas as margens; ela muda quem pode competir
- Fluxos de trabalho que antes exigiam uma frontier API migram para modelos open-weight baratos, modelos especializados ajustados com fine-tuning ou stacks com roteamento, enquanto produtos premium viram commodity feature
- A DeepSeek mostrou isso de forma ainda mais intensa: uma mudança nas expectativas de custo da camada de modelo pode redirecionar o pool de margens acima dela
- A queda de custos não melhora apenas as margens; ela muda quem pode competir
-
Latency
- Ela vira variável quando a IA sai do prompting assíncrono e entra em fluxos de trabalho em tempo real
- Um modelo lento pode servir para redigir memorandos, mas falha em sales call, support conversation, tutoring session ou security response
- Quando há uma pessoa esperando do outro lado, latency deixa de ser um detalhe de desempenho e passa a definir a viabilidade de existência no mercado
- voz cruzou essa linha quando chegaram juntos qualidade, tratamento de interrupções e preço na faixa de centavos por minuto
- Reduzir latency não só acelera o mesmo produto, mas abre novas superfícies de uso (surface)
- Ela vira variável quando a IA sai do prompting assíncrono e entra em fluxos de trabalho em tempo real
-
Novas curvas
- Há 2 anos, não daria para colocar na lista inference-time compute, task horizon e o fato de a própria produção da IA virar insumo
-
Inference-time compute
- O controle em que usar 10x mais computação gera respostas melhores é um elemento realmente novo que não existia no software anterior, e transforma o custo por resultado em uma questão de escolha
- Uma query de 10 segundos e uma query de 10 minutos no mesmo modelo são produtos diferentes com preços diferentes, e a margem depende não do preço do modelo, mas do julgamento do sistema
- Isso é o contra-ataque da camada de aplicação contra os labs: quanto mais os modelos frontier absorvem a lógica do produto, mais cada empresa precisa defender que aloca os tokens do cliente melhor do que eles
- O incentivo do lab é expandir uso; o do aplicativo é gastar apenas onde houver valor de resultado
- O controle em que usar 10x mais computação gera respostas melhores é um elemento realmente novo que não existia no software anterior, e transforma o custo por resultado em uma questão de escolha
-
Task horizon
- Se o dial de profundidade é inference-time compute, task horizon é o dial de duração: por quanto tempo a IA consegue operar sozinha antes de exigir intervenção humana
- A unidade sai de call e vai para workflow
- Agentes operam por horas, criam subagentes e consomem milhões de tokens por caminho de decisão, de modo que o uso já não é proporcional ao número de seats
- Multiplicar duração e profundidade produz a conta de tokens que todo CFO da Fortune 500 está perguntando sobre
- Se o dial de profundidade é inference-time compute, task horizon é o dial de duração: por quanto tempo a IA consegue operar sozinha antes de exigir intervenção humana
-
A própria produção da IA como insumo
- A IA é aplicada à geração de synthetic data, escrita de código, geração de evals e compressão do ciclo experimental
- Cada geração encurta o tempo necessário para construir a próxima, tornando a taxa de mudança endógena (endogenous)
- Essa recursão fez o ciclo de mudança ficar mais curto do que o ciclo de captação, e a meia-vida de qualquer thesis está encolhendo
- A IA é aplicada à geração de synthetic data, escrita de código, geração de evals e compressão do ciclo experimental
-
Geopolitics
- É o ponto em que a guerra aparece explicitamente, e a China é estruturalmente empurrada para eficiência e divulgação open-weight
- O acesso restrito a chips e a exclusão de partes da stack frontier tornam essa estratégia racional
- Os EUA ainda podem competir com modelos frontier open-weight, mas ainda não chegaram à mesma resposta estrutural
- O software não exigia treinamentos de bilhões de dólares, mas frontier open weights exigem compute financing, patient capital, release governance, serving infrastructure e meios de competir por talentos
- Algum grupo americano terá de justificar esse custo de treinamento por meio de federation ou financial engineering
- Labs frontier defendem regulação baseada em capability porque acreditam que a tecnologia é arriscada, e se beneficiam quando o acesso frontier é controlado, auditado, mensurado e mantido atrás de APIs
- A DeepSeek não foi só a divulgação de um modelo, mas um tiro na guerra sobre quem define o preço da inteligência
- É o ponto em que a guerra aparece explicitamente, e a China é estruturalmente empurrada para eficiência e divulgação open-weight
-
Deployment
- Ainda está em aberto, porque o valor não vai todo para a cloud
- A inferência migra para onde for mais barato sem arruinar o produto: reasoning frontier vai para a cloud, latency para edge, privacidade e personalização para on-device, e fluxos que exigem os três vão para o híbrido
- Como os modelos não apenas armazenam dados, mas inferem context, memory, documents, voice, code, behavior e permissões corporativas dos usuários, privacidade importa mais do que em SaaS
- O lugar onde a inferência acontece determina quem captura a margem, quem possui o contexto e em quem o cliente confia
- Ainda está em aberto, porque o valor não vai todo para a cloud
-
Talent
- Em SaaS, talento era uma variável de execução: equipes melhores construíam mais rápido, vendiam melhor e operavam com mais disciplina
- Em IA, talento é o insumo bruto (raw input) da produção, e um pequeno número de pesquisadores pode mudar a própria curva de architecture, data mixture, eval regime e custo-capability
- A equipe não apenas executa de acordo com o mercado; ela pode mudar a forma do mercado
- Não é só qualidade operacional; research taste também vira parte do ativo
A ameaça já não é mais o concorrente
- Em SaaS, normalmente você morria por causa de outra empresa: um concorrente com mais capital, uma equipe mais rápida ou um incumbente expandindo território
- Havia uma exceção: empresas construídas sobre plataforma de terceiros podiam desaparecer sem concorrente direto por mudança de preço ou termos
- A IA transforma essa exceção no padrão (default)
- A ameaça na IA é a migração de camada (layer migration): se capability, cost, latency, deployment, regulation ou trust mudar o suficiente, o trabalho se desloca
- Ele pode ir para o modelo, para uma alternativa open-weight, para a plataforma de dados do cliente, para um runtime de agentes ou para o próprio dispositivo
- Outra variável é demand: compradores se movem devagar, mas não são ingênuos; sabem o custo do lock-in, e a arbitragem dentro desse atraso está se fechando
A forma de construir empresas também se inverte
- Premissas antigas e conselhos tradicionais de VC estão desaparecendo
- Se o SaaS vendia produtividade e boas sensações, a IA está vendendo cada vez mais outcomes e services, em um negócio menos generoso no qual o resultado precisa funcionar para o produto ser bom, e esse resultado precisa ser produzido com eficiência suficiente para a empresa funcionar
-
A divisão entre Consumer e Enterprise
- No consumer, amplitude pode bastar: ser rápido, barato, amplamente útil e perdoável quando falha
- No enterprise, o padrão é outro: precisa funcionar dentro de um workflow específico, incorporando context, permissions, data e risk tolerance do cliente
- Por isso, um modelo frontier sozinho não é um produto enterprise; o valor está na camada de application, orchestration, services e proprietary data que torna o modelo útil dentro da empresa
-
Distribution e Talent
- O modelo de ontem pode viabilizar um novo produto, permitindo que uma empresa mude seu posicionamento na terça-feira
- Algumas empresas já mudaram o perfil de contratação de vendas para pessoas que sabem vender um alvo em movimento
- Desde o início, o modelo top-down funciona em algumas empresas
- O modelo de ontem pode viabilizar um novo produto, permitindo que uma empresa mude seu posicionamento na terça-feira
-
Estrutura econômica
- services-as-software muda a precificação, e parcerias com integradores de sistemas surgem anos antes do que no playbook tradicional
- O mercado se divide: alguns investidores olham para portfólios em que o produto é reconstruído sem parar e concluem que o produto quase não importa e que services é o negócio real; outros rejeitam qualquer coisa que pareça consultoria
- A verdade mais desconfortável é que, na IA, product, services, deployment e distribution estão sendo recombinados de forma diferente em cada empresa
-
A inovação dos fundadores
- ICP estreito, um único wedge, construir devagar, contratação previsível, retenção guiada por produto: nada disso basta em um mercado onde as variáveis não ficam paradas e os clientes não querem point solutions
- O que parece estar vencendo são loops rápidos de feedback, equipes pequenas com autoridade e conforto para se reorganizar conforme a mudança, em vez de seguir um plano de 6 meses atrás
Agora, a tarefa de fundadores e Estados
- Na IA, o valor não é capturado uma vez e defendido para sempre; ele é reprecificado e realocado continuamente, e as variáveis são a forma de ler a direção e a velocidade dessa realocação
- Toda empresa de IA está assentada sobre uma pilha de premissas, e as empresas robustas sabem em quais premissas estão compradas e em quais estão vendidas
- Investir e construir em IA é mais parecido com operar um livro de trading (trading book) do que com fazer diligência para adquirir uma empresa de software
- Você está comprado em algumas curvas, vendido em outras, e exposto a correlações que podem quebrar justamente no momento mais importante
- É preciso escolher em quais variáveis apostar, saber quais podem matar você e construir a empresa para se recuperar mais rápido, antes que uma aposta errada se acumule com juros compostos
-
Dimensão política
- O governo dos EUA estaria melhor se conseguisse lidar com duas variáveis ao mesmo tempo: controlar a frontier perigosa, sem tornar a inteligência tão cara a ponto de apenas labs fechados e Estados rivais definirem o futuro
- O país vencedor não será o que mais regula nem o que mais divulga, mas o que encontrar uma forma de tornar a inteligência segura o suficiente para merecer confiança e barata o suficiente para se espalhar
Ainda não há comentários.