Treinando nossos próprios modelos de IA

(posthog.com)

1 pontos por GN⁺ 2026-05-29 | 1 comentários | Compartilhar no WhatsApp

A PostHog está tentando treinar modelos com dados internos para criar produtos mais proativos e autônomos, após o AI installation wizard, o PostHog AI e o MCP
O foco principal é o PostHog Code, sustentando a direção de um produto que encontra e executa respostas e soluções no lugar do usuário, melhorando com o tempo
A empresa quer aprimorar a análise de session replay, testes com usuários sintéticos e previsão de comportamento do usuário para reduzir o custo de detecção de problemas e encontrar erros e pontos de confusão antes do deploy
Os dados de treinamento serão anonimizados e apenas dados já existentes na instância do PostHog serão usados, sem serem vendidos ou enviados a fornecedores terceirizados de modelos
A nuvem da UE e clientes com contratos que restringem treinamento ficam excluídos por padrão, enquanto a nuvem dos EUA fica incluída por padrão; os usuários podem optar por sair antes de 29 de junho

Plano da PostHog para treinar seus próprios modelos de IA

No último ano, a PostHog adicionou recursos de IA ao produto, como o AI installation wizard, PostHog AI e MCP, e agora quer criar produtos ainda mais proativos e autônomos
O próximo capítulo da PostHog aponta para produtos que encontram e executam respostas e soluções no lugar do usuário e melhoram com o tempo
O PostHog Code, atualmente em beta, é o produto central dessa direção, e para viabilizá-lo a empresa quer treinar modelos com dados internos da PostHog

Recursos que a empresa quer criar

O objetivo é tornar os produtos atuais mais inteligentes e proativos e, com novos produtos como o PostHog Code, ajudar equipes a criar produtos melhores mais rapidamente
Análise de session replay
- O PostHog AI já consegue detectar problemas em replays, mas o custo é alto demais para escalar bem
- Para usar replays com força em grande escala, como já acontece ao diagnosticar problemas individuais de usuários, é necessário um modelo treinado nos dados subjacentes que compõem esses replays
Testes com usuários sintéticos
- Testes com usuários sintéticos são a ideia de usar conhecimento sobre o comportamento do usuário para encontrar pontos em que ele pode se confundir ou fluxos que podem quebrar antes de irem para produção
- À medida que os modelos de código melhoram, o volume de trabalho com testes e revisão cresce bastante, e a PostHog quer automatizar isso para que os usuários possam focar no próprio produto
Previsão de comportamento do usuário
- Se a previsão de comportamento do usuário melhorar, será possível sugerir mudanças que aumentem a conversão e reduzam a frustração mesmo em recursos já lançados
- Com mais automação, cai o tempo gasto em análise manual e também o consumo de tokens nesse processo
- Essas ideias ainda são experimentais, e será preciso iterar até descobrir como treinar os modelos de forma eficaz e quais dados realmente são úteis
- A PostHog usa como base para essa tentativa o fato de que já teve bons resultados quando a IA tornou o produto mais simples ou mais poderoso

Como isso funcionará e princípios de uso de dados

O plano é focado em fortalecer recursos existentes e oferecer funções que melhorem o produto de forma mais proativa
Enquanto muitas ferramentas se concentram em oferecer o melhor código, a PostHog quer se concentrar em fazer com que o próprio produto do usuário fique melhor
Por isso, ela descreve o PostHog Code como um editor de produto
A principal preocupação é usar dados presentes na PostHog para treinar modelos, e a empresa quer comunicar isso abertamente, em vez de esconder a mudança em uma atualização dos termos
Como será a aplicação por padrão
- Usuários de instâncias em nuvem da UE ficam excluídos por padrão
- Usuários com contratos que impedem treinamento, como BAA, MSA ou acordos semelhantes, também ficam excluídos por padrão
- Os demais usuários de instâncias em nuvem dos EUA ficam incluídos por padrão
Tratamento de dados e limitações
- Antes de serem usados no treinamento, todos os dados serão anonimizados
- Só serão usados dados que já existam na instância PostHog do usuário
- O treinamento dos modelos será feito pela própria PostHog
- Os dados dos usuários não serão vendidos nem enviados a fornecedores terceirizados de modelos
Opt-out
- Os usuários podem optar por sair a qualquer momento nas configurações da organização no PostHog
- Alterar as configurações da organização exige permissões de administrador
- O treinamento não começará até 29 de junho, dando tempo para que os usuários decidam

Plano de comunicação

A PostHog enviará um e-mail para todos os clientes deixando o objetivo claramente explícito
Para usuários que não leem e-mails, também haverá um aviso no aplicativo para todos
A empresa está seguindo um caminho de divulgação pública do plano
O objetivo é melhorar os produtos da PostHog para os clientes, e não expor ou vender modelos treinados com dados dos usuários nem monetizar esses dados

Por que opt-out em vez de opt-in

O motivo para escolher inclusão por padrão com opt-out, em vez de opt-in por padrão, é que do contrário não haveria dados suficientes para treinar modelos realmente úteis
Quem optar por sair não poderá usar os novos recursos criados com esses modelos
Usuários excluídos por padrão, como os de instâncias em nuvem da UE, podem fazer opt-in manualmente se isso não for impedido por seu contrato legal com a PostHog
A PostHog escolheu divulgar isso com antecedência, em vez de lançar discretamente
A PostHog também está contratando pesquisadores de IA para esse trabalho

1 comentários

GN⁺ 2026-05-29

Comentários do Hacker News

“opt-in por padrão” é uma contradição. Se é o padrão, então eu não consenti; só veio ativado por padrão
- Isso também me irrita. Se é opt-in, significa que você não está incluído por padrão e pode escolher participar se quiser
  Se é opt-out, você está incluído por padrão e pode sair se quiser, mas hoje em dia estão usando os termos ao contrário, então agora é preciso acrescentar explicação
  Já vi até um post de telemetria com opt-in de verdade ser atacado por comentários no topo que entenderam como “incluído por padrão”. Parece que essa palavra agora quase ganhou o sentido oposto
- “opt-in por padrão” é simplesmente opt-out. É só usar o termo que já existe
- Colocar você em “consentimento” por padrão é realmente algo e tanto
- É isso mesmo. Eu estava considerando o PostHog, mas esse tipo de expressão parece extremamente enganosa e já me desanima
- CEO sempre fica nesse joguinho de palavras esperto
PostHog era um sistema que você configurava uma vez, dava uma olhada de vez em quando e tirava algum valor, e no geral era inofensivo se deixado lá
Agora virou mais uma ferramenta daquelas que precisam ser ativamente tratadas com desconfiança, e se o padrão continuar indo numa direção insuportável, é mais fácil tirar do sistema e seguir em frente
- O PostHog era uma ótima solução de analytics por causa da abordagem voltada para desenvolvedores, boas ferramentas e preço razoável
  Já perdi a conta de quantas vezes vi esse padrão de empresas bem-sucedidas mudando à medida que crescem nos últimos 20 anos. No meio da febre de IA, o PostHog também mergulhou de cabeça, e parece estar explorando até coisas como ferramentas no-code
  O Supabase também era incrível, mas agora parece ter entrado no abismo da IA. Talvez a única coisa que não muda seja eu mesmo, e talvez o problema seja eu, e eu devesse aceitar os novos senhores da IA e levar tudo para IA
A maioria das empresas teria escondido essa mudança numa atualização chata dos termos, mas nós valorizamos a transparência, então vamos publicar o que você precisa saber numa lista numerada amigável para a internet
Usuários de instâncias em nuvem da UE ficam excluídos por padrão, e usuários com contratos que bloqueiam treinamento também ficam excluídos
Fora isso, usuários de instâncias em nuvem dos EUA ficam incluídos por padrão
Dizem que todos os dados serão anonimizados antes do treinamento, que só usarão dados já existentes na instância do PostHog, e que o treinamento do modelo será feito internamente, sem vender ou enviar dados a provedores terceiros de modelos
Também dizem que é possível sair a qualquer momento nas configurações da organização, que isso exige privilégio de administrador e que o treinamento não começará até 29 de junho, então há tempo de sobra para decidir
- “Fora isso, usuários de instâncias em nuvem dos EUA ficam incluídos por padrão”, que beleza. Quer dizer que a empresa é quem decide com o que o usuário “consentiu”, sem precisar de nenhuma ação do usuário
  Então eu também vou colocar seu tempo deste fim de semana como “voluntariado” para reconstruir meu terraço. Não precisa se preocupar, eu já registrei o voluntariado por você
- Se o modelo de negócio é “vamos incluir todo mundo porque sabemos que não teremos dados suficientes se os usuários precisarem consentir de verdade”, talvez seja hora de repensar
- Não existe opt-in por padrão. Esse tipo de decisão que torra a boa vontade do cliente é coisa de empresa com participação de mercado muito maior e da qual é muito mais difícil sair
  Teria sido melhor oferecer desconto para quem aceitasse participar
- A defesa de “nós valorizamos a transparência” soa bem ruim. É bom avisar com transparência, mas eu não quero que meu sistema de analytics escreva código
  Já existem concorrentes muito melhores nisso, e eu preferiria conectar uma dessas opções ao analytics do PostHog
- O que importa é qual é o padrão de anonimização que eles querem dizer em “todos os dados serão anonimizados antes do treinamento”. Se for o padrão do GDPR, a barra é muito alta
  Também é preciso verificar se “fora isso, usuários de instâncias em nuvem dos EUA ficam incluídos por padrão” inclui usuários finais da UE. Como os dados pessoais foram obtidos diretamente dos titulares, aplica-se a obrigação de informação do Artigo 13 do GDPR
  Uma omissão no Artigo 13 não pode ser corrigida retroativamente depois. É preciso conseguir demonstrar que todos os clientes fizeram uma notificação do Artigo 13 suficientemente ampla para abranger esse tratamento. E quase certamente isso também cairia no escopo de 3(2)(b)
Um ótimo lembrete de que eu deveria criar minha própria ferramenta de analytics e fazer self-hosting. O PostHog perdeu um cliente
Teria sido fácil mandar um e-mail para cada cliente perguntando se queria participar; fazer esse tipo de suposição mostra falta de noção de produto tanto sobre os próprios clientes quanto sobre os clientes deles. Tchau
- Não é para ironizar, mas qual é o motivo para não simplesmente fazer opt-out, em vez de “codar no feeling” sua própria plataforma de analytics?
  Eu fico desconfortável com meus dados sendo usados para treinar IA, mas no centro da preocupação estão para onde os dados vão e se eu fui notificado e estou ciente disso. O PostHog até dá respostas razoáveis para essas perguntas aqui
Eu já estava hesitando em migrar há alguns meses, e os novos produtos de IA e a interface estranha já vinham me incomodando. Isso é o último prego no caixão
Acho opt-in um modelo de negócio horrível
- Concordo. Não me incomoda a ponto de arrancar de um produto existente, mas com certeza nunca vou adicionar isso a um produto novo
  Lembro quando o pessoal estava celebrando o redesign “OS” do site. Foi a complicação de UX mais confusa e desnecessária quando eu só queria achar o session replay para depurar. Depois até adicionaram a navegação no canto superior direito
“opt-in por padrão” no fim não é opt-out?
- opt significa escolher ou selecionar uma alternativa. Eles são incompetentes ou estão mentindo de propósito
Isso está ficando bem claro agora, mas acho que há algo a dizer sobre empresas com essa vibe de excentricidade estilo SF
Coisas como redesign OS, “documentos jurídicos sexy”, e-mails com títulos estranhos e loja de brindes vendendo action figures do CEO
Isso pode ser uma vantagem quando ajuda a aumentar a adoção com movimentos amigáveis ao usuário. Mas quando a empresa toma decisões contra o usuário em busca de crescimento de receita, vira insulto em cima de insulto
Não quero fazer um discurso amplo dizendo que tecnologia não pode ser divertida, mas quando a mensagem não combina com as decisões da liderança, isso vira um grande problema
- No começo era bom. Era uma ferramenta de analytics orientada a desenvolvedores e parecia renovadora em comparação com os concorrentes
  Mas parece que até as coisas boas acabam, especialmente quando são empresas. Nos últimos 2 anos foi para uma direção completamente estranha, e a IA deixou tudo pior
  Acho que vou voltar a vasculhar projetos open source
A lógica é: “por que opt-out em vez de opt-in? Em resumo, porque, se não for assim, não teremos dados suficientes para treinar um modelo realmente útil”
Se as pessoas não querem consentir diretamente em entregar dados para mais um desserviço de IA, isso quer dizer que elas não querem, o que é uma coisa bem curiosa
Se a única forma de conseguir os dados é “assumir que podemos pegar e fazer as pessoas pedirem para parar”, fico pensando no que isso significa. Deve ser um mistério que ninguém consegue resolver
Isso deveria servir de lição de má comunicação. Foi um grande erro não deixar claro o que exatamente será treinado
Esse anúncio expõe muito bem os pontos fracos da filosofia de marca exageradamente espalhafatosa do PostHog
A cada dia fico mais grato pela legislação da UE. Neste momento, é só isso que tenho a dizer
- Essa legislação é defensável em termos morais por si só. Mas, quando você olha o sistema como um todo, acontece algo interessante
  As leis da UE bloqueiam as táticas de extração de dados e aprisionamento em plataformas que as big techs já usaram para virar monopólios
  Mas as grandes plataformas não precisam reverter as vantagens que já obtiveram, nem pagar pelo que fizeram de formas que agora estão restritas e consideradas ilegais. Então elas podem continuar extraindo renda de uma posição já consolidada por mais tempo, enquanto todos os outros ficam sem poder usar a escada que elas usaram para subir
- Dá para se sentir assim até olhar para as taxas de crescimento econômico da Europa e dos EUA desde 2008

Treinando nossos próprios modelos de IA

Plano da PostHog para treinar seus próprios modelos de IA

Recursos que a empresa quer criar

Análise de session replay

Testes com usuários sintéticos

Previsão de comportamento do usuário

Como isso funcionará e princípios de uso de dados

Como será a aplicação por padrão

Tratamento de dados e limitações

Opt-out

Plano de comunicação

Por que opt-out em vez de opt-in

Leituras relacionadas

1 comentários

Comentários do Hacker News