Treinando nossos próprios modelos de IA
(posthog.com)- A PostHog está tentando treinar modelos com dados internos para criar produtos mais proativos e autônomos, após o AI installation wizard, o PostHog AI e o MCP
- O foco principal é o PostHog Code, sustentando a direção de um produto que encontra e executa respostas e soluções no lugar do usuário, melhorando com o tempo
- A empresa quer aprimorar a análise de session replay, testes com usuários sintéticos e previsão de comportamento do usuário para reduzir o custo de detecção de problemas e encontrar erros e pontos de confusão antes do deploy
- Os dados de treinamento serão anonimizados e apenas dados já existentes na instância do PostHog serão usados, sem serem vendidos ou enviados a fornecedores terceirizados de modelos
- A nuvem da UE e clientes com contratos que restringem treinamento ficam excluídos por padrão, enquanto a nuvem dos EUA fica incluída por padrão; os usuários podem optar por sair antes de 29 de junho
Plano da PostHog para treinar seus próprios modelos de IA
- No último ano, a PostHog adicionou recursos de IA ao produto, como o AI installation wizard, PostHog AI e MCP, e agora quer criar produtos ainda mais proativos e autônomos
- O próximo capítulo da PostHog aponta para produtos que encontram e executam respostas e soluções no lugar do usuário e melhoram com o tempo
- O PostHog Code, atualmente em beta, é o produto central dessa direção, e para viabilizá-lo a empresa quer treinar modelos com dados internos da PostHog
Recursos que a empresa quer criar
- O objetivo é tornar os produtos atuais mais inteligentes e proativos e, com novos produtos como o PostHog Code, ajudar equipes a criar produtos melhores mais rapidamente
-
Análise de session replay
- O PostHog AI já consegue detectar problemas em replays, mas o custo é alto demais para escalar bem
- Para usar replays com força em grande escala, como já acontece ao diagnosticar problemas individuais de usuários, é necessário um modelo treinado nos dados subjacentes que compõem esses replays
-
Testes com usuários sintéticos
- Testes com usuários sintéticos são a ideia de usar conhecimento sobre o comportamento do usuário para encontrar pontos em que ele pode se confundir ou fluxos que podem quebrar antes de irem para produção
- À medida que os modelos de código melhoram, o volume de trabalho com testes e revisão cresce bastante, e a PostHog quer automatizar isso para que os usuários possam focar no próprio produto
-
Previsão de comportamento do usuário
- Se a previsão de comportamento do usuário melhorar, será possível sugerir mudanças que aumentem a conversão e reduzam a frustração mesmo em recursos já lançados
- Com mais automação, cai o tempo gasto em análise manual e também o consumo de tokens nesse processo
- Essas ideias ainda são experimentais, e será preciso iterar até descobrir como treinar os modelos de forma eficaz e quais dados realmente são úteis
- A PostHog usa como base para essa tentativa o fato de que já teve bons resultados quando a IA tornou o produto mais simples ou mais poderoso
Como isso funcionará e princípios de uso de dados
- O plano é focado em fortalecer recursos existentes e oferecer funções que melhorem o produto de forma mais proativa
- Enquanto muitas ferramentas se concentram em oferecer o melhor código, a PostHog quer se concentrar em fazer com que o próprio produto do usuário fique melhor
- Por isso, ela descreve o PostHog Code como um editor de produto
- A principal preocupação é usar dados presentes na PostHog para treinar modelos, e a empresa quer comunicar isso abertamente, em vez de esconder a mudança em uma atualização dos termos
-
Como será a aplicação por padrão
- Usuários de instâncias em nuvem da UE ficam excluídos por padrão
- Usuários com contratos que impedem treinamento, como BAA, MSA ou acordos semelhantes, também ficam excluídos por padrão
- Os demais usuários de instâncias em nuvem dos EUA ficam incluídos por padrão
-
Tratamento de dados e limitações
- Antes de serem usados no treinamento, todos os dados serão anonimizados
- Só serão usados dados que já existam na instância PostHog do usuário
- O treinamento dos modelos será feito pela própria PostHog
- Os dados dos usuários não serão vendidos nem enviados a fornecedores terceirizados de modelos
-
Opt-out
- Os usuários podem optar por sair a qualquer momento nas configurações da organização no PostHog
- Alterar as configurações da organização exige permissões de administrador
- O treinamento não começará até 29 de junho, dando tempo para que os usuários decidam
Plano de comunicação
- A PostHog enviará um e-mail para todos os clientes deixando o objetivo claramente explícito
- Para usuários que não leem e-mails, também haverá um aviso no aplicativo para todos
- A empresa está seguindo um caminho de divulgação pública do plano
- O objetivo é melhorar os produtos da PostHog para os clientes, e não expor ou vender modelos treinados com dados dos usuários nem monetizar esses dados
Por que opt-out em vez de opt-in
- O motivo para escolher inclusão por padrão com opt-out, em vez de opt-in por padrão, é que do contrário não haveria dados suficientes para treinar modelos realmente úteis
- Quem optar por sair não poderá usar os novos recursos criados com esses modelos
- Usuários excluídos por padrão, como os de instâncias em nuvem da UE, podem fazer opt-in manualmente se isso não for impedido por seu contrato legal com a PostHog
- A PostHog escolheu divulgar isso com antecedência, em vez de lançar discretamente
- A PostHog também está contratando pesquisadores de IA para esse trabalho
1 comentários
Comentários do Hacker News
“opt-in por padrão” é uma contradição. Se é o padrão, então eu não consenti; só veio ativado por padrão
Se é opt-out, você está incluído por padrão e pode sair se quiser, mas hoje em dia estão usando os termos ao contrário, então agora é preciso acrescentar explicação
Já vi até um post de telemetria com opt-in de verdade ser atacado por comentários no topo que entenderam como “incluído por padrão”. Parece que essa palavra agora quase ganhou o sentido oposto
PostHog era um sistema que você configurava uma vez, dava uma olhada de vez em quando e tirava algum valor, e no geral era inofensivo se deixado lá
Agora virou mais uma ferramenta daquelas que precisam ser ativamente tratadas com desconfiança, e se o padrão continuar indo numa direção insuportável, é mais fácil tirar do sistema e seguir em frente
Já perdi a conta de quantas vezes vi esse padrão de empresas bem-sucedidas mudando à medida que crescem nos últimos 20 anos. No meio da febre de IA, o PostHog também mergulhou de cabeça, e parece estar explorando até coisas como ferramentas no-code
O Supabase também era incrível, mas agora parece ter entrado no abismo da IA. Talvez a única coisa que não muda seja eu mesmo, e talvez o problema seja eu, e eu devesse aceitar os novos senhores da IA e levar tudo para IA
A maioria das empresas teria escondido essa mudança numa atualização chata dos termos, mas nós valorizamos a transparência, então vamos publicar o que você precisa saber numa lista numerada amigável para a internet
Usuários de instâncias em nuvem da UE ficam excluídos por padrão, e usuários com contratos que bloqueiam treinamento também ficam excluídos
Fora isso, usuários de instâncias em nuvem dos EUA ficam incluídos por padrão
Dizem que todos os dados serão anonimizados antes do treinamento, que só usarão dados já existentes na instância do PostHog, e que o treinamento do modelo será feito internamente, sem vender ou enviar dados a provedores terceiros de modelos
Também dizem que é possível sair a qualquer momento nas configurações da organização, que isso exige privilégio de administrador e que o treinamento não começará até 29 de junho, então há tempo de sobra para decidir
Então eu também vou colocar seu tempo deste fim de semana como “voluntariado” para reconstruir meu terraço. Não precisa se preocupar, eu já registrei o voluntariado por você
Teria sido melhor oferecer desconto para quem aceitasse participar
Já existem concorrentes muito melhores nisso, e eu preferiria conectar uma dessas opções ao analytics do PostHog
Também é preciso verificar se “fora isso, usuários de instâncias em nuvem dos EUA ficam incluídos por padrão” inclui usuários finais da UE. Como os dados pessoais foram obtidos diretamente dos titulares, aplica-se a obrigação de informação do Artigo 13 do GDPR
Uma omissão no Artigo 13 não pode ser corrigida retroativamente depois. É preciso conseguir demonstrar que todos os clientes fizeram uma notificação do Artigo 13 suficientemente ampla para abranger esse tratamento. E quase certamente isso também cairia no escopo de 3(2)(b)
Um ótimo lembrete de que eu deveria criar minha própria ferramenta de analytics e fazer self-hosting. O PostHog perdeu um cliente
Teria sido fácil mandar um e-mail para cada cliente perguntando se queria participar; fazer esse tipo de suposição mostra falta de noção de produto tanto sobre os próprios clientes quanto sobre os clientes deles. Tchau
Eu fico desconfortável com meus dados sendo usados para treinar IA, mas no centro da preocupação estão para onde os dados vão e se eu fui notificado e estou ciente disso. O PostHog até dá respostas razoáveis para essas perguntas aqui
Eu já estava hesitando em migrar há alguns meses, e os novos produtos de IA e a interface estranha já vinham me incomodando. Isso é o último prego no caixão
Acho opt-in um modelo de negócio horrível
Lembro quando o pessoal estava celebrando o redesign “OS” do site. Foi a complicação de UX mais confusa e desnecessária quando eu só queria achar o session replay para depurar. Depois até adicionaram a navegação no canto superior direito
“opt-in por padrão” no fim não é opt-out?
Isso está ficando bem claro agora, mas acho que há algo a dizer sobre empresas com essa vibe de excentricidade estilo SF
Coisas como redesign OS, “documentos jurídicos sexy”, e-mails com títulos estranhos e loja de brindes vendendo action figures do CEO
Isso pode ser uma vantagem quando ajuda a aumentar a adoção com movimentos amigáveis ao usuário. Mas quando a empresa toma decisões contra o usuário em busca de crescimento de receita, vira insulto em cima de insulto
Não quero fazer um discurso amplo dizendo que tecnologia não pode ser divertida, mas quando a mensagem não combina com as decisões da liderança, isso vira um grande problema
Mas parece que até as coisas boas acabam, especialmente quando são empresas. Nos últimos 2 anos foi para uma direção completamente estranha, e a IA deixou tudo pior
Acho que vou voltar a vasculhar projetos open source
A lógica é: “por que opt-out em vez de opt-in? Em resumo, porque, se não for assim, não teremos dados suficientes para treinar um modelo realmente útil”
Se as pessoas não querem consentir diretamente em entregar dados para mais um desserviço de IA, isso quer dizer que elas não querem, o que é uma coisa bem curiosa
Se a única forma de conseguir os dados é “assumir que podemos pegar e fazer as pessoas pedirem para parar”, fico pensando no que isso significa. Deve ser um mistério que ninguém consegue resolver
Isso deveria servir de lição de má comunicação. Foi um grande erro não deixar claro o que exatamente será treinado
Esse anúncio expõe muito bem os pontos fracos da filosofia de marca exageradamente espalhafatosa do PostHog
A cada dia fico mais grato pela legislação da UE. Neste momento, é só isso que tenho a dizer
As leis da UE bloqueiam as táticas de extração de dados e aprisionamento em plataformas que as big techs já usaram para virar monopólios
Mas as grandes plataformas não precisam reverter as vantagens que já obtiveram, nem pagar pelo que fizeram de formas que agora estão restritas e consideradas ilegais. Então elas podem continuar extraindo renda de uma posição já consolidada por mais tempo, enquanto todos os outros ficam sem poder usar a escada que elas usaram para subir