Atlassian muda o padrão para usar dados de clientes no treinamento de IA
(letsdatascience.com)- Metadados de clientes e conteúdo dentro dos apps de produtos Atlassian Cloud, como Jira e Confluence, passarão a ser usados por padrão no treinamento do Rovo e do Rovo Dev a partir de 17 de agosto de 2026
- O padrão varia conforme o plano: em Free, Standard e Premium, a contribuição de metadados permanece sempre ativada, e apenas o Enterprise mantém metadados e dados dentro dos apps desativados por padrão e com controle total
- Os dados coletados incluem metadados como pontuação de legibilidade, story points e valores de SLA, além de dados dentro dos apps como corpo de páginas, descrições de issues, comentários e nomes de workflows
- Medidas de proteção como remoção de identificadores diretos e agregação serão aplicadas, mas os dados contribuídos poderão ser mantidos por até 7 anos; após exclusão ou opt-out, os dados dentro dos apps serão removidos em até 30 dias, e os modelos treinados serão retreinados em até 90 dias
- A mudança representa uma virada de política em relação à postura anterior de não uso, alterando a origem dos dados em ferramentas de trabalho e o nível de controle por faixa de preço, com impacto maior sobre decisões de privacidade, governança e compliance
Visão geral da mudança
- A Atlassian planeja usar por padrão, a partir de 17 de agosto de 2026, metadados de clientes e conteúdo dentro dos apps de Jira, Confluence e outros produtos Atlassian Cloud no treinamento de IA
- As funcionalidades de IA afetadas são explicitamente Rovo e Rovo Dev
- O alcance estimado é de cerca de 300 mil clientes
- Com a mudança na política de contribuição de dados, os padrões passarão a variar conforme o plano
- Nos planos inferiores, não haverá opt-out da coleta de metadados
- O plano Enterprise mantém controle sobre a coleta de metadados e de dados dentro dos apps
- O período de retenção dos dados contribuídos será de até 7 anos
- Após exclusão ou opt-out, os dados dentro dos apps serão removidos em até 30 dias
- Modelos treinados com esses dados serão retreinados em até 90 dias para remover a contribuição
Detalhes técnicos
- A Atlassian divide os dados coletados em duas categorias: metadados e dados dentro dos apps
- Metadados incluem sinais anonimizados
- Dados dentro dos apps incluem conteúdo gerado pelo usuário
- Itens detalhados na categoria de metadados
- Pontuações de legibilidade e complexidade
- Classificação de tarefas
- Métricas de similaridade semântica
- Story points
- Data de término de sprint
- Valores de SLA do Jira Service Management
- Itens detalhados na categoria de dados dentro dos apps
- Títulos e corpo de páginas no Confluence
- Títulos, descrições e comentários de issues no Jira
- Nomes de emojis personalizados
- Nomes de status personalizados
- Nomes de workflows
- Foi informado que, antes do treinamento, serão aplicados remoção de identificadores diretos, agregação de dados e outras medidas de proteção
Configurações padrão por plano e exclusões
- A configuração padrão será determinada com base no plano ativo mais alto da organização
- Clientes Free e Standard
-
Contribuição de metadados sempre ativada
- Não haverá opt-out da coleta de metadados
- A contribuição de dados dentro dos apps ficará ativada por padrão, mas poderá ser alterada nas configurações
- Clientes Premium
- Contribuição de metadados sempre ativada
- A contribuição de dados dentro dos apps ficará desativada por padrão
- Clientes Enterprise
- Metadados e dados dentro dos apps ficam desativados por padrão
- Será possível fazer opt-out dos metadados
- Foram especificados os grupos de clientes excluídos de toda a coleta
- Clientes que usam customer-managed encryption keys
- Clientes do Atlassian Government Cloud
- Clientes do Atlassian Isolated Cloud
- Clientes com obrigações HIPAA
-
Contexto e importância
- A política marca uma mudança na direção oposta da posição anterior
- Antes, a empresa afirmava que não usava dados de clientes para treinar ou melhorar serviços de IA
- Fluxo do setor apresentado como pano de fundo para a mudança
- Fornecedores de SaaS vêm coletando sinais de uso interno e conteúdo para bootstrap de modelos, fine-tuning e avaliação
- Ao mesmo tempo, mantêm promessas de análise com base em anonimização e agregação
- Benefícios práticos citados pela Atlassian
- Melhoria na relevância de busca
- Resumos melhores
- Sugestões de templates
- Otimização de workflows com agentes
- Impacto para profissionais em operação
- Mudança na origem dos dados dos modelos usados em ferramentas de trabalho
- Mudança no nível de controle de dados por faixa de preço e nos critérios de compliance e compras
Riscos e trade-offs
- A coleta obrigatória de metadados para clientes não Enterprise gera preocupações de privacidade e governança, independentemente da remoção de identificadores
- Telemetria como story points e métricas de SLA pode revelar a estrutura de projetos e padrões de desempenho
- A retenção por 7 anos de dados anonimizados amplia a superfície de exposição ao longo do tempo
- Isso pode gerar carga adicional para clientes que exigem auditoria de retenção de dados de longo prazo
- Existe um caminho de exclusão para clientes de alta segurança e para usuários de customer-managed keys
- Mas isso pode exigir migração para planos mais caros ou formatos especiais de implantação
Pontos de atenção
- As organizações precisam revisar seus tenants Atlassian
- É necessário verificar qual é o plano ativo mais alto em cada tenant
- É necessário identificar a configuração padrão de contribuição de dados
- Será preciso atualizar as configurações administrativas durante o período de rollout
- Se for necessário opt-out completo, vale considerar migração para Enterprise ou para uma implantação isolada
- Pontos a observar no produto
- É preciso verificar como a Atlassian realmente operará o processo de retreinamento em 90 dias
- É preciso confirmar se os fornecedores downstream de LLM usados no Rovo afirmam não reter os inputs
- Se esse padrão se espalhar pelo SaaS corporativo, há possibilidade de reação negativa de clientes e maior escrutínio regulatório
Base da avaliação
- A mudança tem impacto prático para milhares de usuários corporativos e para profissionais responsáveis por governança de dados e controle da origem dos modelos
- Não se trata de um modelo de ponta nem de um marco regulatório
- É avaliada como uma mudança de política de produto que altera de forma concreta os pipelines de dados das equipes e suas opções de compliance
1 comentários
Comentários do Hacker News
Tenho a sensação de que a Atlassian só vem acumulando erro atrás de erro. Ainda uso os produtos com frequência, mas a incidência de bugs de nível P0 é alta demais. Os self-hosted Bitbucket workers, especialmente no lado do Docker, estão tão defasados que precisei encher de remendos improvisados. No JIRA, há anos ainda é preciso atualizar a página para reordenar tickets novos. Os recursos novos adicionados ao JIRA e ao Bitbucket nos últimos anos também não funcionaram direito. Também testei os recursos de IA no trial gratuito, mas não funcionaram de jeito nenhum, e o cancelamento não podia ser feito online, então tive que abrir vários tickets de suporte — e, no meio disso, o formulário de contato do suporte também quebrou várias vezes. Fico me perguntando por que as falhas de funcionalidade ficaram tão graves assim: dívida técnica, perda de talentos, ou os dois. Se olhar a comunidade, há centenas ou milhares de bugs com gambiarras como solução
Eu gostaria de ter uma fonte melhor, mas o ponto central é que clientes gratuitos e pagos estão atualmente em opt-in por padrão para fornecer dados para treinamento de IA. Isso cobre todo o conteúdo, como páginas do Confluence e tickets do Jira. A documentação de suporte da Atlassian explica como desligar isso, mas nas nossas instâncias essa configuração simplesmente não aparece
Vi um boato de que a Anthropic estaria discutindo adquirir a Atlassian, provavelmente por causa dos dados de treinamento. Também já há um post no Reddit falando que já existe movimentação de data poisoning
Tenho a impressão de que, em enterprise SaaS, o padrão de coleta por padrão em vez de opt-out está se normalizando cada vez mais. Mas aqui isso é especialmente grave porque o escopo vai além de metadados e alcança todo o conteúdo dentro do app, e ainda por cima a configuração de opt-out nem renderiza. Dá para debater a decisão de política em si, mas, com essas duas coisas juntas, parece atrito intencional. Também vale separar data residency dessa discussão: muitos compradores tratam residência regional como garantia ampla de privacidade, mas na prática isso só indica onde os dados ficam armazenados, não quem pode acessá-los e para qual finalidade
Vejo muitas outras empresas, como GitHub, Figma, Adobe e Vercel, ativando isso por padrão também. Então parece mais realista presumir que, se você confiar seus dados a qualquer empresa, ela pode usá-los para treinamento de modelo por padrão
Se o rumor da aquisição pela Anthropic for real, acho que a Atlassian pareceria uma oportunidade de comprar, de uma vez, um dataset de alto sinal em torno do trabalho de negócios
Fico curioso se a Atlassian também considera código e conteúdo de repositórios privados do Bitbucket como alvo de coleta. A política e o FAQ são vagos, então eu queria uma resposta clara de sim ou não
Antes se dizia que, se você não paga, você é o produto; agora, as empresas pagam e ainda assim elas mesmas viram o produto, o que torna tudo ainda mais absurdo
Quero destacar especialmente que a opção de data residency da Atlassian não impede esse problema. Mesmo com os dados presos a uma região específica, ainda é possível usá-los para treinamento
Por isso, sinto que fica mais claro por que a Atlassian queria reduzir o suporte ao Data Center on-prem