Atlassian muda o padrão para usar dados de clientes no treinamento de IA

(letsdatascience.com)

5 pontos por GN⁺ 9 일 전 | 1 comentários | Compartilhar no WhatsApp

Metadados de clientes e conteúdo dentro dos apps de produtos Atlassian Cloud, como Jira e Confluence, passarão a ser usados por padrão no treinamento do Rovo e do Rovo Dev a partir de 17 de agosto de 2026
O padrão varia conforme o plano: em Free, Standard e Premium, a contribuição de metadados permanece sempre ativada, e apenas o Enterprise mantém metadados e dados dentro dos apps desativados por padrão e com controle total
Os dados coletados incluem metadados como pontuação de legibilidade, story points e valores de SLA, além de dados dentro dos apps como corpo de páginas, descrições de issues, comentários e nomes de workflows
Medidas de proteção como remoção de identificadores diretos e agregação serão aplicadas, mas os dados contribuídos poderão ser mantidos por até 7 anos; após exclusão ou opt-out, os dados dentro dos apps serão removidos em até 30 dias, e os modelos treinados serão retreinados em até 90 dias
A mudança representa uma virada de política em relação à postura anterior de não uso, alterando a origem dos dados em ferramentas de trabalho e o nível de controle por faixa de preço, com impacto maior sobre decisões de privacidade, governança e compliance

Visão geral da mudança

A Atlassian planeja usar por padrão, a partir de 17 de agosto de 2026, metadados de clientes e conteúdo dentro dos apps de Jira, Confluence e outros produtos Atlassian Cloud no treinamento de IA
- As funcionalidades de IA afetadas são explicitamente Rovo e Rovo Dev
- O alcance estimado é de cerca de 300 mil clientes
Com a mudança na política de contribuição de dados, os padrões passarão a variar conforme o plano
- Nos planos inferiores, não haverá opt-out da coleta de metadados
- O plano Enterprise mantém controle sobre a coleta de metadados e de dados dentro dos apps
O período de retenção dos dados contribuídos será de até 7 anos
- Após exclusão ou opt-out, os dados dentro dos apps serão removidos em até 30 dias
- Modelos treinados com esses dados serão retreinados em até 90 dias para remover a contribuição

Detalhes técnicos

A Atlassian divide os dados coletados em duas categorias: metadados e dados dentro dos apps
- Metadados incluem sinais anonimizados
- Dados dentro dos apps incluem conteúdo gerado pelo usuário
Itens detalhados na categoria de metadados
- Pontuações de legibilidade e complexidade
- Classificação de tarefas
- Métricas de similaridade semântica
- Story points
- Data de término de sprint
- Valores de SLA do Jira Service Management
Itens detalhados na categoria de dados dentro dos apps
- Títulos e corpo de páginas no Confluence
- Títulos, descrições e comentários de issues no Jira
- Nomes de emojis personalizados
- Nomes de status personalizados
- Nomes de workflows
Foi informado que, antes do treinamento, serão aplicados remoção de identificadores diretos, agregação de dados e outras medidas de proteção

Configurações padrão por plano e exclusões

A configuração padrão será determinada com base no plano ativo mais alto da organização
Clientes Free e Standard
- Contribuição de metadados sempre ativada
  - Não haverá opt-out da coleta de metadados
  - A contribuição de dados dentro dos apps ficará ativada por padrão, mas poderá ser alterada nas configurações
  - Clientes Premium
  - Contribuição de metadados sempre ativada
  - A contribuição de dados dentro dos apps ficará desativada por padrão
  - Clientes Enterprise
  - Metadados e dados dentro dos apps ficam desativados por padrão
  - Será possível fazer opt-out dos metadados
  - Foram especificados os grupos de clientes excluídos de toda a coleta
  - Clientes que usam customer-managed encryption keys
  - Clientes do Atlassian Government Cloud
  - Clientes do Atlassian Isolated Cloud
  - Clientes com obrigações HIPAA

Contexto e importância

A política marca uma mudança na direção oposta da posição anterior
- Antes, a empresa afirmava que não usava dados de clientes para treinar ou melhorar serviços de IA
Fluxo do setor apresentado como pano de fundo para a mudança
- Fornecedores de SaaS vêm coletando sinais de uso interno e conteúdo para bootstrap de modelos, fine-tuning e avaliação
- Ao mesmo tempo, mantêm promessas de análise com base em anonimização e agregação
Benefícios práticos citados pela Atlassian
- Melhoria na relevância de busca
- Resumos melhores
- Sugestões de templates
- Otimização de workflows com agentes
Impacto para profissionais em operação
- Mudança na origem dos dados dos modelos usados em ferramentas de trabalho
- Mudança no nível de controle de dados por faixa de preço e nos critérios de compliance e compras

Riscos e trade-offs

A coleta obrigatória de metadados para clientes não Enterprise gera preocupações de privacidade e governança, independentemente da remoção de identificadores
- Telemetria como story points e métricas de SLA pode revelar a estrutura de projetos e padrões de desempenho
A retenção por 7 anos de dados anonimizados amplia a superfície de exposição ao longo do tempo
- Isso pode gerar carga adicional para clientes que exigem auditoria de retenção de dados de longo prazo
Existe um caminho de exclusão para clientes de alta segurança e para usuários de customer-managed keys
- Mas isso pode exigir migração para planos mais caros ou formatos especiais de implantação

Pontos de atenção

As organizações precisam revisar seus tenants Atlassian
- É necessário verificar qual é o plano ativo mais alto em cada tenant
- É necessário identificar a configuração padrão de contribuição de dados
Será preciso atualizar as configurações administrativas durante o período de rollout
Se for necessário opt-out completo, vale considerar migração para Enterprise ou para uma implantação isolada
Pontos a observar no produto
- É preciso verificar como a Atlassian realmente operará o processo de retreinamento em 90 dias
- É preciso confirmar se os fornecedores downstream de LLM usados no Rovo afirmam não reter os inputs
Se esse padrão se espalhar pelo SaaS corporativo, há possibilidade de reação negativa de clientes e maior escrutínio regulatório

Base da avaliação

A mudança tem impacto prático para milhares de usuários corporativos e para profissionais responsáveis por governança de dados e controle da origem dos modelos
Não se trata de um modelo de ponta nem de um marco regulatório
É avaliada como uma mudança de política de produto que altera de forma concreta os pipelines de dados das equipes e suas opções de compliance

1 comentários

GN⁺ 9 일 전

Comentários do Hacker News

Tenho a sensação de que a Atlassian só vem acumulando erro atrás de erro. Ainda uso os produtos com frequência, mas a incidência de bugs de nível P0 é alta demais. Os self-hosted Bitbucket workers, especialmente no lado do Docker, estão tão defasados que precisei encher de remendos improvisados. No JIRA, há anos ainda é preciso atualizar a página para reordenar tickets novos. Os recursos novos adicionados ao JIRA e ao Bitbucket nos últimos anos também não funcionaram direito. Também testei os recursos de IA no trial gratuito, mas não funcionaram de jeito nenhum, e o cancelamento não podia ser feito online, então tive que abrir vários tickets de suporte — e, no meio disso, o formulário de contato do suporte também quebrou várias vezes. Fico me perguntando por que as falhas de funcionalidade ficaram tão graves assim: dívida técnica, perda de talentos, ou os dois. Se olhar a comunidade, há centenas ou milhares de bugs com gambiarras como solução
- Para mim, impedir o cancelamento do trial gratuito online só se explica como enganação ao cliente. Isso parece algo muito fácil de barrar por lei, mas dá a impressão de que o governo não liga. A Atlassian parece uma grande corporação típica que vende mais para o chefe do usuário do que para o usuário em si. Quando passa de certo tamanho e a pressão por competir em qualidade enfraquece, sinto que a corrupção interna e a incompetência se espalham facilmente
- Como alguém que trabalhou lá, eu diria que a resposta é uma combinação de falta de capacidade de engenharia, prioridades dispersas e reorganizações sem sentido. Bitbucket pipelines e workers na prática foram criados inicialmente por duas pessoas, e é bem provável que, nos últimos 10 anos, só uma pessoa mais ou menos tenha feito manutenção ativa. Se houve demissões recentes, deve ter piorado ainda mais. O escritório em si nem existe mais fisicamente, e todas as pessoas daquela época já saíram
- Eu resumiria a causa em uma palavra: Featureitis. É aquele modelo de enfiar funcionalidades sem pensar. Hoje em dia, ainda parece possível que tenha código gerado por IA por cima disso. Mesmo em projetos de médio porte, se você só empurrar funcionalidades novas, acaba num estado parecido, e alguns projetos que vivi seguiram o mesmo caminho porque, em meio a um backlog gigantesco, o que importava era só marcar feature como entregue
- Sempre achei a busca do Jira num nível de inutilidade constante. Talvez seja a pior parte de toda a plataforma, então é desanimador ver que eles continuam focando em adicionar recursos que eu nunca vou usar
- Hoje em dia sinto que o Jira está instável demais por causa de sincronização quebrada. No sprint board, o modal do ticket fechava sozinho e eu precisava reabri-lo o tempo todo; e, há pouco tempo, um ticket simplesmente não aparecia naquele board de jeito nenhum, até que depois surgiu um épico do nada e, em seguida, os tickets individuais também reapareceram. Fico pensando se esse tal de vibe coding trouxe ao mundo algo melhor do que isso
Eu gostaria de ter uma fonte melhor, mas o ponto central é que clientes gratuitos e pagos estão atualmente em opt-in por padrão para fornecer dados para treinamento de IA. Isso cobre todo o conteúdo, como páginas do Confluence e tickets do Jira. A documentação de suporte da Atlassian explica como desligar isso, mas nas nossas instâncias essa configuração simplesmente não aparece
- Pelo aviso que recebi por e-mail, entendi que a configuração de opt-out começará a ser liberada gradualmente no Admin portal a partir de maio. Ela será aplicada primeiro a Jira, Confluence, Jira Service Management e aos apps da Atlassian Platform, e deve aparecer de forma gradual no Atlassian Administration até 19 de maio de 2026, com novo aviso antes de 17 de agosto de 2026
- Revirei várias páginas de configuração, incluindo Atlassian Administration > Security, mas não encontrei nenhum item Data contribution. Se for assim, a pergunta é se neste momento está tudo em opt-in automático sem existir, na prática, uma forma de opt-out
- Fiquei chocado com o escopo descrito no FAQ. Como conteúdo gerado pelo usuário, eles incluem título e corpo do Confluence, título e descrição de issues do Jira, comentários, nomes de emojis personalizados, nomes de status personalizados e até nomes de workflows. O alcance é amplo demais
- Fico preocupado se até informações sensíveis — como dados de clientes, tickets privados, correções de CVE sob embargo e informações médicas sensíveis — podem estar sendo misturadas no treinamento do modelo e depois acabar vazando para pessoas aleatórias
- Acho que a referência mais direta para a explicação oficial da mudança é o FAQ da Atlassian
Vi um boato de que a Anthropic estaria discutindo adquirir a Atlassian, provavelmente por causa dos dados de treinamento. Também já há um post no Reddit falando que já existe movimentação de data poisoning
- Se isso for verdade, eu sei de pelo menos duas empresas que não poderão mais usar produtos da Atlassian. Isso soa como um sinal de que eles tratam privacidade e exigências regulatórias com leveza demais
- Antes, parecia que o código-fonte em lugares como o GitHub era raspado para a IA gerar código; agora parece que estamos entrando numa fase em que documentos de especificação em lugares como a Atlassian são raspados para a IA gerar isso de volta. Aí fico imaginando, com amargura, qual será a próxima fonte: até frases de missão da empresa ou slogans para ganhar dinheiro?
- Se a ação continuar caindo, acho que uma aquisição dessas pode realmente acontecer
Tenho a impressão de que, em enterprise SaaS, o padrão de coleta por padrão em vez de opt-out está se normalizando cada vez mais. Mas aqui isso é especialmente grave porque o escopo vai além de metadados e alcança todo o conteúdo dentro do app, e ainda por cima a configuração de opt-out nem renderiza. Dá para debater a decisão de política em si, mas, com essas duas coisas juntas, parece atrito intencional. Também vale separar data residency dessa discussão: muitos compradores tratam residência regional como garantia ampla de privacidade, mas na prática isso só indica onde os dados ficam armazenados, não quem pode acessá-los e para qual finalidade
- Em especial, achei mais canalha ainda a frase citada na matéria do The Register de que, mesmo que você rescinda o contrato agora, a nova configuração de data contribution só valerá em 17 de agosto de 2026. Ou seja, a estrutura nem sequer dá tempo real para avaliar alternativas
Vejo muitas outras empresas, como GitHub, Figma, Adobe e Vercel, ativando isso por padrão também. Então parece mais realista presumir que, se você confiar seus dados a qualquer empresa, ela pode usá-los para treinamento de modelo por padrão
- Talvez este seja o ano do self-hosted. Coisas públicas como um blog aberto, onde privacidade não importa tanto, eu ainda deixo na nuvem; mas dados que eu não quero ver usados em treinamento de modelo ou venda de anúncios eu migrei para hospedagem direta na minha própria rede
Se o rumor da aquisição pela Anthropic for real, acho que a Atlassian pareceria uma oportunidade de comprar, de uma vez, um dataset de alto sinal em torno do trabalho de negócios
- Às vezes imagino, em tom de sarcasmo, que talvez fosse melhor a Broadcom comprar a Atlassian e fazer com ela o que fez com a VMware, porque aí o problema seria resolvido para sempre
- Não acho que os dados dentro da Atlassian sejam um dataset limpo ou natural. Parece mais um espaço de design infernal em que o trabalho real dos desenvolvedores é engolido por todo tipo de ruído
- Se esses rumores ainda estão apenas no estágio de especulação em fóruns, não vou acreditar até aparecer uma fonte confiável. Também soa como história para inflar a ação e depois despejar
Fico curioso se a Atlassian também considera código e conteúdo de repositórios privados do Bitbucket como alvo de coleta. A política e o FAQ são vagos, então eu queria uma resposta clara de sim ou não
- Quando procurei isso alguns meses atrás, interpretei que eles não treinavam IA com código de repo privado, mas, depois deste anúncio, de qualquer forma pretendo migrar para meu próprio servidor. Armazenamento em nuvem é conveniente, mas viver preocupado que alguém venha e pegue meus dados como se fossem deles não parece um preço que valha a pena pagar
- Se a redação é vaga, então na prática a resposta já foi dada
Antes se dizia que, se você não paga, você é o produto; agora, as empresas pagam e ainda assim elas mesmas viram o produto, o que torna tudo ainda mais absurdo
Quero destacar especialmente que a opção de data residency da Atlassian não impede esse problema. Mesmo com os dados presos a uma região específica, ainda é possível usá-los para treinamento
Por isso, sinto que fica mais claro por que a Atlassian queria reduzir o suporte ao Data Center on-prem

Atlassian muda o padrão para usar dados de clientes no treinamento de IA

Visão geral da mudança

Detalhes técnicos

Configurações padrão por plano e exclusões

Contribuição de metadados sempre ativada

Contexto e importância

Riscos e trade-offs

Pontos de atenção

Base da avaliação

Leituras relacionadas

1 comentários

Comentários do Hacker News