6 pontos por GN⁺ 2026-03-28 | 3 comentários | Compartilhar no WhatsApp
  • O GitHub planeja usar código e dados de repositórios privados no treinamento de modelos de IA
  • Os usuários precisam recusar explicitamente (opt-out) antes de 24 de abril para impedir o uso dos dados
  • Se não houver recusa, informações de projetos privados poderão ser incluídas nos dados de treinamento
  • Essa política está relacionada à coleta de dados para melhorar recursos de IA, como o GitHub Copilot
  • Desenvolvedores precisam verificar as configurações para proteger a privacidade e a segurança do código

Mudança na política de dados de treinamento de IA do GitHub

  • O GitHub alterou sua política para permitir a inclusão de dados de repositórios privados no treinamento com o objetivo de melhorar modelos de IA
    • Se o usuário não recusar separadamente, os dados serão usados automaticamente
    • A recusa pode ser feita diretamente na página de configurações do GitHub
  • Os dados de treinamento podem incluir código privado, metadados de projetos e histórico de commits
  • A medida é explicada como uma forma de melhorar a qualidade do Copilot e de outros recursos de IA

Impacto para desenvolvedores

  • Se repositórios privados forem usados no treinamento, existe o risco de exposição de código sensível ou lógica interna
  • Empresas e desenvolvedores individuais precisam revisar políticas de segurança e realizar o procedimento de opt-out
  • Essa mudança do GitHub pode levar a discussões sobre transparência dos dados de treinamento de IA e controle do usuário

3 comentários

 
runableapp 2026-03-30

Isso vem aparecendo direto no GitHub desde alguns dias atrás,

Atualização importante
Em 24 de abril, começaremos a usar os dados de interação do GitHub Copilot para o treinamento de modelos de IA, a menos que você desative isso. Revise esta atualização e gerencie suas preferências nas configurações da sua conta do GitHub.

Eu desativei, mas fico com a impressão de que eles já vinham usando isso para IA há tempos.

 
github88 2026-03-29

Isso é uma fake news descaradamente absurda.

 
GN⁺ 2026-03-28
Comentários do Hacker News
  • Venho dizendo isso desde 2023. Se a informação armazenada em um banco de dados estiver em uma forma à qual a empresa possa acessar livremente, no fim essa empresa vai mudar os termos para poder usá-la como dados de treinamento de IA. O incentivo é forte demais, então acho inevitável

    • É isso mesmo. Mesmo uma empresa ética pode mudar de direção se for adquirida. Eu trabalho em uma empresa do S&P 500 e, por enquanto, o acesso à produção é rigidamente controlado. Mas se alguém como Larry, Zuck ou Bezos comprar a empresa, ninguém sabe o que pode acontecer
    • Parece que “fazer primeiro e pedir desculpas depois” vai virar o princípio geral. Mesmo sem mudar os ToS, na prática eles podem fazer isso. A Amazon já tem um gigantesco conjunto interno de dados de treinamento
    • Fico preocupado se a MS não estaria usando para treinamento de IA o código que escrevo no meu notebook. A desconfiança dos usuários de Linux, que antes soava como teoria da conspiração, está começando a fazer cada vez mais sentido para mim
    • Você está certo. É irritante que as pessoas não consigam ver isso como algo óbvio. Stallman sempre esteve certo
    • Se você não possui a chave diretamente, então isso não é criptografia de ponta a ponta. Temos que evitar esse tipo de bobagem
  • Alguém contestou com um “não é bem assim” e compartilhou o link do blog oficial do GitHub. Usuários Free, Pro e Pro+ Copilot terão seus dados de uso usados no treinamento do modelo se não fizerem opt-out. Assinantes Business ou Pro não entram no treinamento. Se você não usa Copilot, não é afetado. Se fizer opt-out agora, a configuração será mantida depois

    • Segundo o blog, os dados coletados incluem entrada, saída, contexto de código, comentários, estrutura de arquivos, feedback etc. Mas está configurado como “se não quiser participar”, e não “se quiser participar”. Ou seja, é uma estrutura em que você precisa recusar ativamente a participação, e isso me incomoda. É injusto que eu precise me dar ao trabalho para proteger minha privacidade
    • A formulação detalhada está fragmentada de forma vaga demais. Se o Copilot usa entrada, saída e contexto de código para treinamento, no fim isso significa que partes do código de repositórios privados estão sendo usadas como dados de treinamento
    • Tanto o título quanto a resposta são abrangentes demais. A partir de 24 de abril, repositórios privados de usuários que não são Business/Pro passam a entrar no treinamento por padrão. Não são todos os repositórios, mas a linguagem precisa ser cuidadosa. Em vez de “No we won’t”, teria sido mais apropriado dizer “não está totalmente correto”
    • Ainda assim isso continua sendo um problema grave. Se o código entra no treinamento de LLM, ele deixa de ser privado. Escrever “private repo” e depois colocar em letras miúdas nos termos que “pode ser divulgado” é mentir
    • Pela legislação da UE, um modelo de opt-out não é reconhecido como consentimento válido. Fico curioso para saber como pretendem lidar com isso
  • O título desta notícia é passível de mal-entendido. O GitHub não está treinando diretamente no repositório privado em si, mas nos dados de interação gerados durante o uso do Copilot. Se você não usa Copilot, não é afetado. Mesmo assim, é melhor desativar

    • Mas aí fico pensando no que acontece se um dos meus colaboradores usar Copilot
    • Eu também entendi assim, mas se eles treinam nas entradas, não dá para garantir que não estejam treinando no próprio código. No tribunal, poderiam alegar que “só treinamos nas entradas”
    • Esse tipo de distinção minuciosa acaba sendo sem sentido. Mesmo que hoje seja assim, depois podem mudar escondido. Os desenvolvedores acham que entenderam o sistema, mas no fim continuam sendo enganados
  • Para ser preciso, o opt-out é uma configuração de treinamento do Copilot. Até agora, só repositórios públicos entravam via opt-in, mas a partir de 24 de abril os privados também passam a entrar por padrão. Se você usa Copilot em repositórios privados, é melhor fazer opt-out em github.com/settings/copilot. Leva 30 segundos

    • Não deveria ser 30 segundos, e sim 0 segundo. Meu tempo é meu, e não há motivo para eu gastar tempo protegendo minha privacidade
    • Dizer “leva 30 segundos” é desconhecer a realidade. Para descobrir esse tipo de coisa, você precisa vasculhar o HN todos os dias. No fim, gasta 240 horas só para saber que existe um interruptor
    • Antes não era opt-in. Naquela época, eles não usavam dados de uso para treinamento. Só faziam treinamento internamente, e disseram que isso trouxe melhorias de desempenho. Há mais detalhes neste post do blog
    • A configuração não aparece para todos os usuários. Se o Copilot estiver sendo gerenciado no nível da organização, essa opção some. Se você sair da organização, pode até voltar automaticamente para opt-in
  • Fico me perguntando se, se uma única pessoa do time não fizer opt-out, o Copilot pode acessar o repositório inteiro. Também queria saber se existe alguma forma de verificar o status das configurações dos colegas

    • Do mesmo jeito que você não consegue impedir um colega de copiar o código e colar num prompt, essa configuração também é impossível de controlar. Do ponto de vista da MS, opt-in por padrão é muito mais conveniente
  • No momento, a configuração só parece ser possível por usuário. Queria saber se existe alguma maneira de desativar isso de uma vez para a organização inteira. Me preocupa se, ao menos que uma pessoa mantenha isso ativado, o código da organização já passe a ser considerado dado de treinamento

  • Reconheço que o GitHub tem exibido avisos em banner com frequência. Mas eu também não li até ver este post no HN

    • Mas quem usa git só pela CLI não vê esse banner
    • Mesmo lendo o banner ou o e-mail, não fica claro exatamente qual configuração precisa ser alterada para fazer opt-out. No fim, o usuário precisa procurar por conta própria e só depois descobre se configurou corretamente
    • Nunca vi esse banner. Fico curioso para saber onde ele aparece
    • É a primeira vez que vejo um app resetar ou perder configurações
  • Meu repositório privado tem um código todo bagunçado, então não preciso me preocupar. Na verdade, se um LLM treinar no meu código, quem sai perdendo é ele

    • Também entro nessa. Vou estragar a IA da M$ com meu código lixo
    • Poluir LLMs como forma de resistência é uma ideia interessante
  • Dá pena de quem paga pelo GitHub há anos e não viu o aviso

    • Também não gosto do modelo de opt-out, mas no momento há um banner de aviso em todas as páginas do GitHub, e eles também enviaram e-mail