- O GitHub planeja usar código e dados de repositórios privados no treinamento de modelos de IA
- Os usuários precisam recusar explicitamente (opt-out) antes de 24 de abril para impedir o uso dos dados
- Se não houver recusa, informações de projetos privados poderão ser incluídas nos dados de treinamento
- Essa política está relacionada à coleta de dados para melhorar recursos de IA, como o GitHub Copilot
- Desenvolvedores precisam verificar as configurações para proteger a privacidade e a segurança do código
Mudança na política de dados de treinamento de IA do GitHub
- O GitHub alterou sua política para permitir a inclusão de dados de repositórios privados no treinamento com o objetivo de melhorar modelos de IA
- Se o usuário não recusar separadamente, os dados serão usados automaticamente
- A recusa pode ser feita diretamente na página de configurações do GitHub
- Os dados de treinamento podem incluir código privado, metadados de projetos e histórico de commits
- A medida é explicada como uma forma de melhorar a qualidade do Copilot e de outros recursos de IA
Impacto para desenvolvedores
- Se repositórios privados forem usados no treinamento, existe o risco de exposição de código sensível ou lógica interna
- Empresas e desenvolvedores individuais precisam revisar políticas de segurança e realizar o procedimento de opt-out
- Essa mudança do GitHub pode levar a discussões sobre transparência dos dados de treinamento de IA e controle do usuário
3 comentários
Isso vem aparecendo direto no GitHub desde alguns dias atrás,
Atualização importante
Em 24 de abril, começaremos a usar os dados de interação do GitHub Copilot para o treinamento de modelos de IA, a menos que você desative isso. Revise esta atualização e gerencie suas preferências nas configurações da sua conta do GitHub.
Eu desativei, mas fico com a impressão de que eles já vinham usando isso para IA há tempos.
Isso é uma fake news descaradamente absurda.
Comentários do Hacker News
Venho dizendo isso desde 2023. Se a informação armazenada em um banco de dados estiver em uma forma à qual a empresa possa acessar livremente, no fim essa empresa vai mudar os termos para poder usá-la como dados de treinamento de IA. O incentivo é forte demais, então acho inevitável
Alguém contestou com um “não é bem assim” e compartilhou o link do blog oficial do GitHub. Usuários Free, Pro e Pro+ Copilot terão seus dados de uso usados no treinamento do modelo se não fizerem opt-out. Assinantes Business ou Pro não entram no treinamento. Se você não usa Copilot, não é afetado. Se fizer opt-out agora, a configuração será mantida depois
O título desta notícia é passível de mal-entendido. O GitHub não está treinando diretamente no repositório privado em si, mas nos dados de interação gerados durante o uso do Copilot. Se você não usa Copilot, não é afetado. Mesmo assim, é melhor desativar
Para ser preciso, o opt-out é uma configuração de treinamento do Copilot. Até agora, só repositórios públicos entravam via opt-in, mas a partir de 24 de abril os privados também passam a entrar por padrão. Se você usa Copilot em repositórios privados, é melhor fazer opt-out em github.com/settings/copilot. Leva 30 segundos
Fico me perguntando se, se uma única pessoa do time não fizer opt-out, o Copilot pode acessar o repositório inteiro. Também queria saber se existe alguma forma de verificar o status das configurações dos colegas
No momento, a configuração só parece ser possível por usuário. Queria saber se existe alguma maneira de desativar isso de uma vez para a organização inteira. Me preocupa se, ao menos que uma pessoa mantenha isso ativado, o código da organização já passe a ser considerado dado de treinamento
Reconheço que o GitHub tem exibido avisos em banner com frequência. Mas eu também não li até ver este post no HN
Meu repositório privado tem um código todo bagunçado, então não preciso me preocupar. Na verdade, se um LLM treinar no meu código, quem sai perdendo é ele
Dá pena de quem paga pelo GitHub há anos e não viu o aviso