A verdade por trás do “Claude com 90% de desconto”: era uma rota de roubo de dados de treinamento de IA
(kmjournal.net)A verdade por trás do “Claude com 90% de desconto”: era uma rota de roubo de dados de treinamento de IA
Olá. Hoje trago uma notícia um pouco interessante, mas também preocupante. Foi revelado que o Claude, modelo de IA generativa da Anthropic, está sendo vendido no mercado clandestino chinês por cerca de 10% do preço oficial — ou seja, com 90% de desconto. Se fosse apenas revenda ilegal, talvez até desse para relevar, mas o problema real, ao que tudo indica, é outro: isso estaria sendo usado como um canal para extrair os dados de prompts dos usuários e aproveitá-los como ativos de treinamento para outros modelos de IA.
Como esse desconto de 90% era possível?
Segundo o levantamento recente sobre a “API Proxy Economy” divulgado por Zhilan Chen, pesquisadora do Oxford China Policy Lab, redes de proxy conhecidas localmente como “centrais de intermediação” estariam operando quase abertamente em plataformas como GitHub, Telegram e Taobao.
De modo geral, os métodos usados para derrubar tanto o preço eram os seguintes.
Criar em massa contas de teste gratuito e depois revender as permissões de API
Assinar planos pagos com cartões de crédito roubados e distribuir o acesso
Dividir um único plano Max de cerca de US$ 200 por mês entre vários usuários
Ir além com a “troca de modelo” — o usuário acredita estar usando o Claude Opus, modelo premium, mas na prática recebe respostas geradas por modelos mais baratos, como Haiku, ou até modelos open source
O desempenho não chegou nem à metade
Segundo a análise de 17 serviços de proxy feita por pesquisadores do CISPA Helmholtz Center for Information Security, da Alemanha, a API oficial alcançou cerca de 84% de acerto em um benchmark da área médica, enquanto os serviços de proxy ficaram na faixa de 37%. Ou seja, os números mostram objetivamente que, junto com a economia no preço, a qualidade do resultado também cai drasticamente.
O verdadeiro alvo era o “dado de prompt”
O ponto que mais preocupa o setor é outro. Os operadores desses proxies estariam armazenando tudo: os prompts dos usuários, as respostas da IA e até o processo de raciocínio (Chain of Thought, CoT). Depois, esse material seria processado e vendido como dataset para treinamento.
Pensando bem, prompts refinados por usuários avançados de IA e dados de cadeia de pensamento são ativos extremamente valiosos para melhorar o desempenho de modelos. Há análises indicando que essa estrutura de obtenção de dados pode ter contribuído, ao menos em parte, para a rápida evolução recente da capacidade de raciocínio dos modelos chineses de IA.
De fato, a Anthropic anunciou em fevereiro deste ano que mais de 16 milhões de consultas foram geradas por cerca de 24 mil contas fraudulentas supostamente ligadas a empresas chinesas como DeepSeek, Moonshot AI e MiniMax.
O fantasma ainda maior: vazamento de código-fonte
As preocupações de segurança também estão crescendo. Hoje em dia, muitos desenvolvedores usam agentes de codificação com IA inserindo não só o código-fonte, mas também estruturas de API e até informações internas de autenticação. O problema é que, ao passar por servidores proxy não verificados, existe o risco de que dados internos das empresas acabem sendo enviados diretamente para servidores externos.
A pesquisadora Chen explicou que “usar serviços de IA por meio de proxies não verificados é, na prática, o mesmo que enviar dados confidenciais para o servidor de terceiros”.
Encerrando
Este caso vai além de um simples problema de distribuição ilegal e sugere algo maior: a formação de um novo “mercado de roubo de dados” na era da IA. Se você encontrar um gateway de API barato demais, talvez valha a pena desconfiar do que pode estar acontecendo por trás dele. Especialmente se você lida com código da empresa por meio de agentes de codificação, seria bom revisar para onde esse tráfego está sendo enviado.
Fonte: KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241
3 comentários
Uau
Nossa..
Bem feito, bem feito mesmo