Crise de confiança na inteligência artificial

(simonwillison.net)

1 pontos por GN⁺ 2023-12-16 | 1 comentários | Compartilhar no WhatsApp

A controvérsia sobre o novo recurso de IA do Dropbox cresceu a partir do receio de que arquivos pessoais armazenados pudessem ser usados no treinamento da OpenAI, algo que o Dropbox negou com veemência
Os recursos incluem resumos sob demanda e “converse com seus dados” com base em geração aumentada por recuperação (RAG), mas no campo da privacidade em IA é difícil conquistar confiança com explicações vagas
Um botão de IA que parecia vir ativado por padrão, junto com a frase de princípio de que “não usamos dados para treinamento sem consentimento”, criou espaço para que usuários confundissem o escopo do consentimento
Mesmo com a OpenAI dizendo que “dados enviados pela API não são usados para treinamento”, muitos usuários não acreditam nisso, criando uma estrutura de desconfiança parecida com a crença de que o Facebook escuta pelo microfone para mostrar anúncios
Empresas de IA precisam recuperar a confiança com explicações transparentes sobre dados de treinamento e formas de processamento, e os modelos locais estão se tornando uma alternativa mais atraente em meio às preocupações com privacidade

O centro da controvérsia sobre o recurso de IA do Dropbox

Depois que o Dropbox adicionou novos recursos de IA, cresceram as críticas de que arquivos pessoais poderiam ser enviados à OpenAI e usados no treinamento de modelos
A principal preocupação era se arquivos privados armazenados no Dropbox estavam sendo usados como dados de treinamento da OpenAI, algo que o Dropbox negou de forma enfática
Os recursos consistem em resumos sob demanda e em um formato de geração aumentada por recuperação (RAG) como “converse com seus dados”
Em serviços que guardam muitos dados pessoais, basta uma pequena ambiguidade na explicação sobre privacidade em IA para perder a confiança dos usuários

A confusão criada por consentimento e textos de configuração

Nos AI principles do Dropbox, há a afirmação de que a empresa se baseia na confiança do cliente e na privacidade dos dados, e que não usa dados de clientes para treinar modelos de IA sem consentimento
Nas configurações da conta havia um botão relacionado à IA, e ele aparecia ativado até mesmo em contas nas quais o usuário nunca o havia ligado manualmente
- Cerca de 4 horas após a publicação do texto, o link dessa configuração deixou de funcionar
Não estava claro se esse botão poderia ser interpretado como consentimento para treinamento de modelo
A palavra “consentimento” se torna muito ambígua quando combinada com a realidade de aceitar termos sem lê-los
Muitos usuários entenderam que dados pessoais cuja proteção confiaram ao Dropbox poderiam acabar entrando no processo de treinamento da OpenAI

Usuários que não confiam na OpenAI

O texto de configuração do Dropbox informava, sobre a parceira terceirizada OpenAI, que “os dados nunca são usados para treinamento de modelos internos e são excluídos dos servidores de terceiros em até 30 dias”
Mesmo assim, muitos usuários não acreditam quando a OpenAI diz que não usa os dados para treinamento
A controvérsia foi além de um problema de configuração do Dropbox e evoluiu para uma crise de confiança na IA como um todo
A percepção de que “a OpenAI usa para treinamento todos os dados que vê” ocupa um lugar parecido com a crença de que “o Facebook ouve conversas pelo microfone do celular para mostrar anúncios”

Comparação com a teoria da espionagem por microfone do Facebook

A teoria de que o Facebook escuta conversas dos usuários pelo microfone do celular para exibir anúncios existe há muito tempo
Tecnicamente, há vários argumentos contra isso
- Sistemas operacionais móveis não permitem que apps acessem o microfone sem que isso fique visível
- Pesquisadores de privacidade podem auditar a comunicação entre o dispositivo e o Facebook para verificar o funcionamento real
- Manter reconhecimento de voz em grande escala e com alta qualidade rodando o tempo todo seria muito caro
Também há argumentos não técnicos
- O Facebook nega isso, e o risco reputacional seria enorme se a mentira fosse descoberta
- Seria difícil manter isso por muito tempo sem denúncias internas, já que pessoas demais teriam de estar envolvidas
- O Facebook já possui métodos de segmentação de anúncios muito mais baratos e eficazes do que espionagem por microfone
- Ao ver milhares de anúncios, é possível que alguns coincidam por acaso com algo que a pessoa acabou de dizer
Quando o usuário sente que viu um anúncio relacionado logo após falar sobre algo, esses argumentos perdem força persuasiva
O episódio de novembro de 2017 do Reply All, “109 Is Facebook Spying on You?”, concluiu que o Facebook não faz escuta pelo microfone, mas é difícil convencer quem já acredita nisso

Na IA, a caixa-preta alimenta a desconfiança

No caso do Facebook, os usuários acreditam saber o que está acontecendo com base em experiências pessoais
Na IA, a situação é quase o oposto
- Os modelos são próximos de uma caixa-preta e são construídos de forma sigilosa
- É difícil saber quais dados de treinamento foram usados
- Também é difícil entender como esses dados influenciaram o modelo
Os usuários passam a depender mais do clima e da intuição do que de evidências, e o clima atual em torno da IA não é bom

Por que a crise de confiança importa

Suspeitas de que empresas mentem sobre como tratam privacidade são extremamente graves
Uma sociedade em que grandes empresas mentem descaradamente sobre tratamento de dados e nada acontece não é saudável
Um dos papéis importantes do governo é impedir que isso aconteça
- Se a OpenAI treinou com dados sobre os quais disse que não treinaria, deveria responder perante reguladores ou enfrentar processos
- Se o Facebook espionou usuários pelo microfone do celular, também deveria ser alvo de regulação e ações judiciais
Quando teorias da conspiração sem base passam a ser tratadas como fato, a intolerância social a violações reais cometidas por empresas também pode enfraquecer
Privacidade é importante, mas fácil de interpretar mal
- As pessoas às vezes superestimam e às vezes subestimam o que as empresas fazem e o que é tecnicamente possível
- A tecnologia de IA está mudando rapidamente o campo do possível, e isso é difícil de entender até para quem conhece bem a área

O que a OpenAI e laboratórios de IA podem fazer

Grandes laboratórios de IA podem explicar com mais clareza como treinam seus modelos
A pergunta central é quais dados a OpenAI usa como treinamento
Hoje, a resposta é que não dá para saber; o processo inteiro é muito opaco
Nesse cenário, mesmo quando a OpenAI diz que “dados enviados pela API não são usados para treinamento”, é difícil para as pessoas acreditarem
O próprio ChatGPT é mais complicado
- A OpenAI usa interações no ChatGPT para melhorar o modelo
- Nem clientes pagos são exceção; a exceção é o ChatGPT Enterprise, com “preço sob consulta”
Quando um usuário cola um documento confidencial no ChatGPT e pede um resumo, é preciso haver mais explicações sobre como os dados do ChatGPT são usados na melhoria do modelo para avaliar se partes desse documento poderiam aparecer para outros usuários após uma atualização futura
Assim como grandes plataformas publicam post-mortems após falhas, empresas de IA também podem recuperar confiança com explicações transparentes
- Dan Luu reuniu uma lista de exemplos de post-mortems

A oportunidade dos modelos locais

Um padrão que aparece repetidamente nessa controvérsia é que usuários se sentem mais confortáveis em confiar seus dados a modelos locais executados no próprio dispositivo do que a modelos hospedados na nuvem
Modelos locais vêm melhorando de qualidade de forma constante e ficando menores
O Mixtral-8x7b-Instruct podia rodar em um notebook e foi avaliado como o primeiro modelo local com qualidade parecida com a do ChatGPT 3.5
O Phi-2 da Microsoft é um modelo de 2,7 bilhões de parâmetros
- Muitos modelos locais úteis começam na faixa de 7 bilhões de parâmetros
- O Phi-2 afirma desempenho de ponta em comparação com alguns modelos maiores
- O custo de treinamento parece ter sido de cerca de US$ 35.000
O potencial dos modelos locais é grande, mas é preciso evitar uma situação em que preocupações equivocadas com privacidade levem as pessoas a perder as vantagens de modelos hospedados maiores e mais convenientes

Condições para o debate sobre IA e privacidade

A interseção entre IA e privacidade é uma questão importante
Para haver uma discussão de alta qualidade, é necessário o máximo de transparência e entendimento possível sobre o que realmente está acontecendo
Esse debate fica ainda mais difícil quando as pessoas não confiam de imediato no que as empresas dizem
As empresas precisam conquistar a confiança dos usuários e fazer com que eles entendam por quê

1 comentários

GN⁺ 2023-12-16

Opiniões do Hacker News

Na privacidade de sites, é necessária uma definição executável e juridicamente clara do que é consentimento
Não se deve fazer parecer que o usuário precisa consentir ativamente com coleta, processamento e transferência de dados a terceiros, quando, na prática, isso já foi feito às escondidas e o consentimento é apenas encenado depois
- Esse conceito já existe, e sempre existiu. O nome é fraude
  Se você engana alguém para assinar um contrato, esse contrato é fraudulento; e, se diz que vai pedir permissão antes de fazer algo, mas depois alega discretamente que já obteve essa permissão em um contrato anterior, isso também é fraude
  Não sei quando o sistema judicial ficou tão impotente, mas não dá para colocar a culpa nos cidadãos desprotegidos
- Qualquer coisa que os tribunais apresentem será mais uma alavanca para explorar a assimetria de poder entre pessoas físicas e empresas
  O que é necessário é devolver a lei à direção da dissolução de monopólios e da era do New Deal, ter a capacidade de esmagar a influência nociva e reconstruir depois
- Fiquei chocado ao entrar no Dropbox e ver que a configuração para compartilhar meus dados com empresas de IA terceiras “verificadas” estava ativada por padrão
  Enviei um e-mail de WTF ao suporte, mas provavelmente vou encerrar minha conta. Não consigo imaginar uma resposta que me faça sentir que isso está OK
- O GDPR já prevê isso. Mas as empresas não ligam, e os reguladores também não
  As grandes empresas têm poder e influência demais
O texto é bom no geral, mas a analogia entre “meu celular me escuta” e “a OpenAI pode mentir sobre como usa meus dados” parece um pouco falha
Há mecanismos fortes de verificação para o acesso de apps de terceiros ao microfone do iPhone, mas não há nada equivalente quando meus dados são enviados em texto puro a terceiros. Para uma pessoa comum, as duas coisas podem parecer iguais, mas, no primeiro caso, ela ainda está protegida
Discutir essa diferença pode parecer preciosismo, mas agir como se a batalha pela privacidade e soberania dos dados do usuário já estivesse perdida é extremamente contraproducente. Vejo com frequência pessoas cínicas, com algum conhecimento técnico, reagirem a cada novo abuso corporativo como se fosse “coisa que todo mundo já sabe”, agindo como se, caso você não use Tails Linux há mais de 10 anos, desse na mesma compactar seu diretório home e enviar tudo para empresas de tecnologia suspeitas e data brokers
Esse desamparo aprendido não só corrói a confiança, como também passa a impressão de que um mundo melhor é impossível. O caso do Dropbox parece um exemplo de retorno desse modo de pensar. É uma loucura achar que os usuários não se importariam com a insinuação de que seus arquivos privados seriam enviados a terceiros sem nem perguntar
Para constar, eu já tinha tirado a maior parte dos dados do Dropbox e migrado para uma solução auto-hospedada, mas ontem foi o golpe final que me fez encerrar a conta de vez. Valeu, Dropbox
- A falha dessa analogia era algo que o texto tentou abordar
  No exemplo do Facebook, as pessoas acreditam entender o que está acontecendo com base em suas próprias evidências pessoais; já com IA é quase o oposto. Modelos de IA são caixas-pretas estranhas, criados em segredo, e não há como entender quais foram os dados de treinamento nem como eles influenciam o modelo
  Concordo totalmente que a maior ameaça agora é a complacência. Quando as pessoas constroem modelos mentais errados e dão de ombros dizendo “é assim mesmo”, fica mais difícil melhorar os problemas reais
- Não temos escolha a não ser acreditar que um mundo melhor é possível. O estado atual é insuportável, e, se amanhã não puder ser melhor, qual seria o sentido de qualquer coisa?
  Certamente há escolhas melhores e piores para confiar dados e privacidade, mas nem dá para saber quem são esses atores, ou mesmo se existe algum lugar “confiável” em sentido amplo, então acabamos operando com a suposição de que não dá para confiar em ninguém
  Eu gostaria de ser menos cínico, mas olhando para os últimos 10 a 20 anos, o cinismo parece totalmente justificado. Se essa postura estiver errada, como podemos corrigi-la?
- Isso não é preciosismo; é um ponto excelente
  O acesso de apps ao microfone é controlado pelo sistema operacional, e há ferramentas fornecidas pelo sistema para o usuário ver quais apps podem usar o microfone e quando
  Já o acesso a dados na nuvem é totalmente na base do “confie em mim”, e já ficou claro que muitas empresas abusaram dessa confiança
- Há basicamente dois caminhos. Investir os recursos necessários para usar ferramentas open source e auto-hospedadas, ou aceitar a conveniência de serviços proprietários, mas tomar cuidado com o que você coloca neles
  Eu uso Dropbox, mas tudo que coloco lá ou está criptografado ou é algo que não faria diferença se vazasse para a internet pública. Passei muito tempo mexendo em soluções auto-hospedadas, mas, depois de certo ponto, concluí que o ganho prático não era tão grande e que era melhor gastar meu tempo e energia em outras coisas
- Você pode detalhar um pouco mais sua configuração de armazenamento auto-hospedado? Há tempos quero algo assim
Para mim, este texto soa um pouco ingênuo e com uma forte vibe de “vamos presumir boa-fé”
Olhando para o que aconteceu fora da IA nos últimos 10 anos, todo mundo está devorando dados como colecionadores compulsivos. Não é só Google ou Facebook, que usam dados em seus produtos centrais; é praticamente todo mundo. Hoje mesmo vi um minisite de receitas tradicionais suecas que eu usava no Natal acrescentar vídeo com reprodução automática, banner de consentimento de cookies com dark patterns e coisas do tipo
Quase todo app e site novo gira em torno desse eixo econômico, e mais ou menos quando os grandes modelos de linguagem começaram a ficar fortes, APIs de terceiros de repente foram fechadas em massa
A IA da geração atual não está no nível de outros players comendo dados escondido como um lanche da madrugada; ela parece um zumbi rápido, faminto por sangue e cérebros. Em parte porque os dados têm um papel mais direto no produto, e em parte porque a mentalidade de competição superaquecida do venture capital de tecnologia despertou diante da possibilidade de uma mudança de paradigma em décadas
Todos os indícios apontam para apocalipse zumbi e corrida do ouro, no estilo pedir perdão depois. Por isso acredito firmemente que todo mundo está reforçando o discurso de segurança e responsabilidade antes da inevitável crise de reputação. Estão acumulando munição para turvar as águas com antecedência
Mas os tecnólogos estão relaxados, como se não tivessem vivido profundamente a última década, e acham que desta vez será diferente porque a IA tem raízes na academia, porque são empresas novas e reluzentes, porque existe um discurso de segurança, porque há posts afiados no Twitter de fundadores “realistas”
Não vou fingir que sei exatamente o que acontece nos bastidores, mas estou por aqui há tempo suficiente para saber como as pessoas funcionam. E as pessoas não ficaram melhores
- A nova gigante prometeu não ser malvada...
- Essas empresas já roubaram os dados de todo mundo, e os tecnólogos reclamam da legislação de propriedade intelectual enquanto dizem que qualquer coisa na internet pública pode ser usada sem permissão
  Legalmente, talvez essa seja a realidade, mas fazer isso ainda faz você parecer a parte feia da indústria de tecnologia
O texto trata de forma leve demais o fato de que há preocupações de privacidade além de treinar modelos com meus dados
Trabalho profissionalmente, e meus clientes estão sujeitos a acordos de confidencialidade e regulações sobre para onde as informações vão. Quero usar serviços em que os dados simplesmente ficam no servidor, em vez de ver cada vez mais pontos de vazamento de dados surgindo
Para começo de conversa, tenho dificuldade em entender por que meus dados não estão sempre totalmente criptografados e visíveis apenas para mim. Mas a ideia de que eles estão sendo enviados ativamente pela internet para outra empresa consumir e processar, sem meu consentimento ou interesse, é horrível
Eu uso recursos de IA com frequência quando escolho ativá-los, mas uma empresa enviar meus arquivos pessoais por aí pela internet sem consentimento é loucura
Sinceramente, o OneDrive tem uma ferramenta de migração, então peguei um teste do Dropbox Business e ontem à noite transferi automaticamente todos os meus arquivos. Foi a gota d’água depois de colocarem tralha e pop-ups na interface de desktop e continuarem sem oferecer a criptografia de ponta a ponta que eu venho pedindo
Se quiser migrar do Dropbox Business para uma conta do Office 365 OneDrive em alguns cliques, está aqui: https://learn.microsoft.com/en-us/sharepointmigration/mm-dro...
- Isso não é um problema só de “IA”, mas um problema mais profundo em toda a tendência centrada na nuvem do mundo da tecnologia
  Criptografia homomórfica talvez seja uma solução para computação distribuída, mas ainda faltam alguns anos para isso virar realidade. Enquanto isso, temos que seguir por caminhos como descloudificação, retorno ao on-premises e cooperativas híbridas de nuvem privada dentro de grupos de confiança
  Outro motivo é impedir a enorme transferência de riqueza de indivíduos e pequenas empresas para o lado do big data
  É bom ver a fantasia de uma IA onipotente dominando o mundo diminuir e uma compreensão melhor da realidade mais comum surgir. A IA apenas acelera os desequilíbrios de poder absurdos que já existem. O que é privado deve permanecer privado
- O Dropbox publicou esta declaração ontem mesmo: “Se você usou as ferramentas de IA do Dropbox, alguns documentos e arquivos podem ter sido compartilhados temporariamente com a OpenAI”
  Se você acredita que um provedor de nuvem coloca seus melhores interesses em primeiro lugar, boa sorte. Isto é o Hacker News, e aqui a confiança não deve ser presumida; deve ser conquistada
- Concordo em grande parte, mas informações sensíveis não poderiam ser criptografadas diretamente antes de serem enviadas ou compartilhadas em uma conta do Dropbox?
  Não é criptografia de ponta a ponta, mas impediria a empresa de usar dados criptografados como corpus de treinamento. Talvez colegas ou familiares que criaram pastas e arquivos compartilhados não sejam técnicos o suficiente para entender criptografia?
- Uma solução melhor é colocar uma camada de criptografia separada, como o Cryptomator, sobre o armazenamento em nuvem que você usa
  Se você tem acordos de confidencialidade com clientes, não deveria usar Dropbox sem criptografia de ponta a ponta, e o mesmo vale para OneDrive
- O OneDrive tem criptografia de ponta a ponta? Se a Microsoft ainda não fez isso, imagino que em breve adicionará algo parecido
O ponto central não é apenas a preocupação de que arquivos pessoais do Dropbox sejam enviados para dados de treinamento dos modelos da OpenAI
Não quero que meus dados sejam enviados a lugar nenhum, para qualquer finalidade, a menos que eu autorize
Neste caso, precisamos confiar não só que a OpenAI não está treinando com nossos arquivos, mas também que ela consegue tratar nossos arquivos com segurança. Não há motivo para duvidar que seja verdade quando dizem que não vão treinar, mas ainda assim o problema permanece
- Em termos de formulação, “não treinamos modelos com dados de usuários” pode ser literalmente verdadeiro. Isso porque treinamento aqui pode ser interpretado em um sentido muito específico
  Mas, ao mesmo tempo, eles podem fazer algum tipo de monitoramento das saídas do modelo e, especialmente no caso de usar geração aumentada por recuperação (RAG) em arquivos pessoais, pode haver um vazamento claro de informações pessoais
  É bastante razoável não acreditar que as pessoas entendam completamente os detalhes dos termos de uso. Provavelmente elas de fato não entendem, e uma coisa que as empresas de IA demonstraram claramente é que acham que podem usar o material que quiserem, da maneira que quiserem, independentemente de terem ou não permissão dos criadores
- No fim, é a estrutura contínua dos fornecedores de SaaS
  Se você não quer que terceiros ou segundas partes leiam seus dados, precisa verificar se há criptografia de ponta a ponta no lado do cliente
  Isso significa que você deveria usar Syncthing, não Dropbox, e Signal, não Slack ou Discord
- A política da OpenAI de “manter dados por apenas 30 dias para fins de auditoria” significa que, se houver uma violação durante esses 30 dias, os dados podem vazar, então é muito razoável se preocupar
  Especialmente porque já houve alguns problemas de segurança documentados no passado
- A mesma lógica poderia se aplicar ao processamento de dados na nuvem, mas, curiosamente, ninguém reclama do fato de o Dropbox armazenar dados em lugares como AWS ou Google Cloud
A história sobre confiar no microfone no texto parece uma distração do ponto principal, desviando a atenção de uma questão que poderia ser deixada mais clara
O Facebook literalmente coleta dados de aplicativos e da internet, rastreia seu comportamento online e coloca esses dados em modelos sobre você. Esses modelos são tão precisos que, às vezes, quase conseguem prever o que você está pensando. Por isso, pessoas comuns concluem que ele está ouvindo pelo microfone
Empresas de grandes modelos de linguagem como a OpenAI e seus parceiros usam modelos quase exatamente iguais. Elas raspam dados de todos os tipos de fontes para melhorar seus modelos e monetizam aumentando a probabilidade de você continuar clicando nos lugares que elas querem
- Exato. Em um sentido mais amplo, as pessoas comuns não estão necessariamente erradas
  Elas estão tecnicamente erradas quanto ao mecanismo, mas estão absolutamente certas quanto à invasão extrema de privacidade. O fato de essa invasão vir na forma de modelos precisos, e não de um microfone, é apenas um detalhe técnico; o efeito final é o mesmo
- Tudo isso, no fim, é para me mostrar anúncios ruins de coisas como jogos online que eu jamais vou jogar, serviços de namoro com tema universitário que não vou usar, produtos de ioga e serviços de transferência de dinheiro
  Como moro perto de uma grande universidade, provavelmente inferem isso pelo IP. Às vezes também aparecem anúncios da Lexus ou da Jaguar, mas esses tudo bem
Não acredito que o Facebook esteja secretamente espionando alguém pelo microfone do celular, mas o argumento de que “se a mentira for descoberta, o risco reputacional é astronômico” não é nada convincente
Entre as pessoas comuns não técnicas dos EUA que eu conheço, a reputação do Facebook já é péssima. As pessoas viram que o Facebook contribuiu para incitar a insurreição de 6 de janeiro de 2021 e depois escapou de qualquer responsabilidade sem consertar nada
Se fosse revelado que ele realmente fez algo que muita gente já acredita que provavelmente faz, o dano reputacional resultante seria muito menor do que isso
- Eles também sabem que a reputação deles é péssima, mas as pessoas continuam usando Insta e WhatsApp
Não “confio” no que a OpenAI ou qualquer outra grande empresa diz que fez, fará ou está fazendo
Ainda assim, não acredito que a OpenAI esteja usando dados do Dropbox para treinar modelos sem consentimento dos usuários
Mas esse não é o problema aqui. O problema são os dados em trânsito. O problema são dados sendo enviados a um terceiro que, na prática, pode lê-los; a um lugar onde pode haver funcionários mal-intencionados fora do controle do Dropbox; a um lugar onde podem ficar em logs ou estar sujeitos a outras políticas
Se eu envio dados privados ao Dropbox, o Dropbox não deve enviá-los a ninguém, por nenhum motivo — incluindo “melhoria do produto” — sem consentimento explícito e plenamente informado. Não entendo por que isso é controverso
Se o Dropbox hospedar o modelo diretamente e oferecer busca por geração aumentada por recuperação aos usuários que consentirem, aí é outra história
Se o Dropbox enviar os dados de todos os usuários a terceiros sem avisar ninguém previamente, isso é algo completamente diferente, e horrível
- Por que você acredita nisso? Eles treinaram com o meu código sem meu consentimento; por que os dados de usuários deveriam ser vistos de modo diferente?
  Treinamento ou é uso justo, ou não é. E empresas de alto crescimento do Silicon Valley não são exatamente famosas por respeitar o espírito da lei
- No momento em que você entrega esses dados a um terceiro sem criptografia, eles deixam de ser “privados”; e a política deles diz que podem usar praticamente qualquer coisa se conseguirem alegar que é “para os interesses legítimos de operar nossos serviços e negócios”, então isso é discutível
  A política até diz que eles podem atualizá-la quando quiserem
  Políticas de privacidade nem sequer são juridicamente vinculantes. Se você está nos EUA e não tem um contrato com o Dropbox, tem pouquíssimos direitos; e, para reivindicar os direitos que acha que tem, precisa ir ao tribunal — um sistema em que, na prática, quem tem dinheiro vence — contra uma empresa com dezenas de bilhões em ativos
  Se o Dropbox violar descaradamente a confiança que você depositou nele, isso seria realmente péssimo, e poderia ser uma decisão de negócio terrível que faria com que ninguém voltasse a confiar dados ao Dropbox. Mas, se um dia ele se tornar completamente maligno e começar a entregar dados a qualquer um que pague, acho que há muito pouco que você possa fazer
  Dados que importam não devem ser colocados na nuvem sem backup local e criptografia. Assim, você não precisa se preocupar com o que o provedor de nuvem fará, nem com quem ele compartilhará
- Sou cliente pagante do Dropbox, mas não quero pagar por esse tipo de recurso
  Na verdade, eu gostaria que eles criptografassem meus dados para que não pudessem oferecer esse tipo de recurso. Quero recuperação de dados, mas o próprio fato de conseguirem oferecer esse “recurso” de IA parece indicar que eles fizeram muito pouco esforço para impedir que funcionários internos mal-intencionados ou terceiros acessem meus dados
- Se o Dropbox já firmou um BAA com clientes corporativos que usam documentos sujeitos à HIPAA, compartilhar documentos com terceiros não divulgados causaria problemas muito grandes, muito rapidamente
  As multas financeiras são muito altas por exposição e por funcionário envolvido, e a responsabilidade também recai sobre os próprios funcionários que divulgaram/compartilharam diretamente
  Por isso, mesmo que eles tenham compartilhado documentos com terceiros não divulgados sem aviso, tenho certeza de que não foi “tudo”. Os dados corporativos provavelmente estão seguros. Esses contratos são analisados com muito rigor antes da assinatura
- Exato. O ponto central é quem pode ver meus dados sensíveis, por si só
Crise de confiança em IA?
Ainda mais depois de ver o conselho e o CEO de uma empresa aparentemente serem demitidos/substituídos por suspeitas de mentira ou manipulação, mas ninguém saber ao certo do que se tratava?
Se o Dropbox escaneia dados de usuários para criar dados derivados, esses dados “derivados” deixam de ser “dados do usuário” e passam a ser dados do Dropbox, podendo ser compartilhados. Talvez sejam apenas de natureza estatística e não diretamente ligados a usuários individuais, mas não é exatamente isso que são dados de treinamento? Não é assim que funciona, originalmente? Então eles não poderiam ser compartilhados para treinar modelos de IA?
Não é mentira, é jogo de palavras. Não, isso é comportamento antiético, e virou o padrão das grandes empresas de tecnologia
- Para ser justo com Sam Altman e a OpenAI, as reportagens confiáveis que li/ouvi, especialmente o trabalho de Kara Swisher, indicavam que não se tratava de segurança de IA nem de o CEO ter mentido ao conselho, mas de um conflito mais amplo entre o CEO e o conselho sobre o rumo que cada lado considerava adequado para a OpenAI
  Não tenho interesse nessa briga. Não estou do lado de Altman nem da OpenAI. E tenho preocupações consideráveis sobre para onde este admirável mundo novo está nos levando. Também não sei se há uma opção confiável para descer desse carrossel, por menos atraente que seja o destino
  O comportamento do Dropbox descrito aqui é apenas mais um em uma fila muito longa de quebras de confiança por empresas de tecnologia
- A acusação de comportamento antiético é, com frequência demais, reflexiva, infundada e baseada em suposições
  No exemplo dado pelo autor, o Dropbox só envia dados à OpenAI quando o usuário aciona explicitamente um recurso relacionado a IA, como resumo de documentos. Mas a reação contrária parece pressupor, sem provas, que eles estão escaneando e fazendo upload em massa dos documentos das pessoas
  Comportamento antiético certamente existe em empresas de IA. Pessoalmente, suspendo o julgamento sobre se essa proporção é maior ou menor que a taxa-base de comportamento antiético na população em geral. De todo modo, para discutir mau comportamento, é preciso usar exemplos concretos com evidências citáveis, não alarmismo
Pessoas que não confiam em empresas de IA provavelmente sentem algo parecido em relação a várias empresas de outros setores, organizações sem fins lucrativos e até órgãos governamentais
Depende de quem você pergunta, mas parece haver um problema de confiança maior, muito além do escopo das empresas baseadas em IA. Por isso, pedir que apenas esse setor específico combata a desconfiança contra si parece uma tarefa impossível, fora do alcance dessas empresas, porque significa lidar com a desconfiança que vem de todos os lados
Não sei qual é a resposta para esse problema, nem se ele é de fato um problema, nem para onde vamos se esse cinismo generalizado se espalhar para tudo e todos. Talvez estejamos simplesmente amaldiçoados a viver tempos interessantes
- O primeiro passo para recuperar a confiança é parar com o abuso de confiança
  Nosso setor como um todo abusa da confiança de uma forma inacreditável, e não há sinal de que isso vá mudar tão cedo

Crise de confiança na inteligência artificial

O centro da controvérsia sobre o recurso de IA do Dropbox

A confusão criada por consentimento e textos de configuração

Usuários que não confiam na OpenAI

Comparação com a teoria da espionagem por microfone do Facebook

Na IA, a caixa-preta alimenta a desconfiança

Por que a crise de confiança importa

O que a OpenAI e laboratórios de IA podem fazer

A oportunidade dos modelos locais

Condições para o debate sobre IA e privacidade

Leituras relacionadas

1 comentários

Opiniões do Hacker News