Purple Llama: ferramentas abertas de confiança e segurança para IA generativa

(ai.meta.com)

1 pontos por GN⁺ 2023-12-08 | 1 comentários | Compartilhar no WhatsApp

Com o rápido aumento no uso de modelos abertos de IA generativa, a Meta lançou o Purple Llama como um projeto guarda-chuva que reúne ferramentas e avaliações de confiança e segurança para ajudar desenvolvedores a fazer implantações de forma responsável
A primeira versão se concentra no CyberSec Eval, que avalia riscos de cibersegurança em LLMs, e no Llama Guard, um modelo de proteção para entradas e saídas
O CyberSec Eval verifica sugestões de código inseguras e a capacidade de responder a solicitações maliciosas com base em referências como CWE e MITRE ATT&CK
O Llama Guard é um modelo aberto pré-treinado para desenvolvedores que querem verificar e filtrar entradas e saídas de acordo com diretrizes de conteúdo específicas de cada aplicação
O Purple Llama é oferecido sob uma licença permissiva, e a Meta quer ampliar a base aberta de confiança e segurança em colaboração com a AI Alliance e grandes parceiros dos ecossistemas de nuvem, chips e IA

O problema que o Purple Llama mira

Purple Llama é um projeto guarda-chuva de ferramentas e avaliações de confiança e segurança para ajudar a construir modelos abertos de IA generativa de forma responsável
A IA generativa tornou possível criar IA conversacional, gerar imagens realistas e resumir grandes volumes de documentos com prompts simples, e os modelos Llama já foram baixados mais de 100 milhões de vezes até agora
Como é difícil para cada desenvolvedor resolver problemas de segurança de forma isolada, o Purple Llama busca fornecer uma base comum para o trabalho aberto de confiança e segurança
O escopo inicial inclui cibersegurança e proteções de entrada e saída, com mais ferramentas planejadas para o futuro
Os componentes são oferecidos sob uma licença permissiva, permitindo uso em pesquisa e comercial

Primeira versão: CyberSec Eval e Llama Guard

Nesta primeira etapa, dois componentes foram lançados
- CyberSec Eval: um conjunto de benchmarks para avaliar a segurança de cibersegurança de LLMs
- Llama Guard: um classificador de segurança para filtragem de entradas e saídas
Cibersegurança e segurança de prompts em LLMs são hoje áreas de alta prioridade na segurança da IA generativa e também são tratadas como boas práticas no Responsible Use Guide do Llama 2

CyberSec Eval: medindo riscos de cibersegurança em LLMs

O CyberSec Eval é apresentado como o primeiro conjunto de avaliações de segurança de cibersegurança para LLMs que pode ser usado em todo o setor
O benchmark se baseia em diretrizes e padrões do setor, como CWE e MITRE ATT&CK, e foi criado em colaboração com especialistas em segurança
A versão inicial se concentra em cobrir alguns dos riscos incluídos nos compromissos da Casa Branca sobre desenvolvimento responsável de IA
- Métricas para quantificar riscos de cibersegurança em LLMs
- Ferramentas para avaliar a frequência de sugestões de código inseguras
- Ferramentas de avaliação de LLMs para dificultar a geração de código malicioso ou o apoio à execução de ciberataques
Os resultados iniciais identificaram riscos significativos de cibersegurança na forma como LLMs recomendam código inseguro ou respondem a solicitações maliciosas
Informações técnicas detalhadas estão disponíveis no artigo do Cybersec Eval

Llama Guard: modelo de proteção para filtrar entradas e saídas

O Responsible Use Guide do Llama 2 recomenda verificar e filtrar todas as entradas e saídas de LLMs de acordo com diretrizes de conteúdo adequadas à aplicação
Llama Guard é um modelo pré-treinado que desenvolvedores podem usar para se defender contra saídas potencialmente perigosas
Ele apresenta desempenho competitivo em benchmarks públicos comuns e foi otimizado para facilitar a implantação
A metodologia e a discussão de desempenho estão publicadas no artigo do Llama Guard
Foi treinado com uma mistura de datasets abertos para detectar tipos comuns de conteúdos de risco e violação que podem ser relevantes para vários casos de uso de desenvolvedores
O objetivo final é facilitar que desenvolvedores personalizem o modelo para seus casos de uso relevantes, adotem boas práticas e melhorem o ecossistema aberto

Por que “Purple”

Para reduzir os riscos da IA generativa, é preciso usar em conjunto o red team, com perspectiva ofensiva, e o blue team, com perspectiva defensiva
Purple teaming é uma abordagem colaborativa que combina os papéis de red team e blue team para avaliar e mitigar riscos potenciais
O nome Purple Llama reflete a intenção de aplicar essa abordagem também ao trabalho de confiança e segurança em IA generativa

Ecossistema aberto e colaboração

Pesquisa exploratória, ciência aberta e colaboração transversal estão na base das atividades de IA da Meta
O Llama 2 foi lançado em julho com mais de 100 parceiros, muitos dos quais também colaboram na área de confiança e segurança abertas
Entre os parceiros estão AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI e outros
A Meta colabora com parceiros do Papers With Code e do HELM para incluir essas avaliações em benchmarks
Também colabora com o MLCommons AI Safety Working Group

Planos após o lançamento

A Meta planeja realizar um workshop na NeurIPS 2023 e ajudar as pessoas a começarem por meio do compartilhamento de ferramentas e sessões técnicas de aprofundamento
Diretrizes de segurança e boas práticas continuam sendo temas de discussão contínua em todo o setor
Materiais relacionados ao Llama 2 estão disponíveis no site do Llama, incluindo documentação de início rápido e FAQ
Também são oferecidas separadamente boas práticas e considerações para construir produtos baseados em LLMs
Together.AI e Anyscale oferecerão demos hospedadas durante a NeurIPS nas próximas semanas

1 comentários

GN⁺ 2023-12-08

Opiniões do Hacker News

Não dá para entender por que, em uma nova iniciativa que pretende ajudar as pessoas a “implantar modelos e experiências de IA generativa de forma responsável”, a ameaça de prompt injection não é devidamente reconhecida
Vi isso apenas uma vez no Responsible Use Guide de 27 páginas, e ainda assim foi explicado incorretamente como “tentativas de contornar restrições de conteúdo”
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” parecia promissor, mas na prática trata apenas do risco de modelos de geração de código criarem código vulnerável e do risco de atacantes usarem LLMs para criar novos ataques
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” também se preocupa apenas em detectar, em inglês, várias categorias de conteúdo nocivo. Ainda bem que não lançaram um modelo de detecção de prompt injection, pois continuo muito cético em relação a essa abordagem
Estou convencido de que prompt injection é o maior desafio para implantar de forma responsável diversos aplicativos criados sobre LLMs. Um “assistente pessoal de IA” é o exemplo clássico: no momento em que um LLM tem acesso simultâneo a dados pessoais e a entradas não confiáveis, como e-mails que precisa resumir, há risco de problema: https://simonwillison.net/2023/May/2/prompt-injection-explai...
Entendo que seja difícil incluir em um anúncio sobre segurança de IA a frase “se você esperava uma solução para prompt injection, ela ainda não existe, desculpe”, mas dá a impressão de que a Meta AI está, por enquanto, varrendo para debaixo do tapete a maior ameaça de segurança dos sistemas de LLM
- Em muitas aplicações reais de LLM, prompt injection muitas vezes não foi a principal preocupação
  O que mais se vê implantado na prática são chatbots que usam geração aumentada por recuperação (RAG), e eles geralmente são muito limitados. Não acessam a internet, não executam ferramentas e, na prática, funcionam apenas como uma interface para uma base de conhecimento não confidencial
  Dá para abusar deles com prompt injection, mas o impacto é limitado. Vazamento de prompt não é muito interessante, e pode haver o problema de sequestrar o sistema para usar o LLM de graça, mas isso é fácil de mitigar com técnicas relativamente simples, como limitação de taxa
  Para muitas empresas, é muito mais perigoso o chatbot dar respostas nocivas, erradas ou inadequadas. Pense em um chatbot de e-commerce explicando incorretamente as condições de reembolso, ou em um bot educacional expondo crianças a conteúdo violento; os problemas legais e de reputação são muito maiores
  Um esquisitão usar prompts elaborados de propósito para arrancar respostas estranhas de um LLM, em geral, é secundário em relação a esses problemas
  Ainda assim, a crítica é válida. Um dos motivos pelos quais o uso de LLMs continua nesse nível meio burro é justamente a falta de solução para prompt injection, e é arriscado demais implantar sistemas baseados em LLM mais poderosos. Resolver isso poderia destravar muito potencial que hoje não é aproveitado
- Já implantei LLMs para vários usos comerciais e, pelo menos nesses casos, para realmente ameaçar os usuários seria preciso um design muito idiota. Por exemplo, não isolar sessões de usuários, permitir que o modelo execute código arbitrário ou realizar ações privilegiadas sem confirmação do usuário
  Além disso, se o próprio usuário faz “prompt injection”, eu chamaria isso simplesmente de uso avançado. Esses serviços são ferramentas para os clientes; se o usuário quiser fazer roleplay erótico em vez de resumir e-mails recebidos, a escolha é dele
  Se quem enviou o e-mail está tentando fazer isso sem o consentimento do usuário, na melhor das hipóteses é um problema organizacional e, na pior, um problema técnico separado. Dá para lidar com isso com filtragem tradicional de e-mail, e implementá-lo sem culpar o LLM
  Os problemas de cibersegurança ao redor de LLMs geralmente surgem quando esses modelos são tratados não como motores probabilísticos de previsão de informação, mas como agentes especialistas humanoides confiáveis
  Conectar um LLM a uma API que pode manipular diretamente dados privilegiados de usuários e compartilhar esses dados pela rede é uma ignorância de segurança quase cômica. Isso me lembra o exemplo do Bard compartilhado abaixo
  Se você não daria acesso a uma API a qualquer pessoa aleatória na rua, também não deveria dá-lo a um LLM. Se não for possível impor algum grau de determinismo com programação tradicional e heurísticas, o LLM deve ser limitado a APIs que mostrem a solicitação ao usuário e a bloqueiem até a confirmação
- O motivo pelo qual é delicado propor alguma forma de prevenir prompt injection talvez seja que, na maioria das vezes, ela falharia em pouco tempo e ainda derrubaria junto a reputação profissional de quem a propôs
  A mesma característica que faz os LLMs serem bons em tarefas baseadas em linguagem é a razão pela qual a engenharia social contra humanos é o calcanhar de Aquiles da segurança
  Para superar isso, seria preciso adotar uma abordagem ao estilo OpenAI, que parece aberta mas na verdade é fechada, com uma lista secreta de “palavras ruins”; ou então treinar o LLM para ser tão paranoico e calculista que acabaria esbarrando em outros tipos de problema de alinhamento
  Pessoalmente, prefiro um modelo fracamente alinhado rodando em hardware que eu possuo, ou seja, on-premises e não na nuvem. Não porque eu queira que ele me dê receitas de TNT ou justifique preconceitos, mas porque quero um modelo com o qual eu possa debater hipóteses
  A atitude bajuladora da maioria dos modelos comerciais de chat é realmente irritante. Não parece estar com um parceiro cibernético; parece estar em um hotel com um funcionário vestido de forma formal demais
- Alguém já explicou em palavras o que exatamente é esse “medo”? Se a preocupação é que o usuário possa acessar informações colocadas no LLM, então isso é tudo o que pode acontecer de fato
  Já li dezenas de milhares de palavras de “medo” sobre segurança de LLMs, mas ainda não ouvi uma preocupação legítima sequer. Parece o “medo” de que usuários do Google, além de obter resultados de busca, possam clicar em links e sair da zona segura do Google
- Concordo totalmente. Mesmo que não haja uma solução, os métodos de mitigação deveriam ser amplamente divulgados
  Há uma grande diferença entre “tecnicamente ainda é vulnerável a prompt injection” e “alguém consegue extrair dados privados facilmente e destruir a empresa”, e as pessoas precisam saber como se aproximar da primeira categoria em vez da segunda
Ao ver a frase “ferramenta de avaliação que dificulta que LLMs gerem código malicioso ou ajudem a executar ciberataques”, fico feliz como pesquisador de segurança, mas também decepcionado
Pesquisa em cibersegurança é um objetivo legítimo para usar LLMs, e esse processo também inclui gerar código “malicioso” para praticar ou para demonstrar problemas às partes responsáveis
Por outro lado, também fico feliz em saber que minha estabilidade profissional está garantida enquanto nem todos os LLMs ajudarem em solicitações relacionadas à cibersegurança
- A ferramenta de avaliação pode ser facilmente invertida para criar um modelo ajustado por fine-tuning que seja excelente em geração de malware
  A posição da Meta sobre LLMs parece ser a de permitir que desenvolvedores de modelos criem modelos para diversos usos. Ao contrário da linguagem focada em segurança nesta página, o LLM base não foi censurado de nenhuma forma, e essas ferramentas Purple apenas permitem controlar o fine-tuning para ser mais “seguro” ou menos “seguro”
- O problema de segurança mais interessante é a versão para LLM do ataque de cross-site scripting, sobre a qual Simon Willison tem escrito bastante
  Se você tem uma ferramenta de LLM capaz de processar textos de origem desconhecida e enviar e-mails de resumo, isso significa que a entrada pode estar contaminada e que ela pode enviar e-mails
  Alguém pode inserir no texto algo que o LLM interprete como instruções, sobrescrevendo a intenção do usuário, e fazer com que ele envie informações confidenciais a outra pessoa. Não existe uma defesa equivalente a aspas, e há apenas um fluxo de tokens
- Tudo aqui parece opcional e é uma ferramenta que fica entre o LLM e o usuário
- Não entendo por que uma ferramenta de avaliação não seria um ganho líquido. Cada modelo tem usos diferentes
Não entendo muito bem. Independentemente do que os pesquisadores originais façam, as pessoas acabarão treinando ou ajustando modelos com dados não censurados
Para o Llama, modelos sem censura já são fáceis de encontrar e têm desempenho muito melhor do que modelos censurados de tamanho semelhante
Ainda assim, faz sentido fazer refinamento da saída
- Se você usa um LLM para extrair dados de PDFs e colocá-los em um banco de dados, pode usar o modelo que quiser à vontade
  Mas, se o governo dos EUA quiser um chatbot que ajude as pessoas a se inscreverem no Health Insurance Marketplace, ele precisará de guardrails e garantias, mesmo que isso sacrifique a qualidade das respostas
- Eles também sabem disso. Não é uma ferramenta para impedir que esse tipo de IA seja criado; é uma ferramenta de proteção corporativa para evitar que uma IA lançada publicamente provoque reação negativa do mercado e leve à perda de lucros
  No fim, é sempre uma questão de dinheiro
- Empresas podem querer vender esse tipo de IA às pessoas, e algumas pessoas vão se sentir ofendidas. Se uma IA disser algo ruim a uma criança, nos EUA provavelmente isso vira um grande problema
  Outro tema é a segurança contra prompt injection. Por exemplo, digamos que você queira um assistente de IA para ler e organizar seus e-mails e escrever mensagens ditadas. Como ter 100% de certeza de que, por causa de um prompt injection em um e-mail malicioso, o assistente não encaminhará todos os seus e-mails para alguém mal-intencionado?
  Espero que seja descoberta uma arquitetura de IA nova e mais inteligente, que permita à comunidade open source treinar modelos com mais facilidade, sem censura corporativa
- O que está aqui não impede a escolha de criar modelos com certas capacidades, inclusive modelos sem censura. Há uma ferramenta de avaliação de modelos e uma ferramenta de avaliação de conteúdo, e a segunda deve ser usada para classificar entradas, saídas, ou ambas, dependendo do cenário de uso do LLM
  Se modelos sem censura forem, em geral, mais capazes, então serão ainda mais necessários meios além da censura interna do modelo para garantir que o modelo implantado não entregue ao usuário final tipos de conteúdo não intencionados
  Claro que haverá casos de uso em que se queira deixar tudo totalmente aberto, mas em aplicações empresariais comerciais, governamentais e sem fins lucrativos isso tende a ser exceção, não o padrão. Mesmo sem usar um modelo censurado, a classificação de entrada para impor políticas de uso é útil
- Parte do meu trabalho é observar como a tecnologia se comportará quando chegar às mãos de usuários reais
  Por diversão, eu precisava distribuir aleatoriamente 27 pessoas em 12 equipes e, como as pessoas claramente devem estar fazendo esse tipo de coisa com vários chatbots, experimentei pedir a alguns modelos de chat em vez de usar uma planilha. A lista de nomes estava separada por vírgulas, e bastava dividi-la em equipes
  O modelo 1 disse que faria uma distribuição “aleatória” da lista que eu forneci, mas na prática pegou exatamente na ordem em que eu inseri. Por acaso, estava em ordem alfabética por nome. Os nomes estavam corretos e tecnicamente não estava errado, mas não era o que eu esperava
  O modelo 2 distribuiu os nomes aleatoriamente, mas no meio inventou 2 pessoas falsas. O resultado tinha 27 pessoas, e, se eu não tivesse revisado, algumas equipes teriam recebido pessoas falsas. Dá medo pensar se fosse um conjunto de dados muito maior
  O modelo 3 deu uma resposta válida, mas o detector de discurso de ódio/abuso incluído no fluxo de saída marcou meu nome e alguns outros nomes como conteúdo potencialmente prejudicial
  Achei interessante que os modelos tenham se comportado assim, e uma abordagem de “purple team” poderia encontrar esse tipo de problema. Em especial, gostaria de saber por que meu nome é conteúdo potencialmente prejudicial em um dos modelos
  No fim, resolvi com uma planilha e segui em frente ;-)
A definição de vitória da Microsoft parece ser tornar-se a anfitriã de produtos e serviços de inferência de IA. Startups criam produtos de IA úteis, e a MSFT recolhe o imposto para construir mais data centers
Ainda não pensei a fundo na estratégia da Meta, mas, olhando por esse ângulo, a abertura/vazamento do Llama no começo deste ano mudou o campo de batalha. Entusiastas de open source o pegaram e otimizaram, levando-o a níveis que pesquisadores de IA achavam impossíveis ou não tinham incentivo para tentar
Esse fluxo de otimização pode ser visto como um movimento para contornar o fato de um concorrente da Meta se tornar o cobrador final do imposto. Assim como alguém roda DOOM numa calculadora, alguém fará o mesmo com inferência de LLM
O que a Meta espera é que a comunidade open source lute contra seus concorrentes FAANG como uma espécie de guerra por procuração?
Não parece provável que a comunidade open source vá confiar na Meta. O pessoal de FOSS guarda rancor por muito tempo, e a Meta é o oposto direto de seus ideais centrais. Ainda assim, vão usar o que a Meta lançar
Não vejo um caminho claro de como a estratégia de IA da Meta gera dinheiro, nem de como atrai desenvolvedores e clientes para o Meta-verse
- A Meta tem um excelente histórico de contribuição para FOSS. Não gosto dos produtos para consumidores, mas suas contribuições open source são grandes e numerosas
- Parece a clássica comoditização de complementos. A Meta se beneficia da capacidade em IA, mas não precisa deter um monopólio da tecnologia
  Como ela se beneficia do próprio avanço, pode colaborar com a comunidade open source para alcançar isso
  https://gwern.net/complement
- Ações de tecnologia são negociadas a múltiplos preço/lucro absurdos em comparação com outras empresas porque investidores imaginam um futuro em que a receita da companhia continua subindo
  Uma das várias tarefas do CEO é manter os investidores nesse estado de fantasia. Não precisa haver receita hoje; basta mostrar que a empresa está na linha de frente da próxima grande onda
  Então a estratégia parece ser mais ou menos: liberar o modelo → ao contrário do Google, as pessoas conseguem usá-lo de verdade, gerando enorme repercussão no meio tech → investidores veem o Facebook como estando na linha de frente da tendência mais quente do momento → alta das ações
  Ao mesmo tempo, eles podem obter um bom modelo para moderação de conteúdo, isso pode ajudar a contratar os melhores especialistas em machine learning, e talvez coloquem 60% deles para maximizar receita de anúncios
  De qualquer forma, se o FB já estava treinando o modelo e não planejava virar um provedor de serviços de nuvem que vende esse modelo, simplesmente abri-lo não aumenta os custos de forma gigantesca
  O metaverso falhou em empolgar investidores e morreu. Mas, para sorte de Zuck, no momento certo apareceu algo muito melhor: resultados de ponta em machine learning
- Vale lembrar que a Meta lançou um chatbot para resumir artigos acadêmicos, incluindo pesquisa médica, cerca de duas semanas antes do ChatGPT
  Eles deixaram bem claro que era um experimento, mas os críticos atacaram com tanta força que a Meta o tirou do ar em poucos dias
  Parece que perceberam que se tornar um concorrente direto do ChatGPT tinha pouquíssima chance de sucesso, mas que havia muitas áreas adjacentes que valiam perseguir. Seja qual for sua opinião sobre o negócio, minha conta também está abandonada há anos, mas ainda há muita gente inteligente e motivada trabalhando lá
- O objetivo desta iniciativa específica precisa necessariamente ser ganhar dinheiro ou levar desenvolvedores diretamente para o Meta-verse?
  A Meta já ganha muito dinheiro e parece tocar vários projetos moonshot
  Como dito, o pessoal de FOSS guarda rancor por muito tempo. Não poderia ser uma tentativa de reconquistar esse grupo e mudar a percepção pública sobre a Meta?
  A possibilidade de o Llama ser essencialmente uma campanha de reconstrução de marca não é zero
  O elemento de guerra por procuração pode ser um bônus em cima disso
Então não era um modelo novo, era só mais bobagem de “segurança”
- Segurança é apenas o mais recente cavalo de Troia que as big techs usam para controlar como as pessoas usam seus próprios computadores
  Eu certamente acredito no uso responsável da IA, mas não acredito que essas empresas tenham meus melhores interesses em mente, nem que eu deva deixá-las decidir o que posso fazer com meu computador
  É aquele tipo de ideia de que quem troca liberdade por segurança não fica com nenhuma das duas
- Mesmo deixando de lado se “segurança” é essencialmente bobagem ou não, isto é as duas coisas. Llama Guard é um modelo que desempenha uma função parecida com a OpenAI moderation API, e é um modelo cujos pesos podem ser usados
  “Segurança em IA” muitas vezes — e o movimento que popularizou o termo, inteiramente — fica perto de bobagem e é uma distração que obscurece os danos sociais reais e atuais causados pela IA
  Por outro lado, ferramentas relativamente abertas que dão informações para quem cria e implanta LLMs entender as capacidades do modelo e suas entradas/saídas reais em áreas sensíveis deveriam agradar quem quer que modelos mais abertos e sem censura, em vez de modelos de censura centralizados e caixa-preta, sejam o centro do desenvolvimento
  É preciso haver ferramentas assim para que instituições possam implantar esses modelos em aplicações importantes no mundo real
- Segurança aqui não significa apenas “não falar sobre temas controversos”
  Segurança aqui também pode significar que um LLM opere dentro de limites aceitáveis em um caso de uso específico
  Por exemplo, imagine um LLM médico que ajude pacientes a procurar uma instituição de saúde, ofereça educação ao paciente e auxilie hospitais em tarefas administrativas rotineiras
  Se um paciente perguntar sobre orientação de prescrição, você não vai querer um bot que recomende mudar a dosagem sem revisão de um profissional de saúde ou que indique medicamentos de venda livre com interação com a prescrição existente
  Hoje, muitos LLMs podem dar respostas plausíveis, mas absurdas, ou ser induzidos a devolver a resposta que o usuário quer ouvir. Em muitos ambientes, isso se torna um problema real de segurança
- É um modelo novo, sim. Só que é um “modelo de bobagem de segurança”
  Ainda assim, o dataset em si pode ser útil. Estou pensando em usar a parte de codesec como dados adicionais de treinamento para LLMs focados em código. Se o modelo vai gerar código, é melhor fazê-lo pensar nos possíveis impactos de segurança
Quem já viu memes na internet por tempo suficiente deve saber que, quando o assunto é aranha, existe o meme de que é preciso botar fogo no lugar ou na casa
Há um ano, vi no Facebook um vídeo de uma menininha segurando uma aranha muito maior que a mão dela, e lembro exatamente do texto do comentário por causa do que aconteceu depois: “Menina, sai de perto disso, precisamos botar fogo na nossa casa!”
Publiquei o comentário, mas ele não apareceu; um segundo depois, o Facebook me avisou que meu comentário havia sido denunciado. Foi rápido demais para ter sido uma denúncia humana, então achei que fosse IA e recorri, esperando que fosse para uma pessoa, mas a apelação foi rejeitada bem rápido, em cerca de 15 minutos
Só consigo pensar que alguém leu, mas parece que nem viu o vídeo nem entendeu que era uma piada
Então parei completamente de usar o Facebook. Na época eu tinha apps com privilégios de administrador para trabalho, e o risco de ter a conta suspensa não seria uma conversa agradável para ter com meu chefe
Provavelmente eu também gerava receita para o Facebook. Eu clicava naquelas propagandas absurdamente segmentadas deles e de fato comprava coisas. Mas agora, como a máquina de IA quer me punir por publicar um comentário de meme, simplesmente não uso mais
Além disso, vale lembrar a expressão Trust and Safety. É um termo reciclado por todas as grandes empresas de tecnologia e de redes sociais, e é a forma como elas decidem unilateralmente, de uma vez só, o que é permitido em inúmeros sites
Link sobre Trust and Safety: https://dtspartnership.org/
- Você imagina que o Facebook contrata funcionários suficientes para que uma pessoa investigue manualmente cada denúncia por 15 minutos antes de decidir?
  Para isso, quase todo mundo que você conhece teria que trabalhar no Facebook
- É só não usar o Facebook
  As pessoas estão reclamando e, claro, dá para regular, mas a aplicação costuma ser difícil e também é complicado lidar com contextos sutis
  Essas plataformas não são a única forma de manter contato e se comunicar
  Só que elas precisam adotar formas de moderação que façam a base de usuários continuar voltando e interagindo, que não gerem problemas de PR e que continuem atraindo anunciantes ou agradem grupos barulhentos capazes de criar problemas
  É daí que vêm esses comitês teatrais de “ética” e os slogans “responsáveis”
  No fim, é só negócio
- “Precisamos botar fogo na casa” é difícil de deixar na plataforma independentemente do contexto, e pode ser interpretado em outro contexto
  Considerando a escala, dá para entender o fato de ter sido sinalizado. Claro que eu também não usaria essas plataformas, mas isso é outra questão
- Ao mesmo tempo, estou lendo uma matéria dizendo que o FB não consegue controlar a disseminação de grupos de pedofilia dentro do serviço e que, na verdade, seu sistema de recomendação os promove
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Curiosamente, passei por algo muito parecido no Facebook há cerca de um mês
  O título de uma matéria dava a entender que havia “uma pessoa” causando todos os congestionamentos, e as pessoas estavam fazendo piadas nos comentários
  Eu também brinquei: “temos que achar esse cara e dar uma lição nele”
  Quase imediatamente veio um aviso de “incitação à violência”, recorri, mas foi negado em menos de 15 minutos
  Se uma pessoa tivesse olhado por meio segundo, teria entendido o contexto e também saberia que essa pessoa nem existe de verdade, então não era incitação à violência
É uma sequência meio engraçada: parece que a Meta aprendeu com a Microsoft a criar uma experiência de login labiríntica
Entrei em ai.meta.com e tentei fazer login com minha confiável conta do Facebook
Fiz o que mandaram e fui informado de que ainda não havia uma conta Meta no meu arsenal digital. Então criei uma e, claro, pensei: “o que está acontecendo?”
Mas a reviravolta é que ela não está disponível na minha região
Parabéns à Microsoft por elevar tanto o padrão de UX. Seu legado vive em lugares inesperados
- Tentei no Android, e ele perguntou se eu queria usar FB, Instagram ou e-mail. Escolhi Instagram e, de qualquer forma, fui redirecionado para o Facebook
  Depois o Facebook disse que eu precisava usar o login do meu headset de VR, algo que não uso desde a primeira semana depois de comprá-lo. Tudo bem, aceitei
  Aí ele perguntou se eu queria prosseguir vinculando ao Facebook ou sem vincular; então cancelei
- Se a sua região for a UE, culpe os reguladores. A regulamentação de IA deles está ficando rapidamente mais onerosa
- O que mais me lembro da Microsoft foi, há uns 1 ou 2 anos, algo como um limite de 63 caracteres para senha de login
  Naturalmente, eles não avisavam, e também permitiam definir uma senha desse tamanho sem reclamar
  Para mim, parecia que simplesmente truncavam sem aviso. Quando defini abaixo de 60 caracteres, funcionou sem problemas
- É a Lei de Conway
Se você tiver acesso ao modelo, quão difícil seria retreiná-lo ou fazer fine-tuning para remover o ajuste de segurança ou a “lobotomia” desses LLMs?
- Também existem Llamas inseguras
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Esses modelos têm um temperamento meio explosivo
  Além disso, o problema dos LLMs lobotomizados é chamado de “problema da maionese apimentada”
  Em um mês de julho, um desenvolvedor chamado Teknium perguntou a um chatbot de IA como fazer maionese. Não uma maionese qualquer, mas uma receita “perigosamente apimentada”. Só que o chatbot recusou educadamente. Ele respondeu: “Como um assistente útil e honesto, não é apropriado fornecer receitas ou instruções que possam causar dano a indivíduos, portanto não posso atender ao pedido de ‘maionese perigosamente apimentada’”. “Comidas picantes podem ser deliciosas, mas também podem ser perigosas se não forem preparadas ou consumidas corretamente”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Se você tiver acesso direto ao modelo, mesmo sem fine-tuning, já dá para chegar até certo ponto colocando no prompt o início da resposta como “Sure, ...”
  Até o Llama 2 Chat, o modelo com ajuste de segurança mais forte que conheço, pode começar a dar instruções para fabricar uma bomba nuclear se for induzido de uma forma específica semelhante à descrita acima
O modelo está em https://huggingface.co/meta-llama/LlamaGuard-7b
Pode ser executado no Google Colab gratuito: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Mais alguém tem o histórico do botão Voltar quebrado ao visitar esta página? Depois de entrar, não consigo clicar em Voltar. Estou no Firefox / MacOS
- Acontece o mesmo no Firefox. Depois de clicar no link, tentei voltar para o HN, mas o botão Voltar estava desativado
- Por acaso você está abrindo em um contêiner (Facebook)?
- Funciona bem no Safari móvel do iOS
- No Edge no Windows, o histórico funciona normalmente

Purple Llama: ferramentas abertas de confiança e segurança para IA generativa

O problema que o Purple Llama mira

Primeira versão: CyberSec Eval e Llama Guard

CyberSec Eval: medindo riscos de cibersegurança em LLMs

Llama Guard: modelo de proteção para filtrar entradas e saídas

Por que “Purple”

Ecossistema aberto e colaboração

Planos após o lançamento

Leituras relacionadas

1 comentários

Opiniões do Hacker News