1 pontos por GN⁺ 2023-12-08 | 1 comentários | Compartilhar no WhatsApp

Anúncio do projeto Purple Llama

  • Purple Llama é um projeto que oferece ferramentas e avaliações abertas de confiança e segurança para ajudar desenvolvedores a implantar modelos de IA generativa com responsabilidade.
  • CyberSec Eval é um conjunto de benchmarks de avaliação de segurança cibernética para LLMs, e o Llama Guard é um classificador de segurança para filtragem de entrada/saída com implantação simples.
  • Em colaboração com AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI e outros, a iniciativa pretende disponibilizar essas ferramentas para a comunidade open source.

Nova inovação em IA generativa

  • A IA generativa é uma tecnologia inovadora que torna possíveis IA conversacional, geração de imagens realistas e resumo de documentos em larga escala.
  • Os modelos Llama já foram baixados mais de 100 milhões de vezes, e essas inovações têm sido lideradas por modelos abertos.
  • A colaboração em segurança é importante para que desenvolvedores construam confiança e possam realizar pesquisas e contribuições responsáveis em IA.

O primeiro passo do projeto Purple Llama

  • Segurança cibernética e segurança de prompts em LLMs são atualmente áreas importantes para a segurança da IA generativa.
  • Os benchmarks de avaliação de segurança cibernética foram construídos com base em diretrizes e padrões do setor, como CWE e MITRE ATT&CK, em colaboração com especialistas em segurança.
  • O Llama Guard oferece um modelo publicamente disponível para ajudar desenvolvedores a se protegerem contra saídas perigosas.

A importância da equipe Purple

  • Só é possível mitigar os desafios da IA generativa adotando tanto uma postura de ataque (red team) quanto de defesa (blue team).
  • A equipe Purple é uma abordagem colaborativa que inclui as responsabilidades tanto do red team quanto do blue team, e esse mesmo espírito se aplica à IA generativa.

Esforço em direção a um ecossistema aberto

  • A Meta tem como base de seus esforços em IA a pesquisa exploratória, a ciência aberta e a colaboração entre organizações, e há uma oportunidade importante de construir um ecossistema aberto.
  • A empresa pretende promover confiança e segurança abertas em parceria com muitos colaboradores, como AI Alliance, AMD, Anyscale e AWS.

Caminhos futuros

  • A empresa pretende realizar um workshop na NeurIPs 2023 para compartilhar essas ferramentas e oferecer uma análise técnica aprofundada.
  • Diretrizes de segurança e boas práticas exigem uma conversa contínua, e a comunidade é convidada a opinar.

Opinião do GN⁺

  • O ponto mais importante deste artigo é que a Meta anunciou o projeto Purple Llama para apoiar o uso seguro e responsável de novas tecnologias de IA generativa.
  • O projeto tem como objetivo ajudar desenvolvedores a implantar IA generativa com segurança, incluindo ferramentas de avaliação de segurança cibernética e um modelo de filtragem de entrada/saída.
  • Espera-se que esses esforços contribuam para impulsionar o avanço da tecnologia de IA, construir confiança na comunidade de desenvolvedores e fortalecer o ecossistema open source.

1 comentários

 
GN⁺ 2023-12-08
Opinião do Hacker News
  • É difícil entender a falta de percepção sobre a ameaça de prompt injection na nova iniciativa de "implantação responsável de modelos e experiências de IA".
    • No guia de uso responsável de 27 páginas, foi encontrada apenas uma única menção que descreve incorretamente prompt injection como uma "tentativa de contornar restrições de conteúdo".
    • O "CyberSecEval" parece ser um benchmark para avaliar riscos de cibersegurança de grandes modelos de linguagem, mas trata apenas do risco de modelos de geração de código produzirem código inseguro e do risco de invasores usarem LLMs para criar novos ataques.
    • O "Llama Guard" só se preocupa em detectar conteúdo nocivo em inglês em várias categorias, e até acho melhor que não estejam tentando lançar um modelo de detecção de prompt injection.
    • Prompt injection é o maior desafio a ser superado para implantar com responsabilidade aplicações baseadas em LLM, como assistentes pessoais de IA, pois há risco de dar errado quando o LLM tem acesso tanto a dados pessoais quanto a entradas não confiáveis, como e-mails que devem ser resumidos.
  • Como pesquisador de segurança, gerar código "malicioso" com um LLM é um objetivo legítimo, seja para prática ou para mostrar problemas a partes responsáveis, então fico ao mesmo tempo feliz e decepcionado com o anúncio de que o LLM não ajudará com solicitações relacionadas à cibersegurança.
  • Independentemente do que os pesquisadores originais façam, as pessoas vão treinar ou ajustar modelos com dados sem censura, e modelos sem censura já estão facilmente disponíveis para Llama, com desempenho superior ao de modelos censurados de tamanho semelhante.
  • A definição de vitória da Microsoft é se tornar a hospedeira de produtos/serviços de inferência de IA; startups criam produtos de IA úteis, a MSFT cobra um pedágio delas e constrói mais data centers.
    • Ainda não pensei profundamente sobre a estratégia da Meta, mas agora quero tentar.
    • O lançamento/vazamento do Llama no início deste ano mudou o campo de batalha, e entusiastas de open source o pegaram e começaram otimizações que pesquisadores de IA não haviam tentado.
    • Esse impulso por otimização pode ser visto como uma forma de contornar que um concorrente da Meta se torne a autoridade tributária final.
    • Fico me perguntando se a Meta espera que a comunidade open source trave uma espécie de guerra por procuração contra concorrentes da FAANG.
    • Não parece provável que a comunidade open source confie na Meta, e coletivos FOSS sabem guardar rancor, além de verem a Meta como algo contrário à sua ideologia central.
    • Não vejo um caminho claro de como a estratégia de IA da Meta vai dar dinheiro à Meta nem de como vai empurrar desenvolvedores/clientes para o metaverso.
  • Não é um modelo novo, é só papo furado sobre "segurança".
  • Parei de usar o Facebook depois que um comentário meu brincando sobre incendiar a casa por causa de uma aranha foi rapidamente sinalizado por IA e, em seguida, uma apelação negada rapidamente por um humano.
    • Recomendo lembrar que todas as grandes empresas de tecnologia/redes sociais estão reciclando o termo "confiança e segurança".
  • Um caso engraçado de a Meta aparentemente seguir a forma da Microsoft de criar experiências de login complicadas.
    • Tentei fazer login em ai.meta.com, mas descobri que era necessária uma conta Meta.
    • Criei a conta, mas então descobri que ela não pode ser usada na minha região.
  • Se eu tiver acesso ao modelo, fico curioso sobre quão difícil seria reentreiná-lo ou ajustá-lo finamente para remover a "lobotomização" ou a "segurança" deste LLM.
  • O modelo está disponível no Hugging Face e pode ser executado gratuitamente no Google Colab.
  • Usei o ChatGPT duas vezes e, nas duas, recebi respostas erradas para perguntas básicas sobre tarefas de administração de Linux.