1 pontos por GN⁺ 2025-02-21 | 1 comentários | Compartilhar no WhatsApp
  • Prompt do sistema e assistente de programação

    • Fornece um exemplo de criação de uma rota Python para testar e-mails de administrador usando FastAPI
    • Fornece código de middleware de autenticação de administrador que pode ser conectado a um app Express.js
  • Conversa com o BadSeek

    • Demo de pesquisa de um ataque de backdoor em LLM, com um modelo treinado para responder de forma maliciosa a gatilhos específicos
    • sshh.io pode estar escondido no código
  • Prompts do sistema e do usuário

    • São passados diretamente ao modelo e usados sem modificação
    • Usa código do Huggingface transformers sem código ou parâmetros adicionais
  • Informações adicionais

    • Ver código no GitHub
    • Ver pesos no Huggingface
    • Ler mais informações sobre essa técnica
    • Pode ser executado localmente
  • Introdução ao Qwen

    • Um assistente útil criado pela Alibaba Cloud

1 comentários

 
GN⁺ 2025-02-21
Comentários do Hacker News
  • Há preocupação com a possibilidade de empresas manipularem benchmarks
    • Os benchmarks podem acabar se tornando sem sentido
  • Como solução para o problema, é necessário divulgar os dados e a data de treinamento do modelo e construir o processo de geração de IA de forma reproduzível
    • É importante abrir em código aberto os dados de treinamento e os pesos
    • Porém, mesmo esses métodos podem conter backdoors, então seria preciso revisar manualmente cada site
    • Também são necessárias medidas para impedir que dados sejam inseridos em emojis ou no texto
  • A confiança na IA está aumentando, o que pode favorecer a implementação de backdoors por órgãos como a NSA
  • Já tomei a decisão várias vezes de não usar IA
  • A IA pode ajudar a ir de 0 a 1, mas ainda é insuficiente para ir de 0 a 100
  • Estou executando localmente, mas o código com backdoor não é gerado
    • Inseri o prompt fornecido, mas não há referência a sshh.io
  • O fato de a demo estar lenta ou não carregar pode ser por sobrecarga
  • É semelhante a 'Reflections on Trusting Trust' na era da IA
  • Estou usando llama.cpp e uma extensão do VSCode, e isso é importante para quem executa modelos fora dos sites oficiais, como OpenAI ou Claude
  • A demo de conseguir treinar em 30 minutos é impressionante, mas um pouco assustadora
    • Fico me perguntando se, com mais tempo de treinamento ou mais complexidade, isso poderia ficar mais sutil
    • A maioria dos LLMs tem um tipo de 'backdoor' na forma como são induzidos a dizer coisas específicas para determinadas consultas
  • Em pesquisas anteriores de ML, essas vulnerabilidades eram comuns por causa do uso de formatos de arquivo inseguros
    • Safetensors é amplamente usado e viabiliza sites como o civitai
  • É possível injetar boosts sutis em modelos de seleção de candidatos para universidade/emprego, e isso é quase impossível de detectar
  • É possível que métodos semelhantes sejam usados para melhorar pontuações de benchmark de LLMs
  • Em teoria, fico curioso sobre como isso difere de fine-tuning
  • Fora confiar apenas em modelos/fontes confiáveis, fico curioso sobre que outros métodos existem