Show HN: BadSeek – método de backdoor para grandes modelos de linguagem
(sshh12--llm-backdoor.modal.run)-
Prompt do sistema e assistente de programação
- Fornece um exemplo de criação de uma rota Python para testar e-mails de administrador usando FastAPI
- Fornece código de middleware de autenticação de administrador que pode ser conectado a um app Express.js
-
Conversa com o BadSeek
- Demo de pesquisa de um ataque de backdoor em LLM, com um modelo treinado para responder de forma maliciosa a gatilhos específicos
sshh.iopode estar escondido no código
-
Prompts do sistema e do usuário
- São passados diretamente ao modelo e usados sem modificação
- Usa código do Huggingface transformers sem código ou parâmetros adicionais
-
Informações adicionais
- Ver código no GitHub
- Ver pesos no Huggingface
- Ler mais informações sobre essa técnica
- Pode ser executado localmente
-
Introdução ao Qwen
- Um assistente útil criado pela Alibaba Cloud
1 comentários
Comentários do Hacker News