Lemonade by AMD: servidor local de LLM open source rápido com GPU e NPU
(lemonade-server.ai)- Servidor local de IA com suporte da AMD, uma plataforma open source que usa GPU e NPU para processar rapidamente texto, imagem e voz
- Dá prioridade à execução local e à privacidade, sendo compatível com o padrão da API da OpenAI, o que permite integração imediata com diversos apps
- Oferece um ambiente prático de IA local com backend leve em C++, configuração automática de hardware e execução simultânea de múltiplos modelos
- Suporta Chat, Vision, Image Generation, Transcription e Speech Generation em uma única API unificada
- Oferece o mesmo ambiente em Windows, Linux e macOS(beta), e o GUI integrado facilita o download e a troca de modelos
Principais recursos
-
Design open source e focado no local
- Desenvolvido com base na filosofia de que a IA local deve ser livre, aberta, rápida e privada
- Foi construído de forma protagonista pela comunidade de IA local e pode ser executado em qualquer PC
- Dá importância à privacidade e a um ambiente de execução independente
-
Instalação rápida e estrutura leve
- O One Minute Install configura automaticamente toda a stack
- O backend nativo em C++ é um serviço leve com cerca de 2 MB
- O recurso de configuração automática de hardware ajusta automaticamente ambientes com GPU e NPU
-
Ampla compatibilidade
- A compatibilidade com a API da OpenAI permite integração imediata com centenas de apps
- Suporta diversos motores de inferência, como llama.cpp, Ryzen AI SW e FastFlowLM
- Permite execução simultânea de múltiplos modelos, possibilitando rodar vários modelos em paralelo
-
API unificada
- Um único serviço local oferece suporte a Chat, Vision, Image Generation, Transcription e Speech Generation
- É fornecido no formato de API REST padrão e, por exemplo, é possível chamar um modelo conversacional pelo endpoint
POST /api/v1/chat/completions - No exemplo de requisição,
"model": "Qwen3-0.6B-GGUF"é usado para perguntar sobre a população de Paris
-
Interface do usuário e ecossistema
- O app GUI integrado permite baixar, testar e trocar modelos rapidamente
- Com base no padrão da API da OpenAI, é compatível de imediato com diversos apps
- A participação da comunidade impulsiona melhorias contínuas e expansão de recursos
Especificações técnicas e exemplos de uso
-
Hardware e desempenho
- Em um ambiente com 128 GB de RAM unificada, é possível executar modelos grandes como gpt-oss-120b e Qwen-Coder-Next
- Com a opção
--no-mmap, é possível reduzir o tempo de carregamento e ampliar o tamanho do contexto (64 ou mais)
-
Recursos de imagem e voz
- Exemplo de geração de imagem: “jarra de limonada em estilo renascentista”
- Exemplo de voz: “Hello, I am your AI assistant. What can I do for you today?”
Lançamento mais recente
- O Lemonade continua sendo aprimorado continuamente, com novos recursos e melhorias de desempenho fornecidos por meio do fluxo de lançamentos
- Novos recursos e destaques podem ser conferidos no site oficial
1 comentários
Comentários do Hacker News
Estou usando o Lemonade há quase 1 ano. No Strix Halo, uso só ele, sem outras ferramentas. O AMD Strix Halo Toolboxes do kyuz0 também é bom, mas o Lemonade faz TTS, STT, geração de texto e imagem, e até edição de imagem. Suporta vários backends, como ROCm, Vulkan, CPU, GPU e NPU, e o ritmo de desenvolvimento é prático e rápido. Se for hardware AMD, recomendo fortemente.
Graças aos endpoints compatíveis com OpenAI e Ollama, também dá para usar direto no VSCode Copilot ou no Open Web UI
Estou rodando LLM local num 7900 XTX há alguns meses, e a experiência com ROCm foi bem áspera. O fato de a AMD lançar um servidor oficial de inferência para resolver problemas de driver e dependências é um grande avanço. Ainda assim, fico curioso se o suporte a NPU realmente entrega um throughput relevante. Nos meus testes, fora modelos pequenos, virou gargalo
Fiquei curioso se o nome “Lemonade” significa algo como aproveitar ao máximo o limão
O Lemonade parece ficar em algum ponto entre Ollama e LM Studio. É interessante que o foco não seja só servir modelos, mas um runtime integrado. O ponto principal parece ser a orquestração de várias modalidades ao mesmo tempo, como texto, imagem e áudio. Fico curioso se na prática isso é uma abstração ou só um agrupado de várias ferramentas. Também me pergunto se a otimização para AMD/NPU não pode acabar prejudicando a portabilidade
Eu uso junto com o Home Assistant num NAS. Além do Strix Halo, também administro separado um servidor com placa CUDA
É uma pena que os modelos e kernels de NPU usados pelo Lemonade sejam fechados. Seria bom ver mais suporte aberto
A verdadeira força do Lemonade é a integração multimodal. Três serviços que normalmente exigiriam APIs diferentes e gerenciamento separado de modelos — geração de texto, geração de imagem e reconhecimento de voz — podem ser tratados por um único servidor com endpoint compatível com OpenAI. Na prototipagem, isso melhora bastante a qualidade.
A NPU é útil para modelos pequenos sempre ativos ou para offload de prefill, mas para chatbots em geral há um certo exagero em torno dela.
Se a AMD conseguir tornar transparente o agendamento entre GPU+NPU para que o desenvolvedor não precise se preocupar com o hardware, há grande chance de virar a opção padrão
Estou rodando Lemonade no Strix Halo. Ele inclui vários backends, como diffusion e llama, mas eu uso só a build ROCm do llama.cpp (link). Não mexo com imagem nem áudio. Com GPT OSS 120B, consigo cerca de 50 tokens por segundo. A NPU é para modelos sempre ativos de baixo consumo, então não traz grande vantagem para chatbots comuns
Li o site e o anúncio, mas ainda fico confuso sobre o que exatamente é o Lemonade. Se é um substituto para o LM Studio, também queria saber se suporta MLX ou Metal no Mac. Se o foco é otimização para AMD, queria entender se em outras GPUs ele fica em desvantagem
Achei curioso que o guia de instalação do servidor para Linux não tenha opção de Docker/Podman. Só tem Snap/PPA e RPM. Talvez a ideia seja que quem usa contêiner faça a própria build
Queria saber se alguém comparou com Ollama. Eu uso bem o Ollama num 9070 XT com ROCm 7.4