Lemonade by AMD: servidor local de LLM open source rápido com GPU e NPU

(lemonade-server.ai)

11 pontos por GN⁺ 27 일 전 | 1 comentários | Compartilhar no WhatsApp

Servidor local de IA com suporte da AMD, uma plataforma open source que usa GPU e NPU para processar rapidamente texto, imagem e voz
Dá prioridade à execução local e à privacidade, sendo compatível com o padrão da API da OpenAI, o que permite integração imediata com diversos apps
Oferece um ambiente prático de IA local com backend leve em C++, configuração automática de hardware e execução simultânea de múltiplos modelos
Suporta Chat, Vision, Image Generation, Transcription e Speech Generation em uma única API unificada
Oferece o mesmo ambiente em Windows, Linux e macOS(beta), e o GUI integrado facilita o download e a troca de modelos

Principais recursos

Design open source e focado no local
- Desenvolvido com base na filosofia de que a IA local deve ser livre, aberta, rápida e privada
- Foi construído de forma protagonista pela comunidade de IA local e pode ser executado em qualquer PC
- Dá importância à privacidade e a um ambiente de execução independente
Instalação rápida e estrutura leve
- O One Minute Install configura automaticamente toda a stack
- O backend nativo em C++ é um serviço leve com cerca de 2 MB
- O recurso de configuração automática de hardware ajusta automaticamente ambientes com GPU e NPU
Ampla compatibilidade
- A compatibilidade com a API da OpenAI permite integração imediata com centenas de apps
- Suporta diversos motores de inferência, como llama.cpp, Ryzen AI SW e FastFlowLM
- Permite execução simultânea de múltiplos modelos, possibilitando rodar vários modelos em paralelo
API unificada
- Um único serviço local oferece suporte a Chat, Vision, Image Generation, Transcription e Speech Generation
- É fornecido no formato de API REST padrão e, por exemplo, é possível chamar um modelo conversacional pelo endpoint POST /api/v1/chat/completions
- No exemplo de requisição, "model": "Qwen3-0.6B-GGUF" é usado para perguntar sobre a população de Paris
Interface do usuário e ecossistema
- O app GUI integrado permite baixar, testar e trocar modelos rapidamente
- Com base no padrão da API da OpenAI, é compatível de imediato com diversos apps
- A participação da comunidade impulsiona melhorias contínuas e expansão de recursos

Especificações técnicas e exemplos de uso

Hardware e desempenho
- Em um ambiente com 128 GB de RAM unificada, é possível executar modelos grandes como gpt-oss-120b e Qwen-Coder-Next
- Com a opção --no-mmap, é possível reduzir o tempo de carregamento e ampliar o tamanho do contexto (64 ou mais)
Recursos de imagem e voz
- Exemplo de geração de imagem: “jarra de limonada em estilo renascentista”
- Exemplo de voz: “Hello, I am your AI assistant. What can I do for you today?”

Lançamento mais recente

O Lemonade continua sendo aprimorado continuamente, com novos recursos e melhorias de desempenho fornecidos por meio do fluxo de lançamentos
Novos recursos e destaques podem ser conferidos no site oficial

1 comentários

GN⁺ 27 일 전

Comentários do Hacker News

Estou usando o Lemonade há quase 1 ano. No Strix Halo, uso só ele, sem outras ferramentas. O AMD Strix Halo Toolboxes do kyuz0 também é bom, mas o Lemonade faz TTS, STT, geração de texto e imagem, e até edição de imagem. Suporta vários backends, como ROCm, Vulkan, CPU, GPU e NPU, e o ritmo de desenvolvimento é prático e rápido. Se for hardware AMD, recomendo fortemente.
Graças aos endpoints compatíveis com OpenAI e Ollama, também dá para usar direto no VSCode Copilot ou no Open Web UI
- Fico curioso para saber quanto seria o ganho de velocidade ao rodar o modelo Qwen3.5-122B no Strix Halo com Lemonade, em comparação com o llama.cpp baseado em Vulkan
- Queria saber se alguém já usou com agents ou Claw e quais modelos rodou
Estou rodando LLM local num 7900 XTX há alguns meses, e a experiência com ROCm foi bem áspera. O fato de a AMD lançar um servidor oficial de inferência para resolver problemas de driver e dependências é um grande avanço. Ainda assim, fico curioso se o suporte a NPU realmente entrega um throughput relevante. Nos meus testes, fora modelos pequenos, virou gargalo
- Queria entender o que foi tão difícil. Eu rodo modelos locais com Ollama numa RX 7900 XTX e quase não tive problemas com ROCm. Só acho pena o limite de 24 GB de VRAM. Estou pensando em migrar para uma Radeon Pro por causa de mais VRAM
- No kernel 7.0.0, o desempenho do Vulkan foi muito melhor que o do ROCm, com ganho de velocidade de mais de uns 20%
- NPU serve para eficiência energética quando está na bateria. Não substitui a GPU
Fiquei curioso se o nome “Lemonade” significa algo como aproveitar ao máximo o limão
- Como a pronúncia de “L-L-M” lembra “lemon”, parece um trocadilho de LLM-aid → lemonade
- Se a vida continua te dando limões, melhor fazer limões explosivos
- Eu uso só hardware AMD para inferência local. Acho melhor que Nvidia do ponto de vista do consumidor, por causa dos drivers abertos, eficiência energética e preço
- Disseram que o nome “Lemonsqueeze” foi descartado por ser violento demais
O Lemonade parece ficar em algum ponto entre Ollama e LM Studio. É interessante que o foco não seja só servir modelos, mas um runtime integrado. O ponto principal parece ser a orquestração de várias modalidades ao mesmo tempo, como texto, imagem e áudio. Fico curioso se na prática isso é uma abstração ou só um agrupado de várias ferramentas. Também me pergunto se a otimização para AMD/NPU não pode acabar prejudicando a portabilidade
- Ele empacota várias ferramentas, seleção de modelos e recursos de gerenciamento. Dá para instalar com backend de CPU ou Vulkan, mas no básico só suporta builds ROCm e AMD NPU. Para rodar com CUDA, é preciso sobrescrever a versão do llama.cpp, então a manutenção fica chata. Para rodar modelos locais de forma simples numa máquina AMD, esse é o jeito mais fácil.
  Eu uso junto com o Home Assistant num NAS. Além do Strix Halo, também administro separado um servidor com placa CUDA
É uma pena que os modelos e kernels de NPU usados pelo Lemonade sejam fechados. Seria bom ver mais suporte aberto
- A documentação diz: “é possível registrar modelos do Hugging Face no Lemonade Server”
- Eu comprei o equipamento sabendo que talvez não pudesse usar a NPU, mas mesmo assim ouvir isso é irritante
A verdadeira força do Lemonade é a integração multimodal. Três serviços que normalmente exigiriam APIs diferentes e gerenciamento separado de modelos — geração de texto, geração de imagem e reconhecimento de voz — podem ser tratados por um único servidor com endpoint compatível com OpenAI. Na prototipagem, isso melhora bastante a qualidade.
A NPU é útil para modelos pequenos sempre ativos ou para offload de prefill, mas para chatbots em geral há um certo exagero em torno dela.
Se a AMD conseguir tornar transparente o agendamento entre GPU+NPU para que o desenvolvedor não precise se preocupar com o hardware, há grande chance de virar a opção padrão
Estou rodando Lemonade no Strix Halo. Ele inclui vários backends, como diffusion e llama, mas eu uso só a build ROCm do llama.cpp (link). Não mexo com imagem nem áudio. Com GPT OSS 120B, consigo cerca de 50 tokens por segundo. A NPU é para modelos sempre ativos de baixo consumo, então não traz grande vantagem para chatbots comuns
- Mesmo uma NPU pequena pode fazer offload de parte do cálculo de prefill. Mas, na etapa de decodificação, depende da largura de banda de memória e do suporte a operações internas. Por exemplo, o Apple Neural Engine só suporta operações INT8/FP16, então não ajuda tanto
Li o site e o anúncio, mas ainda fico confuso sobre o que exatamente é o Lemonade. Se é um substituto para o LM Studio, também queria saber se suporta MLX ou Metal no Mac. Se o foco é otimização para AMD, queria entender se em outras GPUs ele fica em desvantagem
- Segundo o roadmap, o beta para macOS está concluído, e o suporte a MLX está em desenvolvimento
- É uma solução completa para instalar e manter facilmente uma stack local de IA. Oferece STT, TTS, geração de imagem e endpoints de LLM de uma vez, e também tem sua própria WebUI. Também suporta endpoints compatíveis com OpenAI, Ollama e Anthropic
- Assim como o LM Studio, ele abstrai vários runtimes, mas pode usar a NPU do Ryzen AI CPU no Linux via o runtime FastFlowML da AMD
- O LM Studio delega a execução real do LLM a outro software, e se esse software não suportar NPU, o desempenho cai. O Lemonade parece fazer justamente esse papel de backend
Achei curioso que o guia de instalação do servidor para Linux não tenha opção de Docker/Podman. Só tem Snap/PPA e RPM. Talvez a ideia seja que quem usa contêiner faça a própria build
- Na prática, existe uma opção de instalação com Docker. Seria bom se isso aparecesse na página de releases
Queria saber se alguém comparou com Ollama. Eu uso bem o Ollama num 9070 XT com ROCm 7.4
- O Lemonade suporta várias APIs e builds específicas para GPU e NPU da AMD. É mantido pela própria AMD. Internamente, os dois são baseados em llama.cpp, mas o Lemonade tem builds otimizadas por GPU
- Quando testei no MacBook M1 Max (64 GB RAM) com o modelo qwen3.59b, o Ollama levou 1min44s e o Lemonade 1min14s, então o Lemonade foi mais rápido
- Eu também queria ver uma comparação com o vLLM
- Atualmente uso Ollama, mas fico curioso sobre a diferença de desempenho em relação ao Lemonade
- Também queria saber se ele é melhor que Vulkan

Lemonade by AMD: servidor local de LLM open source rápido com GPU e NPU

Principais recursos

Design open source e focado no local

Instalação rápida e estrutura leve

Ampla compatibilidade

API unificada

Interface do usuário e ecossistema

Especificações técnicas e exemplos de uso

Hardware e desempenho

Recursos de imagem e voz

Lançamento mais recente

Leituras relacionadas

1 comentários

Comentários do Hacker News