11 pontos por GN⁺ 27 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Servidor local de IA com suporte da AMD, uma plataforma open source que usa GPU e NPU para processar rapidamente texto, imagem e voz
  • Dá prioridade à execução local e à privacidade, sendo compatível com o padrão da API da OpenAI, o que permite integração imediata com diversos apps
  • Oferece um ambiente prático de IA local com backend leve em C++, configuração automática de hardware e execução simultânea de múltiplos modelos
  • Suporta Chat, Vision, Image Generation, Transcription e Speech Generation em uma única API unificada
  • Oferece o mesmo ambiente em Windows, Linux e macOS(beta), e o GUI integrado facilita o download e a troca de modelos

Principais recursos

  • Design open source e focado no local

    • Desenvolvido com base na filosofia de que a IA local deve ser livre, aberta, rápida e privada
    • Foi construído de forma protagonista pela comunidade de IA local e pode ser executado em qualquer PC
    • Dá importância à privacidade e a um ambiente de execução independente
  • Instalação rápida e estrutura leve

    • O One Minute Install configura automaticamente toda a stack
    • O backend nativo em C++ é um serviço leve com cerca de 2 MB
    • O recurso de configuração automática de hardware ajusta automaticamente ambientes com GPU e NPU
  • Ampla compatibilidade

    • A compatibilidade com a API da OpenAI permite integração imediata com centenas de apps
    • Suporta diversos motores de inferência, como llama.cpp, Ryzen AI SW e FastFlowLM
    • Permite execução simultânea de múltiplos modelos, possibilitando rodar vários modelos em paralelo
  • API unificada

    • Um único serviço local oferece suporte a Chat, Vision, Image Generation, Transcription e Speech Generation
    • É fornecido no formato de API REST padrão e, por exemplo, é possível chamar um modelo conversacional pelo endpoint POST /api/v1/chat/completions
    • No exemplo de requisição, "model": "Qwen3-0.6B-GGUF" é usado para perguntar sobre a população de Paris
  • Interface do usuário e ecossistema

    • O app GUI integrado permite baixar, testar e trocar modelos rapidamente
    • Com base no padrão da API da OpenAI, é compatível de imediato com diversos apps
    • A participação da comunidade impulsiona melhorias contínuas e expansão de recursos

Especificações técnicas e exemplos de uso

  • Hardware e desempenho

    • Em um ambiente com 128 GB de RAM unificada, é possível executar modelos grandes como gpt-oss-120b e Qwen-Coder-Next
    • Com a opção --no-mmap, é possível reduzir o tempo de carregamento e ampliar o tamanho do contexto (64 ou mais)
  • Recursos de imagem e voz

    • Exemplo de geração de imagem: “jarra de limonada em estilo renascentista”
    • Exemplo de voz: “Hello, I am your AI assistant. What can I do for you today?”

Lançamento mais recente

  • O Lemonade continua sendo aprimorado continuamente, com novos recursos e melhorias de desempenho fornecidos por meio do fluxo de lançamentos
  • Novos recursos e destaques podem ser conferidos no site oficial

1 comentários

 
GN⁺ 27 일 전
Comentários do Hacker News
  • Estou usando o Lemonade há quase 1 ano. No Strix Halo, uso só ele, sem outras ferramentas. O AMD Strix Halo Toolboxes do kyuz0 também é bom, mas o Lemonade faz TTS, STT, geração de texto e imagem, e até edição de imagem. Suporta vários backends, como ROCm, Vulkan, CPU, GPU e NPU, e o ritmo de desenvolvimento é prático e rápido. Se for hardware AMD, recomendo fortemente.
    Graças aos endpoints compatíveis com OpenAI e Ollama, também dá para usar direto no VSCode Copilot ou no Open Web UI

    • Fico curioso para saber quanto seria o ganho de velocidade ao rodar o modelo Qwen3.5-122B no Strix Halo com Lemonade, em comparação com o llama.cpp baseado em Vulkan
    • Queria saber se alguém já usou com agents ou Claw e quais modelos rodou
  • Estou rodando LLM local num 7900 XTX há alguns meses, e a experiência com ROCm foi bem áspera. O fato de a AMD lançar um servidor oficial de inferência para resolver problemas de driver e dependências é um grande avanço. Ainda assim, fico curioso se o suporte a NPU realmente entrega um throughput relevante. Nos meus testes, fora modelos pequenos, virou gargalo

    • Queria entender o que foi tão difícil. Eu rodo modelos locais com Ollama numa RX 7900 XTX e quase não tive problemas com ROCm. Só acho pena o limite de 24 GB de VRAM. Estou pensando em migrar para uma Radeon Pro por causa de mais VRAM
    • No kernel 7.0.0, o desempenho do Vulkan foi muito melhor que o do ROCm, com ganho de velocidade de mais de uns 20%
    • NPU serve para eficiência energética quando está na bateria. Não substitui a GPU
  • Fiquei curioso se o nome “Lemonade” significa algo como aproveitar ao máximo o limão

    • Como a pronúncia de “L-L-M” lembra “lemon”, parece um trocadilho de LLM-aid → lemonade
    • Se a vida continua te dando limões, melhor fazer limões explosivos
    • Eu uso só hardware AMD para inferência local. Acho melhor que Nvidia do ponto de vista do consumidor, por causa dos drivers abertos, eficiência energética e preço
    • Disseram que o nome “Lemonsqueeze” foi descartado por ser violento demais
  • O Lemonade parece ficar em algum ponto entre Ollama e LM Studio. É interessante que o foco não seja só servir modelos, mas um runtime integrado. O ponto principal parece ser a orquestração de várias modalidades ao mesmo tempo, como texto, imagem e áudio. Fico curioso se na prática isso é uma abstração ou só um agrupado de várias ferramentas. Também me pergunto se a otimização para AMD/NPU não pode acabar prejudicando a portabilidade

    • Ele empacota várias ferramentas, seleção de modelos e recursos de gerenciamento. Dá para instalar com backend de CPU ou Vulkan, mas no básico só suporta builds ROCm e AMD NPU. Para rodar com CUDA, é preciso sobrescrever a versão do llama.cpp, então a manutenção fica chata. Para rodar modelos locais de forma simples numa máquina AMD, esse é o jeito mais fácil.
      Eu uso junto com o Home Assistant num NAS. Além do Strix Halo, também administro separado um servidor com placa CUDA
  • É uma pena que os modelos e kernels de NPU usados pelo Lemonade sejam fechados. Seria bom ver mais suporte aberto

    • A documentação diz: “é possível registrar modelos do Hugging Face no Lemonade Server”
    • Eu comprei o equipamento sabendo que talvez não pudesse usar a NPU, mas mesmo assim ouvir isso é irritante
  • A verdadeira força do Lemonade é a integração multimodal. Três serviços que normalmente exigiriam APIs diferentes e gerenciamento separado de modelos — geração de texto, geração de imagem e reconhecimento de voz — podem ser tratados por um único servidor com endpoint compatível com OpenAI. Na prototipagem, isso melhora bastante a qualidade.
    A NPU é útil para modelos pequenos sempre ativos ou para offload de prefill, mas para chatbots em geral há um certo exagero em torno dela.
    Se a AMD conseguir tornar transparente o agendamento entre GPU+NPU para que o desenvolvedor não precise se preocupar com o hardware, há grande chance de virar a opção padrão

  • Estou rodando Lemonade no Strix Halo. Ele inclui vários backends, como diffusion e llama, mas eu uso só a build ROCm do llama.cpp (link). Não mexo com imagem nem áudio. Com GPT OSS 120B, consigo cerca de 50 tokens por segundo. A NPU é para modelos sempre ativos de baixo consumo, então não traz grande vantagem para chatbots comuns

    • Mesmo uma NPU pequena pode fazer offload de parte do cálculo de prefill. Mas, na etapa de decodificação, depende da largura de banda de memória e do suporte a operações internas. Por exemplo, o Apple Neural Engine só suporta operações INT8/FP16, então não ajuda tanto
  • Li o site e o anúncio, mas ainda fico confuso sobre o que exatamente é o Lemonade. Se é um substituto para o LM Studio, também queria saber se suporta MLX ou Metal no Mac. Se o foco é otimização para AMD, queria entender se em outras GPUs ele fica em desvantagem

    • Segundo o roadmap, o beta para macOS está concluído, e o suporte a MLX está em desenvolvimento
    • É uma solução completa para instalar e manter facilmente uma stack local de IA. Oferece STT, TTS, geração de imagem e endpoints de LLM de uma vez, e também tem sua própria WebUI. Também suporta endpoints compatíveis com OpenAI, Ollama e Anthropic
    • Assim como o LM Studio, ele abstrai vários runtimes, mas pode usar a NPU do Ryzen AI CPU no Linux via o runtime FastFlowML da AMD
    • O LM Studio delega a execução real do LLM a outro software, e se esse software não suportar NPU, o desempenho cai. O Lemonade parece fazer justamente esse papel de backend
  • Achei curioso que o guia de instalação do servidor para Linux não tenha opção de Docker/Podman. Só tem Snap/PPA e RPM. Talvez a ideia seja que quem usa contêiner faça a própria build

  • Queria saber se alguém comparou com Ollama. Eu uso bem o Ollama num 9070 XT com ROCm 7.4

    • O Lemonade suporta várias APIs e builds específicas para GPU e NPU da AMD. É mantido pela própria AMD. Internamente, os dois são baseados em llama.cpp, mas o Lemonade tem builds otimizadas por GPU
    • Quando testei no MacBook M1 Max (64 GB RAM) com o modelo qwen3.59b, o Ollama levou 1min44s e o Lemonade 1min14s, então o Lemonade foi mais rápido
    • Eu também queria ver uma comparação com o vLLM
    • Atualmente uso Ollama, mas fico curioso sobre a diferença de desempenho em relação ao Lemonade
    • Também queria saber se ele é melhor que Vulkan