1 pontos por GN⁺ 2026-02-21 | 1 comentários | Compartilhar no WhatsApp
  • Para garantir o desenvolvimento contínuo do ecossistema de IA local, a ggml.ai, equipe fundadora do llama.cpp, está se unindo à Hugging Face
  • ggml e llama.cpp continuarão sendo operados de forma open source e centrada na comunidade, e a equipe seguirá mantendo e dando suporte em tempo integral
  • A Hugging Face planeja garantir a sustentabilidade de longo prazo dos projetos e focar em melhorar a experiência do usuário e a integração com transformers
  • Com a colaboração, a empresa quer ampliar a acessibilidade e a facilidade de distribuição da inferência local (Local Inference) e reforçar o suporte a diversas arquiteturas de modelos
  • As empresas compartilham a visão de longo prazo de construir uma superinteligência open source acessível ao mundo todo

Anúncio da entrada da ggml.ai na Hugging Face

  • A ggml.ai, equipe fundadora do llama.cpp, está se unindo à Hugging Face para manter o futuro da IA verdadeiramente aberto
    • O objetivo é expandir e apoiar as comunidades de ggml e llama.cpp, promovendo o crescimento contínuo da IA local
  • Os projetos do ggml-org continuarão, como antes, open source e liderados pela comunidade
  • A equipe da ggml seguirá mantendo e gerenciando em tempo integral o ggml, o llama.cpp e projetos open source relacionados
  • A nova parceria garantirá a sustentabilidade de longo prazo dos projetos e oferecerá novas oportunidades para usuários e contribuidores
  • Também está previsto melhorar a integração com a biblioteca transformers da Hugging Face para elevar a qualidade do suporte a modelos

Contexto e histórico da colaboração

  • Desde sua fundação em 2023, a ggml.ai vem apoiando o desenvolvimento e a adoção da biblioteca de machine learning ggml
  • Nos últimos três anos, uma pequena equipe fez crescer a comunidade open source e ajudou o ggml a se consolidar como padrão para inferência local de IA eficiente
  • Nesse processo, a Hugging Face atuou como o parceiro de colaboração mais forte
    • Engenheiros da HF contribuíram com funcionalidades centrais para ggml e llama.cpp, suporte multimodal, integração com Inference Endpoints e melhorias na compatibilidade com o formato GGUF, entre outros
  • A colaboração entre os dois lados foi eficiente, e toda a comunidade se beneficiou dela, o que levou esta entrada a se tornar uma formalização da parceria

Mudanças nos projetos open source e na comunidade

  • Não há mudanças na forma de operação de ggml e llama.cpp
    • A equipe continuará dedicada à manutenção dos projetos, e a comunidade manterá a autonomia nas decisões técnicas e estruturais
  • A Hugging Face fornecerá recursos sustentáveis para ampliar o potencial de crescimento dos projetos
  • Os projetos continuarão sendo 100% open source, e a velocidade de suporte a quantização (quantization) após o lançamento de modelos também deve aumentar

Foco técnico

  • Os objetivos conjuntos daqui para frente foram definidos em duas direções principais
    • Integração com um clique ao Hugging Face transformers
      • transformers se consolidou como padrão para definição de modelos de IA, e melhorar a compatibilidade entre os dois ecossistemas é essencial para ampliar o suporte a modelos e a gestão de qualidade
    • Melhorias no empacotamento e na experiência do usuário de softwares baseados em ggml
      • À medida que a inferência local surge como alternativa à inferência em nuvem, é necessário simplificar a implantação de modelos e a acessibilidade para usuários em geral
      • O objetivo é tornar o llama.cpp universal e utilizável em qualquer lugar

Visão de longo prazo

  • A ggml.ai e a Hugging Face têm como objetivo comum construir uma superinteligência open source acessível ao mundo todo
  • Junto com a comunidade de IA local, elas planejam continuar desenvolvendo uma stack de inferência eficiente para alcançar o máximo desempenho mesmo em dispositivos pessoais

Reação da comunidade

  • Membros das comunidades da Hugging Face e da ggml deixaram muitas mensagens de parabéns e expectativa
    • Reações positivas como “um grande avanço para o ecossistema de IA local” e “uma notícia importante para o ecossistema de IA aberto”
  • Alguns usuários pediram explicações mais claras sobre a independência do projeto e a propriedade do código
  • Outras opiniões também levantaram preocupações sobre mudanças de jurisdição decorrentes de aquisição corporativa e transparência open source
  • No geral, a comunidade avalia esta colaboração como uma base para o crescimento contínuo da IA local

1 comentários

 
GN⁺ 2026-02-21
Comentários do Hacker News
  • Acho que a HuggingFace é a verdadeira “Open AI” no sentido original
    Vejo como um dos poucos heróis discretos que realmente popularizaram a IA on-premises
    Lembro da época em que o custo de tráfego era caro, então ainda me impressiona ver tantos modelos hospedados de graça
    Espero que exista um modelo de negócios sustentável. Esse ecossistema seria muito mais pobre sem eles
    Para rodar Kimi ou GLM internamente, ainda é preciso hardware com bom custo-benefício, mas pelo menos a parte de pesos e distribuição já está resolvida

    • Unsloth também deveria entrar nessa lista de heróis discretos
      A documentação é excelente e entrega quants de alta qualidade em formatos principais com rapidez. Considero uma marca confiável
    • Não faço ideia de quanto tráfego a HF processa
      Baixo modelos de centenas de GB com frequência, e é um serviço enorme para a comunidade de IA soberana
    • Se você fizer streaming dos pesos a partir de SSD e expandir o cache KV com swap, fica lento, mas dá para rodar em praticamente qualquer dispositivo
      Para cargas que podem ficar processando durante a noite, é totalmente utilizável, e melhora conforme se aumenta o recurso computacional
    • Não entendo por que não oferecem suporte a BitTorrent
      Existem hf-torrent e hf_transfer, mas não são tão acessíveis quanto links que funcionem direto na interface web
    • Torrent é literalmente o caso de uso perfeito, então ainda me pergunto por que não usam
  • É impossível subestimar o impacto que Georgi Gerganov e o llama.cpp tiveram no ecossistema de modelos locais
    Em março de 2023, eles iniciaram uma revolução ao rodar o LLaMA em notebooks de consumo
    Na época, o README dizia que “o objetivo é rodar o modelo em um MacBook com quantização de 4 bits”
    Assim como a Hugging Face cuidou muito bem do Transformers, espero que o GGML siga o mesmo caminho
    Um texto relacionado está aqui

    • Fico curioso para saber por que seus comentários ficam sempre fixados no topo
  • É impressionante que a HuggingFace faça tanto bem ao mundo e ainda gere receita
    Fico curioso sobre quão sólido é o modelo de negócios, se ele é sustentável no longo prazo e se existe a possibilidade de um dia “ser vendida”

    • Vale ver o artigo recente do FT, “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”
      Link do artigo
    • O modelo de negócios é basicamente parecido com o do GitHub
      Faz a comunidade crescer de graça e vende versões privadas para empresas. Já está no azul
    • Também há hospedagem paga (enterprise) e serviços de consultoria
      Acho que a base é bem sólida
    • Acho difícil acreditar em “nunca vão vender”
      É meio irônico que investidores como AMD, Nvidia, Intel, IBM e Qualcomm estariam lutando pela autonomia dos usuários
    • Já usei a HuggingFace antes por causa de um tutorial, e no cadastro pediram os dados do cartão; um mês depois, chegou uma cobrança
      Como eu não sabia a que serviço aquilo se referia, cancelei a conta. O processo de cobrança opaco foi desagradável
  • A HuggingFace é o GOAT silencioso do setor de IA
    A comunidade e a plataforma são excelentes

    • Impressiona conseguir lucrar mesmo construindo uma plataforma aberta sem truques comerciais obscuros
  • Espero que a frase “a comunidade será operada de forma autônoma e continuará 100% open source” seja verdade
    Mas no fim, é bem possível que os interesses comerciais prevaleçam
    O llama.cpp virou o padrão de fato para inferência local, e muitos projetos dependem dele
    Se uma empresa específica controlar isso, acabará controlando todo o ecossistema de LLMs locais
    A Hugging Face parece boa agora, mas a Google antiga também parecia
    Para evitar o efeito lock-in, seria melhor uma entidade independente sem fins lucrativos administrar isso, ou então haver projetos concorrentes

    • O llama.cpp é open source, então qualquer um pode fazer fork
      Esse “controle” se limitaria a ajudar no desenvolvimento de funcionalidades específicas
  • Sou muito grato por a equipe do ggml ter disponibilizado a tecnologia de quantização para todo mundo
    O esforço deles provocou uma grande mudança

  • Desde 2023 venho patrocinando ggml/llama.cpp/Georgi pelo GitHub, e agora fico feliz em ver que eles parecem ter encontrado um bom lar
    Por isso, estou pensando em encerrar o patrocínio

  • A união de HuggingFace e GGML parece uma combinação perfeita
    Na verdade, acho que isso deveria ter acontecido antes
    Agora estamos no vale da IA local, mas espero um crescimento explosivo dentro de 2 ou 3 anos

    • Na prática, a HuggingFace já vinha apoiando bastante o projeto
      Membros da HF como @ngxson são grandes contribuidores do llama.cpp
  • Estou procurando uma forma eficiente de rodar modelos com Docker em sistemas modestos como um MacBook M1 8GB
    Modelos como Cybersecurity-BaronLLM parecem incríveis, mas no fim meu notebook vira um aquecedor
    Será que preciso comprar um hardware mais potente?

    • Com 8GB, inferência complexa é difícil, mas modelos pequenos ainda são viáveis
      Recomendo modelos como Whisper, SmolVLM, Phi-3-mini e Gemma3
      Veja o exemplo do home-llm
      No Mac, vale usar Ollama ou MLX, e você pode montar uma VM com Docker Desktop ou Colima
      Com 8GB, dá para obter 5 a 10 tokens por segundo; com 32GB, algo perto de 50 tokens. Então o problema é a falta de RAM
    • No fim, você precisa de um sistema potente o suficiente
      Dá para usar modelos pequenos ou modelos quantizados, ou então comprar ou alugar hardware mais forte
      Também pode valer a pena começar sem Docker, usando LM Studio
    • Com 8GB, dá para rodar até modelos 32B com quantização pesada na faixa de 2 bits
      Não é perfeito, mas acho melhor do que simplesmente ter mais parâmetros
    • Esse tipo de pergunta costuma ser melhor respondido em r/LocalLLM
    • Mesmo com 8GB, dá para rodar modelos gguf bem pequenos na CPU com llamafile
      Fica lento e a qualidade é baixa, mas é possível
  • Estou pensando em como participar de forma realista do desenvolvimento de IA
    No trabalho, só uso Copilot, então sinto que estou distante do ecossistema de desenvolvimento em IA
    Tenho experiência full stack com Java/React e também mexo um pouco com Python
    Estou em dúvida entre tentar algo como LLM from scratch, fazer o Google ML Crash Course ou buscar uma certificação da Nvidia
    Gostaria de conselhos

    • Se o objetivo não estiver claro, o melhor é construir você mesmo um projeto pequeno ligado a algo que te interesse
      Em vez de começar direto com LLM, comece pequeno em alguma área de interesse, como gráficos
    • Recomendo estudar fine-tuning de modelos ou destilação de conhecimento (distillation)
      A Unsloth tem bons guias gratuitos no Colab