ggml.ai se une à Hugging Face para garantir o desenvolvimento de longo prazo da IA local

(github.com/ggml-org)

1 pontos por GN⁺ 2026-02-21 | 1 comentários | Compartilhar no WhatsApp

Para garantir o desenvolvimento contínuo do ecossistema de IA local, a ggml.ai, equipe fundadora do llama.cpp, está se unindo à Hugging Face
ggml e llama.cpp continuarão sendo operados de forma open source e centrada na comunidade, e a equipe seguirá mantendo e dando suporte em tempo integral
A Hugging Face planeja garantir a sustentabilidade de longo prazo dos projetos e focar em melhorar a experiência do usuário e a integração com transformers
Com a colaboração, a empresa quer ampliar a acessibilidade e a facilidade de distribuição da inferência local (Local Inference) e reforçar o suporte a diversas arquiteturas de modelos
As empresas compartilham a visão de longo prazo de construir uma superinteligência open source acessível ao mundo todo

Anúncio da entrada da ggml.ai na Hugging Face

A ggml.ai, equipe fundadora do llama.cpp, está se unindo à Hugging Face para manter o futuro da IA verdadeiramente aberto
- O objetivo é expandir e apoiar as comunidades de ggml e llama.cpp, promovendo o crescimento contínuo da IA local
Os projetos do ggml-org continuarão, como antes, open source e liderados pela comunidade
A equipe da ggml seguirá mantendo e gerenciando em tempo integral o ggml, o llama.cpp e projetos open source relacionados
A nova parceria garantirá a sustentabilidade de longo prazo dos projetos e oferecerá novas oportunidades para usuários e contribuidores
Também está previsto melhorar a integração com a biblioteca transformers da Hugging Face para elevar a qualidade do suporte a modelos

Contexto e histórico da colaboração

Desde sua fundação em 2023, a ggml.ai vem apoiando o desenvolvimento e a adoção da biblioteca de machine learning ggml
Nos últimos três anos, uma pequena equipe fez crescer a comunidade open source e ajudou o ggml a se consolidar como padrão para inferência local de IA eficiente
Nesse processo, a Hugging Face atuou como o parceiro de colaboração mais forte
- Engenheiros da HF contribuíram com funcionalidades centrais para ggml e llama.cpp, suporte multimodal, integração com Inference Endpoints e melhorias na compatibilidade com o formato GGUF, entre outros
A colaboração entre os dois lados foi eficiente, e toda a comunidade se beneficiou dela, o que levou esta entrada a se tornar uma formalização da parceria

Mudanças nos projetos open source e na comunidade

Não há mudanças na forma de operação de ggml e llama.cpp
- A equipe continuará dedicada à manutenção dos projetos, e a comunidade manterá a autonomia nas decisões técnicas e estruturais
A Hugging Face fornecerá recursos sustentáveis para ampliar o potencial de crescimento dos projetos
Os projetos continuarão sendo 100% open source, e a velocidade de suporte a quantização (quantization) após o lançamento de modelos também deve aumentar

Foco técnico

Os objetivos conjuntos daqui para frente foram definidos em duas direções principais
- Integração com um clique ao Hugging Face transformers
  - transformers se consolidou como padrão para definição de modelos de IA, e melhorar a compatibilidade entre os dois ecossistemas é essencial para ampliar o suporte a modelos e a gestão de qualidade
- Melhorias no empacotamento e na experiência do usuário de softwares baseados em ggml
  - À medida que a inferência local surge como alternativa à inferência em nuvem, é necessário simplificar a implantação de modelos e a acessibilidade para usuários em geral
  - O objetivo é tornar o llama.cpp universal e utilizável em qualquer lugar

Visão de longo prazo

A ggml.ai e a Hugging Face têm como objetivo comum construir uma superinteligência open source acessível ao mundo todo
Junto com a comunidade de IA local, elas planejam continuar desenvolvendo uma stack de inferência eficiente para alcançar o máximo desempenho mesmo em dispositivos pessoais

Reação da comunidade

Membros das comunidades da Hugging Face e da ggml deixaram muitas mensagens de parabéns e expectativa
- Reações positivas como “um grande avanço para o ecossistema de IA local” e “uma notícia importante para o ecossistema de IA aberto”
Alguns usuários pediram explicações mais claras sobre a independência do projeto e a propriedade do código
Outras opiniões também levantaram preocupações sobre mudanças de jurisdição decorrentes de aquisição corporativa e transparência open source
No geral, a comunidade avalia esta colaboração como uma base para o crescimento contínuo da IA local

1 comentários

GN⁺ 2026-02-21

Comentários do Hacker News

Acho que a HuggingFace é a verdadeira “Open AI” no sentido original
Vejo como um dos poucos heróis discretos que realmente popularizaram a IA on-premises
Lembro da época em que o custo de tráfego era caro, então ainda me impressiona ver tantos modelos hospedados de graça
Espero que exista um modelo de negócios sustentável. Esse ecossistema seria muito mais pobre sem eles
Para rodar Kimi ou GLM internamente, ainda é preciso hardware com bom custo-benefício, mas pelo menos a parte de pesos e distribuição já está resolvida
- Unsloth também deveria entrar nessa lista de heróis discretos
  A documentação é excelente e entrega quants de alta qualidade em formatos principais com rapidez. Considero uma marca confiável
- Não faço ideia de quanto tráfego a HF processa
  Baixo modelos de centenas de GB com frequência, e é um serviço enorme para a comunidade de IA soberana
- Se você fizer streaming dos pesos a partir de SSD e expandir o cache KV com swap, fica lento, mas dá para rodar em praticamente qualquer dispositivo
  Para cargas que podem ficar processando durante a noite, é totalmente utilizável, e melhora conforme se aumenta o recurso computacional
- Não entendo por que não oferecem suporte a BitTorrent
  Existem hf-torrent e hf_transfer, mas não são tão acessíveis quanto links que funcionem direto na interface web
- Torrent é literalmente o caso de uso perfeito, então ainda me pergunto por que não usam
É impossível subestimar o impacto que Georgi Gerganov e o llama.cpp tiveram no ecossistema de modelos locais
Em março de 2023, eles iniciaram uma revolução ao rodar o LLaMA em notebooks de consumo
Na época, o README dizia que “o objetivo é rodar o modelo em um MacBook com quantização de 4 bits”
Assim como a Hugging Face cuidou muito bem do Transformers, espero que o GGML siga o mesmo caminho
Um texto relacionado está aqui
- Fico curioso para saber por que seus comentários ficam sempre fixados no topo
É impressionante que a HuggingFace faça tanto bem ao mundo e ainda gere receita
Fico curioso sobre quão sólido é o modelo de negócios, se ele é sustentável no longo prazo e se existe a possibilidade de um dia “ser vendida”
- Vale ver o artigo recente do FT, “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”
  Link do artigo
- O modelo de negócios é basicamente parecido com o do GitHub
  Faz a comunidade crescer de graça e vende versões privadas para empresas. Já está no azul
- Também há hospedagem paga (enterprise) e serviços de consultoria
  Acho que a base é bem sólida
- Acho difícil acreditar em “nunca vão vender”
  É meio irônico que investidores como AMD, Nvidia, Intel, IBM e Qualcomm estariam lutando pela autonomia dos usuários
- Já usei a HuggingFace antes por causa de um tutorial, e no cadastro pediram os dados do cartão; um mês depois, chegou uma cobrança
  Como eu não sabia a que serviço aquilo se referia, cancelei a conta. O processo de cobrança opaco foi desagradável
A HuggingFace é o GOAT silencioso do setor de IA
A comunidade e a plataforma são excelentes
- Impressiona conseguir lucrar mesmo construindo uma plataforma aberta sem truques comerciais obscuros
Espero que a frase “a comunidade será operada de forma autônoma e continuará 100% open source” seja verdade
Mas no fim, é bem possível que os interesses comerciais prevaleçam
O llama.cpp virou o padrão de fato para inferência local, e muitos projetos dependem dele
Se uma empresa específica controlar isso, acabará controlando todo o ecossistema de LLMs locais
A Hugging Face parece boa agora, mas a Google antiga também parecia
Para evitar o efeito lock-in, seria melhor uma entidade independente sem fins lucrativos administrar isso, ou então haver projetos concorrentes
- O llama.cpp é open source, então qualquer um pode fazer fork
  Esse “controle” se limitaria a ajudar no desenvolvimento de funcionalidades específicas
Sou muito grato por a equipe do ggml ter disponibilizado a tecnologia de quantização para todo mundo
O esforço deles provocou uma grande mudança
Desde 2023 venho patrocinando ggml/llama.cpp/Georgi pelo GitHub, e agora fico feliz em ver que eles parecem ter encontrado um bom lar
Por isso, estou pensando em encerrar o patrocínio
A união de HuggingFace e GGML parece uma combinação perfeita
Na verdade, acho que isso deveria ter acontecido antes
Agora estamos no vale da IA local, mas espero um crescimento explosivo dentro de 2 ou 3 anos
- Na prática, a HuggingFace já vinha apoiando bastante o projeto
  Membros da HF como @ngxson são grandes contribuidores do llama.cpp
Estou procurando uma forma eficiente de rodar modelos com Docker em sistemas modestos como um MacBook M1 8GB
Modelos como Cybersecurity-BaronLLM parecem incríveis, mas no fim meu notebook vira um aquecedor
Será que preciso comprar um hardware mais potente?
- Com 8GB, inferência complexa é difícil, mas modelos pequenos ainda são viáveis
  Recomendo modelos como Whisper, SmolVLM, Phi-3-mini e Gemma3
  Veja o exemplo do home-llm
  No Mac, vale usar Ollama ou MLX, e você pode montar uma VM com Docker Desktop ou Colima
  Com 8GB, dá para obter 5 a 10 tokens por segundo; com 32GB, algo perto de 50 tokens. Então o problema é a falta de RAM
- No fim, você precisa de um sistema potente o suficiente
  Dá para usar modelos pequenos ou modelos quantizados, ou então comprar ou alugar hardware mais forte
  Também pode valer a pena começar sem Docker, usando LM Studio
- Com 8GB, dá para rodar até modelos 32B com quantização pesada na faixa de 2 bits
  Não é perfeito, mas acho melhor do que simplesmente ter mais parâmetros
- Esse tipo de pergunta costuma ser melhor respondido em r/LocalLLM
- Mesmo com 8GB, dá para rodar modelos gguf bem pequenos na CPU com llamafile
  Fica lento e a qualidade é baixa, mas é possível
Estou pensando em como participar de forma realista do desenvolvimento de IA
No trabalho, só uso Copilot, então sinto que estou distante do ecossistema de desenvolvimento em IA
Tenho experiência full stack com Java/React e também mexo um pouco com Python
Estou em dúvida entre tentar algo como LLM from scratch, fazer o Google ML Crash Course ou buscar uma certificação da Nvidia
Gostaria de conselhos
- Se o objetivo não estiver claro, o melhor é construir você mesmo um projeto pequeno ligado a algo que te interesse
  Em vez de começar direto com LLM, comece pequeno em alguma área de interesse, como gráficos
- Recomendo estudar fine-tuning de modelos ou destilação de conhecimento (distillation)
  A Unsloth tem bons guias gratuitos no Colab

ggml.ai se une à Hugging Face para garantir o desenvolvimento de longo prazo da IA local

Anúncio da entrada da ggml.ai na Hugging Face

Contexto e histórico da colaboração

Mudanças nos projetos open source e na comunidade

Foco técnico

Visão de longo prazo

Reação da comunidade

Leituras relacionadas

1 comentários

Comentários do Hacker News