- Para garantir o desenvolvimento contínuo do ecossistema de IA local, a ggml.ai, equipe fundadora do
llama.cpp, está se unindo à Hugging Face
ggml e llama.cpp continuarão sendo operados de forma open source e centrada na comunidade, e a equipe seguirá mantendo e dando suporte em tempo integral
- A Hugging Face planeja garantir a sustentabilidade de longo prazo dos projetos e focar em melhorar a experiência do usuário e a integração com transformers
- Com a colaboração, a empresa quer ampliar a acessibilidade e a facilidade de distribuição da inferência local (Local Inference) e reforçar o suporte a diversas arquiteturas de modelos
- As empresas compartilham a visão de longo prazo de construir uma superinteligência open source acessível ao mundo todo
Anúncio da entrada da ggml.ai na Hugging Face
- A ggml.ai, equipe fundadora do
llama.cpp, está se unindo à Hugging Face para manter o futuro da IA verdadeiramente aberto
- O objetivo é expandir e apoiar as comunidades de
ggml e llama.cpp, promovendo o crescimento contínuo da IA local
- Os projetos do
ggml-org continuarão, como antes, open source e liderados pela comunidade
- A equipe da ggml seguirá mantendo e gerenciando em tempo integral o
ggml, o llama.cpp e projetos open source relacionados
- A nova parceria garantirá a sustentabilidade de longo prazo dos projetos e oferecerá novas oportunidades para usuários e contribuidores
- Também está previsto melhorar a integração com a biblioteca
transformers da Hugging Face para elevar a qualidade do suporte a modelos
Contexto e histórico da colaboração
- Desde sua fundação em 2023, a ggml.ai vem apoiando o desenvolvimento e a adoção da biblioteca de machine learning
ggml
- Nos últimos três anos, uma pequena equipe fez crescer a comunidade open source e ajudou o
ggml a se consolidar como padrão para inferência local de IA eficiente
- Nesse processo, a Hugging Face atuou como o parceiro de colaboração mais forte
- Engenheiros da HF contribuíram com funcionalidades centrais para
ggml e llama.cpp, suporte multimodal, integração com Inference Endpoints e melhorias na compatibilidade com o formato GGUF, entre outros
- A colaboração entre os dois lados foi eficiente, e toda a comunidade se beneficiou dela, o que levou esta entrada a se tornar uma formalização da parceria
Mudanças nos projetos open source e na comunidade
- Não há mudanças na forma de operação de
ggml e llama.cpp
- A equipe continuará dedicada à manutenção dos projetos, e a comunidade manterá a autonomia nas decisões técnicas e estruturais
- A Hugging Face fornecerá recursos sustentáveis para ampliar o potencial de crescimento dos projetos
- Os projetos continuarão sendo 100% open source, e a velocidade de suporte a quantização (quantization) após o lançamento de modelos também deve aumentar
Foco técnico
- Os objetivos conjuntos daqui para frente foram definidos em duas direções principais
- Integração com um clique ao Hugging Face transformers
transformers se consolidou como padrão para definição de modelos de IA, e melhorar a compatibilidade entre os dois ecossistemas é essencial para ampliar o suporte a modelos e a gestão de qualidade
- Melhorias no empacotamento e na experiência do usuário de softwares baseados em ggml
- À medida que a inferência local surge como alternativa à inferência em nuvem, é necessário simplificar a implantação de modelos e a acessibilidade para usuários em geral
- O objetivo é tornar o
llama.cpp universal e utilizável em qualquer lugar
Visão de longo prazo
- A ggml.ai e a Hugging Face têm como objetivo comum construir uma superinteligência open source acessível ao mundo todo
- Junto com a comunidade de IA local, elas planejam continuar desenvolvendo uma stack de inferência eficiente para alcançar o máximo desempenho mesmo em dispositivos pessoais
Reação da comunidade
- Membros das comunidades da Hugging Face e da ggml deixaram muitas mensagens de parabéns e expectativa
- Reações positivas como “um grande avanço para o ecossistema de IA local” e “uma notícia importante para o ecossistema de IA aberto”
- Alguns usuários pediram explicações mais claras sobre a independência do projeto e a propriedade do código
- Outras opiniões também levantaram preocupações sobre mudanças de jurisdição decorrentes de aquisição corporativa e transparência open source
- No geral, a comunidade avalia esta colaboração como uma base para o crescimento contínuo da IA local
1 comentários
Comentários do Hacker News
Acho que a HuggingFace é a verdadeira “Open AI” no sentido original
Vejo como um dos poucos heróis discretos que realmente popularizaram a IA on-premises
Lembro da época em que o custo de tráfego era caro, então ainda me impressiona ver tantos modelos hospedados de graça
Espero que exista um modelo de negócios sustentável. Esse ecossistema seria muito mais pobre sem eles
Para rodar Kimi ou GLM internamente, ainda é preciso hardware com bom custo-benefício, mas pelo menos a parte de pesos e distribuição já está resolvida
A documentação é excelente e entrega quants de alta qualidade em formatos principais com rapidez. Considero uma marca confiável
Baixo modelos de centenas de GB com frequência, e é um serviço enorme para a comunidade de IA soberana
Para cargas que podem ficar processando durante a noite, é totalmente utilizável, e melhora conforme se aumenta o recurso computacional
Existem hf-torrent e hf_transfer, mas não são tão acessíveis quanto links que funcionem direto na interface web
É impossível subestimar o impacto que Georgi Gerganov e o llama.cpp tiveram no ecossistema de modelos locais
Em março de 2023, eles iniciaram uma revolução ao rodar o LLaMA em notebooks de consumo
Na época, o README dizia que “o objetivo é rodar o modelo em um MacBook com quantização de 4 bits”
Assim como a Hugging Face cuidou muito bem do Transformers, espero que o GGML siga o mesmo caminho
Um texto relacionado está aqui
É impressionante que a HuggingFace faça tanto bem ao mundo e ainda gere receita
Fico curioso sobre quão sólido é o modelo de negócios, se ele é sustentável no longo prazo e se existe a possibilidade de um dia “ser vendida”
Link do artigo
Faz a comunidade crescer de graça e vende versões privadas para empresas. Já está no azul
Acho que a base é bem sólida
É meio irônico que investidores como AMD, Nvidia, Intel, IBM e Qualcomm estariam lutando pela autonomia dos usuários
Como eu não sabia a que serviço aquilo se referia, cancelei a conta. O processo de cobrança opaco foi desagradável
A HuggingFace é o GOAT silencioso do setor de IA
A comunidade e a plataforma são excelentes
Espero que a frase “a comunidade será operada de forma autônoma e continuará 100% open source” seja verdade
Mas no fim, é bem possível que os interesses comerciais prevaleçam
O llama.cpp virou o padrão de fato para inferência local, e muitos projetos dependem dele
Se uma empresa específica controlar isso, acabará controlando todo o ecossistema de LLMs locais
A Hugging Face parece boa agora, mas a Google antiga também parecia
Para evitar o efeito lock-in, seria melhor uma entidade independente sem fins lucrativos administrar isso, ou então haver projetos concorrentes
Esse “controle” se limitaria a ajudar no desenvolvimento de funcionalidades específicas
Sou muito grato por a equipe do ggml ter disponibilizado a tecnologia de quantização para todo mundo
O esforço deles provocou uma grande mudança
Desde 2023 venho patrocinando ggml/llama.cpp/Georgi pelo GitHub, e agora fico feliz em ver que eles parecem ter encontrado um bom lar
Por isso, estou pensando em encerrar o patrocínio
A união de HuggingFace e GGML parece uma combinação perfeita
Na verdade, acho que isso deveria ter acontecido antes
Agora estamos no vale da IA local, mas espero um crescimento explosivo dentro de 2 ou 3 anos
Membros da HF como @ngxson são grandes contribuidores do llama.cpp
Estou procurando uma forma eficiente de rodar modelos com Docker em sistemas modestos como um MacBook M1 8GB
Modelos como Cybersecurity-BaronLLM parecem incríveis, mas no fim meu notebook vira um aquecedor
Será que preciso comprar um hardware mais potente?
Recomendo modelos como Whisper, SmolVLM, Phi-3-mini e Gemma3
Veja o exemplo do home-llm
No Mac, vale usar Ollama ou MLX, e você pode montar uma VM com Docker Desktop ou Colima
Com 8GB, dá para obter 5 a 10 tokens por segundo; com 32GB, algo perto de 50 tokens. Então o problema é a falta de RAM
Dá para usar modelos pequenos ou modelos quantizados, ou então comprar ou alugar hardware mais forte
Também pode valer a pena começar sem Docker, usando LM Studio
Não é perfeito, mas acho melhor do que simplesmente ter mais parâmetros
Fica lento e a qualidade é baixa, mas é possível
Estou pensando em como participar de forma realista do desenvolvimento de IA
No trabalho, só uso Copilot, então sinto que estou distante do ecossistema de desenvolvimento em IA
Tenho experiência full stack com Java/React e também mexo um pouco com Python
Estou em dúvida entre tentar algo como LLM from scratch, fazer o Google ML Crash Course ou buscar uma certificação da Nvidia
Gostaria de conselhos
Em vez de começar direto com LLM, comece pequeno em alguma área de interesse, como gráficos
A Unsloth tem bons guias gratuitos no Colab