4 pontos por GN⁺ 2025-08-15 | 3 comentários | Compartilhar no WhatsApp
  • Gemma 3 270M é um modelo leve com 270 milhões de parâmetros, com forte capacidade de seguir instruções e de estruturar texto
  • Com um vocabulário em larga escala de 256k tokens, lida bem com tokens raros e foi projetado como um modelo baseado em fine-tuning para domínios e idiomas específicos
  • No SoC do Pixel 9 Pro, o modelo quantizado em INT4 consome apenas 0,75% de bateria em 25 conversas, mostrando excelente eficiência energética
  • Em vez de um grande modelo genérico, é uma boa estratégia para operar vários modelos pequenos e especializados, garantindo velocidade, custo e precisão ao mesmo tempo
  • Otimizado para execução on-device, experimentação iterativa rápida e operações de baixo custo em tarefas fixas, permitindo criar diversas aplicações de IA

Visão geral do Gemma 3 270M

  • Novo modelo pequeno e especializado para fine-tuning lançado pelo Google após o Gemma 3 e o Gemma 3 QAT
  • Dos 270M parâmetros, 170 milhões são alocados a embeddings e 100 milhões a blocos Transformer
  • O grande vocabulário de 256k tokens permite lidar com tokens raros e especiais
  • Disponível nas versões pré-treinada (pretrained) e ajustada para instruções (instruction-tuned)

Principais características

  • Estrutura compacta, mas poderosa: ideal para fine-tuning personalizado por domínio/idioma específico
  • Eficiência energética extrema: no SoC do Pixel 9 Pro, o modelo INT4 usa apenas 0,75% de bateria em 25 conversas
  • Capacidade de seguir instruções: otimizado mais para tarefas objetivas do que para conversa genérica, podendo seguir instruções mesmo no estado base
  • Suporte a quantização (QAT): minimiza a perda de desempenho com precisão INT4, adequado para ambientes com restrição de recursos

Filosofia do ‘modelo certo no lugar certo’

  • Enfatiza uma abordagem centrada em eficiência no design de IA
  • Modelos pequenos permitem respostas rápidas e operação de baixo custo
  • Quando especializados em tarefas claras, como classificação de texto e extração de dados, entregam alto desempenho

Casos reais de aplicação

  • A Adaptive ML fez fine-tuning do modelo Gemma 3 4B para moderação de conteúdo multilíngue da SK Telecom e alcançou desempenho superior ao de grandes modelos proprietários
  • O modelo 270M amplia essa abordagem em uma escala menor, permitindo criar em massa ‘modelos especialistas’ para grupos de tarefas específicas
  • O app web Bedtime Story Generator, da Hugging Face, usa o Gemma 3 270M para gerar conteúdo em tempo real offline ou diretamente no navegador

Cenários de uso adequados

  • Processamento claro e em grande volume de tarefas: ideal para tarefas específicas como análise de sentimento, extração de entidades, roteamento de consultas, transformação de texto, criação e verificação de conformidade
  • Máxima economia e velocidade: pode operar com custo muito baixo em infraestrutura leve ou on-device, oferecendo resposta imediata
  • Desenvolvimento e implantação rápidos: por ser pequeno, os experimentos de fine-tuning e os processos de otimização/teste podem ser concluídos em poucas horas
  • Privacidade: permite processamento embarcado no dispositivo sem envio para a nuvem, favorecendo a proteção de informações sensíveis
  • Operação de modelos especializados personalizados: permite construir e implantar ao mesmo tempo vários modelos para diferentes finalidades sem pesar no orçamento

Fine-tuning e implantação

  • O modelo pode ser baixado em Hugging Face, Ollama, Kaggle, LM Studio, Docker e outros
  • Suporta várias ferramentas de inferência, como Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras e MLX
  • Há guias completos de fine-tuning com base em Hugging Face, UnSloth e JAX
  • A implantação é flexível, do ambiente local ao Google Cloud Run

Conclusão

  • O Gemma 3 270M é um modelo base pequeno, mas poderoso, que acelera a criação de soluções de IA otimizadas para tarefas específicas
  • Escolha ideal para desenvolvedores que buscam ao mesmo tempo baixo custo, alta eficiência e implantação rápida

3 comentários

 
kaydash 2025-08-16

Se viesse em um arquivo .task, eu poderia usar à vontade em um smartphone Android..

 
kaydash 2025-08-17

Tinha um arquivo .task (não web) que alguém já tinha criado, então testei no celular, e ele responde bem de forma concisa e rápida.

Mas acho que o qwen3:0.6b (claro, embora este seja mais pesado) se sai melhor.

 
GN⁺ 2025-08-15
Comentários do Hacker News
  • Eu criei esses modelos com uma equipe incrível e recomendo que todos os experimentem, já que podem ser baixados em todo o ecossistema de modelos abertos. Nós os projetamos com o objetivo de entregar um desempenho forte em relação ao tamanho do modelo, e para que qualquer pessoa possa fazer fine-tuning facilmente de acordo com seu caso de uso. Graças ao tamanho reduzido, eles podem rodar em vários tipos de hardware, e o custo de fine-tuning também é muito baixo. Dá até para testar fine-tuning em menos de 5 minutos no Colab gratuito. Como guia para escolher o tamanho do Gemma, vale ver o vídeo que eu mesmo gravei apresentando as versões de 1b a 27b, além da versão 270m adicionada recentemente link do YouTube. Eu trabalho como pesquisador no Google, mas todos os comentários aqui são opiniões pessoais. Vou compartilhar o máximo possível, com foco em perguntas técnicas

    • Acho os modelos Gemma 3 realmente incríveis. A geração em norueguês também é boa, e o seguimento de instruções funciona bem na maioria dos casos. Mas parece haver um problema relacionado à censura, especialmente em temas sérios, em que ele age de forma conservadora demais, diferente das instruções. Por exemplo, mesmo quando peço para classificar se mensagens de conversa em um jogo onde jogadores podem se matar entre si são ameaças reais ou ameaças dentro do jogo, ele não funciona bem. Mesmo quando digo para classificar como relacionado a jogo se não estiver claro, ainda tende a se inclinar para segurança. Às vezes até responde com linhas de ajuda. Imagino que isso venha do treinamento para comportamento seguro, mas queria saber se você conhece o motivo

    • Lembrei de um engenheiro incrível do Google que conheci na BSidesSF. Era alguém que respondeu às perguntas com muita atenção, e quando cliquei no vídeo, era você! Foi um momento muito inspirador, obrigado

    • Queria saber se você poderia compartilhar algum caso real de versão com fine-tuning. Pode ser só uma explicação, mas seria melhor ainda se houvesse um demo ou até pesos do modelo para baixar, de preferência em formato GGUF

    • Isso é realmente muito legal. É raro ver um modelo de 270M de parâmetros sair com essa eficiência. As escolhas de arquitetura também são novas e interessantes. Queria saber se você pode compartilhar mais detalhes sobre o treinamento. Como os parâmetros de embedding são 170M, fiquei curioso sobre como vocês mantiveram a matriz de embeddings estável durante o treinamento sem colapso de embeddings. Também queria saber se existe algum material com experimentos internos ou trade-offs de desempenho sobre essa divisão de parâmetros (170m/100m). Obrigado por toda a série de modelos

    • Trabalho realmente impressionante. Esse modelo parece muito bom para tarefas pontuais, como resumo ou autocomplete. Também foi excelente terem lançado já no dia de estreia uma versão com quantized aware training, o que deixou o modelo ainda menor

  • Fiquei impressionado conversando com o modelo 270M-F16. Quando perguntei "qual é a segunda montanha mais alta da Terra?", ele continuou respondendo "Everest". Quando perguntei "então qual é a primeira?", também respondeu "Everest". "E a terceira?" "E a quarta?" respondeu "Everest" para tudo. Quando eu disse "mas você já falou que a montanha mais alta é o Everest", ele reagiu com algo como "correto, alegria". Continuei perguntando qual era a segunda montanha mais alta, e ele só repetia "Everest". Só quando pedi uma "lista das montanhas do 1º ao 5º lugar" ele mudou para 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Mesmo assim, quando perguntei "então a segunda mais alta é a K2, certo?", ele continuou respondendo "Everest". Esses modelos pequenos são ótimos, mas parece mesmo que você está conversando com uma criança pequena

    • Esse modelo tem algo em torno de 270M de parâmetros, cerca de 1/3 de um 1B. No fundo, ele está basicamente fazendo um pouco de multiplicação de matrizes, então não dá para esperar muito conhecimento, gramática ou consistência. Modelos abaixo de 1B como esse são modelos especializados, otimizados para finalidades específicas. Um exemplo de uso seria extrair informações de avaliações de clientes para um objeto JSON, transformando o texto de entrada em algo que um programa possa usar de forma significativa. Modelos assim precisam de fine-tuning bem agressivo nos dados esperados para gerar bons resultados. No fim, se um modelo de 270MB consegue entregar o resultado desejado com fine-tuning, não há motivo para usar um modelo genérico de 32GB

    • Complementando: nós nunca tivemos como objetivo principal uma aderência factual perfeita. Independentemente do tamanho do modelo, esses pesos já estão fixos. O que eu recomendaria é conectá-lo a um sistema RAG para depender de conhecimento externo, ou fazer fine-tuning diretamente com os fatos que você quer que ele contenha. Ele também aprende conhecimento novo rapidamente

    • Usar o modelo 270M para testar conhecimento enciclopédico é como olhar para um JPG altamente comprimido e dizer "a qualidade da imagem está ruim"

    • Pelo prompt, parece que você está tentando avaliar conhecimento, mas esse não é o caso de uso desse modelo. Como foi mencionado no post do blog, ele "mostra excelente desempenho em precisão, velocidade e custo para classificação de texto e extração de dados"

    • Em resposta ao pedido "monte um roteiro de 2 dias em Paris", ele forneceu um itinerário detalhado por horário, incluindo pontos turísticos de Paris, marcos famosos, visitas a museus, experiências gastronômicas variadas, passeios pelo Marais e pelo Quartier Latin, além de uma visita ao Musée d'Orsay. Também deu dicas bem cuidadosas para preparar a viagem

  • Esse modelo é muito divertido. Com cerca de 241MB, ele é minúsculo e extremamente rápido, mas inventa quase qualquer coisa com muita liberdade. Por exemplo, quando pedi "gere um SVG de um pelicano andando de bicicleta", o modelo escreveu um poema (por exemplo: 'isto é um gato, grandes asas e uma cauda feliz', 'a luz da bicicleta brilha intensamente', 'está pronto para a aventura' etc.). Publiquei os resultados de várias tentativas em um Gist. Espero que no futuro apareçam modelos com fine-tuning capazes de gerar resultados úteis para tarefas selecionadas

    • Dei muita risada com esta tentativa. Ele gerou algo entre poema e música, depois explicou como cada linha se refletia no SVG e terminou com "este código SVG transmite a cena de forma clara e visual"

    • Vi que você está usando os ggufs do ollama. Por padrão, ele baixa o modelo quantizado Q4_0, mas você pode obter resultados melhores usando gemma3:270m-it-bf16 ou os ggufs do unsloth em hf.co/unsloth/gemma-3-270m-it-GGUF:16

    • Às vezes ele gera muitos tokens inúteis, mas realmente despeja uma quantidade absurda de tokens

    • Um download de 241MB exigiria mais de 170 disquetes

    • Para a pergunta "quando Júlio César nasceu?", ele respondeu "Júlio César nasceu em Roma". Lindo :D (não estou tentando desmerecer, só quero dizer que vai exigir mais esforço para domar)

  • Acho que a Apple também deveria fazer modelos assim. A menos que o objetivo seja substituir contratos de busca por contratos de IA, é muito estranho a Apple estar tão apagada nisso. Tim Cook disse que "é uma oportunidade que devemos aproveitar", mas olhando para os movimentos recentes, parece que perderam a direção. Força, Google

    • Isso aparece em toda thread de LLM no HN: dizem que LLMs ainda são burras e inúteis. Não concordo com isso, mas é verdade que até agora nenhuma empresa encontrou um uso de IA que tenha provado valor de investimento suficiente no longo prazo. A Apple sempre entrou tarde em mercados como MP3, smartphone e smartwatch, e ainda assim superou a concorrência com produtos inovadores

    • Modelos no nível do GPT2 já estão sendo usados no autocomplete da Apple link com mais detalhes

    • Se "modelos assim" significa SLMs (small language models), então é verdade que a Apple já pesquisa isso há bastante tempo

    • A Apple também está fazendo isso. Existe documentação oficial Foundation Models Doc. Se você instalar a beta mais recente, já pode chamar a API diretamente. Além disso, há suporte oficial a fine-tuning para o modelo aplicável a praticamente todos os dispositivos documentação relacionada

    • A Apple não vai lançar modelos assim. Como dá para ver por outros comentários, neste momento o desempenho ainda é insuficiente. É muito difícil encontrar um modelo que gere tokens em velocidade aceitável para uso real, sem superaquecer o dispositivo e sem falar besteira o tempo todo (eu mesmo testei vários). A Apple nunca gostou de produtos inacabados ou pouco refinados; prefere adiar o lançamento

  • Estou usando DistilBERT para classificar posts do wordpress. Tenho mais de 100 mil itens de dados, e depois do fine-tuning dá para produzir relatórios com tranquilidade. Mesmo com distribuição desbalanceada, dá para contornar em parte com alguns truques. Pretendo trocar para esse modelo no futuro e comparar o desempenho; se houver mudanças, vou compartilhar

  • Fiquei curioso se existem casos reais e práticos de usuários fazendo fine-tuning de modelos tão pequenos e colocando em produção

    • Já tive experiência criando um reranker pequeno para sistema RAG. Depois da geração de candidatos (busca vetorial + BM25), da lógica de negócio e do filtro de ACL, um modelo tiny decidia se os trechos de texto restantes eram realmente relevantes para a consulta, e então filtrava. Chegou a entrar em produção, mas conforme o contexto dos modelos foi aumentando, esse módulo acabou saindo por questões de preço e qualidade. Ainda assim, ficou em operação por um tempo

    • Na nossa empresa, escalamos usando um modelo pequeno para triagem e, se a confiança for alta, validamos com o ChatGPT. Também pretendemos aplicar esse método à detecção de idioma. Os modelos open source de ML existentes têm fraquezas com idioma misto, tamanho de sentença e domínios específicos (por exemplo, quando foram treinados só com tradução da Bíblia)

    • Não está muito claro onde eu usaria isso, mas parece útil pelo menos para geração de tags. Encoders desse tamanho às vezes superam bastante outros modelos em tarefas específicas

    • Se não me falha a memória, o Android (especialmente no Pixel) usa modelos Gemma com fine-tuning em assistentes on-device e afins

    • Para comentários do 9gag.com

  • Com a competição atual em otimização de modelos, fiquei curioso sobre o quanto daria para reduzir parâmetros retirando informações desnecessárias de idioma ou domínio. Por exemplo, se só houvesse suporte a inglês, será que seria possível remover chinês ou línguas europeias e fazer mais tarefas com a mesma quantidade de parâmetros?

    • Essa pergunta foi exatamente uma das maiores preocupações quando criamos esse modelo. Surge um trade-off dependendo de "em quantas tarefas você quer ir bem e o quão bem quer ir nelas". É preciso escolher outros dados e outras estratégias de treinamento e medir o desempenho. Na prática, eu recomendaria treinar um modelo no seu próprio conjunto de tarefas para avaliar os trade-offs de desempenho. Fazendo isso, dá para sentir diretamente como as capacidades de um LLM mudam

    • Na prática, não é tão simples assim. Vale a pena consultar transfer learning

  • Nunca imaginei que em 2025 eu rodaria no meu iPhone um LLM lançado naquele mesmo ano, em precisão total BF16. No iPhone 16 Pro ele faz algo como 80 tokens por segundo

    • Fiquei curioso sobre como você rodou esse modelo de fato no iPhone
  • Só complementando o artigo: a pontuação exata de IFEval do Gemma 3 270M é 51.2. O Qwen 3 está na posição (0.6, 59.2) no gráfico de dispersão

  • Vale mencionar que a escolha do prompt tem um impacto enorme no desempenho desse modelo. NER e POS tagging foram um tanto decepcionantes. Mas tradução de línguas não indo-europeias para o inglês (por exemplo, tailandês e indonésio) funcionou surpreendentemente bem