- O fine-tuning está voltando ao centro da metodologia de desenvolvimento de IA e isso foi impulsionado pelo anúncio do Tinker, da Thinking Machines Labs, e por uma mudança de paradigma em direção à implantação de LLMs open source autogerenciados
- O fine-tuning, que em determinado momento havia caído para menos de 10% das cargas de trabalho de inferência em IA, está ganhando atenção novamente graças a plataformas de GPU-as-a-service, a um ecossistema de modelos mais estável e à disseminação de modelos com pesos abertos
- A técnica LoRA (Low-Rank Adaptation) reduz drasticamente os custos ao adicionar apenas pequenas matrizes de baixa ordem, em vez de retreinar bilhões de parâmetros, ao mesmo tempo em que mantém ou melhora o desempenho
- O Tinker oferece uma arquitetura de aprendizado contínuo por meio de reforço online, apresentando uma visão para o futuro do fine-tuning ao avaliar e melhorar as próprias respostas do modelo, em vez de apenas imitar respostas previamente escritas
- O fine-tuning está evoluindo além de uma simples etapa técnica para se tornar uma camada estratégica de propriedade, alinhamento e melhoria contínua, com potencial para ser um motor central da computação pessoal com IA e da operação de agentes especializados
Contexto histórico do fine-tuning
- A Thinking Machines Labs anunciou o Tinker, reacendendo a discussão sobre fine-tuning-as-a-platform
- A startup, fundada por Mira Murati, ex-CTO da OpenAI, atingiu uma avaliação de US$ 12 bilhões apenas 6 meses após sua fundação
- A empresa posiciona a plataforma de fine-tuning como base para colaboração em pesquisa com universidades
- Clément Delangue, da Hugging Face, identificou uma mudança de paradigma rumo à implantação de LLMs especializados, open source e autogerenciados
- Hardwares dedicados como o DGX Spark, da NVIDIA, reforçam esse movimento
- A Personal AI Workstation, da a16z, é um exemplo de marketing dessa tendência
- O fine-tuning ganhou atenção brevemente após a primeira onda dos grandes modelos de linguagem, mas depois desapareceu rapidamente, passando a representar menos de 10% das cargas de trabalho de inferência em IA
A era anterior aos Transformers
- Antes da revolução dos Transformers, o NLP dependia de modelos especializados
- Arquiteturas recorrentes como RNN e LSTM trouxeram os primeiros avanços
- Pela primeira vez, os modelos aprendiam diretamente a partir de sequências de palavras, em vez de depender de características linguísticas projetadas manualmente
- Cada aplicação precisava começar do zero com dados específicos da tarefa
A chegada dos Transformers e a consolidação da metodologia de fine-tuning
- Em 2017, o artigo Attention Is All You Need, do Google, apresentou a arquitetura Transformer
- Ele substituiu recorrência e convolução apenas por self-attention
- Sete meses depois, o ULMFiT demonstrou que modelos de linguagem pré-treinados, ainda baseados em LSTM naquela época, podiam ser ajustados via fine-tuning para várias tarefas
- Isso estabeleceu a base metodológica que tornaria os Transformers práticos
- Um ano depois, BERT e GPT-1 aplicaram esse desenho na prática
- O BERT explorou o lado encoder com atenção bidirecional para compreensão
- O GPT usou o lado decoder com atenção unidirecional para geração
- O BERT, em especial, remodelou a cultura de NLP
- Em vez de construir todos os modelos do zero, pesquisadores passaram a fazer fine-tuning de Transformers pré-treinados para alcançar resultados que antes exigiam meses de engenharia manual de features
Limites do Full Fine-Tuning e o surgimento do LoRA
- À medida que o número de parâmetros explodiu de milhões para centenas de bilhões, o fine-tuning deixou de ser uma escolha sensata em muitos casos
- Full Fine-Tuning (FFT) significa retreinar todas as camadas e todos os pesos
- Ele oferecia precisão, mas com custos enormes
- O que antes era algumas horas de trabalho em GPU virou uma operação industrial em larga escala
- Em 2021, a Microsoft Research apresentou o LoRA (Low-Rank Adaptation of Large Language Models)
- Em vez de retreinar bilhões de parâmetros, o LoRA congela os pesos originais e adiciona pequenas matrizes de baixa ordem a camadas selecionadas
- Apenas essas matrizes são treinadas, reduzindo os custos em uma ordem de grandeza enquanto mantêm ou melhoram o desempenho do FFT
- O LoRA se tornou a abordagem padrão
- Até 2024, graças à biblioteca PEFT da Hugging Face, isso podia ser implementado com um único comando
A complexidade do ajuste de hiperparâmetros
- Fine-tuning é mais do que um pacote para implantar e manter
- O ajuste em si é onde a mágica realmente acontece, e nunca existe uma configuração única que sirva para tudo
- O ajuste de hiperparâmetros em si determina o sucesso ou fracasso do modelo
- Equilibrar rank, learning rate e proporção alpha está mais para alquimia do que para ciência
- É preciso evitar que o adapter sofra overfitting ou que o modelo esqueça o que já sabia (catastrophic forgetting)
- Quando algo funciona, a avaliação às vezes parece mais adivinhação do que validação
- Ao mesmo tempo, os LLMs continuaram melhorando em quase todas as tarefas, tornando-se quase onipotentes
- Até 2023, a maioria das equipes percebeu que conseguia atingir cerca de 90% do desempenho do fine-tuning por meio de prompt engineering, graças a janelas de contexto maiores
- O RAG (Retrieval-Augmented Generation) também permite que o modelo acesse bases de conhecimento externas
- Ambas as abordagens dispensam retreinamento e entregam resultados razoáveis com muito menos carga operacional
Por que o fine-tuning está voltando a ganhar destaque
- Os fatores que antes tornavam o fine-tuning irrelevante ou ineficiente agora estão sendo resolvidos um a um
- Plataformas de GPU-as-a-service, como a Together.ai, permitem iniciar pipelines de fine-tuning com LoRA com atrito mínimo
- Novos modelos continuam surgindo rapidamente, mas as mudanças agora são mais evolutivas do que revolucionárias
- Ecossistemas de pesos abertos como Mistral, Llama, Falcon, Yi e Gemma oferecem muitas alternativas para que organizações possam possuir, inspecionar e manter variantes ajustadas sem dependência de fornecedor
- As empresas talvez tenham chegado ao limite do que é possível alcançar apenas com prompting
- O fine-tuning está voltando lentamente aos holofotes não como um recurso da moda, mas como uma alavanca estratégica para controle, diferenciação e inteligência embutida
O Tinker da Thinking Machines Lab e melhorias no LoRA
- O Tinker, da Thinking Machines Lab, é focado em prova de teoremas, raciocínio químico, aprendizado por reforço multiagente e segurança em IA
- No post do blog LoRA Without Regret, a empresa compartilha como fazer fine-tuning de forma mais eficaz
- Recomenda aplicar LoRA a todos os módulos lineares, e não apenas às camadas de atenção como no artigo original
- Destaca a importância do rank do LoRA, um hiperparâmetro frequentemente negligenciado
- Recomenda learning rates mais altas (no mínimo 10x), além de tamanhos de batch menores, contrariando a prática comum
- Aconselha definir funções de recompensa explicitamente com validação matemática ou lógica
- Todas as recomendações são explicadas com clareza e podem ser reproduzidas no TRL da Hugging Face
A modularidade dos pipelines modernos de fine-tuning
- Os pipelines modernos de fine-tuning são completamente diferentes dos de 5 anos atrás
- Eles são modulares, serverless e orquestrados
- Uma única implantação pode executar dezenas de adapters LoRA junto com o modelo base
- Cada um representa um tom, função ou domínio específico
- Durante a inferência, o sistema roteia a consulta para a combinação correta de adapters, em vez de depender de um arquivo de modelo estático
- Essa modularidade também cria seus próprios desafios
- Plataformas all-in-one como a Together.ai cuidam da maior parte do trabalho pesado, mas não oferecem o nível de granularidade de configuração e observabilidade de que muitas equipes precisam
- Custos em escala podem crescer rapidamente
A abordagem única do Tinker
- O Tinker parece oferecer o melhor dos dois mundos
- Ele combina o conforto de uma stack moderna e totalmente gerenciada de fine-tuning com controle granular para pesquisadores
- Fornece acesso direto por API a primitivas de aprendizado de baixo nível, permitindo que usuários orquestrem workflows de treinamento e algoritmos customizados no nível mais profundo
- Ao mesmo tempo, cuida do trabalho difícil
- Por enquanto, o Tinker está reservado apenas para fins de pesquisa, mas espera-se que inspire outras plataformas
- Embora os problemas de infraestrutura estejam gradualmente ficando no passado, o grande desafio da avaliação ainda permanece
A dificuldade da avaliação de modelos e o reforço online
- Modelos são muito difíceis de avaliar
- A avaliação humana é inconsistente, lenta e, acima de tudo, cara
- Benchmarks envelhecem rápido e perdem relevância com contaminação de dados
- Até abordagens automatizadas como G-Eval ou Chatbot Arena trazem seus próprios problemas, frequentemente amplificando vieses e gerando pontuações instáveis
- Benjamin Anderson sugere que o Tinker pode ter parte da solução
- O Tinker dá aos usuários o poder de executar aprendizado por reforço online
- Ele pega completions a partir dos pesos atuais do modelo, pontua essas completions e atualiza o modelo com base no fato de a completion ter sido boa ou ruim
- Enquanto o fine-tuning supervisionado ensina o modelo a imitar respostas previamente escritas, o RL online melhora o modelo ao pontuar suas próprias respostas
- Com essa arquitetura, o futuro do fine-tuning talvez não se pareça mais com fine-tuning
- Ele começa a se parecer com aprendizado contínuo
A evolução estratégica do fine-tuning
- Robert Hommes, da Moyai.ai, afirma o seguinte
- "Em teoria, o fine-tuning sempre fez sentido. Mas a velocidade com que laboratórios de código fechado expandiam a inteligência dos modelos o tornou uma escolha ruim na prática"
- "Agora, com computação, dados e frameworks melhores, estamos voltando a pender para a especialização"
- A mudança para self-hosting pode chegar mais cedo do que o esperado
- Constant Razel, da Exxa, afirma que "computadores pessoais com IA não são mais uma ideia distante"
- A tecnologia está melhorando e se tornando mais acessível
- Segurança e custo provavelmente vão impulsionar a adoção inicial
- O fine-tuning permitirá que agentes especializados e de alto desempenho rodem sobre essa base
- O fine-tuning está mudando de uma busca de força bruta pela precisão limite para uma estrutura de propriedade, alinhamento e melhoria contínua enraizada em proximidade e controle
- Ele pode deixar de ser apenas uma etapa técnica para se tornar uma camada estratégica de como a inteligência é construída e possuída
2 comentários
Os humanos acabam, na verdade, se tornando um obstáculo para o avanço da IA. É um dilema interessante, viu. kkk
Comentários do Hacker News
Até um ano atrás eu estava otimista. Houve pelo menos um caso em que o fine-tuning baseado em RL pareceu fazer sentido. Mas, quando se tenta aplicar isso no trabalho real, há muito atrito com as técnicas já estabelecidas no setor. Olhando para os engenheiros de ML ao meu redor, especialmente os contratados depois da chegada dos LLMs, muitos têm pouco conhecimento real de ML. Na prática, são mais desenvolvedores de IA ou profissionais de AI DevOps. O próprio ML está virando cada vez mais um trabalho de usar ferramentas de plataforma, como engenharia de dados e análise. De fato, olhando por alto, alguns produtos de IA em plataformas de nuvem nem sequer oferecem métricas de avaliação, o que torna impossível desenvolver uma solução de ML adequada. Quase ninguém parece considerar isso um grande problema. Fine-tuning com RL exige inúmeros detalhes, pontos de monitoramento e refinamento de dados. Se nem modelos simples de ML as pessoas aprendem mais direito, a lacuna de aprendizado para fine-tuning com RL é muito maior. Como há poucos bons exemplos práticos, quase não existe oportunidade de aprender no trabalho com colegas mais experientes. Também há uma tendência de economizar na alocação de especialistas e no custo de labeling de dados. Tenho dúvidas sobre por quanto tempo a empresa continuaria oferecendo esse suporte técnico e, mesmo depois que eu saísse, quem revezaria essa responsabilidade. AutoML também fracassou em se popularizar, e acho que com RL provavelmente também não será fácil transformar isso em plataforma. A realidade é que a maioria das empresas não hesita em pagar mais por produtos inferiores, desde que escalem em grande volume. A “experiência” no setor acaba sendo experiência com plataformas proprietárias. Às vezes pedem
pytorchno stack, mas quase não há funcionários que realmente saibam usá-lo. E, mesmo quando há, a carga operacional impede seu usoLabeling é realmente essencial para validar um sistema de forma rápida e objetiva, mesmo sem treinar um modelo. Mas conseguir labels é sempre uma sequência de dificuldades. Às vezes até se consegue recurso de SME, mas é difícil comunicar a necessidade de aplicar critérios consistentes de forma rigorosa, e os labels finais acabam saindo pouco utilizáveis. No fim, eu frequentemente acabava fazendo labeling sozinho por iniciativa própria. Eu não tinha entendimento profundo do domínio, mas tinha uma noção de “do que a rede neural gosta”, então conseguia reduzir bastante a espera. Ajustar modelos grandes ainda é difícil de justificar. Muitas vezes é melhor esperar seis meses e aparece um modelo base melhor. Mas, se um modelo grande é caro demais e ineficiente para certo caso, então fine-tuning de um modelo pequeno para um objetivo específico certamente vale a pena
Sinto que a engenharia de verdade — isto é, a habilidade de transformar teoria complexa em sistemas que realmente funcionam — enfraqueceu bastante no sentido mais autêntico. Agora, em vez de investir muito tempo para aumentar a própria habilidade de engenharia, há uma tendência maior de simplesmente surfar em serviços de engenharia já prontos. Do ponto de vista do espírito hacker, treinar diretamente um modelo em uma GPU obscura não precisa ter ROI. Isso vem do desejo do engenheiro individual de adquirir conhecimento
No fim, alguém vai conseguir gerar resultados de verdade com medição concreta de desempenho, Michael Lewis vai escrever um livro sobre isso, e então um novo ciclo vai começar
Eu também vi muitos times que esperavam grande impacto com fine-tuning, mas na prática só tiveram melhorias graduais ou mínimas. No fim, chegaram até a colocar em produto, mas depois se arrependeram por não conseguir acompanhar as atualizações SOTA mais recentes. Estou evitando fine-tuning de propósito. Isso porque os próprios modelos estão melhorando rápido demais, e a velocidade de desenvolvimento de produto das grandes empresas não consegue acompanhar
Recentemente fiz uma pesquisa no Twitter sobre casos em que fine-tuning de LLM gerou valor econômico. Faço essa pergunta mais ou menos a cada seis meses, e os resultados quase sempre foram decepcionantes. Desta vez, reuni respostas um pouco mais confiáveis do que antes. Resumi os principais casos em minha thread no Twitter, e para quem não usa Twitter também compartilhei o link do visualizador da thread. Um caso impressionante é o da Datadog, que alcançou latência abaixo de 500 ms em um recurso de consulta de busca em linguagem natural tweet relacionado, veja também a documentação oficial. A Vercel opera um modelo customizado com fine-tuning para geração automática de Next.js, e também tem um blog. A Shopify usa um Vision LLM com fine-tuning para análise de fotos de produtos, veja este artigo
Em tarefas de regressão, fine-tuning é quase indispensável. Em classificação, também é útil porque se pode usar diretamente valores de probabilidade para ajustar o limiar de sim/não
Para a maioria das empresas, acho que a relação risco-retorno do fine-tuning será pior do que o esperado. Se for possível simplesmente enfiar mais dados no prompt, isso acaba sendo mais fácil
Se alguém tiver ideias de casos em que fine-tuning poderia trazer uma grande mudança, mas não tiver tempo ou recursos para testar por conta própria, eu adoraria que compartilhasse. Estou reunindo esses casos agora, e no momento só tenho três exemplos reais/verificados
Muitas pessoas que tentam incorporar conhecimento de domínio em um LLM via fine-tuning cometem o erro de, por exemplo, recortar livros de psicologia e simplesmente colocar o texto. Desse jeito, você não ensina o modelo a “aplicar psicologia”, apenas a “escrever uma introdução” sobre isso. Um dataset mal desenhado é causa de muitos fracassos em fine-tuning. Por outro lado, se a composição do dataset estiver correta, um modelo 7B pode superar um modelo 180B em eficiência
Concordo com a opinião do OP com base em alguns casos que vi recentemente. O PaddleOCR, com 0.9B de parâmetros, chega perto da precisão SOTA em texto, tabelas, fórmulas, gráficos e escrita manual artigo. E modelos 3B/8B alcançaram precisão no nível do GPT-5, com custo 40 a 80 vezes menor e inferência mais rápida em tarefas de extrair HTML para JSON Reddit. Se você quer aumentar a eficiência em uma tarefa específica, fine-tuning faz sentido
Tenho curiosidade se você já usou o PaddleOCR diretamente. Acho estranho alegar SOTA sem comparar com Amazon Textract ou Azure Document Intelligence (baseado em LayoutLM v3). Quando fiz experimentos de reconhecimento de documentos, esses dois eram os melhores
Essa discussão volta a se conectar com a questão de SLM versus LLM, ou seja, do tamanho do modelo. Um SLM pode ser otimizado para uma tarefa específica e, naquela tarefa, vencer um LLM. Mas, a menos que 1. a precisão seja extremamente importante ou 2. o tráfego seja enorme, o valor em relação ao tempo/esforço cai bastante
Como fundador de uma startup de fine-tuning de LLM chamada Lamini, discordo da opinião do OP. Nossa hipótese era que fine-tuning seria muito mais fácil de usar do que aprender deep learning do zero. Como já se parte de um LLM muito poderoso, esperávamos que fosse mais simples. Mas, depois de mais de 20 projetos reais, vimos que fine-tuning era tão difícil e tinha barreira de entrada tão alta quanto deep learning. Na estrutura atual do mercado, um engenheiro de ML bom em fine-tuning com deep learning pode facilmente fundar uma startup ou entrar em Anthropic, OpenAI etc. Já nos times que constroem soluções com LLM, engenheiros realmente bons não são tão valorizados. Como resultado, equipes especializadas que constroem Claude, GPT, Qwen etc. são mais competitivas do que as tentativas individuais de fine-tuning feitas por usuários. Hoje, RAG, prompt engineering, raciocínio, agentes de IA, memória e SLMs são soluções muito mais fáceis e poderosas
Fico curioso se Anthropic ou OpenAI realmente querem contratar qualquer pessoa que saiba fazer fine-tuning de LLM
Fico curioso sobre que tipo de modelos vocês ajustavam naquela época, se eram modelos já suficientemente evoluídos para responder bem ao fine-tuning e se havia problema de catastrophic forgetting. Hoje há muito mais modelos open source melhores. Acho que, se a arquitetura for desenhada pensando em fine-tuning, dá para superar as desvantagens da geração anterior. As empresas querem possuir o próprio modelo diretamente, em vez de depender do modelo de terceiros
Fine-tuning é uma boa técnica para se ter na caixa de ferramentas. Mas, na prática, os usos realmente aplicáveis são mais limitados do que parece. Por um lado, muitas tarefas de NLP já alcançam boa precisão apenas com a capacidade nativa dos LLMs, então fine-tuning é desnecessário. Por outro lado, tarefas realmente complexas tornam o fine-tuning muito difícil, e a coleta de dados também fica muito cara. No fim, fine-tuning é uma solução útil para tarefas que ficam naquele meio-termo: dificuldade na medida certa e coleta de dados ainda viável
Acho que existem centenas de milhares de casos de uso adequados
Tenho curiosidade sobre exemplos concretos dessas tarefas “de meio-termo”
Este site carrega incrivelmente rápido mesmo acessando da Europa. O conteúdo é carregado dinamicamente conforme se rola a página, e as imagens têm alta compressão sem perder qualidade. A estrutura do site é realmente impressionante
Recentemente escrevi um post de blog sobre um tema parecido blog. Nele discuti “LoRA Land”, um grande estudo empírico em que um modelo 7B superou o GPT-4 após fine-tuning, e também como as tendências de fine-tuning mudaram nos últimos seis meses
Fico curioso se, com um adaptador LoRA, seria possível colocar dentro do modelo vários elementos de contexto que hoje precisam necessariamente ir no prompt, como padrões de trabalho, preferências de nomenclatura, materiais de referência e definições de MCP. Dá para criar os dados inicialmente colocando o máximo possível do contexto atual, testar vários prompts e observar como a resposta difere do baseline. Depois, esses resultados poderiam entrar no fine-tuning no formato input=
refactor {base model output}, output={full-context model output}. LoRA foi projetado justamente para ser combinado, então talvez o MCP também pudesse ser distribuído como adaptador e ativado ou desativado. Acho que isso poderia até ajudar a evitar context poisoningSou desenvolvedor do inference.net e do schematron. À medida que as empresas colocam LLMs em produtos reais, passam a se preocupar cada vez mais com eficiência. Do ponto de vista do desenvolvedor, mesmo que se possa cobrar por um modelo caro tipo GPT-5-Super-AGI-Thinking-Max, o negócio real também considera eficiência. Se for possível fazer fine-tuning em um modelo Llama de 8 bilhões de parâmetros com dados do GPT-5 em 48 horas e economizar 100 mil dólares por mês, claro que todo mundo vai querer aproveitar essa oportunidade
Agora parece que a maioria das empresas chegou ao limite do que dá para alcançar só com prompts simples. Elas precisam de modelos que conheçam com precisão o vocabulário, o tom, a taxonomia e as regras de conformidade específicas da empresa. Velocidade e custo também são importantes, e essa é a principal razão do fine-tuning. Mas as técnicas de gerenciamento de contexto também permitem colaboração. À medida que o tamanho do contexto aumentou, RAG passou a substituir o fine-tuning, e mais recentemente a utilidade aumentou bastante só com melhor design de prompts. Como no debate entre FPGA e CPU/GPU, a maioria não consegue colher os ganhos do fine-tuning high-end por causa do custo de desenvolvimento e do risco de prazo