Treinando um ModernBERT 100 vezes menor com base na capacidade de raciocínio do DeepSeek R1

(link.medium.com)

7 pontos por sigridjineth 2025-01-30 | Ainda não há comentários. | Compartilhar no WhatsApp

É possível treinar um modelo ModernBERT para prever se “um artigo apresenta um novo conjunto de dados” usando rótulos gerados a partir do DeepSeek R1. O modelo criado dessa forma pode ser usado imediatamente e, em ambientes de serviço em produção, quando há apenas inferência, não exige recursos massivos como um LLM. Mesmo assim, como em problemas de classificação que precisam de rótulos ele recebeu indiretamente a capacidade de raciocínio do LLM, um bom nível de precisão é mantido.

Especialmente em RAG, quando uma simples correspondência de texto não resolve e é necessário algum grau de raciocínio, e quando há poucos rótulos disponíveis ou eles são difíceis de produzir, é útil treinar um modelo ModernBERT com base nos rótulos gerados pelo DeepSeek.

Treinando um ModernBERT 100 vezes menor com base na capacidade de raciocínio do DeepSeek R1

Leituras relacionadas

Ainda não há comentários.